大数据学习路线图，大数据需要学什么

发布时间：2022-11-19 11:01:52 所属栏目：大数据来源：

导读：　　大数据开发学习路线：

　　第一阶段：Hadoop生态架构技术

　　1、语言基础

　　Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。

　　

　　大数据开发学习路线：

　　第一阶段：Hadoop生态架构技术

　　1、语言基础

　　Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。

　　Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。

　　Python：基础语法，数据结构，函数，条件判断，循环等基础知识。

　　2、环境准备

　　这里介绍在windows电脑搭建完全分布式，1主2从。

　　VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。

　　3、MapReduce

　　MapReduce分布式离线计算框架大数据学习，是Hadoop核心编程模型。

　　4、HDFS1.0/2.0

　　HDFS能提供高吞吐量的数据访问，适合大规模数据集上的应用。

　　5、Yarn（Hadoop2.0）

　　Yarn是一个资源调度平台，主要负责给任务分配资源。

　　6、Hive

　　Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。

　　7、Spark

　　Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

　　8、SparkStreaming

　　Spark Streaming是实时处理框架，数据是一批一批的处理。

　　9、SparkHive

　　Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。

　　10、Storm

　　Storm是一个实时计算框架，Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。

　　11、Zookeeper

　　Zookeeper是很多大数据框架的基础，是集群的管理者。

　　12、Hbase

　　Hbase是一个Nosql数据库，是高可靠、面向列的、可伸缩的、分布式的数据库。

　　13、Kafka

　　kafka是一个消息中间件，作为一个中间缓冲层。

　　14、Flume

　　Flume常见的就是采集应用产生的日志文件中的数据，一般有两个流程。

　　一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。

　　另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。

　　第二阶段：数据挖掘算法

　　1、中文分词

　　开源分词库的离线和在线应用

　　2、自然语言处理

　　文本相关性算法

　　3、推荐算法

　　基于CB、CF，归一法，Mahout应用。

　　4、分类算法

　　NB、SVM

　　5、回归算法

　　LR、DecisionTree

　　6、聚类算法

　　层次聚类、Kmeans

　　7、神经网络与深度学习

　　NN、Tensorflow

（编辑：草根网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

8个顶级预测分析工具对	如何采用大数据技术帮
赋能元宇宙启动智能交	真正指挥大规模战争的