加入收藏 | 设为首页 | 会员中心 | 我要投稿 草根网 (https://www.0591zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据学习路线图,大数据需要学什么

发布时间:2022-11-19 11:01:52 所属栏目:大数据 来源:
导读:  大数据开发学习路线:

  第一阶段:Hadoop生态架构技术

  1、语言基础

  Java:多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。

  
  大数据开发学习路线:
 
  第一阶段:Hadoop生态架构技术
 
  1、语言基础
 
  Java:多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。
 
  Linux:系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
 
  Python:基础语法,数据结构,函数,条件判断,循环等基础知识。
 
  2、环境准备
 
  这里介绍在windows电脑搭建完全分布式,1主2从。
 
  VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。
 
  3、MapReduce
 
  MapReduce分布式离线计算框架大数据学习,是Hadoop核心编程模型。
 
  4、HDFS1.0/2.0
 
  HDFS能提供高吞吐量的数据访问,适合大规模数据集上的应用。
 
  5、Yarn(Hadoop2.0)
 
  Yarn是一个资源调度平台,主要负责给任务分配资源。
 
  6、Hive
 
  Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。
 
  7、Spark
 
  Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
 
  8、SparkStreaming
 
  Spark Streaming是实时处理框架,数据是一批一批的处理。
 
  9、SparkHive
 
  Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。
 
  10、Storm
 
  Storm是一个实时计算框架,Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。
 
  11、Zookeeper
 
  Zookeeper是很多大数据框架的基础,是集群的管理者。
 
  12、Hbase
 
  Hbase是一个Nosql数据库,是高可靠、面向列的、可伸缩的、分布式的数据库。
 
  13、Kafka
 
  kafka是一个消息中间件,作为一个中间缓冲层。
 
  14、Flume
 
  Flume常见的就是采集应用产生的日志文件中的数据,一般有两个流程。
 
  一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。
 
  另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。
 
  第二阶段:数据挖掘算法
 
  1、中文分词
 
  开源分词库的离线和在线应用
 
  2、自然语言处理
 
  文本相关性算法
 
  3、推荐算法
 
  基于CB、CF,归一法,Mahout应用。
 
  4、分类算法
 
  NB、SVM
 
  5、回归算法
 
  LR、DecisionTree
 
  6、聚类算法
 
  层次聚类、Kmeans
 
  7、神经网络与深度学习
 
  NN、Tensorflow
 

(编辑:草根网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!