推荐系统lambda架构
day05 hadoop框架及其子组件HDFS
1.hadoop框架
1.1 什么是Hadoop
1.2 hadoop核心组件
1.3 hadoop优势
1.4 hadoop生态系统
1.5 hadoop发行版本的选择
2.分布式存储系统hdfs
2.1 HDFS概述
2.2 HDFS架构
2.3 HDFS环境搭建
2.4 HDFS shell操作
2.5 python操作HDFS
2.6 HDFS读写流程及其常见问题
2.7 HDFS的优缺点
day06 YARN和MapReduce
1.资源调度框架YARN
1.1 什么是YARN
1.2 分布式处理框架MapReduce
1.3 Hadoop Streaming 实现单词统计
1.4 利用MRJob编写和运行MapReduce代码
1.5 join文件合并
2.hadoop加强
2.1 HDFS元数据管理
2.2 安全模式
2.3 HadoopArchives
2.4 HadoopHighAvailability
2.5 HadoopFederation
day07 flume和Kafka
1.flume
1.1 实时流处理概述
1.2 flume概述
1.3 flume采集系统的结构图
1.4 Flume安装部署
1.5 flume简单案例
1.6 Flume实战案例
1.7 flume的负载均衡和容错
2.Kafka
2.1 Kafka概述
2.2 Kafka的安装部署
2.3 Kafka Python API
2.4 Kafka与flume整合
2.5 Kafka的整体结构图
day08 spark-core
1.spark-core
1.1 spark概述
1.2 spark-core概述
1.3 如何生成RDD
1.4 RDD的三类算子
1.5 SPARK RDD开发实战
1.6 利用spark进行其他常见分析
day09 spark-sql概述
1.spark-sql
1.1 spark-sql概述
1.2 DataFrame
1.3 JSON数据的处理
1.4 物联网实战
1.5 数据清洗
day10 Spark-Streaming与Spark-mllib
1.Spark Streaming
1.1 Spark-Streaming概述
1.2 DSteam的操作
1.3 Spark-Streaming编码实战
1.4 Spark Streaming对接Kafka
1.5 Spark-Streaming的状态操作
1.6 Spark-Streaming与外部数据源交互
1.7 Spark-Streaming对接flume
2.spark-mllib
2.1 初识spark-mllib
2.2 逻辑回归实战-数据预处理
2.3 逻辑回归实战-数据筛选
2.4 逻辑回归实战-模型训练和模型评估
Published with GitBook
2.2 HDFS架构
2.2 HDFS架构
1个NameNode/NN(Master) 带 DataNode/DN(Slaves) (Master-Slave结构)
1个文件会被拆分成多个Block
NameNode(NN)
负责客户端请求的响应
负责元数据(文件的名称、副本系数、Block存放的DN)的管理
DataNode(DN)
存储用户的文件对应的数据块(Block)
要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况
分布式集群NameNode和DataNode部署在不同机器上
results matching "
"
No results matching "
"