推荐系统lambda架构
day05 hadoop框架及其子组件HDFS
1.hadoop框架
1.1 什么是Hadoop
1.2 hadoop核心组件
1.3 hadoop优势
1.4 hadoop生态系统
1.5 hadoop发行版本的选择
2.分布式存储系统hdfs
2.1 HDFS概述
2.2 HDFS架构
2.3 HDFS环境搭建
2.4 HDFS shell操作
2.5 python操作HDFS
2.6 HDFS读写流程及其常见问题
2.7 HDFS的优缺点
day06 YARN和MapReduce
1.资源调度框架YARN
1.1 什么是YARN
1.2 分布式处理框架MapReduce
1.3 Hadoop Streaming 实现单词统计
1.4 利用MRJob编写和运行MapReduce代码
1.5 join文件合并
2.hadoop加强
2.1 HDFS元数据管理
2.2 安全模式
2.3 HadoopArchives
2.4 HadoopHighAvailability
2.5 HadoopFederation
day07 flume和Kafka
1.flume
1.1 实时流处理概述
1.2 flume概述
1.3 flume采集系统的结构图
1.4 Flume安装部署
1.5 flume简单案例
1.6 Flume实战案例
1.7 flume的负载均衡和容错
2.Kafka
2.1 Kafka概述
2.2 Kafka的安装部署
2.3 Kafka Python API
2.4 Kafka与flume整合
2.5 Kafka的整体结构图
day08 spark-core
1.spark-core
1.1 spark概述
1.2 spark-core概述
1.3 如何生成RDD
1.4 RDD的三类算子
1.5 SPARK RDD开发实战
1.6 利用spark进行其他常见分析
day09 spark-sql概述
1.spark-sql
1.1 spark-sql概述
1.2 DataFrame
1.3 JSON数据的处理
1.4 物联网实战
1.5 数据清洗
day10 Spark-Streaming与Spark-mllib
1.Spark Streaming
1.1 Spark-Streaming概述
1.2 DSteam的操作
1.3 Spark-Streaming编码实战
1.4 Spark Streaming对接Kafka
1.5 Spark-Streaming的状态操作
1.6 Spark-Streaming与外部数据源交互
1.7 Spark-Streaming对接flume
2.spark-mllib
2.1 初识spark-mllib
2.2 逻辑回归实战-数据预处理
2.3 逻辑回归实战-数据筛选
2.4 逻辑回归实战-模型训练和模型评估
Published with GitBook
2.7 HDFS的优缺点
2.5 HDFS 优缺点
相对于传统关系型数据库mysql,我们可以进行对比
优点
数据冗余 硬件容错
适合存储大文件
处理流式数据
可构建在廉价机器上
缺点
低延迟的数据访问
小文件存储
results matching "
"
No results matching "
"