推荐系统基础
推荐系统简介
- 了解推荐相关常用概念
- 知道推荐系统的工程架构和算法架构
- 知道推荐系统的常用算法
- 知道协同过滤推荐的相关原理
- 了解推荐系统的评估
- 了解推荐系统的冷启动问题
推荐系统算法
- 知道常用的基于模型的推荐算法
- 知道基于回归模型的协同过滤推荐原理
- 知道基于矩阵分解的协同过滤推荐原理
- 了解基于内容推荐算法概念
- 了解物品画像,用户画像概念
- 了解物品冷启动的推荐方法
Hadoop
- Hadoop概述
- 知道Hadoop的概念及发展历史
- 说出hadoop的核心组件
- 知道hadoop的优势
- 分布式文件系统 HDFS
- 知道什么是hdfs
- 说出hdfs的架构
- 能够掌握hdfs的环境搭建
- 能够掌握hdfs shell的基本使用
- 知道hdfs shell的优缺点
YARN&MapReduce
- 了解YARN概念和产生背景
- 了解MapReduce概念
- 说出YARN执行流程
- 说出MapReduce原理
- 独立完成Mrjob实现wordcount
- 完成提交作业到YARN上执行
Hadoop概念扩展
- 知道hadoop生态组成
- 了解hdfs读写流程
- 说出Hadoop发行版本的选择
Hive
- 了解Hive原理和架构
- 知道HQL和SQL的区别
- 知道Hive的内部表、外部表、分区表
- 知道Hive的UDF(自定义函数)
HBase
- 了解HBase的基本架构
- 知道列式数据库与行数据库的区别
- 知道HBase和关系型数据库的区别
- 掌握HBase的shell操作
- 掌握HappyBase的常用API
Spark Core
- 了解spark概念
- 知道spark的特点(与hadoop对比)
- 知道RDD的概念
- 掌握transformation和action算子的基本使用
- 独立实现spark standalone模式的启动
- 说出广播变量的概念
- 了解spark的安装部署
- 知道spark作业提交集群的过程
Spark SQL
- 说出Spark Sql的相关概念
- 说出DataFrame与RDD的联系
- 独立实现Spark Sql对JSON数据的处理
- 独立实现Spark Sql进行数据清洗
Spark Streaming
- 说出Spark Streaming的特点
- 说出DStreaming的常见操作api
- 能够应用Spark Streaming实现实时数据处理
- 能够应用Spark Streaming的状态操作解决实际问题
推荐系统案例
- 知道CTR预估概念
- 说出SparkML 和 Spark MLlib的区别
- 能够应用SparkML训练ALS模型
- 能够应用SparkMLlib训练LR模型
- 说出处理缺失值的常件办法