推荐系统基础

推荐系统简介

  • 了解推荐相关常用概念
  • 知道推荐系统的工程架构和算法架构
  • 知道推荐系统的常用算法
  • 知道协同过滤推荐的相关原理
  • 了解推荐系统的评估
  • 了解推荐系统的冷启动问题

推荐系统算法

  • 知道常用的基于模型的推荐算法
  • 知道基于回归模型的协同过滤推荐原理
  • 知道基于矩阵分解的协同过滤推荐原理
  • 了解基于内容推荐算法概念
  • 了解物品画像,用户画像概念
  • 了解物品冷启动的推荐方法

Hadoop

  • Hadoop概述
    • 知道Hadoop的概念及发展历史
    • 说出hadoop的核心组件
    • 知道hadoop的优势
  • 分布式文件系统 HDFS
    • 知道什么是hdfs
    • 说出hdfs的架构
    • 能够掌握hdfs的环境搭建
    • 能够掌握hdfs shell的基本使用
    • 知道hdfs shell的优缺点
  • YARN&MapReduce

    • 了解YARN概念和产生背景
    • 了解MapReduce概念
    • 说出YARN执行流程
    • 说出MapReduce原理
    • 独立完成Mrjob实现wordcount
    • 完成提交作业到YARN上执行
  • Hadoop概念扩展

    • 知道hadoop生态组成
    • 了解hdfs读写流程
    • 说出Hadoop发行版本的选择

Hive

  • 了解Hive原理和架构
  • 知道HQL和SQL的区别
  • 知道Hive的内部表、外部表、分区表
  • 知道Hive的UDF(自定义函数)

HBase

  • 了解HBase的基本架构
  • 知道列式数据库与行数据库的区别
  • 知道HBase和关系型数据库的区别
  • 掌握HBase的shell操作
  • 掌握HappyBase的常用API

Spark Core

  • 了解spark概念
  • 知道spark的特点(与hadoop对比)
  • 知道RDD的概念
  • 掌握transformation和action算子的基本使用
  • 独立实现spark standalone模式的启动
  • 说出广播变量的概念
  • 了解spark的安装部署
  • 知道spark作业提交集群的过程

Spark SQL

  • 说出Spark Sql的相关概念
  • 说出DataFrame与RDD的联系
  • 独立实现Spark Sql对JSON数据的处理
  • 独立实现Spark Sql进行数据清洗

Spark Streaming

  • 说出Spark Streaming的特点
  • 说出DStreaming的常见操作api
  • 能够应用Spark Streaming实现实时数据处理
  • 能够应用Spark Streaming的状态操作解决实际问题

推荐系统案例

  • 知道CTR预估概念
  • 说出SparkML 和 Spark MLlib的区别
  • 能够应用SparkML训练ALS模型
  • 能够应用SparkMLlib训练LR模型
  • 说出处理缺失值的常件办法

results matching ""

    No results matching ""