1、sparkStreaming概述

之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务，数据一般都是在那里的，通常我们写好一个脚本，每天定时去处理数据，计算，保存数据结果。这类任务通常是T+1(一天一个任务)，对实时性要求不高。

但在企业中存在很多实时性处理的需求，例如：双十一的京东阿里，通常会做一个实时的数据大屏，显示实时订单。这种情况下，对数据实时性要求较高，仅仅能够容忍到延迟1分钟或几秒钟。

实时计算框架对比

Storm

Spark

对比：

1，Receiver：用于接收数据

2，数据源：基本源、高级源

基本源：

高级源（需要额外的类）

3，可靠性

4，Dstream的操作

5，缓存

6，Checkpoint

Spark Streaming在运算过程中如何保证数据不丢失：副本、缓存、检查点

Streaming Context

Spark Streaming程序入口
一旦一个context已经启动，就不能有新的流算子建立或者是添加到context中。
一旦一个context已经停止，它就不能再重新启动
在JVM中，同一时间只能有一个StreamingContext处于活跃状态
在StreamingContext上调用stop()方法，也会关闭SparkContext对象。如果只想关闭StreamingContext对象，设置stop()的可选参数为false
一个SparkContext对象可以重复利用去创建多个StreamingContext对象，前提条件是前面的StreamingContext在后面StreamingContext创建之前关闭（不关闭SparkContext）

DSteam

通常情况下一个DStream对应一个Receiver

CheckPoint

1.1 Spark-Streaming概述