3、Spark Streaming编码实践
Spark Streaming编码步骤:
- 1,创建一个StreamingContext
- 2,从StreamingContext中创建一个DStream
- 3,对DStream进行Transformations操作
- 4,输出结果
- 5,开始和停止
利用Spark Streaming实现WordCount
需求:监听某个端口上的网络数据,实时统计出现的不同单词个数。
1,需要安装一个nc工具:yum install nc.x86_64
2,执行指令:nc -lk 9999 -v
from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
if __name__ == "__main__":
if len(sys.argv) != 3:
print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr)
exit(-1)
#local[2]:开启两个进程,一个进程给receiver用于接收数据,另一个给ssc,用于计算数据
sc = SparkContext("local[2]",appName="NetworkWordCount")
#参数2:指定执行计算的时间间隔
ssc = StreamingContext(sc, 1)
#监听ip,端口上的上的数据
lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
#将数据按空格进行拆分为多个单词
words = lines.flatMap(lambda line: line.split(" "))
#将单词转换为(单词,1)的形式
pairs = words.map(lambda word:(word,1))
#统计单词个数
wordCounts = pairs.reduceByKey(lambda x,y:x+y)
#打印结果信息,会使得前面的transformation操作执行
wordCounts.pprint()
#启动StreamingContext
ssc.start()
#等待计算结束
ssc.awaitTermination()
可视化查看效果:http://node-teach:4040
点击streaming,查看效果