3、Spark Streaming编码实践

Spark Streaming编码步骤：

1，创建一个StreamingContext
2，从StreamingContext中创建一个DStream
3，对DStream进行Transformations操作
4，输出结果
5，开始和停止

利用Spark Streaming实现WordCount

需求：监听某个端口上的网络数据，实时统计出现的不同单词个数。

1，需要安装一个nc工具：yum install nc.x86_64

2，执行指令：nc -lk 9999 -v

from __future__ import print_function

import sys

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr)
        exit(-1)
    #local[2]:开启两个进程，一个进程给receiver用于接收数据，另一个给ssc，用于计算数据
    sc = SparkContext("local[2]",appName="NetworkWordCount")
    #参数2：指定执行计算的时间间隔
    ssc = StreamingContext(sc, 1)
    #监听ip，端口上的上的数据
    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
    #将数据按空格进行拆分为多个单词
    words = lines.flatMap(lambda line: line.split(" "))
    #将单词转换为(单词，1)的形式
    pairs = words.map(lambda word:(word,1))
    #统计单词个数
    wordCounts = pairs.reduceByKey(lambda x,y:x+y)
    #打印结果信息，会使得前面的transformation操作执行
    wordCounts.pprint()
    #启动StreamingContext
    ssc.start()
    #等待计算结束
    ssc.awaitTermination()

可视化查看效果：http://node-teach:4040

点击streaming，查看效果

1.3 Spark-Streaming编码实战

3、Spark Streaming编码实践

results matching ""

No results matching ""