admin 管理员组文章数量: 887021
SparkStreaming
一、Spark Streaming概述
1.什么是Spark Streaming
SparkStreaming类似于ApacheStorm,用于流式数据的处理。根据官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。SparkSteaming支持的数据输入源很多,例如Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象源语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外SparkStreaming也能和MLib(机器学习)以及Graphx完美融合。
和Spark基于RDD的概念很相似,SparkStreaming使用离散化流(discretized stream)作为抽象表示,叫做DStream。Dstream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列,因此得名“离散化”。
DStream可以从各种输入源创建,比如Flume、Kafka或者HDFS。创建出来的DStream支持两种操作,一种是转化操作(transformation),会生成一个新的DStream,另一种是输出操作(outputoperation),可以把数据写入外部系统中。DStream提供了许多与RDD所支持的操作相
本文标签: SparkStreaming
版权声明:本文标题:SparkStreaming 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/free/1698387659h297359.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论