`
hxrs
  • 浏览: 25733 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

流处理的特征与对比

阅读更多

 

——读The 8 Requirements of Real-Time Stream Processing笔记

 

       这篇文章介绍了8条实时流处理所需要的要求与特征,然后对比了传统DBMS(或者是内存DBMS),Rule engineSPE在处理流数据方面所能达到的上面8条特征中的几条。


 

1.   Eight Rules for stream processing

Rule 1: Keep the data moving

       The first requirement for a real-time stream processing system is to process messages “in-stream”, without any requirement to store them to perform any operation or sequence of operations. Ideally the system should also use an active (i.e., non-polling) processing model.

 

Rule 2: Query using SQL on Streams(StreamSQL)

       The second requirement is to support a high-level StreamSQL” language with built-in extensible stream-oriented primitives and operators. 

 

Rule 3: Handle stream imperfections(delayed, missing, and out-of-order data)

       The third requirement is to have built-in mechanisms to provide resiliency against stream “imperfections”, including missing and out-of-order data, which are commonly present in real-world data streams. 

 

Rule 4: Generate Predictable Outcomes

       The fourth requirement is that a stream processing engine must guarantee predictable and repeatable outcomes.

 

Rule 5: Integrate Stored and Streaming Data

       The fifth requirement is to have the capability to efficiently store, access, and modify state information, and combine it with live streaming data. For seamless integration, the system should use a uniform language when dealing with either type of data. 

 

Rule 6: Guarantee Data Safety and Availability

       The sixth requirement is to ensure that the applications are up and available, and the integrity of the data maintained at all times, despite failures. 

 

Rule 7: Partition and Scale Applications Automatically

       The seventh requirement is to have the capability to distribute processing across multiple processors and machines to achieve incremental scalability. Ideally, the distribution should be automatic and transparent. 

 

Rule 8:  Process and Respond Instantaneously

       The eighth requirement is that a stream processing system must have a highly-optimized, minimal-overhead execution engine to deliver real-time response for high-volume applications. 

 

2.   DBMS, Rule Engine, SPE对比

      


 

DBMS在处理数据上是先存储后处理的,即“process-after-store” model. 所以在处理实时数据流方面天生就不是适合,尽管可以利用内存数据库来缓和效率方面的弱势, 同时其也具备trigger的特性, 但所有这些都不显得不够可扩展。

       Rule Engine 虽然某种程度上能够处理实时的数据流, 但其在Rule Language方面有欠缺, 不能够拥有类似SQL的表达能力。对数据流的处理操作有限。

       只有SPE是专门为处理实时流数据定做的。有许多天生的特性,专门用来处理和操作流数据。

       下面就是它们的一个对比:

 

DBMS

Rule engine

SPE

Keep the data moving

No

Yes

Yes

SQL on streams

No

No

Yes

Handle stream imperfections

Difficult

Possible

Possible

Predictable outcome

Difficult

Possible

Possible

High availability

Possible

Possible

Possible

Stored and streamed data

No

No

Yes

Distribution and scalability

Possible

Possible

Possible

Instantaneous response

Possible

Possible

Possible

 

  • 大小: 32.2 KB
  • 大小: 63.3 KB
分享到:
评论

相关推荐

    分布式流处理框架功能对比及性能评估.pdf

    分布式流处理框架功能对比及性能评估 网络信息安全 APT 安全威胁 安全防护 安全威胁

    C#图像处理编程

    这是用Visual Studio 2005写的一个图像处理程序,里面有许多经典算法(灰度化、二值化、对比度调节、饱和度调节、亮度调节、平滑算法、锐化算法、马赛克等等 基本上都较全了 我相信许多计算机专业的同学都有可能要对...

    大数据框架对比.docx

    下文将介绍这些框架: 仅批处理框架: Apache Hadoop 仅流处理框架: Apache Storm Apache Samza 混合框架: Apache Spark Apache Flink 大数据处理框架是什么? 处理框架和处理引擎负责对数据系统中的数据进行计算...

    新型高效节能三产品重介质旋流器的研究

    通过对比,得出:与传统三产品旋流器相比,新型三产品旋流器分选精度更高,处理量更大,在达到同等分选效果的条件下,更节能,内部流场更稳定,分选精度更高,对高含矸难选煤具有更强的适应性。该新型三产品旋流器在内蒙古...

    基于流处理器的图像灰度变换并行处理研究

    该系统采用Strom-1系列SP16HP-G220流数字信号处理器构建硬件平台,根据流处理器体系结构特点建立了适应图像灰度变换并行处理的流程序模型,并对图像灰度变换进行算法并行性分析与算法流化。对利用流化过的算法与传统...

    论文研究-基于GPU的多数据流相关系数并行计算方法研究.pdf

    为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算...

    旋流微泡浮选柱和机械搅拌式浮选机工艺效果对比

    简要介绍了邢台矿选煤厂煤泥处理工艺流程,详细分析了浮选柱与浮选机各自的分选原理和特点,并根据邢台矿选煤厂工艺流程和入浮煤泥性质,通过对选前脱泥与不脱泥重介条件下旋流微泡浮选柱和机械搅拌式浮选机浮选工艺...

    数据流计算模型及其在大数据处理中的应用

    如今无界、乱序的大规模数据集越来越普遍,并且消费者对这些数据集的处理...在此基础上,进一步结合Spark批处理引擎和Flink流计算引擎等多个执行引擎,对比分析了数据流图和数据流编程模型在2类执行引擎中的具体实现。

    压气机间隙流与处理机匣作用的三维数值分析 (2004年)

    利用Numeca CFD对某一压气机静子叶栅的间隙流动进行流场计算,并将其与具有圆弧斜槽处理结构的间隙及流场计算结果进行对比、分析 。详细揭示了叶栅顶部间隙区及处理槽内的流动特征 。结果表明,通过采用机匣处理,改变...

    旅游流规模结构的Zipf特征与差异度对比研究*――以四川省为例 (2007年)

    以1996年至2004年入境旅游统计数据为样本,借用齐夫(Zipf)参数和差异度、均衡度指标,对四川省入境旅游流规模结构的齐夫(Zipf)特征和差异度进行了对比研究.结果发现齐夫(Zipf)参数可对旅游流规模结构进行分段处理,...

    论文研究-时序约束下科学工作流的动态调度研究.pdf

    论文研究-时序约束下科学工作流的动态调度研究.pdf, 随着分布计算技术的迅速发展,利用广域分布的计算资源...最后,通过与现有方法的多组实验对比,说明了本文算法的优越性.

    InSAR相位解缠质量对比评价分析

    InSAR相位解缠在In SAR数据处理过程中起着关键性作用。文中利用最小费用流相位解缠算法及改进的最小费用流相位解缠算法,通过质量评价指标对相位解缠质量进行分析比较。实验结果表明:改进最小费用流算法的解缠精度...

    锥盘旋流澄清器分离性能试验研究

    通过对比试验探明加入锥盘可以有效提高旋流澄清器的分离性能,并通过性能试验研究其结构参数对分离性能的影响规律。结果表明:筒体高度、锥盘插入深度和锥盘盘间距对分离性能的影响较大;在筒体高度为600 mm,锥盘插入...

    高效分级旋流器的研究

    从流体运动规律的研究着手,分析了旋流器内部流场速度分布规律,并在此基础上,结合计算机流体力学,研制了ф660高效分级旋流器,并将ф660高效分选旋流器与传统分级旋流器的部分技术参数进行了对比。

    数字信号处理技术在科氏质量流量计中的应用.pdf

    针对科氏质量流量计单相流、批料流与气液两相流测量这3种典型应用场合中存在的关键技术问题,依据随机游动信号模型、突变信号模型和自回归滑动平均(ARMA)信号模型,分别从计算精度、响应速度、收敛性、抗干扰能力...

    基于扩展ASP的RDF流处理系统

    对传感器产生的语义数据流执行复杂推理的能力, 最近已成为语义网社区中的重要研究领域, 而目前大多数RDF流处理系统是以SPARQL (W3C标准RDF查询语言)为基础实现的, 但这些引擎在捕获复杂的用户需求和处理复杂的推理...

    吸水树脂用于废弃泥浆处理的试验研究

    通过与3种常见的絮凝剂絮凝对比试验,发现吸水树脂的絮凝效果更好,能够明显加快废弃泥浆固液分离的速度;进行泥浆固化试验时,发现吸水树脂在泥浆中的吸水倍率达到46.33 g/g,掺入到泥浆中可以在30 min内大幅度降低...

    论文研究-基于内存受限的RFID复杂事件处理优化算法.pdf

    在内存受限的情况下,将数据流按时序进行分割,且用B -树进 行区间分块索引,之后利用RFID数据流统计分布特性进行复杂事件查找与匹配,避免了频繁搜索外存,极大地 降低了I/O开销并提高了吞吐量。此外,进行了相关的...

    720p.h264 码流,亲测可以播放,RTMP推流拉流均可

    对比多slice h264码流,可以RTMP,RTSP推流拉流

    定容积放出法中几种数据处理方法的对比 (2006年)

    对比的结果表明:完全多变指数法的精度最高,基本收敛于一定值,但其测试和数据处理过程比较复杂;部分多变指数法比等熵绝热法得到的声速流导随时间的分散度可以提高1倍,能较准确地得到电磁阀的声速流导.在实际...

Global site tag (gtag.js) - Google Analytics