——读The 8 Requirements of Real-Time Stream Processing笔记
这篇文章介绍了8条实时流处理所需要的要求与特征,然后对比了传统DBMS(或者是内存DBMS),Rule engine与SPE在处理流数据方面所能达到的上面8条特征中的几条。
1. Eight Rules for stream processing
Rule
1: Keep the data moving
The first requirement for a real-time stream processing system
is to process messages “in-stream”, without any requirement to store them to
perform any operation or sequence of operations. Ideally the system should also
use an active (i.e., non-polling) processing model.
Rule
2: Query using SQL on Streams(StreamSQL)
The second requirement is to support a high-level “StreamSQL” language
with built-in extensible stream-oriented primitives and operators.
Rule
3: Handle stream imperfections(delayed, missing, and out-of-order data)
The third requirement is to have built-in mechanisms to provide
resiliency against stream “imperfections”, including missing and out-of-order
data, which are commonly present in real-world data streams.
Rule
4: Generate Predictable Outcomes
The fourth requirement is that a stream processing engine must
guarantee predictable and repeatable outcomes.
Rule
5: Integrate Stored and Streaming Data
The fifth requirement is to have the capability to efficiently
store, access, and modify state information, and combine it with live streaming
data. For seamless integration, the system should use a uniform language when
dealing with either type of data.
Rule
6: Guarantee Data Safety and Availability
The sixth requirement is to ensure that the applications are up
and available, and the integrity of the data maintained at all times, despite
failures.
Rule
7: Partition and Scale Applications Automatically
The seventh requirement is to have the capability to distribute
processing across multiple processors and machines to achieve incremental
scalability. Ideally, the distribution should be automatic and
transparent.
Rule
8: Process and Respond Instantaneously
The eighth requirement is that a stream processing system must
have a highly-optimized, minimal-overhead execution engine to deliver real-time
response for high-volume applications.
2. DBMS, Rule Engine, SPE对比
DBMS在处理数据上是先存储后处理的,即“process-after-store” model. 所以在处理实时数据流方面天生就不是适合,尽管可以利用内存数据库来缓和效率方面的弱势, 同时其也具备trigger的特性,
但所有这些都不显得不够可扩展。
Rule Engine 虽然某种程度上能够处理实时的数据流,
但其在Rule Language方面有欠缺, 不能够拥有类似SQL的表达能力。对数据流的处理操作有限。
只有SPE是专门为处理实时流数据定做的。有许多天生的特性,专门用来处理和操作流数据。
下面就是它们的一个对比:
|
DBMS
|
Rule
engine
|
SPE
|
Keep
the data moving
|
No
|
Yes
|
Yes
|
SQL
on streams
|
No
|
No
|
Yes
|
Handle
stream imperfections
|
Difficult
|
Possible
|
Possible
|
Predictable
outcome
|
Difficult
|
Possible
|
Possible
|
High
availability
|
Possible
|
Possible
|
Possible
|
Stored
and streamed data
|
No
|
No
|
Yes
|
Distribution
and scalability
|
Possible
|
Possible
|
Possible
|
Instantaneous
response
|
Possible
|
Possible
|
Possible
|
- 大小: 32.2 KB
- 大小: 63.3 KB
分享到:
相关推荐
分布式流处理框架功能对比及性能评估 网络信息安全 APT 安全威胁 安全防护 安全威胁
这是用Visual Studio 2005写的一个图像处理程序,里面有许多经典算法(灰度化、二值化、对比度调节、饱和度调节、亮度调节、平滑算法、锐化算法、马赛克等等 基本上都较全了 我相信许多计算机专业的同学都有可能要对...
下文将介绍这些框架: 仅批处理框架: Apache Hadoop 仅流处理框架: Apache Storm Apache Samza 混合框架: Apache Spark Apache Flink 大数据处理框架是什么? 处理框架和处理引擎负责对数据系统中的数据进行计算...
通过对比,得出:与传统三产品旋流器相比,新型三产品旋流器分选精度更高,处理量更大,在达到同等分选效果的条件下,更节能,内部流场更稳定,分选精度更高,对高含矸难选煤具有更强的适应性。该新型三产品旋流器在内蒙古...
该系统采用Strom-1系列SP16HP-G220流数字信号处理器构建硬件平台,根据流处理器体系结构特点建立了适应图像灰度变换并行处理的流程序模型,并对图像灰度变换进行算法并行性分析与算法流化。对利用流化过的算法与传统...
为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算...
简要介绍了邢台矿选煤厂煤泥处理工艺流程,详细分析了浮选柱与浮选机各自的分选原理和特点,并根据邢台矿选煤厂工艺流程和入浮煤泥性质,通过对选前脱泥与不脱泥重介条件下旋流微泡浮选柱和机械搅拌式浮选机浮选工艺...
如今无界、乱序的大规模数据集越来越普遍,并且消费者对这些数据集的处理...在此基础上,进一步结合Spark批处理引擎和Flink流计算引擎等多个执行引擎,对比分析了数据流图和数据流编程模型在2类执行引擎中的具体实现。
利用Numeca CFD对某一压气机静子叶栅的间隙流动进行流场计算,并将其与具有圆弧斜槽处理结构的间隙及流场计算结果进行对比、分析 。详细揭示了叶栅顶部间隙区及处理槽内的流动特征 。结果表明,通过采用机匣处理,改变...
以1996年至2004年入境旅游统计数据为样本,借用齐夫(Zipf)参数和差异度、均衡度指标,对四川省入境旅游流规模结构的齐夫(Zipf)特征和差异度进行了对比研究.结果发现齐夫(Zipf)参数可对旅游流规模结构进行分段处理,...
论文研究-时序约束下科学工作流的动态调度研究.pdf, 随着分布计算技术的迅速发展,利用广域分布的计算资源...最后,通过与现有方法的多组实验对比,说明了本文算法的优越性.
InSAR相位解缠在In SAR数据处理过程中起着关键性作用。文中利用最小费用流相位解缠算法及改进的最小费用流相位解缠算法,通过质量评价指标对相位解缠质量进行分析比较。实验结果表明:改进最小费用流算法的解缠精度...
通过对比试验探明加入锥盘可以有效提高旋流澄清器的分离性能,并通过性能试验研究其结构参数对分离性能的影响规律。结果表明:筒体高度、锥盘插入深度和锥盘盘间距对分离性能的影响较大;在筒体高度为600 mm,锥盘插入...
从流体运动规律的研究着手,分析了旋流器内部流场速度分布规律,并在此基础上,结合计算机流体力学,研制了ф660高效分级旋流器,并将ф660高效分选旋流器与传统分级旋流器的部分技术参数进行了对比。
针对科氏质量流量计单相流、批料流与气液两相流测量这3种典型应用场合中存在的关键技术问题,依据随机游动信号模型、突变信号模型和自回归滑动平均(ARMA)信号模型,分别从计算精度、响应速度、收敛性、抗干扰能力...
对传感器产生的语义数据流执行复杂推理的能力, 最近已成为语义网社区中的重要研究领域, 而目前大多数RDF流处理系统是以SPARQL (W3C标准RDF查询语言)为基础实现的, 但这些引擎在捕获复杂的用户需求和处理复杂的推理...
通过与3种常见的絮凝剂絮凝对比试验,发现吸水树脂的絮凝效果更好,能够明显加快废弃泥浆固液分离的速度;进行泥浆固化试验时,发现吸水树脂在泥浆中的吸水倍率达到46.33 g/g,掺入到泥浆中可以在30 min内大幅度降低...
在内存受限的情况下,将数据流按时序进行分割,且用B -树进 行区间分块索引,之后利用RFID数据流统计分布特性进行复杂事件查找与匹配,避免了频繁搜索外存,极大地 降低了I/O开销并提高了吞吐量。此外,进行了相关的...
对比多slice h264码流,可以RTMP,RTSP推流拉流
对比的结果表明:完全多变指数法的精度最高,基本收敛于一定值,但其测试和数据处理过程比较复杂;部分多变指数法比等熵绝热法得到的声速流导随时间的分散度可以提高1倍,能较准确地得到电磁阀的声速流导.在实际...