一、什么是流式计算
在日常生活中,我们通常会把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么数据的时效性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后再进行分析,就可能无法满足时效性的要求。
二、流式计算和批量式计算
大数据的计算模式主要分为:
批量计算(batch computing)
流式计算(stream computing)
交互计算(interactive computing)
图计算(graph computing)
其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。
流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须实时计算给出秒级响应。流式计算,顾名思义,就是对数据流进行处理,是实时计算。批量计算则统一收集数据,存储到数据库中,然后对数据进行批量处理的数据计算方式。主要体现在以下几个方面:
1.数据时效性不同:流式计算实时、低延迟, 批量计算非实时、高延迟。
2.数据特征不同:流式计算的数据一般是动态的、没有边界的,而批处理的数据一般则是静态数据。
3.应用场景不同:流式计算应用在实时场景,时效性要求比较高的场景,如实时推荐、业务监控等。批量计算一般说批处理,应用在实时性要求不高、离线计算的场景下,数据分析、离线报表等。
4.运行方式不同,流式计算的任务持续进行的,批量计算的任务则一次性完成。
三、流式计算框架、平台相关产品
第一类,商业级流式计算平台(IBM InfoSphere Streams、中兴飞流Yita等)。
第二类,开源流式计算框架(Twitter Storm、S4等)
第三类,公司为支持自身业务开发的流式计算框架。
Strom:Twitter 开发的第一代流处理系统。
Heron:Twitter 开发的第二代流处理系统。
Spark streaming:是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。
Flink:是一个针对流数据和批数据的分布式处理引擎。
Apache Kafka:由Scala写成。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
Yita:中兴飞流自研的高性能分布式异步计算引擎,具有批流混合、海量吞吐、极低时延和智能计算的特性。
四、流式计算应用场景
流式处理可以用于两种不同场景:事件流和持续计算。
1.事件流
事件流能够持续产生大量的数据,这类数据最早出现与传统的银行和股票交易领域,也在互联网监控、无线通信网等领域出现、需要以近实时的方式对更新数据流进行复杂分析如趋势分析、预测、监控等。简单来说,事件流采用的是查询保持静态,语句是固定的,数据不断变化的方式。
2.持续计算
比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况,比如金融行业,毫秒级延迟的需求至关重要。一些需要实时处理数据的场景也可以应用Storm,比如根据用户行为产生的日志文件进行实时分析,对用户进行商品的实时推荐等。
五、中兴飞流流式计算引擎Yita
Yita 是中兴飞流信息科技有限公司基于最前沿的、具有颠覆性的数据流理论,通过自主创新研发出来的新一代异步大数据高性能处理平台。Yita 基于内存计算,具备全面复杂数据分析和计算能力,是下一代大数据核心处理引擎的典型代表和佼佼者,也是国内首家具有完整自主知识产权的商用大数据系统。
Yita 计算引擎具备完备的数据计算处理能力,可以分别支持流计算、批处理、图计算、机器学习、交互计算,适用于各行各业需求和业务发展。
(Yita逻辑架构)
在Yita计算框架中,计算、存储和IO资源被虚拟化,交由自有的调度系统进行分配和调度,在全流程上实现资源动态调配,大大提高资源利用率,实现在同样服务器的情况下,处理效率高于传统计算引擎几倍甚至十几倍。
在窗口支持上,Yita实现了对会话窗口的支撑。
在状态管理上,Yita实现Exactly Once的语义一致性,达到一流流式计算引擎的水平。
反压机制和Watermark在Yita中全部得以实现,在出现数据的流量波动,系统的宕机掉电等故障时,能够从容应对。
同时,作为融合计算引擎,Yita 支持基于Lambda架构的流批混合计算,极为便利地满足更加复杂场景对计算性能的需求。
六、流式计算的价值
通过大数据处理我们获取了数据的价值,但是数据的价值不是恒定不变的。越来越多的数据,在产生之初的价值最高,随着时间的推移,价值迅速减少。流处理的关键优势在于它能够更快地提供洞察力,通常在毫秒到秒之间。
流式计算的价值在于业务方可在更短的时间内挖掘业务数据中的价值,并将这种低延迟转化为竞争优势。比如在某省移动,中兴飞流的Yita帮助移动公司在更短的时间内分析出用户的上网行为变化,应用到实时推荐模型中,大大提升了推荐的效果。
流式计算能做到这一点的原因在于,传统的批量计算需要进行数据积累,在积累到一定量的数据后再进行批量处理;而流式计算能做到数据随到随处理,有效降低了处理延时。
随着5G网络的全面建成,基于5G的业务迅速发展,越来越多的场景下,会用到流式计算。在流式计算全面普及的情况下,速度的比拼、时延的比拼将成为竞争的主要方面。作为大数据行业的领导者,中兴飞流将继续依靠自身卓越的技术实力和行业洞察,推进数字化建设和运营商服务的紧密耦合,提供更多智慧解决方案和创新技术,为运营商探索出一条通向智慧时代的数字变革之路。