业内人士分析认为,当前实时计算正处于上升期,除了Flink之外还有Spark、Storm等多个技术流派,谷歌、英特尔、IBM等全球科技公司都在积极布局,无论是谁,在实时计算平台上的重磅押注都将成为其未来的核心竞争力之一。
每经记者 宗旭 每经编辑 宋思艰
图片来源:摄图网
1月28日,阿里云正式宣布对外开源(开放源代码)实时计算平台Blink。
其实关于阿里云对外开源实时计算平台的动作早有预兆,本月初,曾有媒体报道阿里巴巴收购科技公司Data Artisans的消息,而Data Artisans拥有全球顶级的开源大数据流处理引擎Flink,可以解决传统数据只能离线计算的问题。
这次阿里云对外开源的实时计算平台Blink,就是对Flink改造后的内部版本。
2004年,谷歌曾开启大数据离线计算时代,但伴随着大数据、人工智能、物联网、边缘计算等新技术的兴起,有延迟的计算结果已远远不能满足开发者尤其是企业的需要。在典型的大数据业务场景下,通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。
尽管当前开源大数据计算引擎有很多选择,比如流计算平台有Storm、Samza、Flink、Kafka Stream等,批处理平台有Spark、Flink等,但同时支持流处理(对随时进入系统的数据进行计算)和批处理(将作业按照它们的性质分组或分批,然后再成组或成批地提交给计算机系统,由计算机自动完成后再输出结果)的计算引擎,阿里巴巴计算平台事业部资深技术专家莫问此前曾提到只有两种选择:一个是Apache Spark,一个是Apache Flink。
虽然当下Flink代表了一种全新的计算方式,但2015年的Flink还不够成熟,早期只适用于小流量互联网场景的数据处理,不管是规模还是稳定性尚未经历实践,并未被大范围看好。
据阿里云方面介绍,Blink最初是基于社区开源的版本做改进,真正和Data Artisans公司紧密合作是在2016年,“当初改造的时候也不知道会不会成功,那个时候我们还有另外两个实时计算技术阿里中间件团队在做Jstorm和阿里云的Galaxy,最终因为Blink表现最好,我们才选择了这项技术。”
经过阿里云的改造之后,现在Blink已经将计算延迟降低到人类无法感知的毫秒级。在阿里集团内部,目前全部核心业务已经用上Blink。除了技术大考“双11”之外,ET城市大脑实时计算规划着杭州交通,淘宝、天猫每天为数亿用户展现实时的“专属”页面。
其实不仅仅是阿里云,腾讯内部也基于Flink打造了一站式实时计算平台Oceanus。据记者了解,之前腾讯实时计算团队也曾基于Apache Storm构建了早期的实时计算平台。但在长期的维护过程中,Apache Storm一些设计和实现上的缺陷逐渐暴露出来。Apache Flink出现之后,其在计算接口、计算性能和可靠性上的优异表现,使腾讯实时计算团队决定使用Apache Flink作为新一代实时计算平台的计算引擎。
阿里巴巴集团副总裁周靖人认为,不论阿里还是Uber、Netflix等,都是Flink的受益者。业内人士分析认为,当前实时计算正处于上升期,除了Flink之外还有Spark、Storm等多个技术流派,谷歌、英特尔、IBM等全球科技公司都在积极布局,无论是谁,在实时计算平台上的重磅押注都将成为其未来的核心竞争力之一。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。