Flink Forward Asia 2019

  • 时间:
  • 浏览:1

总体得到的讯息是:

目前所有 Stateful Function 代码均已开源,在获得社区认可后也会 merge 回 Apache Flink,有兴趣的同学都都可否去官网本人实践一下:https://statefun.io/ 。在分议题 Apache Flink 核心技术中就有一场专门讲 Stateful Function 的实现,使用和 demo,小伙伴们也都都可否去感受一下,题目叫“Stateful Functions: Unlocking the next wave of applications with Stream Processing”。

在这届 FFA 中老要强调一体化和多元化的概念,也本来我 开篇讲的引擎一体化和阳态多元化,具象化来说有三点:Stateful Function,拥抱AI,云原生。再到下5个 层面也给 Flink 引擎两种提出更多的要求,这是挑战当然也是机遇。古语云瑞雪兆丰年, FFA 在北京的初雪中圆满落下帷幕,也当我们都都同时努力,把握好机遇同时迎接挑战,共创美好的 Flink 2020。最后,分享一张一哥 Stephan 在 FFA 的 cool 照作为全篇的收尾,当我们都同时感受一下。

分会场议题主要围绕着里面5个主议题展开,分为5个专场:

另外这每项演讲中的5个 demo 让人要转过身一亮。5个 是基于 Flink + Hive + Zeppelin 的 Flink SQL demo,看过回会 都都可否深刻感受到“都都可否在 Hive 生态上直接运行,没人 迁移成本“,以及“一套 SQL,批流一体运行”的真正含义。还有5个 是 Alink ML 基于 Jupyter 的 demo,看过回会 我发现现在机器学习模型训练和使用都都可否没人 简单,感兴趣的同学都都可否找来看看。

在 AI 每项还有5个 很值得期待的项目是 Flink AI 明年的5个 重点投入方向:AI Flow。AI Flow 为 AI 链路定制了一套完整版的补救方案:包括从 data acquisition,preprocessing,到 model training & validation & serving 以及 inference 的一整套链路。某些方案是针对补救现在 AI 链路里面数据预补救冗杂,离线训练和在线预测脱钩等问题图片图片定制的,当我们都都拭目以待。

肯能篇幅关系,这里就不作展开了,贴个清单链接,方便当我们都查阅,所有PPT资料也会链接在文末。

同时让人发现里面的有有哪些问题图片图片都和 State 的存储(storage),读写(access)以及一致性(consistency)相关,而 Flink 的 Stream Processing 框架都都可否很好的补救有有哪些和情况报告相关的问题图片图片。好多好多 Stateful Function 在 Flink 现有的框架上拓展了对 Function Composition 和 Virtual Instance(轻量级的 Function 资源管理)的支持,以达到对应用服务场景(Application)的通用支持。

下面言归正传,聊一聊有几只主议题。

经过几年的发展,Flink 肯能成为 Apache 最活跃的社区和在 Github 上访问量前三的项目。Github 的星数(代表项目受欢迎程度)在 2019 一年之内翻了一番。Apache Flink 在中国本土也更加的普及,下图列出了某些使用 Flink 作为实时计算补救方案的中国公司 logo。

作者:梅源(Yuan Mei)

Flink Forward 是由 Apache 官方授权举办的会议,每年在欧洲、北美洲、亚洲各举办一场。通过参会不仅都都可否了解到 Flink 社区的最新动态和发展计划,还都都可否了解到业界围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者的盛会。去年 12 月 Flink Forward 首次在中国举办,是规模最大、参与人数最多的 Flink Forward 大会。今年 Flink Forward China 正式升级为 Flink Forward Asia,吸引到更多的关注,并于 11 月 28 日在北京开幕。

第5个 议题是由戴尔科技集团带来的流式存储议题: Pravega。

除了参会人数的太快了 了 增加,多元化也是今年 FFA 的一大闪光点。笔者根据大会纲要数了一下,大慨有超过 25 家来自北美,欧洲和亚洲的公司,高校以及科研机构参与分享了超过 45 个议题。国内外一线大牌互联网公司齐聚一堂,其乐融融。这也说明太少的业界公司更加看好 Flink,为什让层厚参与 Flink 的规划与发展,这无论是对 Flink 的未来还是 Flink 社区的发展就有非常积极的意义。

在某些分享中印象深刻的几点:

点击「PPT下载」即可至Flink社区官网下载大会各会场PPT。

7天 的 FFA,感触颇深。Flink 创始人之一 Ververica CEO Kostas Tzoumas 感慨说,五年前当当我们都 5 个初创开使英语 英语 Flink 某些项目的回会 无法想象今天 Flink 能有没人 大的生态和没人 广的应用。我虽然我无法深切体会到他的感受,为什让当前 Flink 社区的繁荣和 Flink 的应用广度是有目共睹的,但更重要的问题图片图片是:未来当我们都如何延续某些繁荣。Flink 在经历了高性能流式引擎,批流一体两代发展后,当我们都我我虽然只能思考一下未来的 Flink 是有哪些样的。

阿里巴巴通过 1.9 和 1.10 5个 版本历经 1 年左右将 Blink 中比较通用的每项悉数回馈给 Apache Flink 社区,回馈总代码数超过一百万行。阿里内内外部的 Blink 内核也逐步会由 Flink 内核替换,为什让推出基于 Flink 内核的企业版 Ververica Platform,明年 1 月会正式商用。

下面讨论一下第5个维度:为有哪些 Stateful Function 比现有的补救方案更好。我的理解是 Stateful Function 提供了更清晰的 abstraction。Stateful Function 把消息传输、情况报告管理从 Function 中隔离出来,使得用户只只能关注 Function 计算逻辑两种,而不只能关注 Function 的调度,组合等问题图片图片,这也使得 Stateful Function 框架能有更多的自由度为 Function 调度组合等问题图片图片做优化。当然这本来我 本人的理解,抛砖引玉。

笔者总体的参会感受:引擎一体化和阳态多元化是 Flink 一以贯之的发展策略。引擎一体化指的是离线(batch),实时(streaming)和在线(application)应用在执行层面的一体化。生态多元化指的是对 AI 生态环境的搭建和对更多生态的支持,包括 Hive,Python,Kubernetes 等。

另外这每项印象比较深刻的某些是:跑 TPC-DS benchmark,Flink 1.10 比 Hive-3.0 快 7 倍:

很重是在应用逻辑非常冗杂的情况报告下,应用逻辑之间的组合调用会更加冗杂,为什让加剧里面5个痛点的冗杂度。

接下来,笔者将根据本人参加的议题聊一聊参会的体验和某些本人的思考,希望能对感兴趣的同学有所助益。

主议题的最后一场是 Flink 实践,是由 Lyft 带来的大规模准实时数据分析平台的分享。这里所说的准实时,指端到端数据延迟不超过 5 分钟,在 Lyft 内内外部主要用于数据交互式查询,下图是 Lyft 准实时平台架构图。

设想如下的场景,当我们都使用 Lyft 打共享车。在乘客发起打车请求回会 ,Lyft 首先会根据乘客的定位,空闲司机的情况报告,目的地,交通情况报告和本人喜好给乘客推荐不这个 型车辆的定价。在乘客确定定价回会 ,Lyft 会根据乘客的喜好(比如某些司机被乘客拉了黑名单),司机的喜好(乘客就有肯能被司机拉了黑名单),司机和乘客的相对位置以及交通情况报告进行匹配,匹配完成后订单开使英语 。在某些例子中,当我们都会发现:

在里面的分会场议题开源大数据生态中,Pravega 还有一场更偏技术的分享,包括整体的设计架构,如何保证 exactly once 语义,Stream Segment 如何更方便的提供 scaling up/down 等等,感兴趣的同学也都都可否看看,题目叫“Delivering stream data reliably with Pravega”。

除了 Lyft,在分会场中就有好多好多 企业参与分享了本人使用和层厚参与 Flink 开发的经验和教训。Flink 不仅在国内公司中深受欢迎,好多好多 北美欧洲的公司比如 Netflix,Uber 和 Yelp 也太少的使用和开发 Flink,感兴趣的同学都都可否关注一下分会场议题中的“企业实践”和“实时数仓”专场。

11 月 28 - 100 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 100,同比去年增加近 100%。

Flink 在整个架构中是用来做流数据注入的,Flink 向 AWS S3 以 Parquet 的格式持久化数据,并以有有哪些原始数据为基础,进行多级 non-blocking 的 ETL 加工(压缩去重),建立实时数仓,用于交互式数据查询。

照例,第5个 主议题由 Flink 一哥 Stephan Ewen 执棒。作为对 Flink Forward 柏林站的延续,Stephan 继续推广他对 Flink 作为应用服务场景(Applications and Services)通用引擎的展望和规划。简而言之,他认为 Flink 除了都都可否做到批流一体,Flink 框架对于事件驱动的在线应用也可算不算效甚至更好的支持,如下图所示:

https://github.com/alibaba/alink

在主议题回会 有5个 环节值得提一提。一是作为主场的阿里云智能请出阿里集团 CTO 兼阿里云智能总裁张建锋作为开场嘉宾进一步强化阿里集团以数据智能为驱动,All in Cloud 的决心以及开源的 Flink 在此过程中起到的关键性作用。下图很好地提炼了他的演讲。

在 AI 每项,2019 Flink 重点主要在优化和铺垫 AI 的基础设施每项:

当我们都的主要观点是随着流式计算在大企业用户中没人 广泛的应用,流式计算对存储也产生了新的需求:流式存储。需求来自5个 方面:一是大型企业用户希望计算框架流程化繁为简,从而提出对流式计算存储一体化的需求;二是批流的计算一体化两种也对存储提出批流一体化需求。

对于批流融合,通过 1.9 和 1.10 5个 版本的发布,Flink 在 SQL 和 Table API 的层面以及 Flink runtime 层面对批流模式肯能做到统一。对于 Flink SQL,在 1.10 某些版本里面,肯都都可否否实现完整版的 DDL 功能,兼容 Hive 生态系统为什让支持 Python UDF。

某些议题两种也很有趣。不可补救的,当我们都会想到流式存储和通常意义上的消息队列系统(这个 Kafka)之间有有哪些区别,毕竟 infinite retention 的消息队列系统也都都可否被看成是5个 stream storage。原先比较有趣的问题图片图片是一体化的抽象应该在哪个层面上来做,以及如何做。换言之,读写算不算应该和存储分离,只提供统一的API?肯能笔者对 storage 这块儿细节就有很重了解,这里就不班门弄斧了,感兴趣的小伙伴当我们都都都可否私下讨论。分议题中还有一场关于 Pulsar 的,也相关,题目叫“基于 Pulsar 和 Flink 进行批流一体的弹性数据补救”。

二是由阿里云天池平台和 Intel 联合举办的 Apache Flink 极客挑战赛颁奖仪式。本次比赛吸引了全球超过 1000 名参赛者,经过5个月的四轮角逐最终产生共 10 个优胜队伍。值得一提的是获奖选转过身有两位女将,未来也期待能有更多的妹子参与进来,放一张照片瞻仰一下。

看过这里肯能还是会我虽然不太直观,我结合本人的理解再多说两句,当我们都都都可否从5个 维度理解 Stateful Function:

此外还有5个 重要的方向是 Flink 对云原生生态的支持,具体来说本来我 与 Kubernetes 生态的层厚融合。Kubernetes 环境都都可否在 multi-user 的场景下提供更好的隔离,对 Flink 在生产的稳定性方面会有所提升。Kubernetes 广泛应用在各种在线业务上,Flink 与 Kubernetes 的层厚融合都都可否在更大范围内统一管理运维资源。Kubernetes 生态两种发展太快了 了 ,都都可否给 Flink 在生产中提供更好的运维能力。里面 Lyft 和某些企业在分享中也提到希望 Flink 对 Kubernetes 都都可否原生地支持,就有以上有有哪些方面的考虑。Flink 在 1.10 版本发布都都可否否原生地运行在 Kubernetes 之上。

Tips:极少数嘉宾 PPT 仍在审核中,完成回会 第一时间更新在链接里,当我们都记得及时刷新~

附录:

2019 Flink Forward Asia 主会场视频回顾2019 Flink Forward Berlin 柏林站分享

Stateful Function 在 Flink 开源 Runtime 的基础上很好的补救了 Function Composition 和 State Consistency 的问题图片图片。

第二场由阿里巴巴实时计算负责人王峰(阿里花名:莫问)接棒,主要总结了 2019 年 Apache Flink 在一体化引擎发展方面的成果和未来的方向。他认为未来 Flink 的发展趋势是一体化:包括离线(batch),实时(streaming)和在线(application)一体化。在此基础上,也只能把拥抱 AI 和云原生纳入到一体化中。里面的内容本来我 围绕这三方面来展开的。

我的理解是他所指的应用服务场景(Applications and Services)和传统意义上的 OLTP 这个 。云上对此类问题图片图片的主流补救方案是现在很火的 FaaS (Function as a Service),但通常会有以下四方面痛点: