Apache Beam:下一代的大数据解决标准

作者 : 开心源码 本文共645个字,预计阅读时间需要2分钟 发布时间: 2022-05-12 共87人阅读

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据解决领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批解决和流解决的编程范式,为无限,乱序,web-scale的数据集解决提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据解决的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据解决程序可以执行在任意的分布式计算引擎上。

Apache Beam 主要有两大特点:

将数据的批解决(batch)和流解决(stream)编程范式进行了统一;

能够在任何的执行引擎上运行。

Apache Beam 仅仅是一个SDK,是一个应使用顶层的API,主要由Beam SDK和Beam Runner组成,Beam SDK定义了开发分布式数据解决任务业务逻辑的API接口,生成的的分布式数据解决任务Pipeline交给具体的Beam Runner执行引擎。支持的执行引擎(官方叫做Apache Beam Pipeline Runners)包括Apache Apex,Apache Flink,Apache Spark以及它自己的Google Cloud Dataflow。 Apache Beam目前支持的API接口包括 Java 和 Python,其余的语言正在开发中。如下图所示:

Apache Beam:下一代的大数据解决标准

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Apache Beam:下一代的大数据解决标准

发表回复