大数据增长,Apache Hadoop是基础军团

作者 : 开心源码 本文共2166个字,预计阅读时间需要6分钟 发布时间: 2022-05-12 共184人阅读

大数据增长,Apache Hadoop是基础军团

因为Apache Spark,Apache Hadoop和Apache Kafka是一系列令人敬畏的大数据服务和项目,因而它们趋于一致。

少量在大公司没有任何经验的专家,在过去五年中没有编写大数据代码的专家可能会对Apache Hadoop的妄想缩小或者消失在云中,或者者陷入少量想象中的Apache Spark生态圈。

这是错误的。

Apache Hadoop正在发展到人们甚至不需要提及它的名字。这是一个被认为是天经地义的“每个人”平台。大多数主要参加者都采用了它,并且一直在运行它。许多人将他们所有的遗留数据转移到Apache Hadoop,并从专有的数据仓库,传统的关系型数据库,失败的NoSQL存储失败以及各种数据源混杂在一起。

大数据增长,Apache Hadoop是基础军团

Apache Hadoop和Apache Spark是Apache大数据环境的一部分,像花生酱和果冻一起工作。在Apache Hadoop的YARN之上运行Apache Spark的确没有什么好的理由。你有强大的节点,靠近他们所需要的数据。Apache Spark SQL非常棒,但通过使用Apache Hive上下文,您可以取得目录并访问所有Apache Hive表。通过在Apache Hadoop中运行Apache Spark,您可以通过Apache Ranger取得行级和列级控制的优势。

Apache Spark是一个流行的执行引擎,可以很好地连接到Apache Hadoop。但Apache Storm,Apache Flink,Apache Apex等等也是如此。幸运的是,Google推出了Apache Beam来帮助巩固这个执行引擎的蔓延。

运行没有Apache Hadoop的Apache Spark对于临时短暂的数据科学来说也许还行,但即便如此,我也不这么认为。对于真正的企业客户来说,安全性,数据治理,客户,组,执行队列,数据目录,数据模型管理,机器学习模型管理以及其余几十个真正的关注点都不仅仅需要Apache Spark。因为Apache Spark没有存储空间,因而Apache Spark并不是用来替代Hadoop的。计算和存储需要为真实应用程序一起工作。您需要在群集上运行大量的批解决和流式工作负载,并存储数PB的数据。同样的环境允许深度学习,机器学习,物联网,计算机视觉以及所有其余大数据问题得到处理和大规模运行。

Apache NiFi还使Apache Hadoop成为存储和检索企业所需的所有物联网,移动,人工智能和“实时”应用程序所需的所有数据的核心位置。

对于业余开发者,也许你可以在桌面上运行Apache Spark和Apache NiFi,而不是使用Apache Hadoop。你将会失去像Apache Zeppelin这样的笔记本电脑,轻松运行和开发机器学习和数据联合应用程序。

人们必需记住,Apache的Hadoop是不是一个东西-它是工具,库平台,服务集成在一起的NoSQL,SQL,批量,流媒体,存储,和许多其余用途。

Apache Hadoop现在位于人员的本地数据中心,多云以及这两者的混合组合中。Apache Hadoop包含Azure HDInsight,Amazon中的Hortonworks Data Cloud,每个云中的Hortonworks CloudBreak …很难避免Apache Hadoop。

Apache Hadoop可能看起来不像旧版本的仅MapReduce数据。它现在是一个多层面的分布式计算和存储平台,包括流,NoSQL,实时SQL,批解决SQL,批解决作业,Apache Spark作业,深度学习,机器学习,消息,物联网等等。

Apache Hadoop远没有死,Apache Hadoop是基础军团。也许MapReduce即将出台,由于大多数服务都在Apache Hadoop大数据平台内的Apache Tez,Apache Spark和其余引擎上运行。突出显示的项目可以作为自己的服务而存在,但作为一个集成平台的一部分,它变得非常强大和易于使用。

大数据增长,Apache Hadoop是基础军团

我们不要不记得少量项目:

  • Apache Hive (this is the SQL you are looking for)

  • Apache Spark

  • Apache HBase

  • Apache Phoenix

  • Apache Atlas

  • Apache Ranger

  • Apache Storm

  • Apache Accumulo

  • Apache Pig

  • Druid

  • Apache Sqoop

  • Apache SuperSet

  • Apache NiFi

  • Apache Kafka

  • Apache Knox

  • Hortonworks Streaming Analytics Manager

  • Hortonworks Schema Registry

  • SnappyData

  • DL4J

  • TensorFlow

  • IBM BigSQL

  • Apache HAWQ

  • Apache Calcite

  • Apache Ambari

  • Apache Oozie

  • Apache ZooKeeper

  • Apache Zeppelin

  • IBM DSX

这些项目都有巨大的生态系统和大量的客户。当我们将所有这些因素结合在一起时,Apache Hadoop是巨大而且正在增长的。假如我们看一下Google Trends,我们会看到Apache Spark,Apache Hadoop和Apache Kafka趋于一致,由于它们应该被认为是一系列令人敬畏的大数据服务和项目。

大数据增长,Apache Hadoop是基础军团

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 大数据增长,Apache Hadoop是基础军团

发表回复