大数据增长,Apache Hadoop是基础军团
因为Apache Spark,Apache Hadoop和Apache Kafka是一系列令人敬畏的大数据服务和项目,因而它们趋于一致。
少量在大公司没有任何经验的专家,在过去五年中没有编写大数据代码的专家可能会对Apache Hadoop的妄想缩小或者消失在云中,或者者陷入少量想象中的Apache Spark生态圈。
这是错误的。
Apache Hadoop正在发展到人们甚至不需要提及它的名字。这是一个被认为是天经地义的“每个人”平台。大多数主要参加者都采用了它,并且一直在运行它。许多人将他们所有的遗留数据转移到Apache Hadoop,并从专有的数据仓库,传统的关系型数据库,失败的NoSQL存储失败以及各种数据源混杂在一起。
Apache Hadoop和Apache Spark是Apache大数据环境的一部分,像花生酱和果冻一起工作。在Apache Hadoop的YARN之上运行Apache Spark的确没有什么好的理由。你有强大的节点,靠近他们所需要的数据。Apache Spark SQL非常棒,但通过使用Apache Hive上下文,您可以取得目录并访问所有Apache Hive表。通过在Apache Hadoop中运行Apache Spark,您可以通过Apache Ranger取得行级和列级控制的优势。
Apache Spark是一个流行的执行引擎,可以很好地连接到Apache Hadoop。但Apache Storm,Apache Flink,Apache Apex等等也是如此。幸运的是,Google推出了Apache Beam来帮助巩固这个执行引擎的蔓延。
运行没有Apache Hadoop的Apache Spark对于临时短暂的数据科学来说也许还行,但即便如此,我也不这么认为。对于真正的企业客户来说,安全性,数据治理,客户,组,执行队列,数据目录,数据模型管理,机器学习模型管理以及其余几十个真正的关注点都不仅仅需要Apache Spark。因为Apache Spark没有存储空间,因而Apache Spark并不是用来替代Hadoop的。计算和存储需要为真实应用程序一起工作。您需要在群集上运行大量的批解决和流式工作负载,并存储数PB的数据。同样的环境允许深度学习,机器学习,物联网,计算机视觉以及所有其余大数据问题得到处理和大规模运行。
Apache NiFi还使Apache Hadoop成为存储和检索企业所需的所有物联网,移动,人工智能和“实时”应用程序所需的所有数据的核心位置。
对于业余开发者,也许你可以在桌面上运行Apache Spark和Apache NiFi,而不是使用Apache Hadoop。你将会失去像Apache Zeppelin这样的笔记本电脑,轻松运行和开发机器学习和数据联合应用程序。
人们必需记住,Apache的Hadoop是不是一个东西-它是工具,库平台,服务集成在一起的NoSQL,SQL,批量,流媒体,存储,和许多其余用途。
Apache Hadoop现在位于人员的本地数据中心,多云以及这两者的混合组合中。Apache Hadoop包含Azure HDInsight,Amazon中的Hortonworks Data Cloud,每个云中的Hortonworks CloudBreak …很难避免Apache Hadoop。
Apache Hadoop可能看起来不像旧版本的仅MapReduce数据。它现在是一个多层面的分布式计算和存储平台,包括流,NoSQL,实时SQL,批解决SQL,批解决作业,Apache Spark作业,深度学习,机器学习,消息,物联网等等。
Apache Hadoop远没有死,Apache Hadoop是基础军团。也许MapReduce即将出台,由于大多数服务都在Apache Hadoop大数据平台内的Apache Tez,Apache Spark和其余引擎上运行。突出显示的项目可以作为自己的服务而存在,但作为一个集成平台的一部分,它变得非常强大和易于使用。
我们不要不记得少量项目:
Apache Hive (this is the SQL you are looking for)
Apache Spark
Apache HBase
Apache Phoenix
Apache Atlas
Apache Ranger
Apache Storm
Apache Accumulo
Apache Pig
Druid
Apache Sqoop
Apache SuperSet
Apache NiFi
Apache Kafka
Apache Knox
Hortonworks Streaming Analytics Manager
Hortonworks Schema Registry
SnappyData
DL4J
TensorFlow
IBM BigSQL
Apache HAWQ
Apache Calcite
Apache Ambari
Apache Oozie
Apache ZooKeeper
Apache Zeppelin
IBM DSX
这些项目都有巨大的生态系统和大量的客户。当我们将所有这些因素结合在一起时,Apache Hadoop是巨大而且正在增长的。假如我们看一下Google Trends,我们会看到Apache Spark,Apache Hadoop和Apache Kafka趋于一致,由于它们应该被认为是一系列令人敬畏的大数据服务和项目。
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 大数据增长,Apache Hadoop是基础军团