常见的七种Hadoop和Spark项目案例

作者 : 开心源码 本文共1158个字,预计阅读时间需要3分钟 发布时间: 2022-05-12 共234人阅读

大数据中比较火爆的Hadoop、Spark和Storm,最常见的七种项目你们能否已经理解到位了呢,下面一起理解一下吧

一、数据整合

称之为“企业级数据中心”或者“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源取得数据源(实时或者批解决)并且把它们存储在hadoop中。 “企业级数据中心”通常由HDFS文件系统和HIVE或者IMPALA中的表组成

二、专业分析

许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。

在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(假如不是唯一的)。他们越来越多地以Spark为基础

三、Hadoop作为一种服务

在“专业分析”项目的任何大型组织(讽刺的是,一个或者两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。

四、流分析

很多人会把这个“流”,但流分析是不同的,从设施流。通常,流分析是一个组织在批解决中的实时版本。在某些情况下,这是一种新的类型的交易系统,分析数据位的位,由于你将它并联到一个分析系统中。这些系统证实自己如Spark或者Storm与Hbase作为常用的数据存储。

五、复杂事件解决

尽管还没有足够快的超低推迟(皮秒或者纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。有时,你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上,必需转换成Storm,这是基于由LMAX交易所开发的干扰模式。

六、ETL流

有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或者2号重合,但添加了各自的范围和特点。,这些几乎都是Kafka和Storm项目。Spark也使用,但没有理由,由于你不需要在内存分析。

七、更换或者添加SAS

我喜欢简单而充实的旅途,火车或者者旧的巴士,可以穿过拥挤的车站,可以在站台和人们一样拖着行李箱向前张望,可以用很长的时间去看窗外的景物,可以用整个晚上去听各地的乡音。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入理解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐渐的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识逐个分享!

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 常见的七种Hadoop和Spark项目案例

发表回复