大公司如何用Apache Spark

作者 : 开心源码 本文共2176个字,预计阅读时间需要6分钟 发布时间: 2022-05-11 共58人阅读

Spark的普通使用户案例

公司严重依赖各种数据源。这使用于他们的分析产品。这些数据解决工作流程都包含像用内部数据源清除,转换和融合非结构化外部数据一样的解决。特别是当谈到成功的Startups时,Spark被证实是非常有使用的。对于非程序员来说,某些公司还创立了简单的使用户界面,这些界面打开了批量数据解决任务。

  • 流解决

对于BDAS,最着名的组件是Spark和Shark。但Spark Streaming实时解决和PySpark Python API也在竞争中!Spark Streaming的主要特点是使用于批解决的代码也能使用于实时计算(只要稍作调整)。这是指程序员的生产力。因为这个惊人的功可以,许多公司已经开始用Spark Streaming。诸如流挖掘,分析模型的实时评分2,网络优化等应使用程序相当多。此外,CloudPhysics正在用Spark Streaming来检测模式和异常情况。值得注意的是,52%的公司更喜欢Apache Spark实时流媒体。

大公司如何用Apache Spark

  • 先进的分析

Spark有其独特的优势,总可以帮助吸引使用户。与Hadoop相比,解决迭代计算的速度和适使用性要好得多。迭代计算特别适使用于高级分析。用Spark适合公司,并且从早期开始,公司就开始编写自己的Spark库以进行回归,分类和聚类。用Spark工具和库处理现代世界问题,如在线广告和市场营销,欺诈检测以及与科学研究有关的问题。好处是,为图和机器学习分析开发这样的库变得更加容易。大约有64%的公司用Apache Spark来利使用高级分析。

  • 商业智可以和可视化分析

现在,这是任何公司最重要的方面之一。MPP数据库,开源SQL-on-Hadoop处理方案Shark和Impala正在取得牵引力3,现在公司已经开始用Shark和BlinkDB进行交互式SQL分析了!虽然许多公司都在遵循一般方法,但其中少量公司已经开发了定制的交互式仪表盘。这些由Spark和Shark提供支持。公司现在用Tableau等可视化分析工具与Shark协调一致,与静态报告和查询分析相比听起来更好。因为性可以提升,超过91%的公司用Apache Spark。

为什么大公司切换到Apache Spark?

  • YAHOO:用APACHE SPARK提前分析

雅虎已经在用Apache Spark,并且正在用Spark成功运行项目。雅虎本身就是一个网络搜索引擎,它有一个这样的项目,为完美的访问者提供完美的内容,这就是所谓的个性化。这个项目最重要的部分是机器学习算法,能识别个人访问者和他们的兴趣。这进一步有助于迎合他们喜欢阅读/观看的新闻。所以当使用户访问雅虎时,搜索引擎能确保他/她得到他/她喜欢的东西。要达到如此准确的个性化水平,需要实时解决可以力和高速度。这当然是在Apache Spark的帮助下实现的!

大公司如何用Apache Spark

  • CLEARSTORY:多个数据源

一家名为ClearStory的创业公司最近建立了一个平台,用户可以够立即将多个数据源融合在一起!它也产生交互式可视化。下面给出的图像进一步解释了它:

大公司如何用Apache Spark

在金融行业,银行正在用Spark作为Hadoop的替代方案。Spark特别使用于访问和分析社交媒体档案,电话录音,电子邮件等,这有助于他们为目标广告,用户细分和信誉风险评估做出正确的业务决策。

  • 金融机构1:零售银行和经纪业务

一家从事零售银行和经纪业务的金融机构一直在用Apache Spark,并导致其用户流失率降低了25%。该平台分为零售,银行,交易和投资。对于用户详细信息的360度视图,银行用Apache Spark作为统一层。该银行现在通过机器学习实现分析自动化。能访问每个用户存储库的数据,而后将其关联到单个用户文件。这个文件而后被转发到市场部门。

大公司如何用Apache Spark

  • 金融机构2:分析

一家金融机构用Apache Spark来分析监管文件中的文本。它还分析了其竞争对手的报告。也有助于发现有关正在发生的事情和市场竞争的模式。

  • 金融机构3:实时监测

另一家跨国金融机构已经实施了一个运行在Apache Spark和MongoDB NoSQL上的实时监控应使用程序。这些应使用程序实际上有助于银行监控用户的活动并识别问题。通过基于风险的评估,Apache Spark适使用于金融机构。

众所周知,电子商务行业发展迅速,实时信息的重要性对他们来说非常重要。这些信息能进一步传递给流式聚类算法,例如K均值聚类算法。而后将取得的结果与社交媒体资料,评论,产品评论,最近的搜索等资源结合起来。

  • ALIBABA:APACHE SPARK

正如我们大多数人所知道的,阿里巴巴是全球最大的电子商务平台。令人惊讶的是,它还运行着世界上最大的Apache Spark作业!虽然其中少量作业分析了数千PB数据,但其余作业却忙于对图像数据进行提取。阿里巴巴的每个使用户交互都显示在一个大图上,Apache Spark使用于取得准确的结果并取得快速解决。

大公司如何用Apache Spark

  • EBAY:APACHE SPARK

另一家知名的电子商务巨头eBay用Spark。它帮助eBay进行市场营销,针对特定优惠和加强用户体验。Hadoop YARN利使用eBay上的Apache Spark。YARN管理有助于运行一般任务的所有群集资源。eBay Spark使用户利使用Hadoop集群,从2000个节点到20,000个核心,以及通过YARN的100TB RAM。

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 大公司如何用Apache Spark

发表回复