Apache Spark-性可以(Performance)

作者 : 开心源码 本文共385个字,预计阅读时间需要1分钟 发布时间: 2022-05-11 共77人阅读

详情

今天的任务是将伦敦自行车租赁数据分为两组,周末和工作日。将数据分组到更小的子集进行进一步解决是一种常见的业务需求,我们将看到Spark如何帮助我们完成这项任务。

数据由167个CSV文件组成,总共6.5GB,我们将用两个节点集群来解决它,每个节点集群有4GB的RAM和3个cpu。

在我们开始解决真实数据之前,理解Spark如何在集群中移动我们的数据,以及这与性可以之间的关系是很有使用的。Spark无法同时在内存中保存整个数据集,因而必需将数据写入驱动器或者通过网络传递。这比内存中解决要慢得多,而且在这里经常出现性可以瓶颈。

在理论上

分区

为了跨集群分配工作并减少每个节点的内存需求,Spark将数据分割为称为分区的更小的部分。而后,将其中的每一个发送给一个执行程序以进行解决。每个执行线程一次只计算一个分区,因而传递给执行程序的分区的大小和数量与完成所需的时间成正比。

Apache Spark-性可以(Performance)

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Apache Spark-性可以(Performance)

发表回复