基于SparkSQL的海量数据仓库设计与实践
SparkSQL近年来以更强的性能优势正逐步取代Hive在数据仓库领域强势地位,在奇虎360公司同样得到了大范围的推广使用。为了进一步提供提升SparkSQL的性能、扩展SparkSQL多数据源的解决能力,360整合了ES、Kylin、Luence等开源组件,最终实现了一套统一的OLAP平台。本文奇虎360高级工程师李振炜将和我们分享SparkSQL的那些坑和整合ES、Kylin的设计思路以及借助Luence实现的海量数据即席查询的技术方案。
李振炜,2015年毕业后加入奇虎360系统部大数据团队,负责Spark分布式计算平台及相关服务的开发与维护,完成了整个公司hive作业向Spark的迁移,设计并实现基于SparkSQL的数据仓库,有丰富的海量数据场景下Spark改进调优经验。
说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 基于SparkSQL的海量数据仓库设计与实践
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 基于SparkSQL的海量数据仓库设计与实践