上亿级的大数据量,如何高性可以实现展现分析?

作者 : 开心源码 本文共1247个字,预计阅读时间需要4分钟 发布时间: 2022-05-11 共93人阅读

日常一提数据分析和可视化,就想到这个工具操作要多简单易使用,图表要多美多炫,然而总是忽略背后的数据支撑。

excel 几十万行数据就卡死崩,谈何数据透视表、可视化?

近千万行的数据,订单提交数据库,sql sever解决要5分多钟,假如频繁入库/取数的话…..

要知道,为了支撑起业务人员的数据分析,以及日常不考虑计算逻辑和技术难度,IT人员也是要花费很大的心血和精力啊(心疼运维人员n秒)。

随着公司业务的发展,数据量变大是必然的事实。那么,数据部门要做分析,业务部门要看报表,要跑数据,要使用BI,大数据量(千万级及以上)的分析,性可以该如何优化?

这里借某公司的真实案例,来阐述一下方案。

———————————-

作为公司的科技部门人员,经常听到业务部门对自己用的数据库各种吐槽:

竟然存放在mongoDB中啊,震惊(ΩДΩ)。

数据库慢慢熟习了还好啊,但是现在每天的数据量越来越大,而且还在添加啊,添加大家很开心,然而数据库并不开心啊,简单的查询统计10多分钟还出不来结果,更不使用说有略微复杂点的统计分析了。

我天天找DBA优化啊,然而并没有什么水花。

数据量还在不断增长,到现在都上亿啦,全量查询统计根本出不来结果啊。

… …

最终业务人员找到科技部门提需求要弄个BI系统给解决下。

对mongodb瞄了一大通,这就是个业务库。那直接对接mongodb自然不行,速度慢不说,mongodb挂了,分析系统也瘫了。自然就想到了用中间库,emm mysql oracle 倒是有,能跑调度抽过来,但是速度仍旧不快呢,还要花功夫优化,性价比不高。公司有自己的hadoop平台,将数据抽过来再对接倒是能,但是要花很大精力跑调度,而且这个数据库不可以随便给这个业务部门提供,万一玩挂了可就得不偿失。假设有个具有离线数据存储功可以的BI工具,岂不美哉。

于是将市面上有离线数据存储功可以的BI工具翻了个遍。期望找到个性可以好,能支持大数据量数据分析的BI工具。

Tableau的hyper功可以看起来OK,经不起实际用,数据量过了亿,等了好久数据抽不好,pass;

其余某BI工具备mpp离线存储,看起来很棒,还可以横向扩展,不错。抱有最大期望的使用,结果数据量一上亿,直接崩了,崩了,pass;

另一个BI工具去看了看,咦,数据是放在vertica里面的……

后来,找到了FineBI的分布式计算引擎方案,拿的『定制的 Alluxio』作为分布式内存存储框架,内存存储有数据安全性的担心,所以持久化层存储使用了HDFS。为了数据分析嘛,自然是列式存储的。计算核心则以熟知的Spark,加上自研算法来解决的。用熟知的zookeeper整合框架,并使用于调度通信。

分布式嘛,横向扩展自然不在话下。而列式存储、并行内存计算、计算本地化加上高性可以算法,在FineBI中数据展现速度超快。有意思的是其计算本地化的操作,可以减少不必要的shuffle,节省数据传输的耗费,提升数据计算速度。

上亿级的大数据量,如何高性可以实现展现分析?

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 上亿级的大数据量,如何高性可以实现展现分析?

发表回复