大数据平台应用 17 个需要掌握的知识
Q1、大数据中的数据仓库和Mpp数据库如何选型?
A:
■?rein07 某证券 系统架构师:
在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。
■ 陈星星 科技公司?技术经理:
Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库Hive,可以作为大数据平台的标准数据仓库,
对于面向应用的MPP数据库,可以选择MYCAT(mySql的分布式架构)或者是impala(基于Hive和Hbase),包括对称式和非对称式两种分布式模式
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入理解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
Q2、大数据分析中的实时推荐是如何实现的?
A:
■?rein07 某证券 系统架构师:
实时推荐需要使用实时解决框架结合推荐算法,从而做到对数据的实时解决和推荐。实时解决框架有Storm、Flink、SparkStreaming,组件可以对接Kafka,获取实时流数据,在实时框架内部实现对数据的解决过程。
■ 陈星星 科技公司?技术经理:
1、实时推荐需要借助实时计算框架例如Spark或者是Strom技术,
2、数据采集采用Flume+Kafka作为数据缓存和分发作用
3、同时还需要有非常适合的实时推荐算法,例如基于客户画像的实时推荐,或者是基于客户行为的实施推荐、或者是对商品相识度的实施推荐等不同的算法
Q3、数据治理有何高效的解决方法或者工具?
A:
■?rein07 某证券 系统架构师:
数据治理没有具体的工具和方法,这是一项浩大的工程,可能牵扯到每个部门,既有技术人员参加,又要有业务人员参加,关键时刻还要有领导进行决策。每个公司的数据情况不同,解决方法也不尽相同,基本的方法是有的,暨通过对数据的梳理(元数据、主数据),发现数据质量问题,再通过质量标准或者组织协调的方式,对数据进行标准化解决的。
■ 陈星星 科技公司?技术经理:
数据治理是一项人力和辛苦活,没有捷径和什么有效的工具,而且在一个大数据项目中,数据治理是非常重要的一个环节,由于只有数据质量满足前台应用需求,才有可能挖掘和分析出精确的结果。
具体数据解决方法还需要看实际业务情况,例如数据库、数据类型、数据规模等
数据治理的过程是一个对业务系统数据梳理的过程,过程中发现的问题会反馈给业务部门,同时还要制定统一的质量和稽核标准,就好比给每个业务系统数据生成线上添加一个质量监管员。
Q4、大数据分析中针对日志分析的框架如何选型?
A:
■?asdf-asdf? cloudstone??研究学者:
elk 常用组件, 上层业务封装还需要求其余组件完成
日志分析 elk + redis + mysql 热点数据 , 热点分析
等等, 看你的业务是什么模式和 开发人员偏好
■?rein07 某证券 系统架构师:
现在免费且主流的均已采用Elastic公司的ELK框架,均为轻量级组件,且简单易用,从采集到界面展现几乎用不了多少时间就可搭建完毕,Kibana界面效果优异,包含地图、报表、检索、报警、监控等众多功能。
Q5、请问在大数据平台搭建过后,大数据平台的运维监控主要关注哪些?
A:
■?rein07 某证券 系统架构师:
大数据平台的运维监控主要包括硬件和软件层面,具体如下:
1、主机、网络、硬盘、内存、CPU等资源。
在拥有几十台以上的集群环境中,大量的数据计算对硬件尤其是硬盘的损耗是较大的,在大量计算中,网络也往往会成为一个瓶颈,这些都需要时刻关注。
2、平台层面
主要监控平台各个组件的状态、负载情况,有异常及时报警。
3、客户层面
大数据平台建设是为了服务公司内部广大客户的,所以资源既是共享的,又需要是隔离的,所以需要对客户对平台资源的使用情况做好监控,及时发现异常使用情况,防止对其余客户产生不良影响,影响正常业务展开。
■ 陈星星 科技公司?技术经理:
大数据平台搭建后,运维监控的主要内容包括
1、分布式架构的底层虚拟机的运行情况(CPU、内存、网络、硬盘等)
2、各个组件(HDFS 、MR、 SPark 、Hive 、Hbase、 IMpla、FLume、 Spooq等)的运行状态和告警信息
Q6、数据量大,数据类型繁杂的情况下,如何做性能保障?
A:
■?rein07 某证券 系统架构师:
如何保障大数据平台的解决性能,关键还是看应用场景和业务需求,不是每种业务都需要高性能。
1、在类OLTP场景下,大数据平台有像HBase一样的组件,保证数据读写具备极高的性能和吞吐量。
2、在OLAP场景下,大数据平台有像Impala、Kudu、Kylin、Druid这样引擎,通过内存或者估计算的方式保证查询性能。
3、在离线分析场景,有像Hive、Spark、Mapreduce这样的引擎,分布式解决海量数据,在这种场景下,性能和响应时间已无法做到保证。
■ 陈星星 科技公司?技术经理:
1、大数据的底层一律都是分布式架构,分布式架构具备很强的横向扩展能力,而且是使用廉价的PC服务器就可组件分布式架构,只有添加服务器数据,性能也可以横向扩展,
2、另外大数据平台在数据解决方面也均是采用分布式解决技术(例如 MR、 Hive、 Hbase 、 HDFS)
3、另外还有少量是基于内存的数据计算和解决架构Spark技术,大数据平台下对性能的要求没有和传统的交互式的响应不太一样,大数据分为实时和离线计算,实时计算要求响应时间,离线计算对于响应时间没有太高的要求。
Q7、数据预解决问题?
钢铁行业的数据比较复杂,对于对生产工艺不是特别理解的IT人员如何进行数据解决,或者是应该由谁来进行数据解决?
A:
■?陈星星 科技公司?技术经理:
数据预解决的过程包括数据的清洗、集成、整合、标准化等过程。
1、数据预解决的过程是由承建大数据项目的供应商来解决,或者是专门做数据治理的公司来负责这项工作。
2、大数据项目中,数据的预解决会花费大量的时间,而且是手工工作量较多,假如对业务部太数据,势必会有很多问题,最好是由对业务相对理解的人员来参加数据的预解决的工作。
■?rein07 某证券 系统架构师:
只有高质量的数据才会有分析的价值,所以预解决过程显得尤为重要。数据是业务的数字化形式,对于比较复杂的行业数据,技术人员是不会知道怎样解决才能满足业务分析的需求的,必需要业务分析人员提出具体的数据解决需求,技术人员才能设计满足相应需求。
Q8、从传统数仓向大数据平台迁移的规划?
传统数仓很多用oracle做的,现在想转入大数据平台,有什么好的迁移规划方案,以及迁移可能遇到的问题,谢谢!
■?陈星星 科技公司?技术经理:
1、数据仓库无论是用oracle,还是其余数据库,此类型的数据转入大数据平台都有个ETL的过程,将数据统一存放在HDFS分布式文件系统中,上层则借助于Hive构建数据仓库,用于离线数据跑批计算,Hbase,用于支持数据高并发在线查询和非结构化数据的对象存储来满足前段的应用分析需求
2、可以利用数据仓库中原有的数据共享交换平台,实时将数据推送到共享平台,例如Sqoop数据导入结构化数据,利用Flume和Kafka对非结构化类数据进行采集并将之转为结构化数据落地HDFS进行存储
Q9、传统数仓转向大数据平台的必要性?
如题,或者者什么场景的的传统数仓适合转向大数据平台。转向大数据平台后都处理了什么样的问题,暴露出什么样的问题?
■?rein07 某证券 系统架构师:
大数据平台采用分布式架构,用于处理海量数据的存储和分析问题,传统数仓无法处理上百TB及PB级的分析问题。大数据平台因为架构新,使用模式也不尽相同,有的使用SQL,有的使用spark编程,有的使用mapreduce编程,所以存在肯定的学习成本;大数据平台还在逐渐完善中,尤其是客户管理、安全、元数据管理等方面还存在肯定问题,使用时需要注意。
Q10、大数据底层保持数据强一致性是如何实现的?
A:
■ 陈星星 科技公司?技术经理:
大数据底层的数据强一致性是通过HDFS的分布式架构中的冗余副本策略和心跳检测机制实现的。
1、冗余副本策略:HDFS解决节点失效的一个方法就是数据冗余,即对数据做多个备份,在HDFS中可以通过配置文件设置备份的数量,默认是3副本,只有数据在3个副本上均完成写成功,才返回。
2、心跳机制:检测节点失效使用“心跳机制”。每个 Datanode 节点周期性地向 Namenode 发送心跳信号。 Namenode 通过心跳信号的缺失来检测这一情况,并将这些近期不再发送心跳信号 Datanode 标记为宕机,不会再将新的 IO 请求发给它们。
N: 3 (数据备份的数目)
W: 1 (数据写入几个节点返回成功),默认是1
R: 1 (读取数据的时候需要读取的节点数)
W + R < N
■?rein07 某证券 系统架构师:
Hadoop没有办法保证所有数据的强一致性,但是通过副本机制保证肯定程度的一致性,假如某一个datanode宕机,将会在其余datanode上重建一个副本,从而达到副本一致性的目的,且在写入的时候可以采用一次写入多个副本的方式保证即便某个副本对应机器挂掉,也不影响整个数据。
Q11、大数据平台加入到灾备怎样做?有成熟的思路或者者方案吗?
A:
■ 陈星星 科技公司?技术经理:
1、灾备处理的是业务连续性的问题,大数据平台本身提供多副本机制是保障业务的稳固和可靠运行的
2、目前大数据平台基本是都是部署在虚拟机或者是容器之上,很少有直接部署在物理服务器+存储架构之上
3、这样虚拟化和容器本身就带来很强的业务连续性的功能,例如虚拟机的热迁移、HA、DRS等功能
Q12、大数据底层平台对硬件的要求有哪些?
A:
■?rein07 某证券 系统架构师:
1、在企业内部,最好保证集群中所有机器的配置保持一直,否则容易出现一台机器运行较慢,从而拖慢整体任务运行速度的情况。
2、大数据平台对网络要求较高,在几十台机器的集群下,假如采用千兆网络,极其容易出现某一个大任务把带宽占满的情况。
3、平台对CPU、硬盘的需求相对网络要低点,但也不能太低,否则IO上不来,任务也会被拖慢。
4、平台对内存的要求高,尤其在一个平台内搭建Impala、Spark、MR、Hive、HBase等组件共享资源的情况下,更应该配备高内存。
■?michael1983 某证券?技术经理 :
支持楼上,X86分布式部署就可。尤其注意系统IO性能,可配置SSD。
■?wuwenpin 软件开发工程师:
大吞吐量、大容量,高带宽。
■?陈星星 科技公司?技术经理:
1、Hadoop现在已经是大数据的事实标准,而 Hadoop的出现就是运行在廉价商用服务器上,以集群之力,分而治之地处理先前传统数据库、传统存储、传统计算模型束手无策的问题,让大规模数据的解决成为了可能。
2、对于硬件没有太高的要求,普通的PC服务器就可,但是为了高更的性能,服务器内可以添加SSD固态硬盘或者是内容等资源。
Q13、大数据人才培养?
向大数据平台转型成功的关键,人才占了很大的比例,如何有效平滑的推动人才队伍的建设?
A:
■ 陈星星 科技公司?技术经理:
大数据涉及数据采集、数据的清洗集成、治理、大数据平台的安装调试和运维、大数据的开发、大数据的算法工程师、大数据的挖掘工程师等。
大数据人才需求是一种金字塔架构,最底层需求量最大的是数据采集、清洗和治理的人员(基本上以人工为主),在上层就是数据平台的安装调试(必需有linux基础),往上就是大数据的开放、算法和挖掘工程师了。
假如是客户单位,需要提前培养大数据的意识,要认识到大数据的重要性和可行性,培养可以为项目后期提供运维的人员为主。
Q14、客户画像用到了哪些大数据技术和工具,做的时候应该注意什么?
A:
■?陈星星 科技公司?技术经理:
所谓客户画像就是用多维度的数据来形容一个客户的整体特征,涉及到特征工程的提取,打标签的过程。
例如客户的属性、偏好、生活习惯、行为、运动、作息等信息,笼统出来的标签化客户模型。浅显来讲就是给客户打标签,而标签是通过对客户信息分析而来的高度精炼的特征标识。
涉及到数据采集、数据建模、挖掘分析等,需要注意一下几点:
1、在画像创立之前需要知道客户关心的的特征维度和客户的行为等因素,从而从总体上掌握对客户需求需求。
2、创立客户画像不是抽离出典型进行单独标签化的过程,而是要融合边缘环境的相关信息来进行探讨。
3、客户画像有时候需要变化、分为短期内的画像、或者是长期的画像等。
Q15、一般一个大数据项目实施过程中应该注意什么?
A:
■?rein07 某证券 系统架构师:
这个过程与一般的项目没有本质区别,基本的需求、分析、设计、开发、测试都是要有的。不同的地方是大数据项目采用的技术不像传统的基于数据库的SQL开发那么简单,对编程能力的要求较高,同时对遇到问题的排查能力要求也较高,由于是分布式运行,导致问题排查变得非常复杂。
■?陈星星 科技公司?技术经理:
1、大数据项目实施过程中涉及到和用户的众多业务系统进行对接的,也就是数据的采集,到数据的清洗、集成、标准、数据治理、数据的建模、挖掘分析和最后的可视化等过程。
2、在和业务系统对接的过程中需要注意的必需拿到业务系统的数据字典(假如没有,拿到数据对数据的识别和分析非常困难)。
3、数据业务分析维度,需要项目经理进场需要用户明确的需求后确定系统的范围和边界(否则需求和范围不停的变,开发周期遥遥无期)。
4、准备好大数据平台要求的底层环境和资源(CPU、内存、硬盘、网络等),大数据项目对于这些资源的要求还是相比照较高的,例如硬盘容量,例如要分析日志类的数据或者是流水数据。
Q16、企业级大数据平台如何选型?
A:
■?rein07 某证券 系统架构师:
现在,大数据平台基本特指Hadoop平台了,选型主要还是指Haoop管理平台。现在主流的厂商有cloudera和Hortonworks,国内有华为的fusion insight和星环科技的产品。相对来说,cloudera具备较大优势,市场占有率也较高,管理平台非常实用,对与平台管理人员来说是不可多得的好帮手
■?陈星星 科技公司?技术经理:
Hadoop现在已经是大数据的事实标准了,企业级大数据平台建议选择基于Hadoop开源的生态,目前对于Hadoop开源商业推广最大的两个场景及cloudera(CDH版本,适合于linux系统上运行)和Hortonworks(HDP版本,支持运行在windows系统上运行),目前是一家公司了,可以选择其中一家产品就可
Q17、大数据中的实时计算SPark和Storm优缺点是什么?分别适合于哪些场景?
A:
■?rein07 某证券 系统架构师:
SparkStreaming和Strom都属于实时计算框架,有点都是可以做到对数据的实时解决。SparkStreaming是基于Spark Core实现的,所以对数据的解决要形成RDD,暨要形成数据窗口,所以其解决过程可以称之为微批解决,而storm是可以做到实时解决每一条数据的,所以相对来说,实时性比sparkstreaming更高。所以storm更适合解决实时性要求极高的场景。
■?陈星星 科技公司?技术经理:
SPark体系中的 Spark Streaming严格意义上属于批解决计算框架,准实时,基于内存的计算框架,性能可以达到秒级,大数据除了实时计算之外,还包括了离线批解决、交互式查询等业务功能,而且实时计算中,可能还会牵扯到高推迟批解决、交互式查询等功能,就应该首选Spark生态,用Spark Core开发离线批解决,用Spark SQL开发交互式查询,用Spark Streaming开发实时计算,三者可以无缝整合,给系统提供非常高的可扩展性。
Storm是纯实时计算框架,来一条数据,解决一条数据,可以达到毫秒级,适合于要求可靠的事务机制和可靠性机制,即数据的解决完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm。
形象点比喻,SPark就好比商城的直梯,Storm就好比商场的扶梯。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入理解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 大数据平台应用 17 个需要掌握的知识