开源的Flume系统实现流式数据收集的应用场景分析

作者 : 开心源码 本文共546个字,预计阅读时间需要2分钟 发布时间: 2022-05-12 共214人阅读

在生产环境中,通常会部署各种类型的服务,比方搜索、推荐、广告等,这些服务均会记录大量流式日志。比方搜索系统,当客户输入一个查询词时,该搜索行为会以日志的形式被后台系统记录下来,当并发访问客户数非常多时,搜索系统后台将实时产生大量日志。如何高效地收集这些日志,并发送到后台存储系统(比方Hadoop、数据仓库等)中进行统一分析和挖掘,是每个企业大数据平台需要处理的问题。本文将详情开源的Flume系统实现流式数据收集的应用场景分析。如下图所示:

数据收集场景

开源的Flume系统是一个通用的流式数据收集系统,可以将不同数据源产生的流式数据近实时地发送到后台中心化的存储系统中,具备分布式、良好的可靠性以及可用性等优点。总结起来,Flume系统适用于处理日志收集过程中面临的以下场景:

数据源种类繁多:各种服务均会产生日志,这些日志格式不同,产生日志的方式也不同(有的写到本地日志文件中,有的通过HTTP发到远端等)。

数据源是物理分布的:各种服务运行在不同机器上,有的甚至是跨机房的。设计日志收集系统时需考虑这种天然的分布式特征。

流式的,不间断产生:日志是实时产生的,需要实时或者近实时收集到,以便于后台的分析和挖掘。

对可靠性有肯定要求:日志收集过程中,希望能做到不丢失数据,或者丢失可控的一些数据。

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 开源的Flume系统实现流式数据收集的应用场景分析

发表回复