大数据实时项目必备技可以二:kafka有话说

作者 : 开心源码 本文共2982个字,预计阅读时间需要8分钟 发布时间: 2022-05-11 共79人阅读

导读: Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛用,现已与Cloudera Hadoop,Apache Storm,Apache Spark集成。

Kafka创立背景

Kafka是一个消息系统,本来开发自LinkedIn,使用作LinkedIn的活动流(Activity Stream)和经营数据解决管道(Pipeline)的基础。现在它已被多家不同类型的公司 作为多种类型的数据管道和消息系统用。

活动流数据是几乎所有站点在对其网站用情况做报表时都要使用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的解决方式是先把各种活动以日志的形式写入某种文件,而后周期性地对这些文件进行统计分析。经营数据指的是服务器的性可以数据(CPU、IO用率、请求时间、服务日志等等数据)。经营数据的统计方法种类繁多。

近年来,活动和经营数据解决已经成为了网站软件产品特性中一个至关重要的组成部分,这就需要一套略微更加复杂的基础设备对其提供支持。

Kafka简介

Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:

以时间复杂度为O(1)的方式提供消息持久化可以力,即便对TB级以上数据也可以保证常数时间复杂度的访问性可以

高吞吐率。即便在非常廉价的商使用机器上也可以做到单机支持每秒100K条以上消息的传输

支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输

同时支持离线数据解决和实时数据解决

Scale out:支持在线水平扩展

为何用消息系统

  • 解耦
  • 在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息系统在解决过程中间插入了一个隐含的、基于数据的接口层,两边的解决过程都要实现这一接口。这允许你独立的扩展或者修改两边的解决过程,只需确保它们遵守同样的接口束缚。冗余
  • 有些情况下,解决数据的过程会失败。除非数据被持久化,否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全解决,通过这一方式规避了数据丢失风险。许多消息队列所采使用的”插入-获取-删除”范式中,在把一个消息从队列中删除之前,需要你的解决系统明确的指出该消息已经被解决完毕,从而确保你的数据被安全的保存直到你用完毕。扩展性
  • 由于消息队列解耦了你的解决过程,所以增大消息入队和解决的频率是很容易的,只需另外添加解决过程就可。不需要改变代码、不需要调节参数。扩展就像调大电力按钮一样简单。灵活性 & 峰值解决可以力
  • 在访问量剧增的情况下,应使用依然需要继续发挥作使用,但是这样的突发流量并不常见;假如为以可以解决这类峰值访问为标准来投入资源随时待命无疑是巨大的白费。用消息队列可以够使关键组件顶住突发的访问压力,而不会由于突发的超负荷的请求而完全崩溃。可恢复性
  • 系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即便一个解决消息的进程挂掉,加入队列中的消息依然能在系统恢复后被解决。顺序保证
  • 在大多用场景下,数据解决的顺序都很重要。大部分消息队列原本就是排序的,并且可以保证数据会按照特定的顺序来解决。Kafka保证一个Partition内的消息的有序性。缓冲
  • 在任何重要的系统中,都会有需要不同的解决时间的元素。例如,加载一张图片比应使用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高效率的执行———写入队列的解决会尽可可以的快速。该缓冲有助于控制和优化数据流经过系统的速度。异步通信
  • 很多时候,使用户不想也不需要立即解决消息。消息队列提供了异步解决机制,允许使用户把一个消息放入队列,但并不立即解决它。想向队列中放入多少消息就放多少,而后在需要的时候再去解决它们。

常使用Message Queue比照

  • RabbitMQ
  • RabbitMQ是用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给用户端时先在中心队列排队。对路由,负载均衡或者者数据持久化都有很好的支持。Redis
  • Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。尽管它是一个Key-Value数据库存储系统,但它本身支持MQ功可以,所以完全能当做一个轻量级的队列服务来用。对于RabbitMQ和Redis的入队和出队操作,各执行100万次,每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。试验表明:入队时,当数据比较小时Redis的性可以要高于RabbitMQ,而假如数据大小超过了10K,Redis则慢的无法忍受;出队时,无论数据大小,Redis都体现出非常好的性可以,而RabbitMQ的出队性可以则远低于Redis。ZeroMQ
  • ZeroMQ号称最快的消息队列系统,尤其针对大吞吐量的需求场景。ZMQ可以够实现RabbitMQ不擅长的高级/复杂的队列,但是开发人员需要自己组合多种技术框架,技术上的复杂度是对这MQ可以够应使用成功的挑战。ZeroMQ具备一个独特的非中间件的模式,你不需要安装和运行一个消息服务器或者中间件,由于你的应使用程序将扮演这个服务器角色。你只要要简单的引使用ZeroMQ程序库,能用NuGet安装,而后你即可以愉快的在应使用程序之间发送消息了。
  • 但是ZeroMQ仅提供非持久性的队列,也就是说假如宕机,数据将会丢失。其中,Twitter的Storm 0.9.0以前的版本中默认用ZeroMQ作为数据流的传输(Storm从0.9版本开始同时支持ZeroMQ和Netty作为传输板块)。ActiveMQ
  • ActiveMQ是Apache下的一个子项目。 相似于ZeroMQ,它可以够以代理商人和点对点的技术实现队列。同时相似于RabbitMQ,它一些代码即可以高效地实现高级应使用场景。Kafka/Jafka

Kafka是Apache下的一个子项目,是一个高性可以跨语言分布式发布/订阅消息队列系统,而Jafka是在Kafka之上孵化而来的,即Kafka的一个更新版。具备以下特性:

快速持久化,能在O(1)的系统开销下进行消息持久化;

高吞吐,在一台普通的服务器上既能达到10W/s的吞吐速率;

完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,

自动实现负载均衡;支持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时解决的限制,这是一个可行的处理方案。Kafka通过Hadoop的并行加载机制统一了在线和离线

的消息解决。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统,除了性可以非常好之外,还是一个工作良好的分布式系统。

理解了kafka的基本情况,那么kafka可以处理什么呢?

假设你意气风发,要开发新一代的互联网应使用,以期在互联网事业中一展宏图。借助云计算,很容易开发出如下原型系统:

  1. Web应使用:部署在云服务器上,为个人电脑或者者移动使用户提供的访问体验。
  2. SQL数据库:为Web应使用提供数据持久化以及数据查询。
大数据实时项目必备技可以二:kafka有话说

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 大数据实时项目必备技可以二:kafka有话说

发表回复