顶级数据团队揭秘—–爱奇艺使用的大数据开发技术

作者 : 开心源码 本文共4916个字,预计阅读时间需要13分钟 发布时间: 2022-05-12 共152人阅读

因为各种各样的起因,许多公司的数据是分散的,数据平台和数据应用团队也是独立的,一旦公司规模逐步扩大,假如不同团队的数据没有很好结合起来,就会使数据形成一个个的孤岛。

本文为清华数据科学研究院联合大数据文摘发起的年度白皮书《顶级数据团队建设全景报告》系列专访的第四篇内容。《报告》囊括专家访谈、问卷、网络数据分析,力求为行业内数据团队的组建和高校数据人才的培养提供指导性意见。

网飞公司(Netflix)产品副总裁Todd Yellin曾如此解释Netflix的成功:Netflix就像一个双螺旋,把科技和娱乐创意两条线给拉紧在一起。

全球拥有超过1亿会员,每日平均观看时数超过140亿小时, 娱乐当道,网飞,这家全球最大的视频流媒体服务提供商的成功,说明了数据在视频娱乐上大有可为。

而在这个重内容创作、长期以来靠“艺术家”驱动的领域,将数据思维与业务线有效地结合,并不是一件容易的事情。

对于这个话题,国内或者许没有哪家公司比爱奇艺更有发言权。

作为一家视频娱乐公司,爱奇艺在今年接连打造出《中国新说唱》(原《中国有嘻哈》)、《偶像练习生》这样的爆款综艺。在今年三月,爱奇艺成功上市。根据8月1日刚刚发布的第二季度财报显示,爱奇艺会员规模达6710万,同比增长率达到75%。

从选角到会员经营,爱奇艺快速发展的背后,数据究竟在发挥什么样的作用?

从“有嘻哈”说起


对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入理解,想学习的同学欢迎加入大数据学习qq群:515269485,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐渐的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识逐个分享!

去年夏天,爱奇艺将嘻哈热这一档综艺带到了多数中国人的面前,每期视频点击率过2亿,单从数字来看,这是一档相当成功的节目。但在其出现之前,没有人能想象得到,这样一个偏小众的音乐形式在中国有如此大的号召力。

“在决定做这档节目之前,我们通过数据分析发现嘻哈在中国是有肯定根基和生命力的 ,只是没有一档娱乐节目去将它带到公众面前。” 爱奇艺大数据和商业智能负责人孙斌告诉我们。

“尽管通过客户群体画像,我们发现中国的嘻哈爱好者群体偏年轻,是教育背景、理念、经济水平都不错的一群人,但在爱奇艺这么大的受众背景下,假如开设一档有关嘻哈的娱乐节目,谁都不知道能不能火。”

之后,爱奇艺分析了客户的站内行为,包括浏览的内容、评论和弹幕能否与嘻哈相关,泡泡社区(爱奇艺客户的粉丝社区)的活动中能否参加了嘻哈相关的圈子及探讨;也通过合法取得的站外数据,对全网舆情进行分析,理解嘻哈音乐在全网客户中的情况。孙斌详情:“根据所有的这些线索,利用如自然语言解决结合大数据分析方法,才得出嘻哈音乐在站内站外客户中已经很有根基,也很有生命力的结论 。”

而这背后的价值并不止于此。

孙斌表示,这整个的过程是一个良性循环。“我们在数据分析的基础上可以做出少量节目,而节目后取得的反馈又会帮助我们完善客户的画像和舆情动向,从而进一步探寻观众的需求,做出让大家更满意的节目。”

不仅是节目的分析,爱奇艺将数据分析应用在各个方面。在背后支撑这一切的,是一个叫做“通天塔”的数据平台。

打通分散数据,建一座数据“通天塔”

因为各种各样的起因,许多公司的数据是分散的,数据平台和数据应用团队也是独立的,一旦公司规模逐步扩大,假如不同团队的数据没有很好结合起来,就会使数据形成一个个的孤岛。

而爱奇艺所倡导的,是一个全栈的(full-stack)组织架构:从最底层的数据产生与采集,到中间的数据加工分析,一直到最上层的应用,以及在大数据平台之上的商业分析、经营分析、产品分析,都集中在一个“中央集权”的团队里,一律实现一站式管理,使得公司中的各个角色能够非常快捷地获取自己想要的数据来辅助分析。这既包括服务于公司内部系统,如商业决策分析、商业智能系统,也包括服务于公司外部应用,如针对终端客户的个性化推荐。

孙斌详情说,在通天塔之前,不同的数据系统之间理论上相通,但存在壁垒。毕竟那是“从旧历史来的系统,需要适应需求,重新整合成新的统一大数据平台。”

这个统一的大数据平台,就是“通天塔”。

“我认为这个名字是对爱奇艺内部情况的一个精准的形容。它的目的就是建立起一个所有的业务数据平台上的大仓库,理清一律‘血缘关系’,实行统一的管理。” 孙斌反复强调了统一大数据平台的重要性,“我们希望把我们自己的数据,包括以合法手段收集的到的全网数据搜集起来,最终实现这个目标。”

这其中产生的价值是不可估量的。通过数据分析,许多看似不相关的领域都可以相互联络,相互促进。

孙斌告诉我们,娱乐和生活,和人格都是息息相关的。“很多时候在运作之前是意识不到的。不过一旦联络起来,比方绘制出客户的群体画像,即可以发现很多不一样的东西,这就是数据的魅力。”

扩展数据能力,让“艺术家”也有数据思维

对于爱奇艺这样的视频公司,内容和娱乐是主要业务,所以团队很大多数是内容创作者。如何让“艺术家”们在感性思考的习惯下,也培养起数据思维,是一个大难题。

孙斌认为,数据团队提供的是平台能力,而绝非仅仅数据本身。

“我认为一个健康的大数据平台不应该把所有事情都交给所谓的数据团队来做,而是让数据团队提供数据能力。”

所谓数据能力,一是提供直观的,可视化的数据(如数字、图表),二是提供数据工具,通过“拖拉拽”的可视化分析工具以及自己设置SQL,让使用者们可以通过简单的查询、计算条件生成特定的数据结果,三是把数据平台做成开放平台,提供API给开发者。

“相似‘自助服务(self-service)’一样,有少量开放平台的概念,我们会给予不同团队不同的权限来做应用。”

孙斌要求团队中的产品经理和数据分析师必需懂业务,由于当内容团队,如电影、艺术团队有数据方面的诉求时,数据团队假如只机械地听取,很容易产出不符合内容团队要求的结果。

“产品经理必需有数据分析的能力,接收任务的时候应该懂得如何用数据的方式去衡量、优化任务,如何建立一套数据指标形容业务的健康性,这是其应有的素质。”孙斌告诉我们,“所以,之前提到的‘自助’式的数据工具肯定是在真正理解内容团队需求的情况下而产出的。”

相反,数据方面的产品经理应该如何补充少量行业知识呢?“一定要多看剧!”对于这个问题,孙斌先认真地幽默了一下。

那么数据团队如何配合不同团队的需求扩展数据能力?孙斌给出了两个有趣的例子。

1、配合内容团队:智能选角系统

目前,影视圈内聚集了很多“北漂”的演员。因为行业现状,选角导演在挑选演员的时候存在一个显著的效率问题,而大数据和互联网的一个很大的好处就是它们能打破少量时间和空间上的壁垒。通过一个可以表现演员演技的真实有用信息的标准化视频简历库,可以智能的通过剧本角色和艺人基本条件去挑选艺人,大大提高挑选效率,快速圈选目标艺人,辅助专业决策。

AI技术在智能选角系统中得到了广泛应用,除了通过自然语言和语义了解对剧本和角色人物小传的了解,通过角色人物小传智能匹配艺人,还能沟通过视频智能了解和剪辑技术,快速的找到艺人在站内站外的视频片段,丰富艺人资料,更有效的提高选角工作效率。

AI可以保证这15秒的片段都包括特定的演员,但是这些片段能否具备代表性,是另一项监督学习的任务。对此,数据团队会请选角导演来提供意见,对其中的少量片段进行标注。例如导演会要求少量正脸的片段,而AI挑选出来侧脸的话,就需要算法上的调整。数据、算法的挑选,配合行业的眼光,就能达到一个很高的效率。

另外,据我们理解,爱奇艺的数据团队也会参加到节目台本和环节的设计。“尽管艺术创作是一个很感性的过程,但很多的节目环节还是有AI的手段去提效的。总之,数据分析的目的是服务好艺术创作。”孙斌解释道。

“和大多数的产品经理相比,爱奇艺的数据产品经理在工作方法上没有太大变化,仍旧是做客户研究、访谈,无非这些客户从普通的大众变成了导演、制片人、会员部门、版权部门等。这也是这一类产品经理门槛高的起因。第一步肯定是理解客户,比方搞清版权部门和宣发部门有什么区别。需要肯定的功底才能把这些客户需求提炼出来。”

2、与经营团队合作:付费会员流失预警

对于经营团队来说,付费会员的粘性十分重要。对即将流失的会员进行预警,是数据团队负责研究的项目。

会员流失预警是客户行为分析的一个非常典型的例子。简单讲,流失的起因肯定是客户使用爱奇艺的服务后有了不符合预期感觉。而这一点肯定会表现在客户行为上,比方发布的社区动态变少,观看的视频变少等。当预测某位客户要流失了之后,经营团队会提前收到预警,进行下一步的措施。

而从数据来看,这个项目的效果也超出预期。根据刚刚发布的爱奇艺第二季度财报,本季度内,爱奇艺会员服务收入为人民币25亿元(约合3.74亿美元),同比增长66%。订阅会员规模达6710万,其中付费会员为6620万。

数据驱动业务的公司文化

在爱奇艺,数据驱动的文化从高层就受到了很高的重视。

“我在面试的时候就感受到CEO龚宇本人很重视数据,……不仅需要数据本身,还需要相关的分析及背后的逻辑,这就是爱奇艺的做事方式。”

这样的文化很直观的表现在人员布局上:在爱奇艺,产品与技术的员工肯定要保持在总员工的一半,一旦低于一半,其余部门就会中止招聘。今年上市之前,爱奇艺也修改了企业愿景“做一家以科技创新为驱动的伟大娱乐公司”。

同时,高层的决策也有商业分析团队和商业智能系统作为辅助。比方对于流量、收入分析,有从产品角度的分析,也有辅助经营策略的制定;同时也有对行业相关的分析和洞察:有些公司做长视频,有些做短视频,有些做直播,每家分别有什么侧重。

“Netflix做的那么好,美国人那么爱看体育,但Netflix就是不做新闻和体育,这里面的逻辑是什么?我们需要用数据的方式搞懂它。”与之相配合的是定期的运营分析会议。不仅是高管,一线负责人也要参加进来,从纯数据的角度来俯视行业。

另一种非常规性的专题分析,是爱奇艺管理层特别关注的。管理层很希望有团队可以挖掘出下一个相似《中国新说唱》的黑马。对此,数据分析团队会尽量根据互联网上客户行为的变化,去寻觅、感受下一个可能的机会。

不言而喻,与业务和内容结合在一起的数据团队才能真正为公司创造价值,而如何才能在一家娱乐公司做到这种结合?孙斌给出了他对数据科学家工作性质的了解。

数数据科学家的价值:了解场景,以数据发现、形容、处理问题

无论是综艺还是影视,肯定会去考虑投入产出比。例如对于具体在什么期间安排什么样的影片,传统方法多会依赖从业多年多专家根据敏锐感觉给出意见。数据科学尽管不能替代这些专家,但期待于从数据的角度挖掘出这背后的起因,丰富内容团队的决策。

数据科学家需要具体理解场景,例如剧集是周播还是日播,具体的指标是观看量还是观看趋势,这些微小的差别都会导致很大的不同。

访谈的最后,孙斌告诉了我们他对数据人才的期待:“首先要有处理新问题的能力。我们目前的技术团队是一个有先进理念的团队。从爱奇艺来讲,我们很注重可持续发展,不希望只是做好一两个项目,而不能帮助整个平台的发展。其次要有肯定的视野。我希望我们团队里的同学可以关注业界的新动向,能去接受新的技术。肯定要有活跃力,创新力。”

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入理解,想学习的同学欢迎加入大数据学习qq群:515269485,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐渐的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识逐个分享!

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 顶级数据团队揭秘—–爱奇艺使用的大数据开发技术

发表回复