腾讯广告算法大赛随手记4-全局思路
很多朋友对腾讯广告大赛不太清楚,我这里简单详情下大赛,文末详情总体的解答思路。欢迎大家探讨,如有瑕疵请及时指出。
准备工作
简单详情
该大赛的赛题为广告曝光量估计问题,给定样本,预测该样本第二日的广告曝光数量。
涉及知识包括广告推荐、竞价知识,数据清洗,特征提取,模型搭建,模型训练,机器学习等领域知识。
大家可以根据个人兴趣选择参加。报名参赛
在官网地址完成注册、认证。
直通车下载赛题手册
需要仔细研读参赛手册
参赛手册直通车下载相关数据
数据量较大,近4个G,请选择网络好的情况下载,不过话说腾讯官网的下载速度很给力。
数据下载直通车
数据说明
数据下载解压后包含的文件如下图:
image.png
imps_log.zip
需要再次解压得到里面的内容,内容为一律的曝光日志,也就是广告被访问的请求日志,一条记录代表依次网络请求,代表一次广告曝光(也就是被客户看到)
image.png
user.zip
同样需要再次解压,解压后的到客户数据文件,该数据记录了一律客户数据文件,包括客户的年龄、性别、爱好、地域等等特征数据,与ad_operation.dat中的定向人群有关系。
image.png
ad_operation.dat
广告操作记录数据,该数据记录了广告的所有创立、操作记录,包括广告的状态值,如广告定向人群、投放时间、广告状态、广告出价等。
ad_static_feature.out
广告静态数据,该数据中包含了广告的静态数据,如广告素材尺寸、广告对应的商品类型、广告所在行业id、广告账号id等不会修改的静态内容。
test_sample.dat
测试样本,根据该样本预测N+1日样本广告的曝光量,并在官网提交预测结果取得成绩及排行。
结果文件
提交的结果文件行数与测试样本行数一致,列数为两列,其中第一列为测试样本给出的样本id列,第二列为预估的曝光数据(含四位小数点),此曝光数据为这算后的数据(所有曝光数据都做了 除512 计算),两列数据以逗号分隔,文件名必需为submission.csv,格式为utf8不带bom。
解题思路
总结的解题思路和步骤为:
数据清洗
由于数据中混杂了很多无效数据,需要对数据进行去重、空值解决、无效值解决等,可以参考官方给出的进行清洗。
FAQ直通车构建训练数据
需要结合官方给的广告静态数据、广告动态数据拼接处训练集数据,也就是拼接成和测试样本格式一致的训练样本,这个过程中还需要继续对数据进行清洗解决。
需要用到行转列的操作将操作记录的不同修改内容转变成列字段。曝光统计
对曝光文件进行统计分析,统计各个广告的曝光量,文件比较大假如大家电脑内存低于16G的话,建议对文件进行拆分读取,以免内存不足。
这里给的思路是按天进行统计,目标为预测某一天的曝光,所以可以按天拆分,按天统计。
这样就有了相应的label标签,和第二步的数据拼接结果对应起来即可以作为模型的输入和lable了。构建模型
这是比较关键的一步,我们需要决定使用什么模型,常用的有LR(Logistic Regression)、DNN、Factorization Machine、DeepFM等,说实话大葱哥对这些也不熟习,需要边学边弄。
这里面涉及了pctr的预估、竞价排名等知识。模型训练
模型构建好后即可以用训练数据和对应的label来对模型进行训练了,当然为了模型的自测,我们还需要对训练数据划分为两部分,可以按照8:2的比例划分,80%的用于训练、20%的用于测试。
根据测试的得分,需要调节模型的超参,或者者调换模型。这个过程是一个慢活,训练的数据可能较长,训练好可能还需要反复调整参数,以更好的优化模型。
当然这里我们为了更接近官方的评分标准,可以按照官方的标准写一个对应的评分算法,这样能使自己在训练时的分数能更接近官网成绩。测试数据
使用20%的数据进行测试,看成绩能否理想,假如不理想,就需要调整超参继续训练,或者者考虑更换不同的模型。预测官网样本数据
当测试结果自己满意时,即可以将官方样本作为输入,让模型计算结果了。
8.提交验证
将计算结果提交官方网站(一天只有三次提交机会,要珍惜啊),而后看官方的成绩能否理想,不理想的话,继续上面的步骤。
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » 腾讯广告算法大赛随手记4-全局思路