竞赛 > 创意应用类 > Human or Robot?
Human or Robot?

Human or Robot?

354 支队伍
100% 完成

决赛

2016-12-17 21:00:00
2016-12-23 14:00:00

竞赛背景

2016年第一季度Facebook发文称,其Atlas DSP平台半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 2016上半年,AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在,这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据,50%以上的项目均存在作弊嫌疑;不同项目中,作弊流量占广告投放5%95%不等;其中垂直类和网盟类媒体的作弊流量占比最高;PC端作弊流量比例显著高于移动端和智能电视平台。

广告监测行为数据被越来越多地用于建模和做决策,例如绘制用户画像,跨设备识别对应用户等。作弊行为,恶意曝光,网络爬虫,误导点击,甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声,给模型训练造成了很大影响。

本题目需要基于给定的数据,建立一个模型来识别和标记作弊流量,去除数据的噪声,希望能吸引对具体算法和技术感兴趣的参赛者,从而更好的使用数据,使得广告主的利益最大化。

竞赛简介

问题定义: 与传统的电视广告、户外广告采买相比,流量作弊一直以来被看作互联网广告特有的弊病。随着网络数据技术的发展进步,流量作弊也呈现出规模化、机器化、产业化的趋势。方式包括通过人工、机器制造虚假流量,或者通过技术手段窃取他人流量,偷梁换柱。反作弊需要强大的数据支撑,包括丰富的数据存储,大量的项目积累和经验积累,广告不同环节的数据触及等。该题目需要参赛者基于IPcookie,设备ID,访问时间序列,UA信息分布等行为属性来建立一个模型,区分正常用户曝光记录与作弊行为记录,并进行标记。

难点分析:

    精确识别作弊流量

        难点一: 作弊者不断模拟人的行为,现在作弊手段可以控制分时间段的IP访问量,使用正常的UA,控制在页面曝光的时间,及访问的路径等。

        难点二: 需要专家领域知识,使用机器学习模型解决问题,通常需要对该问题所属领域具有专家级的知识。

        难点三: 该问题可以转化为多种不同问题来解决,例如可以将其作为一个有监督的二分类问题来解决,也可以转化为无监督的聚类问题,也可以使用图算法来解决。


竞赛交流

进入微社区
加入QQ群:217722636

竞赛奖励

类型:自定义

奖励:

奖金:

         一等奖:2万元/  1

         二等奖:1万元/  3

培训:进入复赛的队伍将获得AdMaster提供的在线技术培训

岗位:冠军获得者可直接获得AdMaster offer,前10名可以直接免笔试初试,直接进入复试环节;

作品提交

初赛期间线上提交结果,采用线上A/B榜评分

复赛期间线上提交结果,采用线上A/B榜评分; 并在复赛截止前线上提交方案说明文档,由本赛题评审专家结合线上成绩与方案说明文档评选出5支优胜队参与决赛现场答辩!

线上结果文件格式以及方案说明文档要求,参见“提交要求”;

登录参赛