大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关
编者按:本文来自微信公众号“机器之心”(ID:almosthuman2014),36氪经授权发布。
参与:张倩、蛋酱
Kaggle 一项竞赛的讨论页面显示,一个名为「Bestpetting」的冠军团队因作弊被 Kaggle 取消了参赛资格,团队成员还包含一位 Grandmaster。这位 Grandmaster 被永久禁赛,因为有证据表明,他是该作弊活动的关键人物该团队通过作弊的方式获取了测试集的答案,而且为了让分数看起来更加真实,他们只用了其中一部分答案。作为最著名的数据科学竞赛平台,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一平台上已经举行了三百多场各种类型的数据竞赛。很多公司、政府研究机构都会把自己的数据放上来,开放给全球范围内的参赛者,让他们帮助自己建模型。为了提高参赛积极性,他们也会设置一定的奖金,用来奖励模型精度最高的几个队伍,有些竞赛的奖金甚至可以高达百万美元。
于是乎,Kaggle 源源不断地吸引了成千上万的开发者来参加竞赛,许多数据科学家在 Kaggle 上投入了大量的时间和精力。在诸如机场安全、卫星数据分析这类的任务上,不乏数十年经验的优秀团队加入比赛。
在机器学习爱好者们心中,Kaggle 是一个灯塔般的存在。
为了激励参赛者不断挑战新的难题,Kaggle 设置了一个排行榜,将参赛者分为「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四个等级。
其中,「Novice」、「Contributor」等级最低,注册就能成为「Novice」,添加一些资料、探索一下 Kaggle 并与社区进行一些交流就能升级为「Contributor」。
但从「Expert」开始,参赛者就要实打实地拿出成绩了。要晋升到竞赛的「Grandmaster」,你需要至少获得 5 枚金牌。违反公益初衷的作弊行为此次被曝作弊的团队参与的是一项预测宠物领养速度的竞赛。研究表明,宠物被领养的速度与它们在网上的照片、描述等信息存在相关性。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加「可爱」,从而提高被领养的速度,减少「安乐死」的数量。
1. 他们通过作弊的方式获取了私有测试数据的领养速度答案(可能是通过爬取 Kaggle 网站);2. 这些数据和答案被编码、模糊处理并混入一个 ID 字段,伪装成他们名为「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;
3. 在处理数据时,他们混进来的 ID 字段被解码,答案在预测阶段可以被检索到;
4. 他们只使用了其中一部分被编码的答案,以使分数看起来更加「真实」;
5. 这些经过处理的代码被精心隐藏并混淆在许多嵌套的函数和代码层下,故意被设计成高度不可读和平淡无奇的样子。
一位 Kaggle 网友「Benjamin Minixhofer」最早发现了其中的猫腻,在尝试将这项比赛的几个优秀方案转化为生产系统的过程中,他发觉了冠军方案似乎不太对劲,随后就将这项违规行为报告给了 Kaggle 组委会,组委会也立马展开了相关调查。
在事件曝光后,这位举报者小哥撰写了一个详细文档来说明该团队的作弊行为:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665
他说:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 Kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」
曾经的 Kaggle Grandmaster 被终身禁赛
确认作弊行为后,Kaggle 组委会取消了冠军团队的资格,目前已经重新修改了排行榜。不过当时颁发给冠军团队的 10000 美元奖金已经覆水难收。
这件事的问题在于,「预测宠物领养速度」本是一个公益性的赛题,初衷也是挽救小动物的生命。在这样的前提下,团队仅仅为了经济利益而采取作弊手段,更令人不齿。
此前也发生过获奖者被取消资格的事情,但都是在比赛前。这是第一次在比赛结束 9 个月之后才被挖出来的作弊行为,也是 kaggle 平台创立以来,第一次有人因为作弊被彻底取消参赛资格。
被举报团队中的 Kaggle Grandmaster 同时也在硅谷一家开源软件公司 H2O.ai 任数据科学家职位。这个「Former」也是耐人寻味。这家公司主要的产品是一款数据科学和机器学习开源平台,叫做「H2O」,为许多世界 500 强企业提供人工智能产品解决方案。
事发后,公司已经作出了回复,称「已进入调查程序,此人与我司不再有任何关系」。
先是被禁赛名誉扫地,接着又面临被公司开除的命运,有人开始同情这位 Grandmaster,觉得这种做法未必太过严苛,惩罚的公平性也有待商榷。也有人因为 Kaggle 的严厉做法而被圈粉,觉得这么做是理所当然。而且 ta 认为,欲戴王冠,必承其重,Grandmaster 本身就对遵守规则负有更大的责任。但也有人爆料称,这位 Grandmaster 在 Kaggle 比赛中出现不端行为已经不是第一次了。在去年的一项谷歌地标检索竞赛中,他们也有类似的行为并被取消了参赛资格。
吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136目前,这个帖子已被删除,但从评论区我们依然可以大体还原争论的焦点所在:Kaggle 在这项比赛中出现了数据泄漏问题,该团队发现了这一漏洞并充分利用,以此为优势取得了很好的结果。
数据泄漏问题在各种数据竞赛问题中屡次出现,有些团队发现之后会将这一问题报告给组委会。如在 Kaggle 的某个 NLP 比赛中,一些团队的准确率达到了 100%(NLP 领域出现这种准确率是非常不可思议的)。有人发现了泄漏的数据集并将其合并提交了上去。
但也有团队会利用其作为秘密武器取得高分。对此,批评者一致认为这种做法是不道德的,对之后的竞赛和参赛者都没有借鉴意义,也不利于科学的进步。
所以摆在参赛者面前的只有两个选择:要么退赛,要么利用漏洞。」由此可见,这种作弊行为的不断出现不只是参赛者个人道德的问题,赛事的设计者也负有不可推卸的责任。参赛者的道德参差不齐、难以把控,只有在赛事设计上多下工夫才是解决问题的根本方法。参考链接:
https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436
相关推荐
大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关
中文自动转SQL,准确率高达92%,这位Kaggle大师刷新世界纪录
美大学生比赛中打乱港标语 暴雪再发布半年禁赛处罚
全民战「疫」的后方战场:科技力量支持下的网络安全阻击战
英雄联盟选手非法投注后打假赛获利 被禁赛两年
曼城欧战被禁赛,“有钱不让花”的欧洲足球豪门们都有哪些“做账攻略”?
二度冲击港股市场,鲁大师这次能否成功敲钟?
韩国棋手 AI 作弊后续:犯罪性质恶劣,刑期一年
直播+,玩测评鲁大师意欲何为?
鲁大师首日暴涨219%,也难免沦为下一个美图
网址: 大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关 http://www.xishuta.com/newsview16102.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94953
- 2人类唯一的出路:变成人工智能 19253
- 3报告:抖音海外版下载量突破1 18966
- 4移动办公如何高效?谷歌研究了 18490
- 5人类唯一的出路: 变成人工智 18351
- 62023年起,银行存取款迎来 10127
- 7网传比亚迪一员工泄露华为机密 8182
- 8顶风作案?金山WPS被指套娃 7096
- 9大数据杀熟往返套票比单程购买 7045
- 10五一来了,大数据杀熟又想来, 6865