全球首个大规模虐童图像数据库,标记15万图像、20类信息,自动判断图片是否违法
本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,36氪经授权发布。
去年3月份,韩国N号房一事被曝光,黑产集团用裸照威逼利诱女性、幼童,对受害者实施性剥削的产业链终于公之于大众,在Telegram上的聊天室发布这些性剥削画面供会员观看并收取会费,66名与N号房事件有关人士被捕,主犯也最终被判入狱。
韩国警方所掌握线索的被害女性多达74人,其中16人为未成年人,最小年龄受害者为年仅11岁的小学生。
以N号房为代表的性侵事件涉事人数之庞大,韩国并非孤例,Telegram也绝不是窝藏黑色产业链的唯一技术平台。每天,无数无法找到来源的虐童视频、图片被上传至互联网,并跨国进行交易。
找到这些隐藏在照片背后的犯罪分子,除了追踪技术,还需要各国法规及定则程度的一致性。目前,由于不同国家和地区对这类敏感图像和视频分类的方式很不相同,不同国家查获的内容很难共享,存在大量重复工作,受害者也非常难以定位搜寻。
标记15万数据,英国分析师团队建立儿童性虐图像元数据库
一个分析师团队正在尝试建立起一个儿童性虐图像元数据库,在不同国家共享,以打破这种僵局。
在英国剑桥郡,互联网观察基金会办公室(Internet Watch Foundation’s office in Cambridgeshire,下称IWF)建立起了一只21 人团队,他们每天都会花费数小时浏览包含儿童性虐待的图像和视频。
仅去年一年,该团队就标记出了 153,383 个带有儿童性虐待图像链接的网页,一个庞大的数据库正在逐渐建立。
而这只是第一步,IWC的最终目的是,希望这个数据库可以在国际上共享,并在数据库的基础上训练智能算法,自动归类相关违禁图片,以阻止虐童图片的全球扩散。
为了达到目的,这个21人的团队每天都在经受常人无法忍受的“痛苦”。除了浏览大量虐待、暴力、黄色视频和图像,发现照片或视频片段时,IWF的数据分析师还需要对其进行评估和标记。到目前为止,这些分析师主要会检查相关音视频材料属于ABC三个等级中的哪一种。这些分组主要基于英国的法律和儿童性虐待的量刑指南中广泛规定的虐待类型。例如,最严重的类别 A 中的图像包括严重的针对儿童的犯罪,使用这些分类可以计算被判有罪的人应被判刑多长时间。除了确定性虐待内容是否属于英国的三个群体之外,其分析师现在还在他们的报告中添加了多达 20 条不同的更详细信息。
打破各国打击性虐犯罪数据孤岛
目前,全球性虐图片和视频量级仍在增加。去年,非营利性国家失踪和受虐儿童中心收到了2140 万份来自科技公司的虐待内容报告,美国法律要求这些公司报告他们发现的内容。这是有记录以来最多的一年,报告包含 6540 万张图片、视频和其他文件。
尽管虐待儿童材料的报告有所增加,但面临的一大挑战是世界各地不同的报告流程和标准。由于方法的不同,很难全面了解在线儿童性虐待的真实规模。总部位于美国的非营利组织国际失踪和受虐儿童中心 2018 年的一项法律审查发现,118 个国家/地区拥有“足够”的儿童性虐待物质法律,62 个国家/地区的法律不充分,16 个国家/地区没有。一些法律不健全的国家没有定义儿童性虐待,其他国家没有研究技术如何用于犯罪,还有一些国家没有将虐待内容音视频材料定为犯罪。
另外,由欧盟资助的国际警务组织国际刑警组织和 ECPAT International(一系列民间社会组织)进行的研究发现,比较有关儿童性虐待内容的信息存在“重大挑战”,这阻碍了寻找犯罪嫌疑人的努力。受害者。2018 年 2 月的报告说: “这种情况因使用不同的分类方法来归类受害者特征和受害经历而变得复杂,这使得研究之间无法进行有意义的比较。”
将图像与各国法律自动匹配,判定图片是否违法
IWF希望通过这个数据库,来消除各国的一些差异。该组织构建了名为 Intelligrade 的哈希软件,以自动将图像和视频与澳大利亚、加拿大、新西兰、美国和英国的规则和法律相匹配。这一变化应该意味着减少重复的分析工作,并使科技公司更容易优先处理严重的滥用图像和视频。
各国根据图像中发生的情况和所涉及儿童的年龄对图像施加不同的权重。IWF将所有照片和视频都被赋予了一个哈希值,本质上这是一个代码,然后将其与世界各地的科技公司和执法机构共享。这些哈希值可以直接用于检测和阻止再次上传到网络的已知虐待暴力内容。
IWF的秘密武器是元数据。这是关于数据的数据——它可以是图像中包含的内容、人员、方式和时间等精细信息。
元数据是调查人员的强大工具,因为它使他们能够发现人们行为中的模式并分析其更多可能。元数据的最大支持者之一是侦查,这比具体的图片信息更有价值。
休斯说,IWF创建的数据库中为每个图像和视频创建了相关的元数据量。查看的每个新图像或视频都可以比以往任何时候进行更详细地进行评估。“我们决定是否会提供关于描述年龄的颗粒度、在描述图像中发生的事情以及确认性别方面的颗粒度,”休斯说。
IWF 希望其这一数据库和智能系统能够帮助解决各国联合打击性虐视频传播的一些问题。IWF通讯主管艾玛·哈迪说,之前的学术研究侧重在法律方向的努力——各国努力制定相同的禁止儿童性虐待的法律,这是一个非常难以实现的政治挑战。“从数据库和技术入手,能够填补法律协调方面的巨大空白,”哈迪说。IWF 现在正在研究更多国家,以推广这一数据库和技术工具。
“我们相信能够更好地共享数据,让更多人以有意义的方式使用数据,而不是所有人都只在自己的小孤岛中工作。”
素材来源:
https://www.wired.com/story/new-system-crack-down-child-sex-abuse-images/
https://www.iwf.org.uk/?gclid=Cj0KCQjw0K-HBhDDARIsAFJ6UGjWoAKz0X6M2l-eCUbAw_PTW3Cm6JJNvrvFFOdceOw3VhxnkjHaHxUaAjkQEALw_wcB
相关推荐
全球首个大规模虐童图像数据库,标记15万图像、20类信息,自动判断图片是否违法
爆火之后一地鸡毛,现象级图像APP是否难逃「月抛」宿命?
谷歌自动重建了果蝇完整大脑:40万亿像素图像首度公开
潮科技 | 面向工业条形码阅读器应用的低成本高性能图像传感器
论文研究“AI预测性取向”:化妆等因素并不影响判断
过去五年里,AI 图像生成技术走了多远?
三组数据看懂CMOS图像传感器市场
我们是否需要视频搜索?
性虐视频正成为施暴者帮凶,技术公司如何精准“拆弹”,防止受害者视频二次传播
情绪识别,一个价值 1000 亿元的行业
网址: 全球首个大规模虐童图像数据库,标记15万图像、20类信息,自动判断图片是否违法 http://www.xishuta.com/newsview46818.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94938
- 2人类唯一的出路:变成人工智能 19132
- 3报告:抖音海外版下载量突破1 18849
- 4移动办公如何高效?谷歌研究了 18375
- 5人类唯一的出路: 变成人工智 18234
- 62023年起,银行存取款迎来 10114
- 7网传比亚迪一员工泄露华为机密 8160
- 8顶风作案?金山WPS被指套娃 7088
- 9大数据杀熟往返套票比单程购买 7037
- 10五一来了,大数据杀熟又想来, 6755