首页科技快讯 Facebook公司：如何删掉960万句“脏话”？

Facebook公司：如何删掉960万句“脏话”？

来源：晰数塔互联网快讯时间：2020年05月15日 11:29

编者按：本文来自微信公众号“亲爱的数据”（ID:deardata），作者：谭婧，36氪经授权发布。

互联网上每天产生多少句脏话？这是一个谜。但是，从Facebook公司2020年第一季度的《透明度报告》里，可以窥到一些面貌。

自2018年5月以来， Facebook公司以季度为周期发布报告，解释其辛苦的幕（zi）后（jin）工（tou）作（ru）。

在2020年第一季度，公司更是成功删除960万条“脏话”内容。这是一个创纪录的数字，高于2019年第四季度的570万条，也超过了2019年第三季度的700万条。

2020年第一季度的全球公众卫生事件，人们有不少坏情绪。

“脏话”是简称，直白的理解是，偏激、仇视性话语（Hate Speech）。民间脏话、方言脏话、描述部分人体器官、人身攻击、种族歧视、性别歧视大抵都包括在内，如果有没有想到的，还望海涵。

每天，打开手机APP，就看见键盘侠“口吐芬芳”，令人大倒胃口。然而，互联网上脏话的量级，人工删除是删不过来的，而且还会误判。

Facebook公司的方法是，用人工智能技术狙击。

但凡审查，就会有漏查。Facebook公司《透明度报告》有一个缺陷，就是它没有提漏查的程度。

透明与公开，是与公众沟通的高明手段，蠢货只有闭嘴这一招。Facebook公司虽然没有满分，但也提供了“榜样”。

让我们看到真善美的存在，也要看到假恶丑如何被干掉。

在Facebook公司第一季度删除的960万个帖子中，软件系统检测到88.8％（在用户看到信息并举报之前）。这表明该算法用机器标记了850万个“脏话”帖子，比上一季度的460万个增长了86％。

2020年第一季度，除了病毒蔓延，“脏话”也在蔓延。

Mike Schroepfe，自2013年3月以来一直担任Facebook公司的首席技术官。他借《透明度报告》发布的机会，重点打了一轮人工智能技术的广告，宣传了该公司自然语言处理技术的进步。

他说：“我们的语言模型变得更大，更准确，更细微了。能够发现细致微妙的东西。”

可惜，Schroepfer并没有解释说明这些系统审查的精确程度，只是说Facebook在部署系统之前对其进行了广泛的测试（测试机器误判的情况）。

毕竟一个把正常表达识别错误的机器，也很让用户恼火。

回忆诗人顾城的段子。

Mike Schroepfe引用了新报告中的数据，这些数据表明，尽管在最近的25 - 130万条中，用户更经常地对删除内容的决定提出申诉（有可能是骂骂咧咧习惯了，突然被删，很是不服气），但后来执意恢复的帖子数量有所减少（习惯了）。

Facebook的数据并未表明仇恨言论在其算法网络中漏失了多少。该公司的季度报告估计了Facebook规则禁止的某些类型的内容的发生率，但没有“脏话”内容。新闻官宣显示，自2019年夏天以来，暴力帖子数量有所下降。Facebook公司“仍在制定一项全球指标”。

缺失的数据掩盖了社交网络的脏话言论的真实规模。

西雅图大学副教授凯特琳·卡尔森（Caitlin Carlson）说道：“与Facebook庞大的用户网络以及用户对令人不安的内容的观察相比，删除的帖子数目（960万条）看起来太少了。“

教授认为，960万条“脏话”，这一数据还不够真实？

无独有偶，卡教授在2020年1月份发布了一项实验结果。她和一位同事收集了300多个Facebook帖子（样本），这些帖子明显违反了规则，实验人员用服务工具进行了举报。追踪结果显示，最终只有大约一半的帖子被删除。

卡教授这一实验结果，在挑战Facebook。同时，她也发现，同样是“口吐芬芳”，算法对种族歧比在歧视女性方面更为严格。不知道Facebook高管桑德拉看后作何感想。

Facebook表示，对算法找到（标记）的内容与用户报告的处理相同。流程上确定是直接删除，还是警告处理。可能流程上要流转到下一环节，人工审核者。（或者仍由软件判定，视情况而定。）

这时候，要谈谈人工审核员工的苦楚了。

2020年5月，Facebook公司同意支付5200万美元与内容审查团队的员工达成和解。原因很惊人，审查帖子导致他们患上了精神创伤，已获法庭鉴定。外媒The Verge之前详细报道了这一消息。

消息原文：“Facebook承认内容审核会给员工造成巨大的损失，这一次，是具有里程碑意义的承认。Facebook同意向现职和前任审核人员支付5200万美元，以补偿他们因工作出现的心理健康问题。

在美国圣马特奥高等法院提出的一项初步和解中，Facebook公司同意支付赔偿金，并在他们工作期间给与更多帮（tong）助（qing）。”

天天看这些脏话的人，都受了内伤。当然，这得算工伤。

在“剑桥门”事件后，审核报告是Facebook公司透明度程序的一部分，这一程序还包括聘请一个新的外部专家小组（有没有研究脏话的专家？），该小组有权推翻该公司的审核决定。

讲道理，只有董事会才是公司最高权力机构。

公司协调外部力量参与的力度很大。毕竟罚金有点高，这样下去，扎克伯格就会比亚马逊公司的贝佐斯穷多了。

（“剑桥门”事件，脸书认罚50亿，当然是美金。）　卡教授继续与Facebook公司正面硬刚（我还挺欣赏她的执着）。她表示，Facebook公司的披露似乎表明该公司可以自我监管，但报告有缺陷。

她说：“要与公司进行对话，我们需要数据。”

当被问及为何不报告“脏话”言论泛滥情况时，Facebook公司发言人指出，该报告的衡量标准“正在缓慢扩展，以覆盖更多的语言和地区，以考虑到文化背景和个别语言的细微差别” 。

定义和检测“脏话”是Facebook和其他平台面临的最大社会和技术挑战之一。

在全球多元文化背景下，即使是人类分辨内容，也是需要花一番功夫的。举个例子，有抖音号教青岛方言表扬人用“赤丝”，请自行体（bai）会（du）一下。

自动化是很棘手的，因为人工智能距离人类对文本的理解还有很长的路要走，理解文本和图像共同传达的微妙含义的算法的研究才刚刚开始。

Schroepfer说道：“机器学习算法在语言学研究的帮助下，Facebook已经升级了检测算法。许多高科技公司正在对其处理语言的软件系统（例如谷歌的搜索引擎）进行改造，提高用算法解决诸如回答问题或澄清歧义等语言问题的能力。”

他强调：“（这是）重大改进。”

Schroepfer还明确指出，这些改进并不能使技术达到完美。

《透明度报告》透露出，在内容审查和审核方面，Facebook重兵布防人工智能。脏话会影响社交网络的根基，人工智能再昂贵也要用起来。Facebook表示，它已经创建了超过10000个仇恨语音模因（模因是许多人在互联网上相互发送的东西，如视频，图片或短语）的集合，这些模因结合了图像和文本，并激发新的研究。