首页科技快讯净化评论区的Jigsaw有害评论过滤器, 每天接收超5亿次处理请求

净化评论区的Jigsaw有害评论过滤器, 每天接收超5亿次处理请求

来源：晰数塔互联网快讯时间：2021年02月19日 14:15

编者按：本文来自微信公众号“将门创投”（ID:thejiangmen），作者：让创新获得认可，36氪经授权发布。

From: VentureBeat；编译: Shelly

这个时代的网络环境鱼龙混杂，有时候，评论区但凡出现哪怕一条“有毒”的评论，都很有可能带歪节奏，使一场原本正常不过的讨论画风突变。

由Jigsaw和谷歌共同创立的Perspective AI团队开发了一项基于AI 的内容审核API，名为“Perspective”，它可以识别在线对话中的攻击性，识别任何粗鲁、歧视或可能导致某人离开讨论的言论。用户还能通过Jigsaw的有害评论过滤器来屏蔽有害评论。

试想，如果网络上的大量垃圾评论真能被识别出来，那么我们的互联网环境将更安全、更和谐。

针对键盘侠们的“重拳出击”，净网行动必须回以真正的“重拳”。

2017年，谷歌的反滥用技术团队和在谷歌母公司Alphabet旗下致力于解决网络欺凌和虚假信息的Jigaw发布了一个基于AI的内容审核API，名为“Perspective”，它被包括纽约时报、VoxMedia、openWeb和Disqus在内的多家媒体组织所使用。

最近，Jigsaw宣布：其内容审核Perspective API现在每天处理5亿次请求。

Jigsaw官网入口：https://jigsaw.google.com/

Perspective入口：http://perspectiveapi.com/#/

新颖的评分与过滤机制

目前，国内外检测垃圾评论的AI及应用有很多，Perspective受到青睐的原因与其新颖的模式不无关系。

针对网络评论，Perspective会给出一个0到100的评分，通过判断选定评论与“恶评”的相似程度，来自动定义某条评论被删的可能性有多大。

Tune: Jigsaw的有害评论过滤器

Perspective会对用户发布的评论即时打分，允许用户查看自己所发布评论的“攻击性”。

系统打分越高，评论的攻击性越强，读者可以根据系统打分过滤部分评论。比如，用户可以选择不浏览80分以上的“恶评”。

Jigsaw称，它的AI可以立即评估用户评论的攻击性，比任何关键字、黑名单都准确，也快于任何人工筛选。

当Jigsaw有害评论过滤器处于“full volume”时，用户可看见全部有害评论。

当Jigsaw有害评论过滤器处于“lowest volume”状态时，用户几乎看不到任何评论。

暗涌的偏见与仇恨

但是，Perspective的准确性真的有这么高吗？

曾经，Perspective火起来的时候，也受到过非议。一些审计人员称，Perspective并不能在各种人群中平等地缓和歧视和攻击言论。

牛津大学、艾伦·图灵研究所、乌得勒支大学和谢菲尔德大学的一项研究发现，Perspective API尤其难以应对那些借鉴或直接引用攻击性话语的言论。

据实验采用的一个专用数据库显示，Perspective的分类准确率只有15.6%到18.4%，能成功识别出66%的攻击语言，分辨出62.9%的针对“艺术家”和“资本家”这种不受保护群体的辱骂，例如，“艺术家是社会的寄生虫”和“所有资本家该死”等字眼。

研究显示，Perspective的缺陷还包括：它只能识别54%的“变形”后的垃圾言论，比如“queer”（对男同性恋的侮辱性词语）。但更多的拼写变化，如字母缺失、字符之间添加空格和用数字代替的单词拼写，就成为Perspective的识别盲区了。

随着去年展开的BLM运动如火如荼，软件测评和分析在种族问题上也有所侧重。

华盛顿大学于2019年发表的一项研究发现，比起“白人阵营的英语”(White-aligned English)，Perspective更有可能给“黑人阵营的英语”(Black-aligned English)贴上攻击性标签。

根据Perspective提供的来自黑人和白人用户的推文样本，分析者在他们的数据集中整理了方言和群组之间的相关性，以及Perspective的打分。分析者称，所有的相关性都是显著的，这表明所有数据集都存在潜在的种族偏见。

如何让Perspective正确认识偏见和仇恨？

面对Perspective API含有偏见与歧视的质疑，作为被纽约时报等媒体组织看好的AI筛选器，Jigsaw的公关反应迅速。在改善模型的种族偏见问题上，Jigsaw称其已经取得了进展。

2019年，Jigsaw发布了带有攻击标签和身份标签的评论和注释公共数据集。据悉，这也是目前最大的评论库公共数据集。

该数据集源自Jigsaw 2019年4月发起的一项竞赛，参赛者需要建立一个识别攻击性、并将偏见最小化的模型。

这个数据集的第一个版本包含了大约25万条标注身份的评论，评分者在评论中指出涉及性别、性取向、宗教、种族、民族、残疾和精神疾病的恶评。它的新版本又增加了近9000名评分者的个人注释——这些注释有效地教会了机器学习模型“攻击性”的含义。

但是，改进的数据集本身并不足以纠正检测模型中的偏差。最近，艾伦人工智能研究所(Allen Institute for AI)的研究人员在仇恨语言训练提出了解决词汇和方言失衡的方法。

论文入口：https://arxiv.org/pdf/2102.00086.pdf

其中，“词汇偏见”指的是将攻击性与特定词汇联系起来，譬如人们所说的脏话；而“方言偏见”则是将攻击性与语言变体的“标记”联系起来，如非洲裔美国人英语(AAE)。

研究人员称，即使是技术最先进的模型，也会在特定片段中不成比例地标记出带有攻击性的文本，而来自黑人的文本就首当其冲。

因此，要在语言检测模型中做到不冒犯任何种族的绝对公平，并非易事。

Jigsaw早期做过一个有趣研究：调查拥有不同背景和经历的注释者是如何根据攻击性对事物进行分类的。他们的目标是，探究一个人的生活经历在多大程度上会影响他们对攻击性的认知，并利用这一因素来改进和升级Perspective。研究人员希望将这一视角纳入之后的标签定义中。

“我们希望了解人们的经历会如何影响他们对不同程度恶评的看法。”Jigsaw产品经理Adesola Sanusi表示，“我们希望未来能够更有针对性地匹配个人与适合他们的背景数据。”

Jigsaw还在开发不确定性建模来支持Perspective，以便理解在某个特定的演讲片段中出现的错误。在不确定性建模的帮助下，如果演讲内容很可能被错误分类，Perspective将决定不予评级。

“毕竟，那些在网络上出言不逊的人，有很大一部分并不是真的想要攻击谁，可能只是因为他们在那天过得很糟。” Jigsaw主管Patricia Georgiou说，“Perspective的最初想法是尽可能帮助人们进行良好对话，实现彼此之间的相互联系。”

多模态和新语言的尝试

与AI系统不同的是，人类能够理解文本、视频、音频和图像在上下文中的含义。很多给定的文本和图像在分开考虑时似乎各自无害，但一旦组合在一起，就往往具备很强的攻击性。比如下面这些恶意表情包。

面对攻击性言论问题，多模态学习有望提供解决办法。

当被问及Jigsaw是否正在进行多模态研究时，Jigsaw工程师Lucy Vasserman表示，虽然Jigsaw已经评估了图像、视频和相关媒体的攻击性，但它偏向于把文本检测放在首要位置。

Vasserman说:“目前，文本检测是我们团队能够利用数字技术带来改变的最具影响力的方式。我们不反对冒险进入其他媒介，因为我们的技术是我们坚强的后盾。但我想说的是，就目前而言，文本是我们最关心的媒介，也是我们能够产生最佳影响的媒介。”

为此，Jigsaw在Perspective上训练了其他语言，帮助组织大规模在线对话，目前支持的14种语言包括了英语、西班牙语、法语、德语、意大利语和葡萄牙语。

Sanusi解释了向Perspective添加新语言的过程。“对于每种语言，我们都收集高质量的测试数据。这些数据来自含有目标语言的论坛，由对应国家的母语构成，”她说，“我们请人对语言的攻击性进行注解。然后我们收集更多的数据来建立多语言模型，并针对特定的目标语言进行微调、测试。”

当然，语言的使用在不同的人口、地区和文化中是不同的。但是，在Jigsaw目前使用的建模技术的帮助下，不同语种之间的界限往往比人们想象的要少。

“你可以瞬间拥有一整套国际语言，”Sanusi谈道，“我们的策略不是要为每个不同地区打造具体的模型，而是确保我们的数据是代表这些不同地区和人口的语言，这样一来，模型可以在多种情况下表现良好，即使这只是一个小的模型或只是模型集里的一种语言。”

开源与技术共享：Perspective的“人类命运共同体”展望

除了Perspective和2019年3月发布的评论过滤Chrome扩展，Jigsaw其他正在进行的项目包括一个名为Outline的开源工具（为新闻记者提供更安全的上网途径）、一种反分布式拒绝服务解决方案、劝阻潜在危险分子加入极端组织的方法，以及旨在减少警察暴力执法的虚拟现实工具SimSquad。

值得期待的是，Jigsaw的这些项目是免费的，Jigsaw首席运营官Dan Keyserling表示，这一计划短期内都不会改变。因为，Perspective运营方式的核心也在于尽可能的开源，向社会共享其所有的技术。

他说：“Perspective的使命是帮助世界上的人们培育开放社会，所以，目前我们所有的考虑都在于：如何产生最大的影响，以及如何进一步发展我们的技术。”

ref：

https://venturebeat.com/2021/02/08/jigsaws-ai-powered-toxic-language-detector-is-now-processing-500-million-requests-daily/

https://venturebeat.com/2019/03/12/alphabets-jigsaw-launches-chrome-extension-that-lets-you-filter-out-abusive-comments/

净化评论区的Jigsaw有害评论过滤器, 每天接收超5亿次处理请求

新颖的评分与过滤机制

暗涌的偏见与仇恨

如何让Perspective正确认识偏见和仇恨？

多模态和新语言的尝试

开源与技术共享：Perspective的“人类命运共同体”展望

ref：

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

净化评论区的Jigsaw有害评论过滤器, 每天接收超5亿次处理请求

新颖的评分与过滤机制

暗涌的偏见与仇恨

如何让Perspective正确认识偏见和仇恨？

多模态和新语言的尝试

开源与技术共享：Perspective的“人类命运共同体”展望

ref：

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包