OpenAI“秘密武器”曝光:能识别AI生成内容,准确率达99%
近日,据多家外媒爆料,OpenAI 其实掌握一种方法,能够相当可靠地检测到是否有人使用 ChatGPT 完成作业或者撰写研究论文。可尽管人们普遍担心学生依靠生成式 AI 作弊,可该公司却一直没有将解决方案对外公开。
据知情人士披露和《华尔街日报》看到的内部文件内容,该项目在 OpenAI 内部陷入了长达两年的激烈争论,而且早在一年之前就已做好了发布准备。其中一位知情人士表示,“其实只差临门一脚了。”
在实际决策过程中,OpenAI 员工一直在该公司当初宣称的透明度承诺,和吸引并留住用户的愿望之间摇摆不定。因为在对忠实 ChatGPT 使用者群体开展的一项调查中,该公司发现近三分之一的用户会因为反作弊技术的出现而不再继续使用。
OpenAI“秘密武器”被曝光:能识别哪些是 AI 写的内容,准确率高达 99.9%
OpenAI 一位发言人表示,公司担心该工具可能会对非英语母语人士等群体产生格外重大的影响。她解释道,“我们正在开发的文本水印方法在技术层面极具前景,但也存在着重大风险,目前我们正在研究替代方案并权衡这些风险。在我们看来,考虑到问题的复杂性以及对 OpenAI 之外更广泛生态系统的潜在冲击,我们有必要采取更为审慎的处理方法。”
支持该工具发布的员工,包括帮助开发该工具的员工都曾在内部表示,与这种技术可能带来的益处相比,上述观点显得微不足道。
生成式 AI 能够在几秒钟内根据一条提示词,免费输出完整的作业甚至是研究论文。教师和教授们纷纷表示,他们迫切需要官方帮助来打击这种滥用 AI 技术的行为。
纽约市高中英语与新闻学教师 Alexa Gutterman 表示,“这已经成了大问题,跟我共事的每一位老师都在讨论这种趋势。”
民主与技术中心(一家关注技术政策的非营利组织)最近开展的一项调查发现,59% 的初中和高中教师明确发现有学生在使用 AI 帮助完成作业,这一比例较上学年增长了 17 个百分点。
OpenAI 公司 CEO Sam Altman 和首席技术官 Mira Murati 也参与了关于反作弊工具的讨论。有知情人士透露,Altman 对该项目给予肯定,但并未推动其发布。
《华尔街日报》所属的 News Corp 新闻集团也与 OpenAI 建立了内容许可合作伙伴关系。
给 AI 生成的内容打“水印”,学生党求放过
ChatGPT 的底子是一套 AI 系统,该系统能够预测句子中接下来最可能出现什么单词或者语句片段(被称为 token)。OpenAI 正在讨论的这款反作弊工具会略微改变 token 的选取方式,依靠这种变化创建一种被称为“水印”的模式。
该水印对于人眼来说无法察觉,但却可以通过 OpenAI 的检测技术被识别出来。检测器会给出一个分数,用以衡量整个文档或者部分文档内容由 ChatGPT 生成的可能性。
根据内部文件,在 ChatGPT 创建了足够多的新文本之后,水印机制的有效性高达 99.9%。
斯坦福大学研究员 John Thickstun 所在的团队也在开发类似的 AI 文本水印方法,他表示“明天太阳原地爆炸的概率,都比学生们不用 AI 写文章的几率大。”
但也有一位知情的 OpenAI 员工表示,他们担心这些水印可以通过简单的技术清除,比如由谷歌将文本翻译成另一种语言,之后再翻译回来;或者让 ChatGPT 在文本中添加表情符号,再将其手动删除。
公司内部普遍认为,这款检测器究竟该交给谁使用也是个大问题。如果使用的人太少,那它就缺乏现实意义;而如果广泛对外开放访问权限,恶意人士可能会破解其中采用的水印技术。
OpenAI 员工还讨论过将检测器直接提供给教育工作者或者外部企业,以帮助学校识别由 AI 撰写的论文和抄袭作品。
谷歌也曾开发过一款水印工具,可以检测由其 Gemini AI 生成的文本。这款工具名为 SynthID,目前处于 beta 测试阶段,尚未广泛对外开放。
OpenAI 也有工具可以确定图像内容是否由其文本到图像生成器 DALL-3 所输出,而且已经在今年春季开放了测试。知情员工表示,该公司其实优先考虑的是音频和视觉水印,而非文本。毕竟考虑到美国已经迎来又一个选举年,前者的危害明显更大。
用蝙蝠侠“埋雷”,教师与学生斗智斗勇
2023 年 1 月,OpenAI 发布了一种算法,旨在检测由包括其自家模型在内的多种 AI 模型编写的文本,但成功率只有 6%。七个月之后,OpenAI 决定将其撤回。
还有其他由外部企业和研究人员开发的类似 AI 输出文本检测工具,不少教师表示他们已经试用过这些工具,但有时候不仅无法检测到由先进大语言模型生成的文本、还经常会产生误报。
在佐治亚州一所私立高中作者的教育行业 AI 顾问 Mike Kentz 表示,起初,学生们“以为老师找到了某些神秘魔法,能够发现他们使用 AI 的行为。但到了年底……他们终于发现其实老师根本就没有可靠的确认方法。”
也有部分教师鼓励学生使用 AI 来帮助研究或者为当前思路提供反馈。但问题在于,如果学生纯靠 ChatGPT 这样的应用程序完成作业,那他们自己甚至都不知道学了些什么。
去年,犹他大学政治学教授 Josh McCrain 给学生们布置了一项写作作业,其中也掺杂了某些难以辨认的短文本片段,要求学生在作业中引用蝙蝠侠的内容。而如果他们把作业直接粘贴进 AI 对话框,这部分说明也会被纳入其中。
果然,少数学生提交的作业中就以毫无意义的方式引用了蝙蝠侠。McCrain 还在进一步调整写作作业,希望保证更多关注 AI 不太熟悉的时事素材,同时恳求学生不要把作业完全交给 AI 处理。“我一直在努力向学生们强调这一点:这是你自己的学习过程,不能偷懒。”
到底该不该用的争论已持续多年
知情人士指出,关于水印工具的讨论早在 OpenAI 于 2022 年 11 月推出 ChatGPT 之前就开始了,而且长期成为冲突和对立的根源。这款工具由计算机科学教授 Scott Aaronson 开发而成,他在得克萨斯大学两年休假期间一直在 OpenAI 从事安全工作。
2023 年初,OpenAI 公司联合创始人之一 John Schulman 在一份共享 Google 文档中概述了该工具的优势和缺点。OpenAI 高管则决定在采取进一步行动之前,先征求更多人的意见。
在接下来的一年半时间里,OpenAI 的管理层反复讨论这项技术,并希望通过数据分析来决定到底要不要对外发布。
一份内部文件显示,OpenAI 于 2023 年 4 月委托开展的一项调查指出,全球民众以四比一的比例支持 AI 检测工具的推出。
而就在同月,OpenAI 又对 ChatGPT 用户进行了调查,发现 69% 的受访者认为由作弊检测技术导致的误判会令 AI 滥用“罪名”失控。近 30% 的人还强调,如果 ChatGPT 决定部署水印机制,那么他们将转投不部署水印的其他竞争对手,至少会减少对 ChatGPT 的使用。
OpenAI 公司内部还一直存在担忧,即反作弊工具可能会损害 ChatGPT 的写作质量。但知情人士表示,OpenAI 今年早些时候进行了一项测试,发现水印并不会影响 ChatGPT 的性能。
根据内部文件,参与测试的员工总结道:“既然我们确认了水印不会降低输出质量,恐怕就很难继续反对文本水印机制的落地了。”
今年 6 月初,OpenAI 高层团队和研究人员再次开会讨论了此项目。小组一致认为水印技术的效果很好,但去年 ChatGPT 用户调查的结果仍然至关重要。据了解会议情况的人士介绍,人们表示公司应该研究其他尚未证实,但可能在用户群体中激发争议较少的新方法。
内部文件显示,与会者们认为 OpenAI 应当在今年秋季之前制定一项计划,尝试引导公众对于 AI 透明度的看法,包括围绕这个方向推动新的立法行动。
6 月这场会议的摘要明确提到,“如果做不到这一点,我们作为负责任行为者的信誉就会受到威胁。”
原文链接:
https://www.wsj.com/tech/ai/openai-tool-chatgpt-cheating-writing-135b755a
本文来自微信公众号:AI前线,作者:Deepa、Matt,编译:核子可乐
相关推荐
OpenAI“秘密武器”曝光:能识别AI生成内容,准确率达99%
OpenAI推出AI图片检测工具,识别准确率高达 98%
“跨国视频造假窝点”曝光!帮AI揪出99%换脸视频
腾讯与福佑卡车联手!打造首个数字货运大模型,OCR识别准确率提升超20%
一数科技上海车展发布3款新品,AR车门识别准确率高于99%
Meta将在Facebook、Instagram等标记AI生成内容,确保用户知情
ChatGPT “克星”出现,OpenAI 重磅发布全新 AI 鉴别工具,网友吐槽:失败率太高啦
99%的零售人对生成式AI保持观望,他们将来“这”观望
算法攻破人脸识别「口罩」难题,两天落地千人小区准确率达97%
英伟达、甲骨文投资的AI独角兽,想抢跑OpenAI?
网址: OpenAI“秘密武器”曝光:能识别AI生成内容,准确率达99% http://www.xishuta.com/newsview123461.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94790
- 2人类唯一的出路:变成人工智能 17932
- 3报告:抖音海外版下载量突破1 17448
- 4移动办公如何高效?谷歌研究了 17211
- 5人类唯一的出路: 变成人工智 17041
- 62023年起,银行存取款迎来 9976
- 7网传比亚迪一员工泄露华为机密 7942
- 812306客服回应崩了 12 6340
- 9顶风作案?金山WPS被指套娃 6120
- 10山东省大数据局副局长禹金涛率 6103