首页 科技快讯 把大语言模型打造成赛博裁判需要几步?DeepMind 说,只需要两步

把大语言模型打造成赛博裁判需要几步?DeepMind 说,只需要两步

来源:晰数塔互联网快讯 时间:2024年10月28日 18:05

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的

现在上网的环境,属于是时刻准备着:要么准备吵架辩论,要么准备反击。

不过「真理越辩越明」嘛,只是辩论得来来回回,想要真的辩出道理来,需要一个裁判。

平台偶尔会当这个裁判,就是裁决的方法比较简单粗暴:小黑屋,启动。

那么,人工智能说不定可以呢?

关注AI第一新媒体,率先获取AI前沿资讯和洞察

基于大语言模型的AI来当这个裁判有不少优势:懂语言、能存住上下文不流失语境,而且任劳任怨,决不撂挑子。

DeepMind就开发了这样一个模型:哈贝马斯机器。它的原理是收集所有个人的意见,由AI来汇总和生成群组意见,然后不断迭代。

英国人工智能安全研究所,用哈贝马斯机器做了一项测试:召集了450个参与者,分为75组。每个小组里有一个「书记员」,负责整理组内所有人的观点,撰写报告。同时,所有人的发言会被输入到一个语言模型当中,让模型来生成报告,拿去和书记员的报告做对比。

做这个哈贝马斯机器,DeepMind用了一款稍早前的语言模型Chinchilla,发布于2022年,采用了自回归语言模型架构。

尽管只有700亿的参数量,却有1.4万亿个token,表现比GPT-3还强。其中一个是生成模型,经过微调后,它用于生成小组的发言报告。

另一个部分是用来评估报告的个性化奖励模型(PRM),哈贝马斯机器通过使用一种独特的函数来结合使用PRM,确保报告的公平性。整个哈贝马斯机器还可以整合每个成员的反馈,来修订报告。

DeepMind自己也做过次测试,一次是在众包平台上,召集了5500人。后来担心众包平台上的样本不够多样化,又选了两百个志愿者做了第二轮。几次的结果都表示,由哈贝马斯机器撰写的报告更受他们的欢迎。由AI生成的报告,逻辑更清晰、信息量更大、更擅长捕捉大多数人的观点。

而且,AI会一轮一轮接收反馈和新的意见,针对性地修订报告;再有新反馈就再修订,不厌其烦,直到无限接近所有人的共识。

牛津大学认知科学教授、前DeepMind员工克里斯托弗·萨默菲尔德参与了哈贝马斯机器的研究,他认为,哪怕面对同一件事,每个人的意见都是微妙的,而模型能够在高维度的层面聚合所有意见。

这样一来,就不难理解为什么取名叫「哈贝马斯机器」。哈贝马斯是知名的社会学家、哲学家,他曾经提出过「沟通理性」的理念:除了以收获个人利益为目标的沟通,还有一种沟通是以达成共识和理解为目标的。

于尔根·哈贝马斯

国庆时,我们发过用AI帮忙去美团当外卖判官的体验,不少网友在评论区说,以后这活儿就让AI干了。相比于人,模型在「公平公正」上,似乎更得人心。

不过,用AI的利弊很明显:虽然得到一个看似公正的评判,但这个公正更倾向于「和稀泥」。

如果说买家和卖家之间的纠纷,是各自为了各自的利益,不肯让步。那判官、评审员的加入,则是考验是否能够形成共识,从而决定下一步行动。

事实证明,达成共识是相当困难的。即便AI提供了一种方法,而已可以通过一轮又一轮的提炼、反馈,来不断接近共识。但是想要真正实践起来相当困难,有照片、有视频,不同的人看来还是有不同的判定,更别提故意搅混水的。

哈贝马斯提出这个概念,也被学术界诟病过于理想主义,在实践中根本落地不了。开发这个模型时,DeepMind的团队给高龄90岁的哈贝马斯发了邮件,询问他的意见。

笑死,根本没回复。开发人员说,「显然,他不用电子邮件。」

相关推荐

把大语言模型打造成赛博裁判需要几步?DeepMind 说,只需要两步
大语言模型真的需要这么多层吗?
博弈论如何让大语言模型更聪明?
第四范式发布式说大模型 戴文渊:大模型未必需要通才
Hugging Face 大语言模型优化技术
黄铁军:全球可能只需要三个大模型生态
谷歌DeepMind喜事连连:刚推出全能AI模型Gato,又收获GAN之父
DeepMind创始人专访:十年内出现AGI?
为什么大语言模型没能“杀死”心理学?
大语言模型能拯救互联网大厂吗?

网址: 把大语言模型打造成赛博裁判需要几步?DeepMind 说,只需要两步 http://www.xishuta.com/newsview127426.html

所属分类:行业热点

推荐科技快讯