首页科技快讯 AI集体出现幻觉

AI集体出现幻觉

来源：晰数塔互联网快讯时间：2024年08月22日 14:56

康奈尔大学最近牵头，发起了一项关于AI幻觉的研究，结果让我非常有共鸣……

平时处理业务、找人找信息、写东西……我自己用GPT-4o和Perplexity.AI的时间，大致是一半一半。

但是，仍然发现，即便GPT已经浓眉大眼地列出了信息来源、网站链接，真的细看，照样可以驴唇不对马嘴。

LLM大概率会有幻觉问题，而搜索引擎又呆板无趣缺乏创造，两者的结合，会不会是取长补短呢？

这是前仆后继的AI Search公司想要去解决的问题，追求信息的准确，和追求创造，天然存在矛盾。

马斯克的Grok，也出过比较严重的幻觉问题，结果X上老马直接说“我认为整个世界就是虚拟的，真实本身是种幻觉。”

哪怕已经到了2024年的下半年，如果想纯用AI进行内容输出，仍然要花50%的时间和AI作斗争，另外50%的时间用来校验幻觉。

GPT-4o展示了联网搜索，但牵扯到学术问题，答案依然会失真。

效率显著提升了，麻烦也随之转移了……

之前写《ChatGPT最感谢谁？50位影响世界的AI科学家》这篇文章时，各大模型全部出现了非常强的幻觉问题，非英语环境常见的人名和对应关系，出错概率非常大。

而国产模型则因为墙的原因，对于海外科学家和论文存在着非常大的盲区——比如，我想罗列“杨立昆”的最新言论，结果给我采集到了“杨立在昆明”的系列讲话……

很多时候，居然还是人工快一点。

因为我本身是长期的乐观派，也相信AGI，对于目前AI出现的阶段性问题，觉得都很正常。

只是，我非常好奇边界在哪里、该怎么解决？

康奈尔最新研究表明，从谷歌的 Gemini 到 Anthropic 的 Claude，再到OpenAI持续挤牙膏的GPT-4o ，所有生成式 AI 模型都会产生幻觉。

说得直白点，大模型全部是不可靠的叙述者——有时输出很搞笑，有时却有严重问题。

不过，并非所有模型都以相同的速度编造谎言。它们散布的谎言类型，取决于它们接触的信息来源。

康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构 AI2 的研究人员，最近进行了一项研究，试图通过将 GPT-4o 等模型与法律、健康、历史和地理等主题的权威来源进行事实核查，来对幻觉进行基准测试。

他们发现，没有一个模型在所有主题上都表现特别好，而幻觉最少的模型之所以如此，部分原因是它们拒绝回答本来会出错的问题。

康奈尔大学博士生、这项研究的合著者赵文婷说：“我们工作中最重要的结论是，我们还不能完全信任模型生成的输出……目前，即使是最好的模型，也只有大约35%的时间能够生成无幻觉的文本。”

学术界也曾尝试探究模型的“真实性”，其中包括一个 AI2 下属团队的尝试。但赵文婷指出，这些早期测试向模型，提出了一些可以在维基百科上轻松找到答案的问题。

考虑到大多数模型，都是在维基百科数据上进行训练的，显然这些都是“送分题”。

为了使他们的基准更具挑战性——也为了更准确地反映人们向模型提出的问题类型——研究人员在网络上确定了“没有维基百科参考”的主题。

他们测试中超过一半的问题，无法使用维基百科来回答，涉及的话题包括文化、地理、天文学、流行文化、金融、医学、计算机科学和名人。

在他们的研究中，研究人员评估了十几种不同的流行模型，其中许多都是去年发布的。

除了 GPT-4o，他们还测试了多个开源模型，例如Meta 的 Llama 370B、Mistral 的Mixtral 8x22B 以及 Cohere 的Command R+，以及调用API的模型，比如Perplexity 的Sonar Large（基于 Llama）、Google 的Gemini 1.5 Pro 和 Anthropic 的Claude 3 Opus。

尽管OpenAI、Anthropic和其他大型生成式 AI 公司声称幻觉的产生率较低，但结果表明，模型产生的幻觉其实还是半斤八两。

GPT-4o 和 OpenAI 更老的产品GPT-3.5 在基准测试中，正确回答问题的百分比方面表现大致相同。（GPT-4o 略胜一筹）。

OpenAI 的模型总体上幻觉最少，其次是 Mixtral 8x22B、Command R 和 Perplexity 的 Sonar 模型。