首页科技快讯对话响应速度接近人类，OpenAI新模型可免费用了 | 动察

对话响应速度接近人类，OpenAI新模型可免费用了 | 动察

来源：晰数塔互联网快讯时间：2024年05月28日 14:44

一方面，GPT-4o的免费开放使用为广泛的用户群体提供了接触高端AI技术的机会，另一方面，对于ChatGPT Plus的订阅用户而言，他们可能会感到自己支付的订阅费用没有得到预期的独家优势。

在人工智能领域，OpenAI一直以其创新和突破性技术引领着行业的发展。今日凌晨，该公司再次证明了其在AI技术前沿的地位，发布了全新的GPT-4o模型以及一个功能强大的新ChatGPT模型。

这些新模型不仅能够处理文本、音频和图像，而且在对话响应速度上接近人类水平，标志着人机交互迈入了一个新的时代。GPT-4o的发布，特别强调了其多模态能力，预示着更自然、更智能的交互方式即将成为现实。

有什么不一样

GPT-4o是一个多模态大模型，支持文本、音频和图像的任意组合输入，并能生成文本、音频和图像的任意组合输出。据介绍，GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的两倍，但成本仅为GPT-4 Turbo的一半，视频、音频功能均得到改善。

据悉，GPT-4o的响应速度在最快232毫秒内，平均响应时间为320毫秒，与人类的对话响应时间相似，此外，GPT-4o在非英语文本方面的性能也有显著提高。

OpenAI表示，GPT-4o的功能“将迭代推出”，但其文本和图像功能将于今天开始在ChatGPT中推出。与一年前发布的 GPT-4 模型有所不同，GPT-4 模型是为那些支付 OpenAI 每月 20 美元订阅费的ChatGPT Plus 用户发布的。在当前版本中，许多之前仅限付费用户使用的功能，比如记忆和网页浏览，现在也向免费用户开放了。

更值得一提的是，作为新模式的一部分，ChatGPT的语音模式即将推出新功能。该应用程序将能够充当像人类一样的语音助理，实时响应并观察你周围的世界。当前的语音模式更加有限，一次响应一个提示，并且只使用它能听到的内容。OpenAI的CEO奥特曼认为，这种快速、智能、有趣且自然的交互方式，将使得与电脑的对话变得更加自然，预示着一个令人兴奋的未来。

猎豹移动董事长兼CEO、猎户星空董事长傅盛总结了新模型的优势：“（OpenAI）通过一个桌面的App让你能够方便地把图片文档上传然后让大模型去帮你分析；发布了一个语音助手，由于使用了端到端大模型技术，所以这次语音助手的体验超越了Siri，也远超于我们以前用过的所有的各种AI助手，不仅能够去感知情绪实时知道对话人的每一句话，并且在该插话的时候插话。”

ChatGPT Plus 用户成了大冤种？

一方面，GPT-4o的免费开放使用为广泛的用户群体提供了接触高端AI技术的机会，另一方面，对于ChatGPT Plus的订阅用户而言，他们可能会感到自己支付的订阅费用没有得到预期的独家优势，因此在互联网产生了争议。

尽管 GPT-4o 无需订阅即可使用，但依赖更多的提示访问权限和新功能的访问权限的使用者，还是无法那么快与ChatGPT Plus分道扬镳。与非订阅者相比，ChatGPT Plus 订阅者在必须等待或切换到功能较弱的模型之前，被允许发送 GPT-4o 的提示数量是前者的五倍。因此，如果用户想要大量使用提示功能，订阅是必要的。

除了有限的 GPT-4o 访问权限外，非付费用户还获得了整体用户体验的重大升级，其中包括以前仅为付费客户开放的多个功能。非付费用户还可以使用 ChatGPT 的网页浏览工具和记忆功能，并且可以上传照片和让聊天机器人分析文档。

从本周开始，ChatGPT 的 Mac 桌面应用程序也将率先向 Plus 订阅者提供。该应用程序使用户在桌面上与 ChatGPT 交互的体验更加无缝。例如，用户可以截取当前正在查看的任何网页的屏幕截图，并让聊天机器人生成可见信息的快速摘要。虽然预计 Mac 应用程序将更广泛地向免费用户提供，但该版本发布的具体时间表仍不明确。OpenAI 还计划在今年年底前推出其桌面应用程序的 Windows 版本。

所以，如果用户只是想尝试使用 GPT-4o 一段时间，并且不介意等待最新功能，那么将不需要订阅 ChatGPT Plus。

GPT-5 缺席，大模型向何处去

当地时间5月10日，OpenAI就事先表示，发布会上不会推出GPT-5，也不会发布搜索引擎产品，令一些网友颇为失望，OpenAI的发展失速让多数人始料未及。

奥特曼在直播活动后的一篇博客文章中反思了OpenAI的轨迹。他说，该公司的最初愿景是“为世界创造各种益处”，但他承认，愿景已经发生了变化。OpenAI因没有开源其高级人工智能模型而受到批评，奥特曼似乎想要表示，该公司的重点已经转移到通过付费API向开发人员提供这些模型，并让这些第三方进行创建。“相反，现在看起来我们将创建人工智能，然后其他人将使用它来创建各种我们都从中受益的令人惊叹的东西。”

对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事，傅盛今日早间发短视频对此进行评价：“所有国内人工智能从业者都在熬夜等着大洋彼岸放核弹，但是没想到核弹没有放，却掏出了一堆摔炮。”傅盛表示，这样的评论虽然是一句玩笑话，“但比较让人失望的是这次OpenAI没有发布GPT-5,连GPT-4.5也没有看到，反而是发布了GPT-4o，就是把一系列的引擎给结合在一起，比如图片、文字、声音，这样你就不需要来回去切换了。”

国盛证券则认为，GPT-4o是迈向更自然的人机交互的重大进步，新功能带来了崭新的多模态交互能力，通过新的端到端模型实现了体验上的新突破，有望在各类终端实现用户体验的最大化，利好智能终端Agent、机器人等方向。

傅盛指出，一方面，我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为，每一个创业者都应该去好好地做人工智能应用，大模型的能力当然会不断地迭代，但最终能够把大模型用好的还是应用。另一方面，如果不计成本的累参数，提高所谓的大模型能力，这条路肯定是容易遇到困难的，目前看起来GPT-5可能还要难产一段时间。

金沙江创投主管合伙人朱啸虎此前就在采访中坦言：“今年就可以看出大模型本身是不是好的商业模式，多少OpenAI的用户会因为价格差异迁移到Google的Gemini——OpenAI 20美金一个月，Gemini 10美金一个月。我们美国团队已经有一半人切换到Gemini，一部分是因为价格，另外一部分是因为Google的生态。”

结语

随着技术的不断发展，我们期待OpenAI能够继续推动人机交互的边界，并为用户带来更加丰富和便捷的智能体验。同时也不得不进一步思考，在大模型发展即将见顶后，下一步该怎么走，诸如如何平衡技术创新与商业可行性，如何确保广泛的用户接受度，以及如何在激烈的市场竞争中保持领先，这也是OpenAI及整个AI行业都需要深思的问题。

发布于：上海