首页科技快讯深夜狙击ChatGPT，Google 最强AI 亮相，但背后还藏了一个杀手锏

深夜狙击ChatGPT，Google 最强AI 亮相，但背后还藏了一个杀手锏

来源：晰数塔互联网快讯时间：2024年12月12日 07:35

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《深夜狙击 ChatGPT，Google 最强 AI 亮相，但背后还藏了一个杀手锏》

就在刚刚，Gemini 2.0新模型用一记重拳暴击OpenAI。

先说结论，Gemini 2.0 Flash性能较上代有所长进，硬刚Claude 3.5 Sonnet，但今天更重要的亮点或许是基于它打造的AI Agents（智能体）。

这也得到了Deepmind CEO Demis Hassabis的强力背书：

「2025年将是AI智能体的时代，Gemini 2.0将是支撑我们基于智能体工作的最新一代模型。」

纵观今天发布的智能体项目，Google的野心昭然若揭。

以最接地气的方式渗透用户日常生活的每个场景，而当每个入口都成为可能，真正的通用型AI助手或许才刚刚开始。

关注AI第一新媒体，率先获取AI前沿资讯和洞察

Google年底最强AI王炸来了，但还藏了一手？

不是Pro，却胜似Pro，是对Gemini 2.0 Flash的最好评价。

据官方介绍，原本主打效率和速度的Flash型号性能有所增强，不仅在多项基准测试功能超越了Gemini 1.5 Pro，而且响应速度也提升了2倍。

不过仔细看看具体的基准测试数据，倒也不用太过兴奋。Gemini 2.0 Flash在MMLU-Pro、MATH、GPQA等各方面基准测试成绩都有所提升，但得分和Claude 3.5 Sonnet差不多。

当然，今天亮相的只是Flash型号，估计Google手里的2.0 Pro才是真正的杀手锏。

与此同时，2.0 Flash还新增了许多值得关注的新功能。

除了支持图像、视频和音频等多模态输入，2.0 Flash现在还支持多模态输出，比如原生生成的图像与文本结合，以及可操控的多语言文本转语音（TTS）音频。亦或者，它还可以原生调用工具，如Google搜索等。

现在，Gemini 2.0 Flash现已在Gemini API在Google AI Studio和Vertex AI提供给开发者。而Gemini用户可以通过PC端访问Gemini 2.0 Flash。

明年初，Gemini 2.0预计将推送给更多Google产品。

博主@legit_rumors在体验Gemini 2.0 Flash过后，认为其得到的结果和Gemini-Exp-1206很相似，但要比后者要更快更强，在编程和逻辑推理能力上也大幅取胜。

网友@slow_developer让gemini-2.0-flash-exp写两段关于草莓「Strawberry」的诗歌，要求段落中却不能出现「e」，新模型的表现堪称满分。

值得一提的是，Google 2.0正是采用了Google六代TPU——Trillium训练而成，以下是Trillium与前代产品的关键改进：

训练性能提高超过4倍

推理吞吐量提高最多3倍

能源效率提升67%

每个芯片的峰值计算性能提高了4.7倍

高带宽内存（HBM）容量翻倍

芯片间互连（ICI）带宽翻倍

单个Jupiter网络结构中集成了10万个Trillium芯片

每美元的训练性能提高了2.5倍，每美元的推理性能提高了1.4倍

作为全球搜索引擎霸主，Google也发布了基于Gemini 1.5 Pro的新功能Deep Research。

类似于当下大火的深度AI搜索功能，它结合了Google的搜索专长和Gemini的高级推理能力，能够自动完成复杂的研究任务。

想象一下，假如你是一名研究生，需要准备机器人技术报告，关注自动驾驶车辆传感器趋势，需研究技术优缺点及未来发展，这通常耗时良久且需要在多个网页间交叉参考，寻找资料链接。

但现在你只需输入研究问题，Deep Research就会制定研究计划并进行多轮网络搜索，最终生成一份包含关键发现的综合报告。这份报告不仅条理清晰，还包含原始来源链接，方便用户进一步探索。

该工具目前已在Gemini Advanced平台上线，仅支持英文版本，适用于PC端，预计将在2025年初推出移动应用。

据Google AI Studio的高级产品经理Logan Kilpatrick的体验反馈，Deep Research在单次查询中就浏览分析了多达145个不同网站。

Google CEO Sundar Pichai还在公开信中写道，此前推出的AI Overviews将集成Gemini 2.0，从而提升复杂问题处理能力，本周已经进行有限测试，预计明年推广，并扩展至更多国家和语言。

会写代码、能打游戏、懂浏览器，Google新AI智能体到底强在哪？

赶在2024年的尾声，Google终于端出了AI智能体大招。

毕竟，Gemini 2.0 Flash的原生用户界面操作功能，以及其他改进，如多模态推理、长上下文理解、复杂指令的跟踪与规划、组合函数调用、原生工具使用和延迟性能的优化，所有这些功能协同工作，天然就适合AI智能体的发挥。

今天，Google发布了多款AI智能体，有早已在I/O大会上亮相的Project Astra，也有适用于浏览器的Project Mariner，还有专为开发者打造的AI编程智能体Jules。

基于Gemini 2.0构建的Project Astra具备多语言对话能力，能够更好地理解不同口音和不常见的词汇。

此外，Project Astra的记忆能力也有所改进，现在具备最多10分钟的会话内记忆，能够记住更多用户与其过去的对话，从而能够提供更加个性化的服务。

并且，通过新的流媒体功能和原生音频理解，该Project Astra还可以以接近人类对话的延迟进行语言理解。基于此，我们不妨期待一下，Project Astra能早日融入到AI智能眼镜等设备上。

第二个则是事先张扬的浏览器智能体Project Mariner。

具体来说，它能够理解并推理浏览器屏幕上的信息，包括像素和网页元素（如文本、代码和图片），然后通过Chrome扩展程序来利用这些信息帮你完成任务。

WebVoyager基准测试是一个用于评估多模态网络智能体性能的测试，主要是通过一系列复杂的基于视觉的任务，测试智能体处理图文输入、理解自然语言指令和在网站上执行动作的能力。

而Project Mariner在前者的测试中达到了83.5%的高分成绩，但在完成任务时的准确度和速度仍有待提高。

别问现在效果怎么样，问就是主打一个未来可期。

考虑到隐私风险问题，Project Mariner也没含糊，在执行某些敏感操作（如购买物品）之前，它会向用户请求最终确认。

第三个则是专为开发人员打造的AI编程智能体Jules。

Jules支持直接集成到GitHub工作流中，专治各种Bug，与其盯着满屏的Bug发愁，不如直接把问题甩给Jules。

还记得Deepmind前不久发布的基础世界模型Genie 2吗？

开局一张图，它就能生成一个3D视频游戏场景。Google也使用Gemini 2.0构建了智能体，帮助用户在视频游戏的虚拟世界中进行导航。

类似于今年爆火的AI游戏搭子，它能够通过用户游戏屏幕上的动作来给出下一步操作建议，这对于模拟经营类游戏来说，堪称刚需。

除了探索虚拟世界中的整体能力，Google还想将Gemini 2.0的空间推理能力应用于机器人身上，开发能在现实世界帮忙的智能体。

至于老生常谈的安全问题，Google这次也算是做足了功课。Gemini 2.0 Flash和一系列智能体产品，将与测试人员、外部专家以及内部的责任与安全委员会（RSC）合作，进行广泛的评估。

附上公开信全文

来自Google和Alphabet首席执行官Sundar Pichai的致辞：

信息是人类进步的核心。这是我们过去26年致力于使命的原因——组织全球信息，并使其变得可访问和有用。我们也因此不断推动人工智能的前沿，以便跨所有输入方式组织信息，并通过任何输出方式让信息真正为你所用。

去年12月，当我们推出Gemini 1.0时，这正是我们的愿景。Gemini 1.0和1.5作为首个原生多模态的模型，在多模态和长上下文的应用上取得了显著进展，能够理解文本、视频、图像、音频和代码等多种信息，并处理更多信息。

现在，成千上万的开发者正在使用Gemini进行开发。这不仅帮助我们重新构想了所有产品——包括7款拥有20亿用户的产品——并创造了新的产品。NotebookLM便是多模态和长上下文能力为用户带来便捷的一个很好的例子，也正因如此，许多人喜爱它。

在过去一年中，我们一直在投资开发更具「代理性」的模型，即这些模型能更深入地理解你周围的世界，提前多步思考，并在你的监督下为你执行任务。

今天，我们很高兴迎来新一代的模型——Gemini 2.0，它是我们迄今为止最强大的模型。通过多模态的新进展——如原生图像和音频输出——以及原生工具使用，我们能够构建新的AI智能体，使我们更接近普遍助手的愿景。

今天，我们将Gemini 2.0交到开发者和信任的测试人员手中，并加速将其应用于我们的产品，首推Gemini和搜索引擎。今天起，所有Gemini用户都可以体验Gemini 2.0 Flash实验模型。同时，我们还推出了名为「深度研究」的新功能，利用高级推理和长上下文能力，作为研究助手，探索复杂话题并为你撰写报告。目前，Gemini Advanced中已上线这一功能。

没有任何产品像搜索引擎一样被AI技术深刻改变。我们的AI Overviews已服务超过10亿用户，帮助他们提问全新的问题类型，迅速成为我们搜索引擎最受欢迎的功能之一。

接下来，我们将把Gemini 2.0的先进推理能力引入AI Overviews，处理更复杂的主题和多步骤问题，包括高级数学公式、多模态查询和编程。我们本周已开始进行有限测试，计划明年初全面推广。同时，我们将继续把AI Overviews带到更多国家和语言地区。

Gemini 2.0的进展，得益于我们十年来在AI创新领域的全栈投资。

它依托像Trillium这样的定制硬件，Trillium是我们的第六代TPU。TPU为Gemini 2.0的训练和推理提供了100%的支持，而Trillium现在已开放给客户，让他们也能基于这一硬件进行开发。

如果Gemini 1.0是为了组织和理解信息，那么Gemini 2.0则是让信息更加有用。我迫不及待地想看看这个新时代带来什么。

Sundar