首页科技快讯 2024 谷歌开发者大会：三句话不离 AI | 动察

2024 谷歌开发者大会：三句话不离 AI | 动察

来源：晰数塔互联网快讯时间：2024年05月28日 10:50

英伟达高级科学家Jim Fan认为谷歌做对了一件事，“他们终于开始认真努力将人工智能融入搜索框，”他表示，谷歌最强大的护城河是分销，“Gemini不必是最好的模型，就可以成为世界上使用最广泛的模型。”

I/O 大会（开发者大会）是谷歌一年一度的秀肌肉时刻，也是人工智能时代不容错过的大舞台。今日凌晨，新一届I/O 大会在谷歌加州总部开幕。据悉，本次大会结束后统计提到了 AI 共 121 次（包括文本的话实际应该还不止），全面展示了谷歌如何将AI技术融入其核心产品，从搜索引擎到移动操作系统，再到专用硬件，AI的应用无处不在。

特别是Gemini 1.5 Pro的发布，标志着谷歌在处理大规模数据和提升用户体验方面迈出了重要一步。此外，谷歌还推出了更轻量级的模型Gemini 1.5 Flash，以及进一步升级的开源模型Gemma 2，这些举措不仅展示了谷歌在AI技术上的创新，也彰显了其推动AI技术普及和应用的决心。

Gemini 全家桶迭代

Gemini 1.5 Pro是本次的重头戏。谷歌将Gemini 1.5 Pro的上下文长度从原有的100万tokens提升到了200万tokens，这一升级将极大地增强其数据处理能力，使得模型在处理更加复杂和庞大的数据时更加游刃有余。同时，谷歌还宣布Gemini 1.5 Pro将全面支持Workspace。

据悉，全新Gemini 1.5 Pro具有原生音频理解、系统指令、JSON模式等，能够使用视频计算机视觉来分析图像和音频的视频，这使其具有人类水平的视觉感知。使用深度神经网络，Gemini 1.5 Pro可以以超人的精度识别图像中的物体、场景和人物。此外，谷歌宣布将Gemini 1.5 Pro面向全球开发者开放。

同时，为了快速响应与成本效益，谷歌还推出更轻的模型Gemini 1.5 Flash，其在摘要生成、聊天应用、图像和视频字幕、以及从长文档和表格中提取数据等方面表现出色，主要面向广大开发者群体。

值得一提的是，谷歌将进一步升级开源模型Gemma 2。据了解，Gemma 2模型的高效设计使其所需的计算量少于同类模型的一半，使更广泛的用户能够轻松部署并享受成本效益。

谷歌还宣布为Gemini平台引入旅行规划功能。该功能将结合个人信息和公共出行信息，帮助用户进行航班、酒店等度假行程的预订和规划。谷歌表示，Gemini可以根据用户的提示，快速挖掘出航班时间和酒店预订等具体细节，在短短几秒钟内制定出合适的度假计划。与手动规划一次旅行可能需要数小时、数天甚至数周的时间相比，Gemini几乎可以瞬间完成这一过程。

谷歌表示，新的旅行计划功能将在未来几个月内登陆Gemini Advanced平台。

搜索引擎升级

谷歌相信人工智能是搜索的未来。为此，谷歌开始向搜索引擎“动刀”。

谷歌即将向美国和世界各地的用户推出“AI概述”——在搜索结果的顶部将出现人工智能生成的摘要，而这只是人工智能如何改变搜索的开始。

谷歌搜索主管Liz Reid说：“我们从生成式人工智能中看到的是，谷歌可以为您进行更多的搜索。”过去几年，她一直在研究人工智能搜索的所有部分。“它可以从搜索中完成很多艰苦的工作，所以你可以专注于你想完成事情的部分，或者你觉得令人兴奋的探索部分。”

AI概述，旨在让用户大致了解查询的答案，以及获取更多信息的资源链接。谷歌正在使用其Gemini人工智能来弄清楚你在问什么，无论你是在打字、说话、拍照还是拍摄视频。然而，Reid说，并非每次搜索都需要这么多人工智能，也不是每次搜索都会得到它。“如果您只想导航到URL，您可以搜索沃尔玛，然后前往walmart.com。添加人工智能并不真正有益。”她认为Gemini最有帮助的地方是在更复杂的情况下，你要么需要进行大量搜索，要么甚至一开始就得到一个大概的预览。

对于本地搜索，有了Gemini，“我们可以做一些事情，比如‘在比肯山步行半小时内找到波士顿最好的瑜伽或普拉提工作室，评分超过四星级。’”也许，她继续说，你也想知道哪些对第一次来的人有最大的帮助。对于用户来说，这可能意味着一种与互联网互动的全新方式：更少的打字，更少的标签，以及更多的搜索引擎聊天，获得信息将更加高效。

针对竞对推出 Project Astra 和 Veo

针对昨日OpenAI发布的GPT-4o，谷歌也发布了对标的大模型Project Astra。

据介绍，谷歌是在 Gemini 的基础上开发了智能体原型，它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用，从而更快地处理信息。通过语音模型，谷歌还强化了智能体的发音，为智能体提供了更广泛的语调。这些智能体可以更好地理解他们所使用的上下文，并在对话中快速做出响应。

另外，为了对抗 Sora，谷歌开发的AI视频生成软件Veo，同样支持使用文本生成视频，并且能创建超过60s的1080P视频，同时还能使用多种电影风格和更好地理解自然语言。

谷歌表示，创作者在使用Veo时，可以使用各种电影拍摄术语来指导Veo达到想要的视觉效果，如“延时摄影”和“风景航拍”，减少调整提示词的时间。另外，Veo还支持扩展视频的功能。如果创作者对现有的视频长度不满意，可以让Veo自动扩展视频，或者补充提示词来生成更长的视频。

目前谷歌已经开放了试用通道，未来其还准备将Veo的一些功能添加到YouTube的短视频模块中。

Android 15

毫无疑问，人工智能是谷歌在本次大会上的重中之重。在移动操作系统上，Android 15得到了Gemini的助力，包括它即将提供的设备端功能。

当前的Android 15预发布版带来了新功能，如更多的应用程序内相机控制、部分屏幕共享和响度控制，以及对PDF、NFC和卫星连接支持的改进。谷歌移动操作系统的新增内容侧重于生产力，用户隐私和安全，通信和性能等。

除了融合谷歌Gemini大模型，Android 15还新增了多项功能，比如弱光增强功能，这是一种新的自动曝光模式，它与夜间模式相机创建静态图片的方式不同，后者会通过多张合成来提升夜景表现。弱光增强的重点在于提升相机预览界面的效果，以便用户更好地在弱光环境下取景构图，或者在光线昏暗的环境下扫描二维码。

目前，Android 15开发人员和测试版仅在某些Google Pixel设备上可用，从Pixel 6到Pixel 8 Pro，以及Pixel Fold和Pixel Tablet。

第六代TPU问世

TPU（张量处理器）是谷歌为机器学习定制的专用芯片，发端于十一年前，在谷歌诸多产品和服务中都能看到其身影，为谷歌AI帝国的建立立下了赫赫之功。

谷歌表示，全新的Trillium 能够以更快的速度训练新一代 AI 模型，同时减少延迟和降低成本。与上一代 TPU v5e 相比，Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍，高带宽内存 ( HBM ) 容量和带宽提高了一倍，芯片间互联 ( ICI ) 带宽也提高了一倍。作为迄今为止谷歌最具可持续性的 TPU，与其前代产品相比，能效提高了超过 67%。

结语

时隔一天，谷歌紧随对手 OpenAI，密集地推出了一系列AI产品或服务。在此，谷歌不仅展示了其在AI技术上的突破，更彰显了其将AI融入日常生活各个方面尤其是生产力的决心。

对此，英伟达高级科学家Jim Fan发表了自己的观后感，他认为谷歌做对了一件事，“他们终于开始认真努力将人工智能融入搜索框，”他表示，谷歌最强大的护城河是分销，“Gemini不必是最好的模型，就可以成为世界上使用最广泛的模型。”

发布于：上海