不出所料,AI主导了Google I/O 2025的公告:更新了Gemini 2.5、Veo 3和Imagen 4模型,搜索引擎的AI Mode... Google将AI和Gemini置于其产品的核心。
Gemini 2.5系列
Gemini 2.5 Pro在今年三月推出,现在配备了一种称为Deep Think的增强推理模式。此模式允许模型在数学或编程等复杂任务中投入更多的计算周期,并在提出答案之前探索多个假设。
Google 2.5 Flash在四月揭晓,是一种混合推理模型,允许开发人员激活或关闭思考模式,旨在在成本、性能和延迟之间提供最佳平衡。Google宣布在推理、代码管理、多模式处理和广泛上下文理解方面进行了改进,并根据其内部评估减少了20%到30%的令牌消耗。
这两个模型都具有新功能:通过API提供的原生音频输出,可实现更自然的对话体验,先进的安全措施以及Project Mariner AI代理计算机使用能力。
AI Mode的部署
在I/O 2024大会上展示的AI Overviews最近得到了升级,Google宣布在美国部署AI Mode,用于需要深入探索、比较和细致推理的问题。
AI Mode由优化的Gemini 2.5模型提供支持,能够访问实时源和信息,依赖于“query fan-out”或查询分发技术。AI同时在与所提出问题相关的不同主题上启动多次搜索,使用多种数据源,然后汇总这些搜索结果以提供带有超链接的结构化回答到引用的网页。如果用户愿意,可以通过后续查询来细化搜索。
Project Starline演变为Google Beam
Google Beam利用先进技术,如光场显示、通过六个摄像机进行的体积捕捉、空间音频和AI实时处理,创建与对话者的3D表示。这种方法允许更真实的对话,以每秒60帧的速度渲染,并提高了头部运动的精确性,无需使用头盔或眼镜等可穿戴设备。最初,该技术局限于大型原型,但现已缩小以融入更紧凑的系统,这些系统是与HP合作开发的。
Google还将实时语音翻译功能集成到Meet中,实现流畅的多语言对话,同时保持用户的声音、语气和表达。
