Sem grande surpresa, a IA dominou os anúncios do Google I/O 2025: atualizações dos modelos Gemini 2.5, Veo 3 e Imagen 4, AI Mode para o motor de busca... Google coloca a IA e Gemini no centro de seus produtos.
A família Gemini 2.5
Gemini 2.5 Pro, lançado em março passado, agora conta com um modo de raciocínio aprimorado chamado Deep Think. Este modo permite ao modelo dedicar mais ciclos de computação a tarefas complexas, especialmente em matemática ou programação, e explorar várias hipóteses antes de formular uma resposta.
Gemini 2.5 Flash, revelado em abril passado, é um modelo de raciocínio híbrido, que permite aos desenvolvedores ativar ou desativar a reflexão, projetado para oferecer um equilíbrio ideal entre custo, desempenho e latência. Google anunciou melhorias em termos de raciocínio, gestão de código, processamento multimodal e compreensão de contextos ampliados, bem como uma redução do consumo de tokens de 20 a 30%, segundo suas avaliações internas.
Os 2 modelos beneficiam de novas funcionalidades: uma saída de áudio nativa via uma API para uma experiência conversacional mais natural, medidas de segurança avançadas e as capacidades de uso do computador do agente IA Project Mariner.
Implantação do AI Mode
Enquanto os AI Overviews, apresentados na edição I/O 2024, beneficiaram recentemente de uma atualização, a Google anuncia a implantação nos Estados Unidos do AI Mode, para questões que requerem uma exploração profunda, comparações e um raciocínio nuançado.
Alimentado por um modelo Gemini 2.5 otimizado, com acesso a fontes e informações em tempo real, AI Mode baseia-se em uma técnica de "query fan-out" ou distribuição de consultas. A IA lança várias pesquisas simultâneas sobre diferentes assuntos relacionados à pergunta feita, utilizando diversas fontes de dados, e então reúne os resultados dessas pesquisas para fornecer uma resposta estruturada com links para as páginas web citadas. Os internautas podem, se desejarem, refinar suas pesquisas com consultas de acompanhamento.
O Project Starline evolui e torna-se Google Beam
Google Beam utiliza tecnologias avançadas, como exibição de campo luminoso, captura volumétrica via seis câmeras, áudio espacial e processamento em tempo real pela IA, para criar uma representação em 3D do interlocutor. Esta abordagem permite conversas mais realistas, com uma renderização a 60 frames por segundo e uma precisão aumentada dos movimentos de cabeça, sem necessidade de dispositivos portáteis como capacetes ou óculos. Inicialmente, esta tecnologia estava confinada a protótipos volumosos, mas foi miniaturizada para integrar-se em sistemas mais compactos, desenvolvidos em parceria com a HP.
A funcionalidade de tradução vocal em tempo real, que a Google também integrou no Meet, permite conversas multilíngues fluídas, mantendo a voz, o tom e as expressões do usuário.
