Fără mari surprize, IA a dominat anunțurile de la Google I/O 2025: actualizări ale modelelor Gemini 2.5, Veo 3 și Imagen 4, AI Mode pentru motorul de căutare... Google plasează IA și Gemini în centrul produselor sale.
Familia Gemini 2.5
Gemini 2.5 Pro, lansat în luna martie, este acum echipat cu un mod de raționament îmbunătățit numit Deep Think. Acest mod permite modelului să dedice mai multe cicluri de calcul pentru sarcini complexe, inclusiv matematică sau programare, și să exploreze mai multe ipoteze înainte de a formula un răspuns.
Google 2.5 Flash, dezvăluit în luna aprilie, este un model de raționament hibrid, care permite dezvoltatorilor să activeze sau să dezactiveze reflecția, conceput pentru a oferi un echilibru optim între cost, performanță și latență. Google a anunțat îmbunătățiri în raționament, gestionarea codului, procesare multimodală și înțelegerea contextelor extinse, precum și o reducere a consumului de tokeni cu 20-30%, conform evaluărilor interne.
Cele două modele beneficiază de noi funcționalități: o ieșire audio nativă printr-un API pentru o experiență conversațională mai naturală, măsuri de securitate avansate și capacități de utilizare a calculatorului agentului IA Project Mariner.
Implementarea AI Mode
În timp ce AI Overviews, prezentate la ediția I/O 2024, au beneficiat recent de o actualizare, Google anunță implementarea în Statele Unite a AI Mode, pentru întrebări care necesită o explorare aprofundată, comparații și raționament nuanțat.
Alimentat de un model Gemini 2.5 optimizat, cu acces la surse și informații în timp real, AI Mode se bazează pe o tehnică de „query fan-out” sau distribuție de interogări. IA lansează mai multe căutări simultane pe subiecte diferite legate de întrebarea adresată, utilizând diverse surse de date, apoi reunește rezultatele acestor căutări pentru a furniza un răspuns structurat cu hyperlink-uri către paginile web citate. Utilizatorii pot, dacă doresc, să își rafineze căutările cu interogări de urmărire.
Project Starline evoluează și devine Google Beam
Google Beam utilizează tehnologii avansate, cum ar fi afișajul cu câmp luminos, captarea volumetrică prin șase camere, audio spațial și procesare în timp real cu IA, pentru a crea o reprezentare 3D a interlocutorului. Această abordare permite conversații mai realiste, cu un randament de 60 de cadre pe secundă și o precizie crescută a mișcărilor capului, fără a necesita dispozitive portabile precum căști sau ochelari. Inițial, această tehnologie era limitată la prototipuri voluminoase, dar a fost miniaturizată pentru a se integra în sisteme mai compacte, dezvoltate în parteneriat cu HP.
Funcționalitatea de traducere vocală în timp real, pe care Google a integrat-o de asemenea în Meet, permite conversații multilingve fluide, păstrând vocea, tonul și expresiile utilizatorului.
