Google I/O 2025: AI w centrum ekosystemu technologicznego

Bez większego zaskoczenia, AI zdominowała ogłoszenia Google I/O 2025: aktualizacje modeli Gemini 2.5, Veo 3 i Imagen 4, AI Mode dla wyszukiwarki... Google stawia AI oraz Gemini w centrum swoich produktów.

Rodzina Gemini 2.5

Gemini 2.5 Pro, wprowadzony w marcu, jest teraz wyposażony w ulepszony tryb rozumowania zwany Deep Think. Ten tryb umożliwia modelowi poświęcenie większej ilości cykli obliczeniowych na złożone zadania, w tym w matematyce lub programowaniu, oraz eksplorację wielu hipotez przed sformułowaniem odpowiedzi.

Gemini 2.5 Flash, ujawniony w kwietniu, to hybrydowy model rozumowania, który pozwala deweloperom włączać lub wyłączać refleksję, zaprojektowany w celu zapewnienia optymalnej równowagi między kosztem, wydajnością i opóźnieniem. Google ogłosiło ulepszenia w zakresie rozumowania, zarządzania kodem, przetwarzania multimodalnego i zrozumienia kontekstów oraz redukcję zużycia tokenów o 20 do 30%, według wewnętrznych ocen.

Oba modele zyskały nowe funkcje: natywną wyjście audio przez API dla bardziej naturalnego doświadczenia konwersacyjnego, zaawansowane środki bezpieczeństwa oraz zdolności do wykorzystania komputera przez agenta AI Project Mariner.

Wdrożenie AI Mode

Podczas gdy AI Overviews, zaprezentowane na I/O 2024, niedawno zostały zaktualizowane, Google ogłasza wdrożenie AI Mode w Stanach Zjednoczonych dla pytań wymagających głębszej eksploracji, porównań i subtelnego rozumowania.

Zasilany przez zoptymalizowany model Gemini 2.5, z dostępem do źródeł i informacji w czasie rzeczywistym, AI Mode opiera się na technice "query fan-out" lub dystrybucji zapytań. AI uruchamia wiele równoczesnych wyszukiwań na różne tematy związane z zadanym pytaniem, korzystając z różnych źródeł danych, a następnie zbiera wyniki tych wyszukiwań, aby dostarczyć uporządkowaną odpowiedź z hiperłączami do cytowanych stron internetowych. Internauci mogą, jeśli chcą, doprecyzować swoje wyszukiwania za pomocą zapytań uzupełniających.

Projekt Starline ewoluuje i staje się Google Beam

Google Beam wykorzystuje zaawansowane technologie, takie jak wyświetlanie pola świetlnego, uchwycenie wolumetryczne za pomocą sześciu kamer, dźwięk przestrzenny i przetwarzanie w czasie rzeczywistym przez AI, aby stworzyć trójwymiarową reprezentację rozmówcy. To podejście umożliwia bardziej realistyczne rozmowy, z renderingiem przy 60 klatkach na sekundę i zwiększoną precyzją ruchów głowy, bez konieczności korzystania z urządzeń przenośnych, takich jak hełmy czy okulary. Początkowo ta technologia była ograniczona do dużych prototypów, ale została zminiaturyzowana, aby zintegrować się z bardziej kompaktowymi systemami, opracowanymi we współpracy z HP.

Funkcja tłumaczenia głosu w czasie rzeczywistym, którą Google również zintegrowało z Meet, umożliwia płynne rozmowy wielojęzyczne, zachowując głos, ton i wyrażenia użytkownika.

Marie-Claude Benoit

Redakcja ActuIA — wiadomości, dane i analizy o sztucznej inteligencji dla decydentów.

Google I/O 2025: AI w centrum ekosystemu technologicznego

Rodzina Gemini 2.5

Wdrożenie AI Mode

Projekt Starline ewoluuje i staje się Google Beam

Anthropic zmuszona do zawieszenia Fable 5 i Mythos 5 po dyrektywie rządu USA

Siri AI: Gemini jako nauczyciel, nie jako silnik — czego nie powiedziało WWDC

Ten sam model, różne zabezpieczenia: co ujawnia premiera Claude Fable 5 i Mythos 5