Większość modeli sztucznej inteligencji jest inferowana (czyli "wykonywana") na serwerze. Jednak rozwój lokalnej inferencji, czyli bezpośrednio na urządzeniu, pozwoliłby przyspieszyć rozpowszechnianie sztucznej inteligencji, zwłaszcza poprzez zmniejszenie ograniczeń serwerowych i poprawę prywatności.
Jednak wdrażanie generatywnych modeli sztucznej inteligencji na różnych typach GPU przynosi znaczne wyzwania: różnorodność architektur GPU, od rozwiązań własnościowych po otwarte platformy, czyni zadanie skomplikowanym, ponieważ każdy typ GPU ma swoje własne cechy i ograniczenia.
W obliczu rosnącego ryzyka zależności sprzętowej, optymalizacja wydajności na heterogenicznych platformach staje się koniecznością, aby zapewnić płynne i efektywne działanie generatywnych modeli.
Aby sprostać tym wyzwaniom, zespół badawczy z Google i Meta, w skład którego wchodzą Jiuqiang Tang, Raman Sarokin i Ekaterina Ignasheva, opracował ML Drift, rozwiązanie przeznaczone do inferencji na różnych platformach. Ich wiedza specjalistyczna leży w optymalizacji silników inferencyjnych GPU, umożliwiając efektywne wykonywanie obciążeń generatywnych AI. ML Drift wyróżnia się zdolnością do pokonywania technicznych przeszkód związanych z rozwojem API między GPU, zapewniając tym samym szeroką kompatybilność na platformach mobilnych i stacjonarnych.
Metodologiczne podejście i innowacje techniczne
ML Drift wprowadza szereg innowacji technicznych, w tym wirtualizację tensorów i zoptymalizowane zarządzanie pamięcią. Wirtualizacja tensorów pozwala oddzielić logiczne indeksy od fizycznych indeksów GPU, oferując tym samym większą elastyczność w rozmieszczeniu pamięci i optymalizacji rdzeni. Dodatkowo, strategie zarządzania i optymalizacji pamięci pozwalają zmniejszyć ślad pamięciowy i poprawić wydajność.
Wyniki i perspektywy na przyszłość
Oceny wydajności ML Drift pokazują znaczne poprawy w porównaniu do istniejących rozwiązań open-source, z istotnymi zyskami w zakresie wydajności (od 10 do 100 razy więcej obsługiwanych parametrów). Te obiecujące wyniki otwierają drogę do przyszłych zastosowań i usprawnień, w tym integracji zaawansowanych technik kwantyzacji i eksploracji specjalistycznych instrukcji dla obciążeń ML. W przyszłości zespół planuje rozszerzyć możliwości ML Drift na nowsze modele dyfuzji i architektury oparte na transformatorach, jednocześnie eksplorując efektywną interoperacyjność z heterogenicznymi procesorami.
Referencja publikacji: arXiv:2505.00232v1
