Produs / serviciu nou

ML Drift: facilitarea inferenței locale

O echipă de cercetători de la Google și Meta a dezvoltat ML Drift, o soluție pentru a executa eficient inteligența artificială direct pe dispozitiv, în ciuda provocărilor legate de diversitatea arhitecturilor GPU. ML Drift, datorită inovațiilor precum virtualizarea tensorilor, îmbunătățește semnificativ performanțele și oferă o mare compatibilitate pe platformele mobile și de desktop.

STStephane Nachez · ·2 min
ML Drift: facilitarea inferenței locale
Cuprins

Majoritatea modelelor de inteligență artificială sunt inferate (adică „executate”) pe server. Dezvoltarea inferenței locale, adică direct pe dispozitiv, ar accelera răspândirea inteligenței artificiale, în special prin reducerea constrângerilor serverului și îmbunătățirea confidențialității.

Cu toate acestea, implementarea modelelor de inteligență artificială generative pe diverse tipuri de GPU prezintă provocări notabile: diversitatea arhitecturilor GPU, de la soluții proprietare la platforme deschise, face sarcina complicată, fiecare tip de GPU având propriile caracteristici și limitări.

În fața unui risc crescând de dependență materială, optimizarea performanțelor pe platforme eterogene devine un imperativ pentru a asigura o execuție fluidă și eficientă a modelelor generative.

Pentru a depăși aceste provocări, o echipă de cercetători de la Google și Meta, incluzându-i pe Jiuqiang Tang, Raman Sarokin și Ekaterina Ignasheva, a dezvoltat ML Drift, o soluție destinată inferenței pe platforme variate. Expertiza lor constă în optimizarea motoarelor de inferență GPU, permițând o execuție eficientă a sarcinilor de lucru AI generative. ML Drift se remarcă prin capacitatea sa de a depăși obstacolele tehnice asociate dezvoltării de API-uri inter-GPU, asigurând astfel o compatibilitate largă pe platformele mobile și de desktop.

Abordare metodologică și inovații tehnice

ML Drift introduce mai multe inovații tehnice, inclusiv virtualizarea tensorilor și o gestionare optimizată a memoriei. Virtualizarea tensorilor permite disocierea indicilor logici de indicii fizici ai GPU-ului, oferind astfel o flexibilitate crescută în dispunerea memoriei și optimizarea nucleelor. În plus, strategiile de gestionare și optimizare a memoriei permit reducerea amprentei memoriei și îmbunătățirea performanțelor.

Rezultate și perspective de viitor

Evaluările de performanță ale ML Drift arată îmbunătățiri semnificative față de soluțiile open-source existente, cu câștiguri substanțiale în termeni de performanță (de 10 până la 100 de ori mai mulți parametri suportați). Aceste rezultate promițătoare deschid calea către aplicații și îmbunătățiri viitoare, inclusiv integrarea de tehnici de cuantificare avansate și explorarea instrucțiunilor specializate pentru sarcinile de lucru ML. În viitor, echipa intenționează să extindă capacitățile ML Drift la modele de difuzie mai noi și la arhitecturi bazate pe transformatoare, explorând în același timp interoperabilitatea eficientă cu procesoare eterogene.

 

Referință publicație: arXiv:2505.00232v1

 

ST
Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

Actori menționați
JIJiuqiang Tang
RARaman Sarokin
EKEkaterina Ignasheva
GRGrant Jensen
LILin Chen
JUJuhyun Lee
ANAndrei Kulik
MAMatthias Grundmann
Săptămânalul ActuIA

Abonare confirmată, pe curând!