ML Drift: facilitarea inferenței locale

Majoritatea modelelor de inteligență artificială sunt inferate (adică „executate”) pe server. Dezvoltarea inferenței locale, adică direct pe dispozitiv, ar accelera răspândirea inteligenței artificiale, în special prin reducerea constrângerilor serverului și îmbunătățirea confidențialității.

Cu toate acestea, implementarea modelelor de inteligență artificială generative pe diverse tipuri de GPU prezintă provocări notabile: diversitatea arhitecturilor GPU, de la soluții proprietare la platforme deschise, face sarcina complicată, fiecare tip de GPU având propriile caracteristici și limitări.

În fața unui risc crescând de dependență materială, optimizarea performanțelor pe platforme eterogene devine un imperativ pentru a asigura o execuție fluidă și eficientă a modelelor generative.

Pentru a depăși aceste provocări, o echipă de cercetători de la Google și Meta, incluzându-i pe Jiuqiang Tang, Raman Sarokin și Ekaterina Ignasheva, a dezvoltat ML Drift, o soluție destinată inferenței pe platforme variate. Expertiza lor constă în optimizarea motoarelor de inferență GPU, permițând o execuție eficientă a sarcinilor de lucru AI generative. ML Drift se remarcă prin capacitatea sa de a depăși obstacolele tehnice asociate dezvoltării de API-uri inter-GPU, asigurând astfel o compatibilitate largă pe platformele mobile și de desktop.

Abordare metodologică și inovații tehnice

ML Drift introduce mai multe inovații tehnice, inclusiv virtualizarea tensorilor și o gestionare optimizată a memoriei. Virtualizarea tensorilor permite disocierea indicilor logici de indicii fizici ai GPU-ului, oferind astfel o flexibilitate crescută în dispunerea memoriei și optimizarea nucleelor. În plus, strategiile de gestionare și optimizare a memoriei permit reducerea amprentei memoriei și îmbunătățirea performanțelor.

Rezultate și perspective de viitor

Evaluările de performanță ale ML Drift arată îmbunătățiri semnificative față de soluțiile open-source existente, cu câștiguri substanțiale în termeni de performanță (de 10 până la 100 de ori mai mulți parametri suportați). Aceste rezultate promițătoare deschid calea către aplicații și îmbunătățiri viitoare, inclusiv integrarea de tehnici de cuantificare avansate și explorarea instrucțiunilor specializate pentru sarcinile de lucru ML. În viitor, echipa intenționează să extindă capacitățile ML Drift la modele de difuzie mai noi și la arhitecturi bazate pe transformatoare, explorând în același timp interoperabilitatea eficientă cu procesoare eterogene.

Referință publicație: arXiv:2505.00232v1

Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

ML Drift: facilitarea inferenței locale

Abordare metodologică și inovații tehnice

Rezultate și perspective de viitor

GPT mai încrezător în sarcinile dificile unde greșește cel mai mult, conform unui preprint USC/Berkeley

Google prezintă MLE-STAR: o nouă abordare pentru ingineria Machine Learning

Alternativă promițătoare la Chain-Of-Thought: Sapient pariază pe o arhitectură ierarhică