Novo produto / serviço

ML Drift: facilitando a inferência local

Uma equipe de pesquisadores do Google e Meta desenvolveu o ML Drift, uma solução para executar eficientemente a inteligência artificial diretamente no dispositivo, apesar dos desafios ligados à diversidade das arquiteturas de GPU. O ML Drift, graças a inovações como a virtualização de tensores, melhora significativamente o desempenho e oferece grande compatibilidade através das plataformas móveis e de desktop.

STStephane Nachez · ·2 min
ML Drift: facilitando a inferência local
Índice

A maioria dos modelos de inteligência artificial são inferidos (ou seja, 'executados') no servidor. No entanto, o desenvolvimento da inferência local, ou seja, diretamente no dispositivo, permitiria acelerar a difusão da inteligência artificial, especialmente ao reduzir as restrições do servidor e melhorar a confidencialidade.

No entanto, a implementação de modelos de inteligência artificial generativa em diversos tipos de GPU apresenta desafios notáveis: a diversidade das arquiteturas de GPU, que vão das soluções proprietárias às plataformas abertas, torna a tarefa complicada, pois cada tipo de GPU tem suas próprias características e limitações. 

Diante de um risco crescente de dependência material, a otimização do desempenho em plataformas heterogêneas torna-se imperativa para garantir uma execução fluida e eficiente dos modelos generativos.

Para enfrentar esses desafios, uma equipe de pesquisadores do Google e Meta, incluindo Jiuqiang Tang, Raman Sarokin e Ekaterina Ignasheva, desenvolveu o ML Drift, uma solução para inferência em plataformas variadas. Sua expertise reside na otimização dos motores de inferência GPU, permitindo uma execução eficiente das cargas de trabalho de IA generativa. O ML Drift se destaca por sua capacidade de superar os obstáculos técnicos associados ao desenvolvimento de API inter-GPU, garantindo assim uma ampla compatibilidade através das plataformas móveis e de desktop.

Abordagem metodológica e inovações técnicas

O ML Drift introduz várias inovações técnicas, incluindo a virtualização de tensores e uma gestão otimizada de memória. A virtualização de tensores permite dissociar os índices lógicos dos índices físicos do GPU, oferecendo assim uma flexibilidade aumentada na disposição da memória e otimização dos núcleos. Além disso, estratégias de gestão e otimização de memória permitem reduzir a pegada de memória e melhorar o desempenho.

Resultados e perspectivas futuras

As avaliações de desempenho do ML Drift mostram melhorias significativas em relação às soluções de código aberto existentes, com ganhos substanciais em termos de desempenho (de 10 a 100 vezes mais parâmetros suportados). Esses resultados promissores abrem caminho para futuras aplicações e melhorias, incluindo a integração de técnicas de quantificação avançadas e a exploração de instruções especializadas para as cargas de trabalho de ML. No futuro, a equipe planeja expandir as capacidades do ML Drift para modelos de difusão mais recentes e arquiteturas baseadas em transformadores, enquanto explora a interoperabilidade eficaz com processadores heterogêneos.

 

Referência da publicação: arXiv:2505.00232v1

 

ST
Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Atores citados
JIJiuqiang Tang
RARaman Sarokin
EKEkaterina Ignasheva
GRGrant Jensen
LILin Chen
JUJuhyun Lee
ANAndrei Kulik
MAMatthias Grundmann
O Semanário ActuIA

Inscrição confirmada, até breve!