ML Drift: facilitando a inferência local

A maioria dos modelos de inteligência artificial são inferidos (ou seja, 'executados') no servidor. No entanto, o desenvolvimento da inferência local, ou seja, diretamente no dispositivo, permitiria acelerar a difusão da inteligência artificial, especialmente ao reduzir as restrições do servidor e melhorar a confidencialidade.

No entanto, a implementação de modelos de inteligência artificial generativa em diversos tipos de GPU apresenta desafios notáveis: a diversidade das arquiteturas de GPU, que vão das soluções proprietárias às plataformas abertas, torna a tarefa complicada, pois cada tipo de GPU tem suas próprias características e limitações.

Diante de um risco crescente de dependência material, a otimização do desempenho em plataformas heterogêneas torna-se imperativa para garantir uma execução fluida e eficiente dos modelos generativos.

Para enfrentar esses desafios, uma equipe de pesquisadores do Google e Meta, incluindo Jiuqiang Tang, Raman Sarokin e Ekaterina Ignasheva, desenvolveu o ML Drift, uma solução para inferência em plataformas variadas. Sua expertise reside na otimização dos motores de inferência GPU, permitindo uma execução eficiente das cargas de trabalho de IA generativa. O ML Drift se destaca por sua capacidade de superar os obstáculos técnicos associados ao desenvolvimento de API inter-GPU, garantindo assim uma ampla compatibilidade através das plataformas móveis e de desktop.

Abordagem metodológica e inovações técnicas

O ML Drift introduz várias inovações técnicas, incluindo a virtualização de tensores e uma gestão otimizada de memória. A virtualização de tensores permite dissociar os índices lógicos dos índices físicos do GPU, oferecendo assim uma flexibilidade aumentada na disposição da memória e otimização dos núcleos. Além disso, estratégias de gestão e otimização de memória permitem reduzir a pegada de memória e melhorar o desempenho.

Resultados e perspectivas futuras

As avaliações de desempenho do ML Drift mostram melhorias significativas em relação às soluções de código aberto existentes, com ganhos substanciais em termos de desempenho (de 10 a 100 vezes mais parâmetros suportados). Esses resultados promissores abrem caminho para futuras aplicações e melhorias, incluindo a integração de técnicas de quantificação avançadas e a exploração de instruções especializadas para as cargas de trabalho de ML. No futuro, a equipe planeja expandir as capacidades do ML Drift para modelos de difusão mais recentes e arquiteturas baseadas em transformadores, enquanto explora a interoperabilidade eficaz com processadores heterogêneos.

Referência da publicação: arXiv:2505.00232v1

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

ML Drift: facilitando a inferência local

Abordagem metodológica e inovações técnicas

Resultados e perspectivas futuras

GPT mais confiante em tarefas difíceis onde mais erra, segundo preprint USC/Berkeley

Google apresenta MLE-STAR: uma nova abordagem para a engenharia de Machine Learning

Alternativa Promissora ao Chain-Of-Thought: Sapient aposta em uma arquitetura hierárquica