ML Drift: facilitando a inferência local

ML Drift: facilitando a inferência local

Em resumo : Uma equipe de pesquisadores de Google e Meta criou o ML Drift, uma solução para executar IA eficientemente no dispositivo, superando a diversidade das arquiteturas de GPU. Com inovações como a virtualização de tensores, melhora o desempenho e a compatibilidade em plataformas móveis e de desktop.

A maioria dos modelos de inteligência artificial são inferidos (ou seja, 'executados') no servidor. No entanto, o desenvolvimento da inferência local, ou seja, diretamente no dispositivo, permitiria acelerar a difusão da inteligência artificial, especialmente ao reduzir as restrições do servidor e melhorar a confidencialidade.

No entanto, a implementação de modelos de inteligência artificial generativa em diversos tipos de GPU apresenta desafios notáveis: a diversidade das arquiteturas de GPU, que vão das soluções proprietárias às plataformas abertas, torna a tarefa complicada, pois cada tipo de GPU tem suas próprias características e limitações. 

Diante de um risco crescente de dependência material, a otimização do desempenho em plataformas heterogêneas torna-se imperativa para garantir uma execução fluida e eficiente dos modelos generativos.

Para enfrentar esses desafios, uma equipe de pesquisadores do Google e Meta, incluindo Jiuqiang Tang, Raman Sarokin e Ekaterina Ignasheva, desenvolveu o ML Drift, uma solução para inferência em plataformas variadas. Sua expertise reside na otimização dos motores de inferência GPU, permitindo uma execução eficiente das cargas de trabalho de IA generativa. O ML Drift se destaca por sua capacidade de superar os obstáculos técnicos associados ao desenvolvimento de API inter-GPU, garantindo assim uma ampla compatibilidade através das plataformas móveis e de desktop.

Abordagem metodológica e inovações técnicas

O ML Drift introduz várias inovações técnicas, incluindo a virtualização de tensores e uma gestão otimizada de memória. A virtualização de tensores permite dissociar os índices lógicos dos índices físicos do GPU, oferecendo assim uma flexibilidade aumentada na disposição da memória e otimização dos núcleos. Além disso, estratégias de gestão e otimização de memória permitem reduzir a pegada de memória e melhorar o desempenho.

Resultados e perspectivas futuras

As avaliações de desempenho do ML Drift mostram melhorias significativas em relação às soluções de código aberto existentes, com ganhos substanciais em termos de desempenho (de 10 a 100 vezes mais parâmetros suportados). Esses resultados promissores abrem caminho para futuras aplicações e melhorias, incluindo a integração de técnicas de quantificação avançadas e a exploração de instruções especializadas para as cargas de trabalho de ML. No futuro, a equipe planeja expandir as capacidades do ML Drift para modelos de difusão mais recentes e arquiteturas baseadas em transformadores, enquanto explora a interoperabilidade eficaz com processadores heterogêneos.

 

Referência da publicação: arXiv:2505.00232v1

 

Para entender melhor

O que é a virtualização de tensores e por que é importante para a inferência em GPUs variadas?

A virtualização de tensores dissocia os índices lógicos dos físicos do GPU, permitindo maior flexibilidade na gestão da memória. Isso é crucial para otimizar o desempenho da inferência em GPUs diversas com arquiteturas heterogêneas, permitindo melhor utilização dos recursos.