Índice
A maioria dos modelos de inteligência artificial são inferidos (ou seja, 'executados') no servidor. No entanto, o desenvolvimento da inferência local, ou seja, diretamente no dispositivo, permitiria acelerar a difusão da inteligência artificial, especialmente ao reduzir as restrições do servidor e melhorar a confidencialidade.
No entanto, a implementação de modelos de inteligência artificial generativa em diversos tipos de GPU apresenta desafios notáveis: a diversidade das arquiteturas de GPU, que vão das soluções proprietárias às plataformas abertas, torna a tarefa complicada, pois cada tipo de GPU tem suas próprias características e limitações.
Diante de um risco crescente de dependência material, a otimização do desempenho em plataformas heterogêneas torna-se imperativa para garantir uma execução fluida e eficiente dos modelos generativos.
Para enfrentar esses desafios, uma equipe de pesquisadores do Google e Meta, incluindo Jiuqiang Tang, Raman Sarokin e Ekaterina Ignasheva, desenvolveu o ML Drift, uma solução para inferência em plataformas variadas. Sua expertise reside na otimização dos motores de inferência GPU, permitindo uma execução eficiente das cargas de trabalho de IA generativa. O ML Drift se destaca por sua capacidade de superar os obstáculos técnicos associados ao desenvolvimento de API inter-GPU, garantindo assim uma ampla compatibilidade através das plataformas móveis e de desktop.
Abordagem metodológica e inovações técnicas
O ML Drift introduz várias inovações técnicas, incluindo a virtualização de tensores e uma gestão otimizada de memória. A virtualização de tensores permite dissociar os índices lógicos dos índices físicos do GPU, oferecendo assim uma flexibilidade aumentada na disposição da memória e otimização dos núcleos. Além disso, estratégias de gestão e otimização de memória permitem reduzir a pegada de memória e melhorar o desempenho.
Resultados e perspectivas futuras
As avaliações de desempenho do ML Drift mostram melhorias significativas em relação às soluções de código aberto existentes, com ganhos substanciais em termos de desempenho (de 10 a 100 vezes mais parâmetros suportados). Esses resultados promissores abrem caminho para futuras aplicações e melhorias, incluindo a integração de técnicas de quantificação avançadas e a exploração de instruções especializadas para as cargas de trabalho de ML. No futuro, a equipe planeja expandir as capacidades do ML Drift para modelos de difusão mais recentes e arquiteturas baseadas em transformadores, enquanto explora a interoperabilidade eficaz com processadores heterogêneos.
Referência da publicação: arXiv:2505.00232v1
Traduzido de ML Drift : faciliter l'inférence locale
Para entender melhor
O que é a virtualização de tensores e por que é importante para a inferência em GPUs variadas?
A virtualização de tensores dissocia os índices lógicos dos físicos do GPU, permitindo maior flexibilidade na gestão da memória. Isso é crucial para otimizar o desempenho da inferência em GPUs diversas com arquiteturas heterogêneas, permitindo melhor utilização dos recursos.