ML Drift: полегшення локального висновку

ML Drift: полегшення локального висновку

У короткому : Команда дослідників з Google та Meta розробила ML Drift, рішення для ефективного виконання штучного інтелекту безпосередньо на пристрої, незважаючи на виклики, пов'язані з різноманітністю архітектур GPU. ML Drift, завдяки інноваціям, таким як віртуалізація тензорів, суттєво покращує продуктивність і забезпечує велику сумісність на мобільних і настільних платформах.

Більшість моделей штучного інтелекту інферуються (тобто "виконуються") на сервері. Однак розвиток локального висновку, тобто безпосередньо на пристрої, дозволив би прискорити поширення штучного інтелекту, зокрема шляхом зменшення серверних обмежень і покращення конфіденційності.

Проте розгортання генеративних моделей штучного інтелекту на різних типах GPU представляє значні виклики: різноманітність архітектур GPU, від пропрієтарних рішень до відкритих платформ, ускладнює завдання, оскільки кожен тип GPU має свої власні характеристики та обмеження. 

З огляду на зростаючий ризик матеріальної залежності, оптимізація продуктивності на гетерогенних платформах стає імперативом для забезпечення плавного та ефективного виконання генеративних моделей.

Щоб вирішити ці виклики, команда дослідників з Google та Meta, включаючи Jiuqiang Tang, Raman Sarokin та Ekaterina Ignasheva, розробила ML Drift, рішення для висновку на різноманітних платформах. Їхній досвід полягає в оптимізації двигунів GPU для висновку, що дозволяє ефективно виконувати навантаження генеративного ШІ. ML Drift вирізняється своєю здатністю долати технічні перешкоди, пов'язані з розробкою між-GPU API, забезпечуючи широку сумісність між мобільними та настільними платформами.

Методологічний підхід та технічні інновації

ML Drift впроваджує кілька технічних інновацій, зокрема віртуалізацію тензорів і оптимізоване управління пам'яттю. Віртуалізація тензорів дозволяє відокремити логічні індекси від фізичних індексів GPU, що забезпечує більшу гнучкість в розміщенні пам'яті та оптимізації ядер. Крім того, стратегії управління та оптимізації пам'яті дозволяють зменшити пам'ятковий відбиток та покращити продуктивність.

Результати та перспективи на майбутнє

Оцінка продуктивності ML Drift демонструє значні покращення у порівнянні з наявними open-source рішеннями, з істотними виграшами в продуктивності (від 10 до 100 разів більше підтримуваних параметрів). Ці перспективні результати відкривають шлях до майбутніх застосувань та покращень, зокрема інтеграції передових методик квантифікації та дослідження спеціалізованих інструкцій для навантажень ML. У майбутньому команда планує розширити можливості ML Drift на новіші моделі дифузії та архітектури на базі трансформаторів, одночасно досліджуючи ефективну інтероперабельність з гетерогенними процесорами.

 

Посилання на публікацію: arXiv:2505.00232v1

 

Перекладено з ML Drift : faciliter l'inférence locale

Краще зрозуміти

Що таке віртуалізація тензорів і чому вона важлива для інференції на різних GPU?

Віртуалізація тензорів розділяє логічні та фізичні індекси GPU, дозволяючи збільшити гнучкість управління пам'яттю. Це критично важливо для оптимізації продуктивності інференції на різноманітних GPU з гетерогенними архітектурами, що дозволяє краще використовувати ресурси.