Comment Ai2 démocratise la recherche sur les LLM avec OLMo (Open Language Model)

L’Allen Institute for Artificial Intelligence (Ai2), organisation à but non lucratif, a été créé en 2014 par Paul Allen, co-fondateur de Microsoft dans le but de participer activement au développement de l’intelligence artificielle pour le bien commun. Il franchit un pas décisif dans cette direction avec la publication du LLM OLMo. Alors que certains modèles open source incluent les codes et les poids, Ai2 rend le modèle OLMo véritablement ouvert en fournissant non seulement les codes et les poids, mais aussi le code d’entraînement, les données d’entraînement et les boîtes à outils associées, le tout sous licence Apache 2.0.

Avec la publication du modèle de pointe OLMo et du cadre qui l’accompagne, l’objectif d’Ai2 est de favoriser l’innovation et la collaboration sur les modèles de langage, tout en sensibilisant aux enjeux éthiques et sociétaux qu’ils soulèvent.

Hanna Hajishirzi, Cheffe de projet OLMo, Directrice principale de la recherche en NLP à AI2 et professeure à l’Allen School de l’UW, explique:

“De nombreux modèles de langage sont aujourd’hui publiés avec une transparence limitée. Sans avoir accès aux données d’entraînement, les chercheurs ne peuvent pas comprendre scientifiquement le fonctionnement d’un modèle. C’est l’équivalent de la découverte de médicaments sans essais cliniques ou de l’étude du système solaire sans télescope. Grâce à notre nouveau cadre, les chercheurs seront enfin en mesure d’étudier la science des LLM, ce qui est essentiel pour construire la prochaine génération d’IA sûre et digne de confiance”.

OLMo est le fruit d’une collaboration avec le Kempner Institute for the Study of Natural and Artificial Intelligence de l’Université Harvard et des partenaires tels qu’AMD, CSC, la Paul G. Allen School of Computer Science & Engineering de l’Université de Washington et Databricks.

Les modèles OLMo 7B et 1B ont été développés sur le supercalculateur LUMI du CSC (Centre de technologie de l’information pour la science), alimenté par des processeurs AMD EPYC™ et des accélérateurs AMD Instinct™ et ont été entraînés grâce à la plateforme MosaicML de Datbricks.

Le cadre comprend une suite d’outils de développement d’IA entièrement ouverts, notamment :

Données de pré-entraînement complètes : le modèle est construit sur l’ensemble Dolma d’AI2 qui comprend un corpus ouvert de trois billions de jetons pour le pré-entraînement du modèle de langage, y compris le code qui produit les données d’apprentissage.
Le cadre OLMo comprend des pondérations de modèle complètes pour quatre variantes de modèle à l’échelle 7B, chacune entraînée à au moins 2T tokens. Le code d’inférence, les métriques d’entraînement et les journaux d’entraînement sont tous fournis.
Evaluation : Ai2 a publié la suite d’évaluation utilisée dans le développement, avec plus de 500 points de contrôle par modèle, toutes les 1000 étapes du processus de formation et le code d’évaluation sous l’égide du projet Catwalk.

Eric Horvitz, directeur scientifique de Microsoft et membre fondateur du conseil consultatif scientifique d’AI2, déclare :

“Je suis enthousiaste à l’idée de mettre OLMo entre les mains des chercheurs en IA. La nouvelle offre s’inscrit dans la tradition d’Allen AI de fournir des modèles, des outils et des données ouverts de valeur, qui ont stimulé de nombreuses avancées dans le domaine de l’IA dans la communauté mondiale”.

Avec OLMo, les chercheurs et développeurs en IA feront l’expérience de :

Plus de précision : Grâce à une connaissance complète des données d’entraînement qui sous-tendent le modèle, les chercheurs seront en mesure de travailler plus rapidement et n’auront plus besoin de dépendre d’hypothèses qualitatives sur la façon dont le modèle fonctionne, mais pourront le tester scientifiquement.
Moins de carbone : À l’heure actuelle, une séance d’entraînement équivaut aux émissions de neuf foyers américains pendant un an, selon l’EPA, l’agence américaine de protection de l’environnement. En offrant un accès complet à l’écosystème de formation et d’évaluation, Ai2 diminue considérablement les répétitions dans le processus de développement, ce qui est crucial pour la réduction des émissions de carbone dans le domaine de l’intelligence artificielle.
Des résultats durables : Le fait de garder les modèles et leurs ensembles de données ouverts et non derrière les API permet aux chercheurs d’apprendre et de s’appuyer sur des modèles et des travaux antérieurs.

Ai2 prévoit d’ajouter prochainement différentes tailles de modèles, modalités, ensembles de données et capacités à la famille OLMo.

Noah Smith, chef de projet OLMo, directeur principal de la recherche en NLP à AI2 et professeur à l’Allen School de l’UW, conclut :

“Avec OLMo, ouvert signifie en fait « ouvert » et tous les membres de la communauté de recherche en IA auront accès à tous les aspects de la création de modèles, y compris le code d’entraînement, les méthodes d’évaluation, les données, etc…L’IA était autrefois un domaine ouvert centré sur une communauté de recherche active, mais à mesure que les modèles se sont développés, sont devenus plus chers et ont commencé à se transformer en produits commerciaux, le travail sur l’IA a commencé à se dérouler derrière des portes closes. Avec OLMo, nous espérons aller à l’encontre de cette tendance et donner à la communauté des chercheurs les moyens de se réunir pour mieux comprendre et s’engager avec les modèles de langage de manière scientifique, ce qui conduira à une technologie d’IA plus responsable qui profite à tous”.

Le modèle OLMo et son framework sont accessibles en téléchargement direct sur Hugging Face et GitHub.