"De nombreux modèles de langage sont aujourd’hui publiés avec une transparence limitée. Sans avoir accès aux données d’entraînement, les chercheurs ne peuvent pas comprendre scientifiquement le fonctionnement d’un modèle. C’est l’équivalent de la découverte de médicaments sans essais cliniques ou de l’étude du système solaire sans télescope. Grâce à notre nouveau cadre, les chercheurs seront enfin en mesure d’étudier la science des LLM, ce qui est essentiel pour construire la prochaine génération d’IA sûre et digne de confiance".
OLMo est le fruit d'une collaboration avec le Kempner Institute for the Study of Natural and Artificial Intelligence de l’Université Harvard et des partenaires tels qu’AMD, CSC, la Paul G. Allen School of Computer Science & Engineering de l’Université de Washington et Databricks. Les modèles OLMo 7B et 1B ont été développés sur le supercalculateur LUMI du CSC (Centre de technologie de l’information pour la science), alimenté par des processeurs AMD EPYC™ et des accélérateurs AMD Instinct™ et ont été entraînés grâce à la plateforme MosaicML de Datbricks. Le cadre comprend une suite d’outils de développement d’IA entièrement ouverts, notamment :- Données de pré-entraînement complètes : le modèle est construit sur l’ensemble Dolma d’AI2 qui comprend un corpus ouvert de trois billions de jetons pour le pré-entraînement du modèle de langage, y compris le code qui produit les données d’apprentissage.
- Le cadre OLMo comprend des pondérations de modèle complètes pour quatre variantes de modèle à l’échelle 7B, chacune entraînée à au moins 2T tokens. Le code d’inférence, les métriques d’entraînement et les journaux d’entraînement sont tous fournis.
- Evaluation : Ai2 a publié la suite d’évaluation utilisée dans le développement, avec plus de 500 points de contrôle par modèle, toutes les 1000 étapes du processus de formation et le code d’évaluation sous l’égide du projet Catwalk.
"Je suis enthousiaste à l’idée de mettre OLMo entre les mains des chercheurs en IA. La nouvelle offre s’inscrit dans la tradition d’Allen AI de fournir des modèles, des outils et des données ouverts de valeur, qui ont stimulé de nombreuses avancées dans le domaine de l’IA dans la communauté mondiale".
Avec OLMo, les chercheurs et développeurs en IA feront l’expérience de :- Plus de précision : Grâce à une connaissance complète des données d’entraînement qui sous-tendent le modèle, les chercheurs seront en mesure de travailler plus rapidement et n’auront plus besoin de dépendre d’hypothèses qualitatives sur la façon dont le modèle fonctionne, mais pourront le tester scientifiquement.
- Moins de carbone : À l’heure actuelle, une séance d’entraînement équivaut aux émissions de neuf foyers américains pendant un an, selon l'EPA, l'agence américaine de protection de l'environnement. En offrant un accès complet à l'écosystème de formation et d'évaluation, Ai2 diminue considérablement les répétitions dans le processus de développement, ce qui est crucial pour la réduction des émissions de carbone dans le domaine de l'intelligence artificielle.
- Des résultats durables : Le fait de garder les modèles et leurs ensembles de données ouverts et non derrière les API permet aux chercheurs d’apprendre et de s’appuyer sur des modèles et des travaux antérieurs.
"Avec OLMo, ouvert signifie en fait « ouvert » et tous les membres de la communauté de recherche en IA auront accès à tous les aspects de la création de modèles, y compris le code d’entraînement, les méthodes d’évaluation, les données, etc...L’IA était autrefois un domaine ouvert centré sur une communauté de recherche active, mais à mesure que les modèles se sont développés, sont devenus plus chers et ont commencé à se transformer en produits commerciaux, le travail sur l’IA a commencé à se dérouler derrière des portes closes. Avec OLMo, nous espérons aller à l’encontre de cette tendance et donner à la communauté des chercheurs les moyens de se réunir pour mieux comprendre et s’engager avec les modèles de langage de manière scientifique, ce qui conduira à une technologie d’IA plus responsable qui profite à tous".
Le modèle OLMo et son framework sont accessibles en téléchargement direct sur Hugging Face et GitHub.