IA générative : Databricks publie la seconde version de son LLM Dolly en open source

Il y a deux semaines, Databricks , société pionnière de l’architecture data lakehouse, présentait Dolly, un grand modèle de langage (LLM) formé pour moins de 30 $. Le 12 avril dernier, la société a publié l’intégralité de Dolly 2.0, un modèle de 12 milliards de paramètres, en open-source, y compris le code de formation, l’ensemble de données et le poids du modèle, tous adaptés à un usage commercial.

La version initiale de Dolly a démontré qu’un modèle open source de deux ans (GPT-J) peut, lorsqu’il est soumis à seulement 30 minutes de réglage fin sur un corpus ciblé de 52k enregistrements, présenter un comportement de suivi d’instructions de haute qualité.

Cependant, Dolly 1.0, ce modèle de 6 milliards de paramètres, a été formé à l’aide d’un ensemble de données open source que des chercheurs de l’université de Stanford avaient utilisé pour entraîner leur modèle Alpaca. Or, les données d’instruction sont basées sur le text-davinci-003 d’OpenAI, dont les conditions d’utilisation interdisent de développer des modèles concurrents d’OpenAI.

Dolly 2.0, un modèle 12 B à usage commercial

Dolly 2.0 est un modèle de langage de paramètres 12B basé sur la famille de modèles EleutherAI et affiné exclusivement sur un nouvel ensemble de données de suivi d’instructions généré par les employés de Databricks.

En effet, pour contourner ce problème de limitation et permettre l’utilisation commerciale de ses modèles de LLM, Databricks a décidé de créer un nouvel ensemble de données et dans ce but, a organisé un concours ouvert à ses employés, les 20 meilleurs étiqueteurs devant recevoir un gros prix.

Le jeu de données databricks-dolly-15k

Ce jeu de données, rédigé par plus de 5 000 employés de Databricks, contenant 15 000 paires d’invitations/réponses, a été spécialement conçu pour le réglage des instructions de grands modèles de langage. Ces enregistrements de formation sont naturels, expressifs et conçus pour représenter un large éventail de comportements, du brainstorming et de la génération de contenu à l’extraction et à la synthèse d’informations.

Sous “Creative Commons Attribution-ShareAlike 3.0 Unported License”, chacun peut utiliser, modifier ou étendre cet ensemble de données à n’importe quelle fin, y compris les applications commerciales.

Selon Databricks, le modèle Dolly 2.0 présente un comportement d’instruction de haute qualité, ce qui ne surprend pas vraiment la société puisque l’ensemble de données est généré par des professionnels, est de haute qualité et contient des réponses longues à la plupart des tâches. Contrairement à de nombreux ensembles de données de réglage des instructions publiés ces derniers mois contenant des données synthétisées, qui comptent souvent des hallucinations et des erreurs factuelles…

Dolly 2.0 n’est pas conçu pour être à la pointe de la technologie comme ChatGPT. Comme les LLM plus petits, il présente l’avantage d’être plus léger et plus rapide à entraîner et à exécuter, ce qui le rend plus accessible et plus facile à utiliser pour les développeurs et les organisations qui ne disposent pas de ressources informatiques importantes.

Retrouver le jeu de données :databricks-dolly-15k

Pour télécharger les poids du modèle Dolly 2.0, visitez la page Databricks Hugging Face et le dépôt Dolly sur databricks-labs pour télécharger le fichier.