« OpenAI Data Partnerships », l’initiative du créateur de ChatGPT pour entraîner ses modèles d’IA

OpenAI invite les entreprises à contribuer à la production d’ensembles de données publics et privés pour l’entraînement de ses modèles d’IA. La société, qui vise à construire une intelligence artificielle générale (AGI) sûre et bénéfique pour toute l’humanité, veut améliorer leur compréhension sur de nombreux sujets, industries, cultures ou langues.

OpenAI est à la recherche d’ensembles de données à grande échelle reflétant la diversité de la société, que ce soit sous forme de texte, d’image, d’audio ou vidéo. L’entreprise préfère toutefois des données exprimant une intention humaine, des écrits ou des conversations de longue durée plutôt que des extraits déconnectés, et ce, dans n’importe quelle langue, sujet et format.

Elle déclare :

“Pour qu’en fin de compte, l’IAG soit sûre et bénéfique pour toute l’humanité, nous aimerions que les modèles d’IA comprennent en profondeur tous les sujets, les industries, les cultures et les langues, ce qui nécessite un ensemble de données d’entraînement aussi large que possible”.

Collaborations fructueuses

OpenAI a déjà établi des partenariats fructueux avec divers acteurs. La collaboration avec le gouvernement islandais a permis d’améliorer la capacité de GPT-4 à comprendre et à générer du contenu en islandais. De même, une collaboration avec Free Law Project, une organisation à but non lucratif, axée sur la démocratisation de l’accès à la compréhension juridique, a permis d’inclure une vaste collection de documents juridiques à l’entraînement de l’IA.

La société affirme :

“Les partenariats de données visent à permettre à un plus grand nombre d’organisations de contribuer à orienter l’avenir de l’IA et de bénéficier de modèles qui leur sont plus utiles, en incluant du contenu qui leur tient à cœur”.

Les OpenAI Data Partnerships

Les organisations intéressées à contribuer à l’avenir de la recherche sur l’IA ont deux options pour devenir partenaires d’OpenAI :

  • Participer à la création d’un jeu de données open source, accessible à tous, pour l’entraînement des modèles de langage ;
  • Collaborer pour créer des ensembles de données privés destinés à l’entraînement de modèles d’IA propriétaires, tout en assurant la confidentialité des données. OpenAI les utilisera pour ses modèles de fondation ainsi que ses modèles affinés et personnalisés.

Elles serviront sans aucun doute pour GPT-5. Sam Altman a récemment déclaré qu’il est en cours de développement et sera entraîné sur des ensembles de données open source et des informations propriétaires fournies par des entreprises et des organisations …

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.