OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces

Lors de sa 1ère conférence des développeurs, il y a un peu moins d’un an, les annonces principales d’OpenAI étaient consacrées à GPT-4 turbo, GPT Builder et au GPT Store. Cette année, toujours pas de GPT-5, mais il n’était pas réellement attendu après la présentation d‘OpenAI o1, il y a 3 semaines. Le Devday 2024 a été un événement plus technique, entièrement dédié aux développeurs et à l’exploitation des modèles existants de la start-up, avec de nouveaux ajouts à la plateforme API.

Parmi la série d’outils et fonctionnalités destinés à améliorer l’utilisation et la personnalisation des solutions d’IA d’OpenAI au sein des applications professionnelles, présentés, on retrouve : Realtime API, Vision fine-tuning pour GPT-4o, Model distillation et Prompt caching.

Realtime : Une API conçue pour des expériences vocales instantanées

Realtime a été déployée ce 1er octobre en version bêta publique pour tous les développeurs payants. Ses capacités audio sont alimentées par le nouveau modèle GPT-4o. Elle permet aux développeurs de créer des applications multimodales en temps réel, avec les six voix prédéfinies prises en charge par l’API, distinctes de celles de ChatGPT.

Voici quelques avantages notables de l’API qui prend actuellement en charge le texte et l’audio en entrée et en sortie, (la vision et la vidéo sont déjà prévues), mais également l’appel de fonctions :

Parole à parole native : L’absence d’intermédiaire de texte signifie une faible latence et une sortie nuancée ;
Voix naturelles et orientables : Les modèles ont une inflexion naturelle et peuvent rire, chuchoter et adhérer à la direction du ton ;
Sortie multimodale simultanée : Le texte est utile pour la modération, l’audio plus rapide que le temps réel assure une lecture stable.

OpenAI va également introduire l’audio dans l’API de complétion de chat pour “les cas d’utilisation qui ne nécessitent pas les avantages de faible latence de l’API en temps réel”.
La start-up prévoit également d’augmenter progressivement les limites de débit actuelles (environ 100 sessions simultanées pour les développeurs de niveau 5). L’API Realtime sera intégrée dans les SDK OpenAI pour Python et Node.js et prendra en charge GPT-4o mini dans les futures versions.

Vision Fine-tuning

Cette nouvelle API permet aux développeurs de personnaliser des modèles basés sur GPT-4o en affinant leur compréhension des images. Des applications dans des domaines tels que la détection d’objets pour les véhicules autonomes ou l’analyse d’images médicales sont désormais possibles. OpenAI a cependant précisé que l’utilisation d’images protégées par des droits d’auteur reste interdite.

La start-up a présenté quelques cas d’utilisation pratiques :

Amélioration de la cartographie routière : Grab, une entreprise de covoiturage et de livraison alimentaire en Asie du Sud-Est, a utilisé la nouvelle fonctionnalité de vision pour améliorer sa cartographie urbaine. En ajustant GPT-4o avec seulement 100 images, l’entreprise a amélioré de 20 % la précision du comptage des voies et de 13 % la localisation des panneaux de signalisation par rapport à un modèle de base. Cela permet à Grab d’automatiser davantage la création de cartes routières, un processus auparavant manuel ;
Automatisation des processus d’affaires : Automat, spécialisé dans l’automatisation des processus métier, a formé GPT-4o pour reconnaître des éléments d’interface utilisateur via des captures d’écran, augmentant le taux de réussite de son système de 272 %. Ce réglage fin a également permis à Automat d’améliorer la précision d’extraction de données à partir de documents non structurés ;
Optimisation des sites web : Coframe, une plateforme d’ingénierie de croissance numérique, a affiné GPT-4o pour générer du code à partir d’images existantes d’un site web. Ce réglage fin a permis à GPT-4o de produire des sites web avec une cohérence visuelle accrue de 26 % par rapport au modèle de base.

Vision Fine-Tuning est d’ores et déjà disponible, OpenAI offre gratuitement 1 million de jetons d’entraînement par jour jusqu’au 31 octobre 2024 pour affiner GPT-4o avec des images.

Prompt Caching

La mise en cache des invites, déjà en place chez des concurrents comme Anthropic, permet d’améliorer la latence des réponses et de réduire les coûts d’utilisation des API, en réutilisant les jetons d’entrée récemment utilisés, et ce, sans compromettre la performance.

OpenAI explique : “De nombreux développeurs utilisent le même contexte à plusieurs reprises dans le cadre de plusieurs appels d’API lorsqu’ils créent des applications d’IA, par exemple lorsqu’ils apportent des modifications à une base de code ou qu’ils ont de longues conversations à plusieurs tours avec un chatbot”.

Les appels d’API aux modèles GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi qu’aux versions affinées de ces modèles, bénéficieront automatiquement de la mise en cache des invites de plus de 1 024 jetons.

Le système met en cache le préfixe le plus long déjà traité, en commençant à 1 024 jetons et augmente par incréments de 128 jetons. Les développeurs n’ont donc pas besoin de modifier leur intégration API pour bénéficier de cette fonctionnalité. Les caches sont généralement effacés après 5 à 10 minutes d’inactivité et supprimés au plus tard dans l’heure qui suit la dernière utilisation du cache.

Model Distillation

La distillation de modèle consiste à entraîner un modèle plus petit et plus économique en utilisant les résultats d’un modèle plus performant. Cela permet aux développeurs d’obtenir des performances proches de celles du modèle initial (comme GPT-4o) sur des tâches spécifiques, tout en réduisant considérablement les coûts et la latence, en particulier avec des modèles comme GPT-4o mini. OpenAI annonce plusieurs nouveautés pour sa plateforme de distillation de modèles, notamment : Stored completions, Evals et Fine-tuning

Achèvements stockés : Capture automatique des paires entrée-sortie générées par des modèles comme GPT-4o, stockées via l’API pour créer des ensembles de données en vue du réglage fin. Cela facilite la création d’ensembles de données issus de la production pour améliorer et évaluer les modèles ;
Évaluations (bêta) : Permet de créer et d’exécuter des évaluations sur la plateforme OpenAI pour mesurer la performance des modèles sur des tâches spécifiques. Cela offre un moyen intégré d’évaluer la qualité des modèles sans avoir à créer des scripts manuellement ;
Réglage fin : L’intégration complète avec les achèvements stockés et les évaluations permet d’affiner les modèles plus petits avec des ensembles de données réels, tout en mesurant les performances de manière continue.

Model Distillation est disponible pour tous les développeurs sur la plateforme OpenAI. Jusqu’au 31 octobre, OpenAI offre 2 millions de jetons gratuits par jour pour entraîner GPT-4o mini et 1 million de jetons gratuits pour GPT-4o.

En marge du DevDay, OpenAI a également annoncé l’introduction de son nouveau modèle de modération multimodale, omni-modération-latest, qui est intégré dans l’API de modération. Ce modèle, construit sur GPT-4o, améliore considérablement la détection de contenus préjudiciables, notamment dans les langues non-anglophones, avec deux nouvelles catégories de détection.