Apple continue ses acquisitions de start-ups avec DarwinAI et publie la famille de modèles MM1

La semaine dernière, Bloomberg révélait qu’Apple avait racheté en début d’année DarwinAI, une startup canadienne spécialisée dans la computer vision. Son produit phare, une plateforme baptisée GenSynth, permet de générer des modèles allégés à partir de réseaux neuronaux. Un domaine dans lequel Apple comble peu à peu son retard puisqu’après Ferret, MM1 a lui aussi été présenté dans un article de recherche sur arXiv, le 14 mars dernier.

Basée à Waterloo, au Canada, DarwinAI a été cofondée en 2017 par quatre diplômés en génie de l’Université de Waterloo, Alexander Wong, Sheldon Fernandez, Mohammad Shafiee et Arif Virani. Cherchant à améliorer l’efficacité de la production d’assemblages de circuits imprimés pour l’industrie de la fabrication électronique, elle a développé GenSynth, une solution d’inspection visuelle de la qualité alimentée par l’IA.

La plateforme s’appuie sur le machine learning pour comprendre l’architecture des réseaux neuronaux. L’IA génère ensuite de nouveaux réseaux neuronaux fonctionnellement équivalents mais plus petits et plus rapides.

Cette technologie brevetée découle d’années de recherche (+600 articles de recherche et prix) dirigées par l’un des cofondateurs de la start-up, Alexander Wong, aujourd’hui titulaire de la Chaire de recherche du Canada dans le domaine de l’IA et professeur à l’Université de Waterloo. Il a d’ailleurs déjà rejoint, tout comme certains de ses collaborateurs, les rangs de la division IA d’Apple.

Sheldon Fernandez, PDG et cofondateur de DarwinAI, explique :

“Nous pouvons permettre l’IA à la périphérie pour les appareils mobiles et les clients qui ont besoin de mettre de puissants réseaux neuronaux dans les voitures, les montres, les avions et d’autres domaines”.

Apple a confirmé l’acquisition, mais comme à son habitude, n’a pas voulu donner plus de détails. Elle devrait permettre à la société qui, selon son PDG Tim Cook, mise sur cette année sur l’IA générative, de l’aider à apporter de nouvelles fonctionnalités d’IA à ses smartphones, son assistant Siri… Cependant, Apple, consciente du retard pris, serait, selon le journaliste Mark Gurman de Bloomberg, en pourparlers avec Google afin d’intégrer Gemini dans le cadre de la mise à jour d’iOS 18.

Le modèle multimodal MM1

Dans leur article de recherche intitulé “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”, les chercheurs d’Apple présentent leur approche pour développer des modèles multimodaux performants mais également plus flexibles.

Leur démarche visait à étudier l’importance de différents composants architecturaux et du choix de données. Pour ce faire, ils ont réalisé des ablations exhaustives de l’encodeur d’image, du connecteur langage-vision et de divers choix de données de pré-entraînement.

Ils ont ainsi démontré que pour le pré-entraînement multimodal à grande échelle, l’utilisation d’un mélange judicieux de données image-légende, d’images et de texte entrelacés, ainsi que de données texte seulement, était cruciale pour obtenir des résultats de pointe en apprentissage à partir de peu d’exemples (few-shot) sur plusieurs référentiels, comparés à d’autres résultats de pré-entraînement précédemment publiés.

De plus, ils ont constaté que l’encodeur d’image, conjointement avec la résolution de l’image et le nombre de jetons d’image, avait un impact substantiel, tandis que la conception du connecteur vision-langage était d’une importance relativement négligeable.

En extrapolant leurs résultats, les chercheurs ont développé MM1, une famille de modèles multimodaux allant jusqu’à 30 milliards de paramètres. Elle comprend à la fois des modèles denses et des variantes de mélange d’experts (MoE), qui se sont avérés être les meilleurs modèles dans les mesures de pré-entraînement et ont atteint des performances compétitives après un affinement supervisé (SFT) sur une gamme de référentiels multimodaux établis.

Pour l’affinement supervisé, les chercheurs ont collecté environ 1 million d’exemples SFT à partir d’un ensemble diversifié de jeux de données. Celui-ci comprenait notamment des paires d’instructions-réponses générées par GPT-4 et GPT-4V, LLaVA-Conv et LLaVA-Complex pour les conversations et le raisonnement complexe, ainsi que ShareGPT-4V pour des descriptions d’images détaillées, des ensembles de données vision-langage académiques et des données SFT uniquement textuelles. Les différents ensembles ont été mélangés et échantillonnés de manière aléatoire pendant l’entraînement.

Les modèles obtenus MM1-3B-Chat, MM1-7B-Chat et MM1-30-B ont affiché de solides performances tout comme les modèles utilisant un cadre MoE, 3B-MoE et 6B-MoE.

Pour les chercheurs d’Apple, “Grâce à une pré-formation à grande échelle, MM1 bénéficie de propriétés attrayantes telles qu’un apprentissage amélioré en contexte et un raisonnement multi-images, permettant une chaîne de pensée en quelques étapes”