Stable Cascade et Stable Diffusion 3, les deux derniers modèles text-to-image de Stability AI

Stability AI a présenté récemment deux modèles text-to-image : Stable Cascade disponible en prévisualisation de recherche sous une licence non commerciale et la nouvelle génération de son modèle phare Stable Diffusion 3.0. Si le premier est basé sur l’architecture Würstchen pour améliorer les performances et la précision, la dernière itération de Stable Diffusion utilise une nouvelle architecture combinant transformateur de diffusion et appariement de flux.

Stable Cascade est un modèle très efficace qui est, selon Stability AI, “exceptionnellement facile à entraîner et à affiner sur du matériel grand public grâce à son approche en trois étapes”, l’architecture Würstchen.

Il est construit sur un pipeline composé de trois modèles distincts : les étapes A, B et C. Cette architecture permet une compression hiérarchique :

  • Le générateur latent (Stage C) transforme les entrées textuelles en latents compacts de 24×24 ;
  • Le décodeur latent (Stages A et B) décompresse les latents en images à haute résolution ;
  • Le réseau de contrôle (ControlNet) permet d’ajuster les caractéristiques des images générées.

Tandis que Stable Diffusion compresse les images de 1024×1024 à 128×128, Stable Cascade le fait à une résolution à 24×24, ce qui se traduit par des vitesses d’inférence plus rapides et des coûts de formation moins élevés. Il produit des images complexes en seulement 30 étapes d’inférence, contre 50 pour les modèles concurrents tels que Playground v2, SDXL, SDXL Turbo ou Würstchen v2.

Le modèle est capable de gérer des descriptions compliquées, de générer des détails fins et de suivre les variations de style et de couleur. Il dépasse largement les autres modèles en termes de qualité perçue, selon une évaluation humaine.

Chaque étape de la cascade peut être ajustée pour des besoins spécifiques, permettant de contrôler le niveau de détail, la résolution, le style et la couleur des images. De plus, le modèle dispose d’un réseau de contrôle (ControlNet), qui permet d’effectuer des modifications fines sur les images générées, telles que le changement de position, de taille, de forme ou de couleur des objets.

Stable Cascade est disponible en prévisualisation de recherche sous une licence non commerciale, le code pour l’inférence, l’entraînement, l’affinage et le ControlNet est publié sur la page GitHub de Stability. On peut l’essayer sur Hugging face ici

Stable Diffusion 3

Stability AI a annoncé le 22 février dernier l’ouverture de la liste d’attente pour un prévisualisation anticipée de son dernier modèle. Selon la start-up, il présenterait une nette amélioration des performances sur les requêtes multi-sujets, de la qualité d’image et des capacités orthographiques.

La suite Stable Diffusion 3 comprend des modèles allant de 800M à 8B de paramètres, offrant aux utilisateurs un éventail d’options adaptées à leurs besoins créatifs spécifiques. Stablity AI précise seulement que le modèle utilise une architecture de transformateur de diffusion et un appariement de flux, un rapport détaillé est prévu.

Voici quelques exemples d’images générées par le modèle partagées par la start-up:

Prompt : Une œuvre d’art épique d’anime d’un sorcier au sommet d’une montagne la nuit lançant un sort cosmique dans le ciel sombre qui dit “Stable Diffusion 3” fait d’énergie colorée .

Prompt : photo de studio en gros plan d’un caméléon sur un fond noir.

Prompt : Un tableau d’un astronaute chevauchant un cochon portant un tutu tenant un parapluie rose, sur le sol à côté du cochon se trouve un oiseau rouge-gorge portant un haut-de-forme, dans le coin sont les mots “stable diffusion”.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.

1ère Marketplace de l'IA et de la transformation numérique vous recommande :
Pluralisme par Magic LEMP

Magic lemp et lexbase ont lancé le site pluralisme.fr, première base de discours politique issue des médias et généré en temps (quasi) réel. le sit...

 
Partager l'article
Offre exclusive : 1 an d'abonnement au magazine ActuIA + Le guide pratique d'adoption de l'IA en entreprise pour seulement 27,60€ Boutique ActuIA Pour tout abonnement à ActuIA, recevez en cadeau le Guide Pratique d'Adoption de l'IA en Entreprise, d'une valeur de 23€ !
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.