Xiaomi décrit GUI-0, un agent multimodal entraîné à piloter des interfaces mobiles sur téléphones réels
Le 30 juin 2026, Xiaomi a mis en ligne sur arXiv un rapport technique présentant Xiaomi-GUI-0, un agent multimodal natif conçu pour piloter des interfaces graphiques dans des environnements mobiles réels, entraîné et évalué en boucle fermée sur des appareils physiques. L'agent revendique un taux de réussite de 72,0 pour cent sur le benchmark interne RealMobile et de 78,9 pour cent sur AndroidWorld, avec un accent mis sur la stabilité d'exécution et la détection d'états anormaux. La taille du modèle n'est pas précisée dans le rapport et la publication des poids n'est pas annoncée à ce stade.
