Pour un DSI ou un CTO qui doit arbitrer ce trimestre une architecture de bibliothèque de compétences (skill library) pour ses agents fondés sur des LLM, l'état de la littérature publiée en mai 2026 interdit une décision fondée: trois paradigmes concurrents y défendent des gains du même ordre, entre 19 et 26 points, sur des protocoles d'évaluation entièrement disjoints. MASA (Model-Aware Skill Alignment), soumis sur arXiv le 29 mai 2026 par Jianxiang Yu, revendique- selon les auteurs du préprint, non vérifié par tiers- un gain de +25,8 points sur sa meilleure baseline, mesuré sur trois environnements interactifs et quatre backbones LLM (les modèles de fondation sous-jacents servant d'agent). SkillOpt, publié par Microsoft Research le 22 mai 2026, mesure +24,8 points sur Codex, +19,1 sur Claude Code et +23,5 sur GPT-5.5, avec une domination ou égalité sur 52 cellules d'évaluation. SkillMAS (Shanghai Jiao Tong University et OPPO, arXiv 2605.09341, 10 mai 2026), troisième entrée dans la même fenêtre, propose un cadre non-paramétrique co-évoluant compétences et structure multi-agents pour éviter le découplage d'adaptation. Aucun des trois papiers ne s'appuie sur un protocole partagé, ce qui interdit toute comparaison directe et, pour un acheteur, justifie de différer le choix d'architecture tant qu'aucun benchmark commun n'a départagé les approches.
Trois approches d'évolution de compétences d'agents : des objets incommensurables
| Approche | Institution | Protocole | Gain affiché | Source |
|---|---|---|---|---|
| SkillOpt | Microsoft Research | Optimisation d'un doc Markdown (poids gelés) | +24,8 pts (Codex) / +19,1 pts (Claude Code) / +23,5 pts (GPT‑5.5) | Page officielle MS, 22 mai 2026 |
| SkillMAS | SJTU / OPPO | Cadre non-paramétrique, co-évolution skills + structure multi-agent | Non renseigné dans l'article source | arXiv 2605.09341, 10 mai 2026 |
| AlignEvoSkill | Non précisée (arXiv) | Filtrage par couverture de connaissances + alignement de tâche | +34,7 % relatif (33 benchmarks, 44 backbones LLM) | arXiv 2506.23149v2, juin 2026 |
Aucune de ces trois approches ne partage de benchmark commun : les gains affichés mesurent des tâches, des baselines et des horizons d'évaluation distincts.
Trois philosophies incompatibles de la compétence d'agent
Les mécanismes techniques diffèrent dès leur prémisse. MASA part d'un constat empirique vérifié dans son protocole: les bibliothèques existantes sont model-agnostic, autrement dit elles décrivent une procédure unique réutilisée pour tous les modèles, alors qu'une compétence efficace sur un backbone (le modèle de fondation sous-jacent) peut en pénaliser un autre. Selon les auteurs du préprint MASA (arXiv 2605.30723), le cadre procède en deux temps: d'abord une exploration des variantes d'instructions par hill climbing combiné à une recherche arborescente pilotée par l'Upper Confidence Bound (UCB), guidée par le retour de l'environnement et par un profil de capacité du modèle cible; ensuite un rewriter (module de réécriture conditionné par le modèle), entraîné sur les trajectoires d'évolution issues du premier temps, qui reproduit l'adaptation en un seul passage en avant à l'inférence.
SkillOpt fait l'hypothèse inverse. Le document de compétences en langage naturel, sous forme de Markdown compact, devient l'état entraînable d'un agent gelé; il est optimisé par rollouts (exécutions complètes de tests notées), propositions d'éditions bornées et validation sur jeu de test retenu. Un seul document est appris par tâche, pas par modèle: l'approche est explicitement model-agnostique. SkillMAS ouvre un troisième axe: un cadre non-paramétrique qui co-évolue compétences et structure multi-agents pour traiter le découplage entre évolution des compétences et restructuration du système. Aucun des trois cadres ne reconnaît la définition opérationnelle d'une «compétence» portée par les deux autres.
Le fait qui interdit la comparaison: variance massive selon le domaine
La fragmentation des protocoles ne relève pas du retard d'un champ encore jeune. Elle est documentée empiriquement par SkillsBench (arXiv 2602.12670), publié en février 2026: les gains apportés par les bibliothèques de compétences y varient de +4,5 points de pourcentage en génie logiciel à +51,9 points en santé, et 16 des 84 tâches évaluées produisent des deltas négatifs. Autrement dit, sur près d'un cinquième de l'échantillon, l'ajout d'une bibliothèque de compétences dégrade la performance. Toute comparaison directe entre MASA, SkillOpt et SkillMAS est donc impossible sur cette base: un gain de +25 points mesuré sur trois environnements interactifs et un autre mesuré sur 52 cellules code-centriques peuvent décrire des phénomènes radicalement distincts, ou la même variance liée au domaine d'application.
Le constat est renforcé par SWE-Skills-Bench (Nanjing University et MBZUAI, l'université Mohamed bin Zayed dédiée à l'IA basée à Abou Dabi, mars 2026), présenté par ses auteurs comme le premier outil d'évaluation dédié à mesurer si les compétences d'agents apportent une utilité réelle en génie logiciel de production. Ni MASA ni SkillOpt n'y font référence dans leurs expériences. Au moins quatre cadres concurrents ont été publiés entre le 10 mai et début juin 2026 (SkillMAS, SkillOpt, MASA et AlignEvoSkill), partageant une promesse comparable mais aucun jeu de tâches commun. Pour un acheteur, la conséquence est directe: aucun de ces gains affichés ne se transpose mécaniquement à son domaine d'application sans une évaluation interne dédiée.
Une course académique sur fond de marché en accélération
Cette concentration de papiers concurrents s'inscrit dans un marché en croissance forte. Selon MarketsandMarkets, le marché mondial des agents IA passerait de 7,84 milliards de dollars en 2025 à 52,62 milliards en 2030, projection à prendre avec mise en garde sur le périmètre exact retenu par le cabinet, qui agrège des couches très hétérogènes (assistants productivité, agents code, agents marketing). C'est dans cette dynamique que se construit la couche de mémoire et d'évolution des compétences, devenue depuis dix-huit mois un point d'attention industriel, comme le montrait déjà l'annonce de Claude 4 par Anthropic, modèle explicitement positionné sur le travail agentique en programmation, ou la diffusion par OpenAI de son SDK Agents et de l'API Responses pour outiller les déploiements en entreprise.
Le 1ᵉʳ juin 2026, AlignEvoSkill ouvre un quatrième vecteur avec un gain relatif de 34,7 % sur la baseline sans évolution, mesuré sur 33 benchmarks et 44 backbones LLM. À ce stade, SWE-Skills-Bench reste le seul protocole partagé qui pourrait départager ces cadres en génie logiciel, et aucun des quatre papiers ne s'y est plié. Tant que ce verrou ne saute pas, «+25 points» ne mesure pas la même chose d'un papier à l'autre, et un comité d'architecture n'a aucun moyen rationnel de trancher entre les paradigmes sur la base des seules publications de mai 2026.
