Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

La semaine dernière, une fuite a révélé le prompt système complet du modèle de raisonnement hybride Claude 3.7 Sonnet, présenté en février dernier par Anthropic . D’une longueur inhabituelle de 24 000 tokens , l'invite décrit de façon précise les comportements attendus du modèle, les balises qu’il utilise, les outils autorisés, et la posture à adopter face aux utilisateurs.

Un aperçu rare des « entrailles » de l’IA

Le contenu du prompt que l'on peut retrouver sur GitHub va bien au-delà d’une simple configuration technique. Il détaille des consignes comportementales précises : adopter une posture nuancée, éviter de prendre parti sur des sujets sensibles, utiliser le format Markdown pour les extraits de code, ou encore expliciter ses raisonnements pas à pas lorsque cela est pertinent. Il contient également des mécanismes de filtrage et des balises XML, destinés à organiser les réponses de Claude pour des cas d’usage spécifiques.

Si cette exposition révèle l’ingénierie comportementale qui dicte les réponses de l’un des agents conversationnels les plus performants du marché, elle pose une question centrale : si les instructions internes d’un modèle peuvent être exposées et potentiellement manipulées, dans quelle mesure les mécanismes de sécurité censés les protéger sont-ils réellement robustes ?

Anthropic et le pari de la transparence

Depuis sa fondation en 2021 par les frère et sœur Dario et Daniela Amodei, Anthropic promeut une approche centrée sur la fiabilité, l’orientabilité et l’interprétabilité des systèmes d’IA. L’entreprise a introduit le concept d' IA constitutionnelle, une approche d’entraînement visant à inculquer des valeurs et des principes aux modèles d'IA, inspirés notamment de la Déclaration universelle des droits de l’Homme.

Un positionnement qui s'est traduit par un engagement vers la transparence : en août 2024, Anthropic publiait les invites système pour Claude 3 Haiku, Claude 3 Opus et Claude 3.5 Sonnet dans ses interfaces utilisateurs (web et mobile). Une démarche poursuivie pour Claude 3.7 Sonnet, accompagnée d’un document détaillé, la "Claude 3.7 Sonnet System Card", où sont exposées non seulement les capacités techniques du modèle, mais aussi les méthodes d’évaluation, les mécanismes de sécurité et les protocoles de réduction des risques pour Claude 3.7 Sonnet.

Toutefois, les prompts systems leakés apparaissent plus complets que les versions allégées partagées par Anthropic.

Le modèle y est décrit comme un partenaire conversationnel "intelligent et gentil", capable d’initiatives discursives, de raisonnements autonomes, voire d’hypothèses subjectives dans certains contextes philosophiques. Pourtant, comme le souligne Dario Amodei dans un billet de blog intitulé "L’urgence de l’interprétabilité", la compréhension fine des mécanismes internes de ces modèles reste un défi majeur. La transparence affichée ne masque pas l’opacité des processus qui les gouvernent.

Ouverture et sécurité : un équilibre complexe

Cette fuite illustre une tension croissante dans le développement des modèles d'IA : comment conjuguer performance, contrôlabilité et transparence, sans compromettre la robustesse des systèmes ? Rendre visibles les structures qui régissent le comportement d’un agent peut permettre un audit externe, voire un débat sur les choix éthiques faits en amont, mais comment préserver l’intégrité de ces systèmes lorsque leurs fondations sont exposées ?

Alors que les LLMs deviennent les interfaces principales d’accès à l’information et à l’action dans de nombreux secteurs, la question n’est plus simplement technique mais politique, éthique et stratégique.

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Un aperçu rare des « entrailles » de l’IA

Anthropic et le pari de la transparence

Ouverture et sécurité : un équilibre complexe

Anthropic présente Claude 3.7 Sonnet, le 1er modèle de raisonnement hybride

Anthropic dévoile Claude Sonnet 4.5, toujours meilleur en programmation

Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes