Letzte Woche wurde der vollständige System-Prompt des hybriden Denkmodells Claude 3.7 Sonnet, das im letzten Februar von Anthropic vorgestellt wurde, geleakt. Mit einer ungewöhnlichen Länge von 24.000 Tokens beschreibt der Prompt präzise die erwarteten Verhaltensweisen des Modells, die verwendeten Tags, die erlaubten Tools und die Haltung gegenüber Nutzern.
Ein seltener Einblick in die „Eingeweide“ der KI
Der Inhalt des Prompts, den man auf GitHub finden kann, geht weit über eine einfache technische Konfiguration hinaus. Er enthält präzise Verhaltensanweisungen: eine nuancierte Haltung einnehmen, vermeiden, Stellung zu sensiblen Themen zu nehmen, das Markdown-Format für Codeausschnitte verwenden oder seine Überlegungen Schritt für Schritt darlegen, wenn es relevant ist. Er enthält auch Filtermechanismen und XML-Tags, um die Antworten von Claude für spezifische Anwendungsfälle zu organisieren.
Obwohl diese Enthüllung das Verhaltens-Engineering aufzeigt, das die Antworten eines der leistungsfähigsten Gesprächsagenten auf dem Markt diktiert, wirft sie eine zentrale Frage auf: Wenn die internen Anweisungen eines Modells offengelegt und potenziell manipuliert werden können, wie robust sind dann die Sicherheitsmechanismen, die diese schützen sollen, wirklich?
Anthropic und die Wette auf Transparenz
Seit ihrer Gründung im Jahr 2021 durch die Geschwister Dario und Daniela Amodei fördert Anthropic einen Ansatz, der auf Zuverlässigkeit, Steuerbarkeit und Interpretierbarkeit von KI-Systemen ausgerichtet ist. Das Unternehmen hat das Konzept der konstitutionellen KI eingeführt, einen Trainingsansatz, der darauf abzielt, Modelle mit Werten und Prinzipien zu versehen, inspiriert unter anderem von der Allgemeinen Erklärung der Menschenrechte.
Diese Positionierung hat sich in einem Engagement für Transparenz niedergeschlagen: Im August 2024 veröffentlichte Anthropic die Systemprompts für Claude 3 Haiku, Claude 3 Opus und Claude 3.5 Sonnet in seinen Benutzeroberflächen (Web und Mobil). Ein Ansatz, der für Claude 3.7 Sonnet fortgesetzt wurde, begleitet von einem detaillierten Dokument, der „Claude 3.7 Sonnet System Card“, in dem nicht nur die technischen Fähigkeiten des Modells, sondern auch die Bewertungsmethoden, Sicherheitsmechanismen und Risikominderungsprotokolle für Claude 3.7 Sonnet dargelegt werden.
Das Modell wird dort als „intelligenter und freundlicher“ Gesprächspartner beschrieben, der in der Lage ist, diskursive Initiativen, autonome Überlegungen und sogar subjektive Hypothesen in bestimmten philosophischen Kontexten zu entwickeln. Doch wie Dario Amodei in einem Blogbeitrag mit dem Titel „Die Dringlichkeit der Interpretierbarkeit“ betont, bleibt das feine Verständnis der internen Mechanismen dieser Modelle eine große Herausforderung. Die gezeigte Transparenz verdeckt nicht die Undurchsichtigkeit der Prozesse, die sie steuern.
Öffnung und Sicherheit: ein komplexes Gleichgewicht
Dieses Leak veranschaulicht eine zunehmende Spannung in der Entwicklung von KI-Modellen: Wie kann man Leistung, Kontrollierbarkeit und Transparenz vereinen, ohne die Robustheit der Systeme zu gefährden? Die Strukturen, die das Verhalten eines Agenten regeln, sichtbar zu machen, kann eine externe Prüfung ermöglichen, ja sogar eine Debatte über die ethischen Entscheidungen, die im Vorfeld getroffen wurden, aber wie kann man die Integrität dieser Systeme bewahren, wenn ihre Grundlagen offengelegt werden?
Da LLMs zunehmend die Hauptschnittstellen für den Zugang zu Informationen und Handlungen in vielen Bereichen werden, ist die Frage nicht mehr nur technischer, sondern auch politischer, ethischer und strategischer Natur.
