W zeszłym tygodniu doszło do przecieku, który ujawnił pełną treść podpowiedzi systemowej modelu hybrydowego wnioskowania Claude 3.7 Sonnet, zaprezentowanego w lutym przez Anthropic. Podpowiedź, o nietypowej długości 24 000 tokenów, precyzyjnie opisuje oczekiwane zachowania modelu, używane tagi, dozwolone narzędzia oraz postawę wobec użytkowników.
Rzadki wgląd w „wnętrzności” AI
Zawartość podpowiedzi dostępna na GitHub wykracza daleko poza prostą konfigurację techniczną. Opisuje precyzyjne wytyczne dotyczące zachowań: przyjmowanie zrównoważonej postawy, unikanie zajmowania stanowiska w kwestiach wrażliwych, używanie formatu Markdown do fragmentów kodu, a także wyjaśnianie swoich rozumowań krok po kroku, gdy jest to stosowne. Zawiera również mechanizmy filtrowania i tagi XML, przeznaczone do organizowania odpowiedzi Claude dla konkretnych przypadków użycia.
Jeśli ta ekspozycja ujawnia inżynierię behawioralną, która dyktuje odpowiedzi jednego z najwydajniejszych agentów konwersacyjnych na rynku, to stawia kluczowe pytanie: jeśli wewnętrzne instrukcje modelu mogą być ujawnione i potencjalnie manipulowane, w jakim stopniu mechanizmy zabezpieczeń, które mają je chronić, są rzeczywiście solidne?
Anthropic i zakład o przejrzystość
Od momentu założenia w 2021 roku przez rodzeństwo Dario i Danielę Amodei, Anthropic promuje podejście skoncentrowane na niezawodności, kierowalności i interpretowalności systemów AI. Firma wprowadziła pojęcie AI konstytucyjnej, podejście szkoleniowe mające na celu zaszczepienie wartości i zasad w modelach AI, inspirowane między innymi Powszechną Deklaracją Praw Człowieka.
Pozycjonowanie to przełożyło się na zobowiązanie do przejrzystości: w sierpniu 2024, Anthropic opublikował systemowe podpowiedzi dla Claude 3 Haiku, Claude 3 Opus i Claude 3.5 Sonnet w swoich interfejsach użytkownika (web i mobilnych). Działania te kontynuowano dla Claude 3.7 Sonnet, w towarzystwie szczegółowego dokumentu, „Claude 3.7 Sonnet System Card”, gdzie przedstawiono nie tylko techniczne możliwości modelu, ale także metody oceny, mechanizmy zabezpieczeń i protokoły redukcji ryzyka dla Claude 3.7 Sonnet.
Model opisany jest jako „inteligentny i uprzejmy” partner konwersacyjny, zdolny do inicjatyw dyskursywnych, autonomicznych rozumowań, a nawet subiektywnych hipotez w niektórych kontekstach filozoficznych. Niemniej jednak, jak podkreśla Dario Amodei w wpisie na blogu zatytułowanym „Pilna potrzeba interpretowalności”, dokładne zrozumienie wewnętrznych mechanizmów tych modeli pozostaje dużym wyzwaniem. Deklarowana przejrzystość nie ukrywa nieprzejrzystości procesów, które nimi rządzą.
Otwartość i bezpieczeństwo: skomplikowana równowaga
Ten przeciek ilustruje narastające napięcie w rozwoju modeli AI: jak pogodzić wydajność, kontrolowalność i przejrzystość, nie kompromitując solidności systemów? Upublicznienie struktur, które regulują zachowanie agenta, może umożliwić zewnętrzny audyt, a nawet debatę nad wyborami etycznymi dokonanymi wcześniej, ale jak zachować integralność tych systemów, gdy ich fundamenty są ujawnione?
Gdy LLM stają się głównymi interfejsami dostępu do informacji i działania w wielu sektorach, pytanie nie jest już tylko techniczne, ale polityczne, etyczne i strategiczne.
