脆弱性・欠陥

Claude 3.7 Sonnetのシステムプロンプト全体が流出

AIモデルClaude 3.7 Sonnetの完全なシステムプロンプトが流出し、技術的および行動的な詳細が明らかになった。これは、モデルの内部指示を保護するセキュリティメカニズムの堅牢性や、パフォーマンス、制御可能性、透明性、安全性のバランスについての疑問を提起する。

MAMarie-Claude Benoit · ·1 min
Claude 3.7 Sonnetのシステムプロンプト全体が流出
目次
先週、ハイブリッド推論モデルClaude 3.7 Sonnetの完全なシステムプロンプトが流出しました。これは昨年2月にAnthropicによって発表されたものです。24,000トークンという異例の長さで、モデルの期待される動作、使用するタグ、許可されているツール、およびユーザーに対する姿勢が詳細に記されています。

AIの「内部」を垣間見る貴重な機会

GitHubで見られるプロンプトの内容は、単なる技術的な設定を超えています。具体的な行動指示が詳細に記されており、ニュアンスを持った姿勢をとり、敏感な話題での偏見を避け、コードの断片にはMarkdown形式を使用し、必要に応じて段階的に推論を説明することが含まれています。また、特定の使用ケースに対してClaudeの応答を整理するためのフィルタリングメカニズムとXMLタグも含まれています。
この公開は、市場で最も性能の高い会話エージェントの一つの応答を指示する行動工学を明らかにする一方で、中心的な疑問を提起します。モデルの内部指示が露出し、潜在的に操作される可能性がある場合、それを保護するはずのセキュリティメカニズムはどの程度本当に堅牢なのでしょうか?

Anthropicと透明性への賭け

2021年にDarioとDaniela Amodei兄妹によって設立されたAnthropicは、AIシステムの信頼性、指向性、解釈可能性に重点を置いたアプローチを推進しています。同社は、AIに価値観や原則を教え込むトレーニング手法として、特に「人権宣言」に触発された「憲法AI」という概念を導入しました。
この立場は透明性へのコミットメントにつながり、2024年8月には、Claude 3 Haiku、Claude 3 Opus、Claude 3.5 SonnetのシステムプロンプトをWebおよびモバイルのユーザーインターフェースで公開しました。この取り組みはClaude 3.7 Sonnetでも続けられ、技術的な能力だけでなく評価方法、セキュリティメカニズム、リスク削減プロトコルを記載した詳細なドキュメント「Claude 3.7 Sonnet System Card」が提供されています。
モデルは「知的で親切な」会話パートナーとして描写され、独自のディスカッションを開始し、自律的な推論を行い、場合によっては哲学的な文脈で主観的な仮説を立てることも可能です。しかし、Dario Amodeiがブログ記事「解釈可能性の緊急性」で指摘しているように、これらのモデルの内部メカニズムを詳細に理解することは依然として大きな課題です。表面的な透明性は、それを支配するプロセスの不透明さを隠すものではありません。

開放性とセキュリティ:複雑なバランス

この流出は、AIモデル開発における増大する緊張を示しています。パフォーマンス、制御可能性、透明性をどのように結びつけるか、システムの堅牢性を損なうことなくどう実現するか?エージェントの行動を支配する構造を可視化することで、外部監査や倫理的選択に関する議論を可能にする一方で、その基盤が露出されたときにどのようにシステムの完全性を守るのでしょうか?
LLMが多くの分野で情報と行動への主要なアクセスインターフェースとなる中、この問題は単なる技術的なものではなく、政治的、倫理的、戦略的なものとなっています。
MA
Marie-Claude Benoit

ActuIA編集部 — 意思決定者のためのAIニュース、データ、分析。

言及された参与者
ANAnthropic
GIGithub
ActuIA 週刊

購読が完了しました。またのご利用を!

VT News — VivaTech