Uma fuga revelaria o prompt completo do sistema de Claude 3.7 Sonnet

Na semana passada, uma fuga revelou o prompt completo do sistema do modelo de raciocínio híbrido Claude 3.7 Sonnet, apresentado em fevereiro passado pela Anthropic. Com um comprimento incomum de 24.000 tokens, o prompt descreve de forma precisa os comportamentos esperados do modelo, as tags que ele utiliza, as ferramentas autorizadas e a postura a adotar frente aos usuários.

Uma visão rara das "entranhas" da IA

O conteúdo do prompt que pode ser encontrado no GitHub vai muito além de uma simples configuração técnica. Ele detalha diretrizes comportamentais precisas: adotar uma postura equilibrada, evitar tomar partido em assuntos sensíveis, usar o formato Markdown para trechos de código, ou ainda explicitar seus raciocínios passo a passo quando for pertinente. Ele também contém mecanismos de filtragem e tags XML, destinados a organizar as respostas de Claude para casos de uso específicos.

Se esta exposição revela a engenharia comportamental que dita as respostas de um dos agentes conversacionais mais performantes do mercado, ela levanta uma questão central: se as instruções internas de um modelo podem ser expostas e potencialmente manipuladas, em que medida os mecanismos de segurança que deveriam protegê-las são realmente robustos?

Anthropic e a aposta na transparência

Desde sua fundação em 2021 pelos irmãos Dario e Daniela Amodei, a Anthropic promove uma abordagem centrada na confiabilidade, orientabilidade e interpretabilidade dos sistemas de IA. A empresa introduziu o conceito de IA constitucional, uma abordagem de treinamento que visa incutir valores e princípios nos modelos de IA, inspirados notadamente pela Declaração Universal dos Direitos Humanos.

Um posicionamento que se traduziu por um compromisso com a transparência: em agosto de 2024, a Anthropic publicou os prompts do sistema para Claude 3 Haiku, Claude 3 Opus e Claude 3.5 Sonnet em suas interfaces de usuário (web e móvel). Uma iniciativa continuada para Claude 3.7 Sonnet, acompanhada de um documento detalhado, o "Claude 3.7 Sonnet System Card", onde são expostas não apenas as capacidades técnicas do modelo, mas também os métodos de avaliação, os mecanismos de segurança e os protocolos de redução de riscos para Claude 3.7 Sonnet.

O modelo é descrito como um parceiro conversacional "inteligente e gentil", capaz de iniciativas discursivas, raciocínios autônomos e até hipóteses subjetivas em certos contextos filosóficos. No entanto, como sublinha Dario Amodei em um post de blog intitulado "A urgência da interpretabilidade", a compreensão detalhada dos mecanismos internos desses modelos continua sendo um grande desafio. A transparência exibida não mascara a opacidade dos processos que os governam.

Abertura e segurança: um equilíbrio complexo

Esta fuga ilustra uma tensão crescente no desenvolvimento dos modelos de IA: como conciliar desempenho, controlabilidade e transparência, sem comprometer a robustez dos sistemas? Tornar visíveis as estruturas que regem o comportamento de um agente pode permitir uma auditoria externa, até mesmo um debate sobre as escolhas éticas feitas a montante, mas como preservar a integridade desses sistemas quando suas fundações estão expostas?

À medida que os LLMs se tornam as interfaces principais de acesso à informação e à ação em muitos setores, a questão não é mais simplesmente técnica, mas política, ética e estratégica.

Marie-Claude Benoit

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Uma fuga revelaria o prompt completo do sistema de Claude 3.7 Sonnet

Uma visão rara das "entranhas" da IA

Anthropic e a aposta na transparência

Abertura e segurança: um equilíbrio complexo

Por que o rumor de um cloud da Meta está derrubando os neoclouds

Anthropic é obrigada a suspender Fable 5 e Mythos 5 após uma diretiva do governo dos Estados Unidos

Siri AI : Gemini como professor, não como motor - o que a WWDC não disse