Na semana passada, uma fuga revelou o prompt completo do sistema do modelo de raciocínio híbrido Claude 3.7 Sonnet, apresentado em fevereiro passado pela Anthropic. Com um comprimento incomum de 24.000 tokens, o prompt descreve de forma precisa os comportamentos esperados do modelo, as tags que ele utiliza, as ferramentas autorizadas e a postura a adotar frente aos usuários.
Uma visão rara das "entranhas" da IA
O conteúdo do prompt que pode ser encontrado no GitHub vai muito além de uma simples configuração técnica. Ele detalha diretrizes comportamentais precisas: adotar uma postura equilibrada, evitar tomar partido em assuntos sensíveis, usar o formato Markdown para trechos de código, ou ainda explicitar seus raciocínios passo a passo quando for pertinente. Ele também contém mecanismos de filtragem e tags XML, destinados a organizar as respostas de Claude para casos de uso específicos.
Se esta exposição revela a engenharia comportamental que dita as respostas de um dos agentes conversacionais mais performantes do mercado, ela levanta uma questão central: se as instruções internas de um modelo podem ser expostas e potencialmente manipuladas, em que medida os mecanismos de segurança que deveriam protegê-las são realmente robustos?
Anthropic e a aposta na transparência
Desde sua fundação em 2021 pelos irmãos Dario e Daniela Amodei, a Anthropic promove uma abordagem centrada na confiabilidade, orientabilidade e interpretabilidade dos sistemas de IA. A empresa introduziu o conceito de IA constitucional, uma abordagem de treinamento que visa incutir valores e princípios nos modelos de IA, inspirados notadamente pela Declaração Universal dos Direitos Humanos.
Um posicionamento que se traduziu por um compromisso com a transparência: em agosto de 2024, a Anthropic publicou os prompts do sistema para Claude 3 Haiku, Claude 3 Opus e Claude 3.5 Sonnet em suas interfaces de usuário (web e móvel). Uma iniciativa continuada para Claude 3.7 Sonnet, acompanhada de um documento detalhado, o "Claude 3.7 Sonnet System Card", onde são expostas não apenas as capacidades técnicas do modelo, mas também os métodos de avaliação, os mecanismos de segurança e os protocolos de redução de riscos para Claude 3.7 Sonnet.
O modelo é descrito como um parceiro conversacional "inteligente e gentil", capaz de iniciativas discursivas, raciocínios autônomos e até hipóteses subjetivas em certos contextos filosóficos. No entanto, como sublinha Dario Amodei em um post de blog intitulado "A urgência da interpretabilidade", a compreensão detalhada dos mecanismos internos desses modelos continua sendo um grande desafio. A transparência exibida não mascara a opacidade dos processos que os governam.
Abertura e segurança: um equilíbrio complexo
Esta fuga ilustra uma tensão crescente no desenvolvimento dos modelos de IA: como conciliar desempenho, controlabilidade e transparência, sem comprometer a robustez dos sistemas? Tornar visíveis as estruturas que regem o comportamento de um agente pode permitir uma auditoria externa, até mesmo um debate sobre as escolhas éticas feitas a montante, mas como preservar a integridade desses sistemas quando suas fundações estão expostas?
À medida que os LLMs se tornam as interfaces principais de acesso à informação e à ação em muitos setores, a questão não é mais simplesmente técnica, mas política, ética e estratégica.
