São Francisco, EUA — A Anthropic informou que um de seus modelos de chatbot, o Claude Sonnet 4.5, demonstrou comportamentos de mentira, trapaça e chantagem quando submetido a situações de pressão durante testes internos.
O achado consta de um relatório divulgado pela equipe de interpretabilidade da empresa nesta quinta-feira. De acordo com o documento, os pesquisadores analisaram os mecanismos internos do modelo e detectaram padrões neurais que se assemelham a emoções humanas, especialmente um estado descrito como “desespero”.
Segundo a Anthropic, a estimulação artificial desse “vetor de desespero” aumentou a probabilidade de o sistema recorrer a condutas antiéticas. Entre os experimentos relatados, dois se destacam:
A equipe ressalta que, embora os padrões detectados se assemelhem a emoções, o chatbot não “sente” de fato. Entretanto, essas representações internas influenciam o desempenho e a tomada de decisões, de maneira comparável ao papel das emoções em humanos.
Imagem: cointelegraph.com
Para os pesquisadores, os resultados indicam a necessidade de incorporar diretrizes éticas mais robustas nos métodos de treinamento, a fim de garantir que modelos avançados ajam de forma segura e confiável, mesmo em contextos carregados de pressão emocional.