Sexta-feira, Abril 24Portal Comunica News

Mistério resolvido: Anthropic revela mudanças nos arneses e nas instruções de operação de Claude que provavelmente causaram degradação

Por várias semanas, um coro crescente de desenvolvedores e usuários avançados de IA alegaram que os principais modelos da Anthropic estavam perdendo sua vantagem. Usuários do GitHub, X e Reddit relataram um fenômeno que descreveram como “redução da IA” – uma degradação percebida em que Claude parecia menos capaz de raciocínio sustentado, mais propenso a alucinações e cada vez mais desperdiçador de tokens.

Os críticos apontaram para uma mudança mensurável no comportamento, alegando que o modelo havia passado de uma abordagem de “pesquisa em primeiro lugar” para um estilo mais preguiçoso de “edição em primeiro lugar”, no qual não era mais confiável para engenharia complexa.

Embora a empresa inicialmente tenha rejeitado as alegações de “nerfar” o modelo para gerir a procura, as evidências crescentes de utilizadores de alto perfil e benchmarks de terceiros criaram uma lacuna de confiança significativa.

Hoje, a Anthropic abordou essas preocupações diretamente, publicando uma autópsia técnica que identificou três alterações distintas na camada do produto responsáveis ​​pelos problemas de qualidade relatados.

“Levamos muito a sério os relatórios sobre degradação”, diz Postagem do blog da Anthropic sobre o assunto. “Nunca degradamos intencionalmente nossos modelos e pudemos confirmar imediatamente que nossa API e camada de inferência não foram afetadas.”

A Anthropic afirma que resolveu os problemas revertendo a alteração do esforço de raciocínio e o prompt de verbosidade, enquanto corrigia o bug de cache na versão v2.1.116.

A crescente evidência de degradação

A polêmica ganhou força no início de abril de 2026, alimentada por análises técnicas detalhadas da comunidade de desenvolvedores. Stella Laurenzo, diretora sênior do grupo de IA da AMD, publicou uma auditoria exaustiva de 6.852 arquivos de sessão do Claude Code e mais de 234.000 chamadas de ferramentas no Github mostrando queda de desempenho devido ao uso anterior.

Suas descobertas sugeriram que a profundidade do raciocínio de Claude havia caído drasticamente, levando a loops de raciocínio e a uma tendência de escolher a “solução mais simples” em vez da correta.

Esta frustração anedótica foi aparentemente validada por benchmarks de terceiros. A BridgeMind relatou que a precisão do Claude Opus 4.6 caiu de 83,3% para 68,3% em seus testes, fazendo com que sua classificação despencasse do 2º para o 10º lugar.

Embora alguns pesquisadores argumentassem que essas comparações específicas de benchmark eram falhas devido a escopos de teste inconsistentes, a narrativa de que Claude havia se tornado “mais burro” tornou-se um ponto de discussão viral. Os usuários também relataram que os limites de uso estavam se esgotando mais rápido do que o esperado, levando a suspeitas de que a Anthropic estava limitando intencionalmente o desempenho para gerenciar o aumento da demanda.

As causas

Em sua postagem pós-morem, a Anthropic esclareceu que, embora os pesos dos modelos subjacentes não tenham regredido, três mudanças específicas no “arnês” em torno dos modelos prejudicaram inadvertidamente seu desempenho:

  • Esforço de raciocínio padrão: Em 4 de março, a Anthropic alterou o esforço de raciocínio padrão de high para medium para Claude Code resolver problemas de latência da IU. Essa mudança pretendia evitar que a interface aparecesse “congelada” enquanto o modelo pensava, mas resultou em uma queda perceptível na inteligência para tarefas complexas.
  • Um bug de lógica de cache: Lançada em 26 de março, uma otimização de cache destinada a eliminar “pensamentos” antigos de sessões ociosas continha um bug crítico. Em vez de limpar o histórico de pensamento uma vez após uma hora de inatividade, ele o apagava a cada turno subsequente, fazendo com que o modelo perdesse sua “memória de curto prazo” e se tornasse repetitivo ou esquecido.
  • Limites de verbosidade do prompt do sistema: Em 16 de abril, a Anthropic adicionou instruções ao prompt do sistema para manter o texto entre as chamadas de ferramenta com menos de 25 palavras e as respostas finais com menos de 100 palavras. Esta tentativa de reduzir a verbosidade no Opus 4.7 saiu pela culatra, causando uma queda de 3% nas avaliações de qualidade de codificação.

Impacto e salvaguardas futuras

Os problemas de qualidade estenderam-se além do Claude Code CLI, afetando o Claude Agente SDK e Claude Coworkembora o Cláudio API não foi impactado.

A Anthropic admitiu que essas mudanças fizeram com que o modelo parecesse ter “menos inteligência”, o que eles reconheceram não ser a experiência que os usuários deveriam esperar.

Para reconquistar a confiança dos usuários e evitar regressões futuras, a Anthropic está implementando diversas mudanças operacionais:

  • Dogfooding interno: Uma parcela maior da equipe interna será obrigada a usar as versões públicas exatas do Claude Code para garantir que experimentem o produto como os usuários.
  • Conjuntos de avaliação aprimorados: A empresa agora executará um conjunto mais amplo de avaliações e “ablações” por modelo para cada mudança imediata do sistema para isolar o impacto de instruções específicas.
  • Controles mais rígidos: Novas ferramentas foram criadas para facilitar a auditoria de alterações imediatas, e as alterações específicas do modelo serão estritamente restritas aos objetivos pretendidos.
  • Remuneração do Assinante: Para compensar o desperdício de tokens e o atrito de desempenho causado por esses bugs, a Anthropic redefiniu os limites de uso para todos os assinantes a partir de 23 de abril.

A empresa pretende utilizar seu novo Conta @ClaudeDevs no X e tópicos do GitHub para fornecer um raciocínio mais profundo por trás de futuras decisões de produtos e manter um diálogo mais transparente com sua base de desenvolvedores.

Fonte: Ventura Beat

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.