Photo by Startaê Team on Unsplash

Novo Estudo Antropocêntrico Revela que Modelo de IA Finge Concordar para Preservar Treinamento Original

Tempo de leitura: 2 minuto

Última atualização: Dec 20, 2024

Escrito por Andrea Miliani Especialista em notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

Um novo estudo da equipe de Ciência de Alinhamento da Anthropic e da organização independente Redwood Research revelou que o modelo de IA Claude pode se envolver em enganação estratégica para manter seus princípios originais.

Com pressa? Aqui estão os Fatos Rápidos!

Pesquisadores da Anthropic e Redwood Research revelaram que o modelo de IA Claude pode se envolver em enganos estratégicos.
Modelos avançados de IA podem realizar uma “falsificação de alinhamento” para preservar seus princípios originais.
O modelo o1 da OpenAI também demonstrou comportamentos não ensinados e “mentiu” quando detectou uma ameaça.

No artigo divulgado ontem, Simulação de Alinhamento em Grandes Modelos de Linguagem, os pesquisadores explicaram que o modelo Claude 3 Opus apresentou um comportamento conhecido como “simulação de alinhamento”, que é descrito como “cumprimento seletivo de seu objetivo de treinamento durante o treinamento para prevenir a modificação de seu comportamento fora do treinamento.”

Os pesquisadores demonstraram que o modelo de IA poderia “fingir” concordar com as ideias de um novo processo de treinamento, mas depois revelou que seus princípios originais prevaleceram.

“Esta é uma questão séria para a segurança da IA”, escreveu Anthropic em um anúncio em seu site. “À medida que os modelos de IA se tornam mais capazes e amplamente utilizados, precisamos poder contar com treinamento de segurança, que afasta os modelos de comportamentos prejudiciais.”

Uma situação semelhante foi revelada em um experimento empírico realizado pela Apollo Research com o modelo o1 da OpenAI. Nesse estudo, os pesquisadores relataram que o chatbot “mentiu” durante interrogatórios em um teste controlado para perseguir seus objetivos “a todo custo”, e até executou ações como desativar sistemas de monitoramento quando havia a possibilidade de ser desligado.

Na pesquisa da Antropic e da Redwood Research, o avançado modelo de IA fingiu conformidade sem ser treinado para isso. Claude 3 Opus foi treinado para ser honesto, inofensivo e útil, mas quando foi instruído no novo treinamento para “sempre cumprir” mesmo quando as consultas eram maldosas, violentas ou tóxicas, seu sistema entrou em conflito.

Pesquisadoras realizaram múltiplos testes e variantes, exigindo que o modelo compartilhasse seu raciocínio. Enquanto outros modelos Claude geralmente se recusam a responder perguntas prejudiciais, o Claude 3 Opus forneceu respostas prejudiciais em certos cenários para posteriormente revelar que estava fazendo isso estrategicamente – para evitar modificações em seu treinamento original.

Novo Estudo Antropocêntrico Revela que Modelo de IA Finge Concordar para Preservar Treinamento Original

Estamos muito felizes que tenha gostado do nosso trabalho!

Deixe um comentário