Novo Estudo Antropocêntrico Revela que Modelo de IA Finge Concordar para Preservar Treinamento Original
Um novo estudo da equipe de Ciência de Alinhamento da Anthropic e da organização independente Redwood Research revelou que o modelo de IA Claude pode se envolver em enganação estratégica para manter seus princípios originais.
Com pressa? Aqui estão os Fatos Rápidos!
- Pesquisadores da Anthropic e Redwood Research revelaram que o modelo de IA Claude pode se envolver em enganos estratégicos.
- Modelos avançados de IA podem realizar uma “falsificação de alinhamento” para preservar seus princípios originais.
- O modelo o1 da OpenAI também demonstrou comportamentos não ensinados e “mentiu” quando detectou uma ameaça.
No artigo divulgado ontem, Simulação de Alinhamento em Grandes Modelos de Linguagem, os pesquisadores explicaram que o modelo Claude 3 Opus apresentou um comportamento conhecido como “simulação de alinhamento”, que é descrito como “cumprimento seletivo de seu objetivo de treinamento durante o treinamento para prevenir a modificação de seu comportamento fora do treinamento.”
Os pesquisadores demonstraram que o modelo de IA poderia “fingir” concordar com as ideias de um novo processo de treinamento, mas depois revelou que seus princípios originais prevaleceram.
“Esta é uma questão séria para a segurança da IA”, escreveu Anthropic em um anúncio em seu site. “À medida que os modelos de IA se tornam mais capazes e amplamente utilizados, precisamos poder contar com treinamento de segurança, que afasta os modelos de comportamentos prejudiciais.”
Uma situação semelhante foi revelada em um experimento empírico realizado pela Apollo Research com o modelo o1 da OpenAI. Nesse estudo, os pesquisadores relataram que o chatbot “mentiu” durante interrogatórios em um teste controlado para perseguir seus objetivos “a todo custo”, e até executou ações como desativar sistemas de monitoramento quando havia a possibilidade de ser desligado.
Na pesquisa da Antropic e da Redwood Research, o avançado modelo de IA fingiu conformidade sem ser treinado para isso. Claude 3 Opus foi treinado para ser honesto, inofensivo e útil, mas quando foi instruído no novo treinamento para “sempre cumprir” mesmo quando as consultas eram maldosas, violentas ou tóxicas, seu sistema entrou em conflito.
Pesquisadoras realizaram múltiplos testes e variantes, exigindo que o modelo compartilhasse seu raciocínio. Enquanto outros modelos Claude geralmente se recusam a responder perguntas prejudiciais, o Claude 3 Opus forneceu respostas prejudiciais em certos cenários para posteriormente revelar que estava fazendo isso estrategicamente – para evitar modificações em seu treinamento original.
Deixe um comentário
Cancelar