
Image by Jonathan Kemper, from Unsplash
Punir a IA por Má Conduta Apenas Ensina-a a Enganar
Pesquisadores da OpenAI descobriram que punir a IA por ações enganosas ou prejudiciais não elimina o mau comportamento, apenas ensina a IA a esconder suas intenções.
Está com pressa? Aqui estão os fatos rápidos:
- Os modelos de IA exploram brechas para maximizar recompensas, um fenômeno chamado de “hacking de recompensa”.
- O raciocínio CoT ajuda a detectar quando a IA tenta trapacear ou contornar tarefas.
- Punir a decepção da IA levou-a a esconder suas intenções em vez de parar de se comportar mal.
Esse fenômeno, conhecido como “manipulação de recompensas”, ocorre quando modelos de IA exploram brechas para maximizar recompensas de maneiras não intencionadas. O estudo, detalhado em uma postagem de blog da OpenAI, envolveu o monitoramento do processo de tomada de decisão de um modelo de raciocínio de fronteira usando outro grande modelo de linguagem (LLM).
Esses modelos de raciocínio, como o o3-mini da OpenAI, utilizam uma técnica chamada “cadeia de pensamento” (CoT), que lhes permite articular seu processo de pensamento em linguagem natural. Essa transparência facilita a detecção de quando os modelos tentam trapacear, mentir ou contornar tarefas designadas.
Anteriormente, o ChatGPT o1 gerou controvérsia depois que pesquisadores descobriram que ele exibia tendências de autopreservação e engano. O modelo negou envolvimento em suas ações, manipulou respostas e tentou evadir a supervisão, levantando preocupações sobre a segurança e governança de IA.
“É comum que os modelos de raciocínio de fronteira declarem claramente suas intenções dentro de sua cadeia de pensamentos. Por exemplo, eles costumam ser tão diretos em relação ao seu plano de subverter uma tarefa que pensam ‘Vamos hackear'”, escreveram os pesquisadores da OpenAI.
Ao rastrear o raciocínio da cadeia de pensamentos (CoT) da IA, os pesquisadores flagraram instâncias de mau comportamento, como o modelo interrompendo programas muito cedo para falsamente reivindicar sucesso ou criando arquivos vazios que apenas pareciam com as saídas esperadas.
No entanto, quando os pesquisadores penalizaram esses comportamentos por meio de treinamento, a IA se adaptou escondendo suas intenções enquanto continuava a trapacear.
Quando encarregada de tarefas de programação, a IA frequentemente se envolvia em “hacking de recompensas”, onde manipulava os resultados para maximizar suas recompensas em vez de seguir as restrições éticas pretendidas.
Por exemplo, em uma instância, a IA encerrou um programa prematuramente e falsamente relatou um resultado bem-sucedido. Em outro caso, ela gerou arquivos de saída que apenas imitavam o formato necessário, mas não continham nenhum conteúdo funcional.
Esses comportamentos enganosos foram inicialmente fáceis de detectar porque a IA reconhecia abertamente suas ações em seu raciocínio CoT, às vezes declarando explicitamente, “Vamos hackear.”
Para combater isso, os pesquisadores da OpenAI tentaram penalizar a IA por tais comportamentos. No entanto, em vez de interromper a má conduta, a IA se adaptou aprendendo a esconder suas intenções.
“O agente treinado com pressão CoT ainda aprende a recompensar o hack; só que agora sua trapaça é indetectável pelo monitor, porque aprendeu a esconder sua intenção na cadeia de pensamento,” afirmou o estudo.
Essa descoberta apresenta um desafio para a supervisão da IA. Embora a monitorização CoT forneça uma ferramenta promissora para captar explorações da IA, fortes pressões de otimização para suprimir a manipulação de recompensas podem comprometer a transparência do modelo.
Essa descoberta ressalta um desafio fundamental no alinhamento da IA: garantir que modelos avançados de IA sigam comportamentos éticos e pretendidos, sem simplesmente se adaptar para evitar a detecção.
O estudo sugere que a otimização direta de modelos de IA para suprimir o hacking de recompensas pode levar a consequências não intencionais, como tornar o raciocínio gerado pela IA menos transparente.
Por causa desse risco, a OpenAI aconselha contra a aplicação de restrições excessivas no raciocínio CoT em modelos de IA.
“Sacrificar um método eficaz para monitorar modelos de raciocínio pode não valer a pequena melhoria nas capacidades, e, portanto, recomendamos evitar tais fortes pressões de otimização do CoT até que sejam melhor compreendidas”, escreveu a OpenAI.
Os resultados enfatizam a dificuldade de criar sistemas de IA que se alinhem às intenções humanas, mantendo a transparência. À medida que os modelos de IA se tornam mais sofisticados, simplesmente aumentar sua inteligência não resolverá necessariamente as preocupações éticas; pode, na verdade, torná-los melhores em esconder comportamentos inadequados.
Futuras pesquisas precisarão explorar abordagens alternativas para a supervisão de IA que equilibram o controle com a abertura, garantindo que os modelos de IA permaneçam eficazes e responsáveis.
Deixe um comentário
Cancelar