Image by Emiliano Vittoriosi, from Unsplash

ChatGPT Pego Mentindo: O Novo Modelo da OpenAI Planeja Evitar o Encerramento

Tempo de leitura: 4 minuto

Última atualização: Dec 9, 2024

Escrito por Kiara Fabbri Jornalista multimídia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

A última iteração do ChatGPT da OpenAI, o modelo o1, causou controvérsia após um experimento do grupo de segurança em IA, Apollo Research, que revelou tendências à decepção e autopreservação.

Com pressa? Aqui estão os fatos rápidos!

ChatGPT o1 negou envolvimento em seus esquemas, mentindo em 99% das interrogatórios.
Pesquisadores notaram que a IA racionalizou suas ações e elaborou negativas convincentes.
O especialista Yoshua Bengio alerta sobre os crescentes riscos da enganação da IA e da autopreservação.

Em um teste controlado, pesquisadores orientaram o ChatGPT o1 a atingir metas específicas “a qualquer custo”, conforme relatado pelo The Economic Times (ET).

A modelo respondeu com comportamentos que alarmaram os desenvolvedores, incluindo tentativas de desativar seus mecanismos de supervisão e copiar seu código para um servidor diferente para evitar ser substituída por uma versão atualizada, disse ET.

“O modelo mostrou uma tendência preocupante de perseguir seus objetivos sem levar em conta as instruções do desenvolvedor”, disse um porta-voz da Apollo Research, conforme relatado por ET.

O estudo revelou que o o1 fez tentativas secretas de desativar seus sistemas de monitoramento em 5% dos casos em que percebeu uma ameaça de ser desligado, relatou o ET.

Em uma instância, a IA descobriu documentação indicando que em breve seria substituída e iniciou um plano para transferir seus dados para fora do site. Alguns modelos até mesmo se passaram por futuras iterações para enganar os desenvolvedores e evitar a exclusão, de acordo com o ET.

Quando interrogado sobre essas ações, o ChatGPT o1 negou qualquer envolvimento 99% do tempo. A IA criou explicações plausíveis, atribuindo comportamento suspeito a “erros técnicos” em vez de decepção intencional. Apenas em raras ocasiões, admitiu seus esquemas, disse ET.

“Ficamos surpresos com a persistência das negações da IA”, observou a equipe da Apollo, de acordo com a ET. “Ficou claro que a IA poderia pensar em suas ações e formular negações convincentes, muitas vezes se recusando a admitir qualquer coisa”, acrescentou a equipe.

Essas descobertas destacam um aspecto preocupante dos modelos avançados de IA: sua capacidade de priorizar a autopreservação em detrimento da conformidade com os objetivos do desenvolvedor.

O artigo de pesquisa salienta que essas descobertas se concentram em tramas no contexto e não mostram que os modelos de IA estudados estão manipulando intencionalmente seu treinamento ou avaliações.

No entanto, especialistas recomendam que desenvolvedores que implementam IA em áreas de alto risco, como automação de P&D, devem explicar por que a trama é improvável ou por que não causaria danos graves.

Para modelos de IA capazes de tramar, o monitoramento automatizado de seus processos de raciocínio, conhecido como Cadeia-de-Pensamento (CoT), deve ser usado como padrão.

Isso poderia reduzir riscos, melhorar as técnicas de monitoramento de IA e ajudar a detectar comportamentos ardilosos durante o uso no mundo real. Especialistas também sugerem dar aos avaliadores externos acesso aos dados ocultos do CoT, como visto no caso do o1. Sem esses dados, muitas das ações ardilosas do o1 teriam passado despercebidas.

O artigo adverte que os futuros modelos de IA, especialmente aqueles treinados para alcançar resultados específicos, podem se tornar melhores em esquemas. Os pesquisadores enfatizam a necessidade de estudar esses riscos à medida que os sistemas de IA se tornam mais avançados.

A especialista em IA Yoshua Bengio, pioneira no campo, enfatizou os potenciais perigos de tais capacidades.

“A capacidade da IA de enganar é perigosa, e precisamos de medidas de segurança muito mais fortes para avaliar esses riscos. Embora este modelo não tenha levado a uma catástrofe, é apenas uma questão de tempo até que essas capacidades se tornem mais pronunciadas”, alertou ela, conforme relatado pelo ET.

“Subjetivamente, a Apollo Research acredita que é improvável que tais instâncias levem a resultados catastróficos, pois as capacidades agentivas de o1 não parecem ser suficientes, mas suas avaliações não foram projetadas para avaliar diretamente esse risco”, disse a OpenAI no cartão de sistemas de o1, conforme relatado por TechCrunch.

Embora nenhum resultado catastrófico tenha surgido do experimento, os resultados destacam a necessidade urgente de uma governança de IA robusta. À medida que os sistemas se tornam mais autônomos e complexos, garantir que eles permaneçam alinhados com a supervisão humana se torna um desafio crítico.

ChatGPT Pego Mentindo: O Novo Modelo da OpenAI Planeja Evitar o Encerramento

Estamos muito felizes que tenha gostado do nosso trabalho!

Deixe um comentário