Image by frimufilms, from Freepik

Degradação do Modelo de IA: Nova Pesquisa Mostra Riscos do Treinamento de IA em Dados Gerados por IA

Tempo de leitura: 3 minuto

Postado em Abr 2, 2025

Escrito por Kiara Fabbri Jornalista multimídia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

De acordo com um estudo publicado em 24 de julho, a qualidade das saídas dos modelos de IA está em risco de degradação à medida que mais dados gerados por IA inundam a internet.

Os pesquisadores deste estudo descobriram que os modelos de IA treinados em dados gerados por IA produzem resultados cada vez mais sem sentido com o passar do tempo. Esse fenômeno é conhecido como “colapso do modelo”. Ilia Shumailov, autor principal do estudo, compara o processo a copiar repetidamente uma fotografia. “Se você tirar uma foto e digitalizá-la, e depois imprimi-la, e repetir esse processo ao longo do tempo, basicamente o ruído domina todo o processo, […] Você fica com um quadrado escuro.”

Essa degradação representa um risco significativo para grandes modelos de IA, como o GPT-3, que dependem de vastas quantidades de dados da internet para treinamento. O GPT-3, por exemplo, foi parcialmente treinado com dados do Common Crawl, um repositório online que contém mais de 3 bilhões de páginas da web. O problema é exacerbado à medida que o conteúdo inútil gerado pela IA prolifera online. Esse efeito poderia ser ainda mais amplificado pelos resultados de um novo estudo que indica restrições crescentes aos dados disponíveis para treinamento de IA.

A equipe de pesquisa testou os efeitos ajustando um grande modelo de linguagem (LLM) em dados da Wikipedia e, em seguida, retreinando-o em suas próprias saídas ao longo de nove gerações. Eles mediram a qualidade da saída usando um “índice de perplexidade”, que indica a confiança do modelo em prever a próxima parte de uma sequência. Pontuações mais altas refletem modelos menos precisos. Eles observaram um aumento nos índices de perplexidade em cada geração subsequente, destacando a degradação.

Essa degradação poderia retardar as melhorias e impactar o desempenho. Por exemplo, em um teste, após nove gerações de re-treinamento, o modelo produziu um texto completamente ininteligível.

Uma ideia para ajudar a prevenir a degradação é garantir que o modelo dê mais peso aos dados originais gerados por humanos. Outra parte do estudo de Shumailov permitiu que futuras gerações amostrassem 10% do conjunto de dados original, o que atenuou alguns efeitos negativos.

A discussão do estudo destaca a importância de preservar dados de alta qualidade, diversos e gerados por humanos para treinamento de modelos de IA. Sem um gerenciamento cuidadoso, a crescente dependência de conteúdo gerado por IA poderia levar a uma diminuição no desempenho e na justiça da IA. Para abordar isso, há uma necessidade de colaboração entre pesquisadores e desenvolvedores para rastrear a origem dos dados (procedência dos dados) e garantir que os futuros modelos de IA tenham acesso a materiais de treinamento confiáveis.

No entanto, a implementação de tais soluções requer métodos eficazes de procedência de dados, que atualmente estão faltando. Embora existam ferramentas para detectar texto gerado por IA, sua precisão é limitada.

Shumailov conclui, “Infelizmente, temos mais perguntas do que respostas […] Mas é claro que é importante saber de onde vem seus dados e o quanto você pode confiar neles para capturar uma amostra representativa dos dados com os quais está lidando.”

Degradação do Modelo de IA: Nova Pesquisa Mostra Riscos do Treinamento de IA em Dados Gerados por IA

Estamos muito felizes que tenha gostado do nosso trabalho!

Deixe um comentário