IA Enfrenta Crise de Dados: Musk Adverte Sobre o Esgotamento do Conhecimento Humano

Tempo de leitura: 4 minuto

Publicado pela primeira vez em: Jan 14, 2025

Atualizado 2 vezes desde a publicação

Escrito por Kiara Fabbri Ex-redatora de notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

As empresas de inteligência artificial esgotaram o conhecimento humano disponível para treinar seus modelos, revelou Elon Musk durante uma entrevista transmitida ao vivo, conforme relatado pelo The Guardian.

Com pressa? Aqui estão os Fatos Rápidos!

Elon Musk diz que empresas de IA esgotaram o conhecimento humano para treinamento de modelos.
Musk sugere que “dados sintéticos” são essenciais para o avanço dos sistemas de IA.
Alucinações de IA complicam o uso de dados sintéticos, correndo o risco de erros no conteúdo gerado.

O bilionário sugeriu que as empresas devem cada vez mais confiar em dados “sintéticos” – conteúdo gerado pela própria IA – para desenvolver novos sistemas, um método que já está ganhando popularidade. “A soma cumulativa do conhecimento humano foi esgotada no treinamento de IA. Isso aconteceu basicamente no ano passado”, disse Musk, conforme relatado pelo The Guardian.

Isso está prestes a marcar um desafio significativo para modelos de IA como o GPT-4, que dependem de grandes conjuntos de dados obtidos na internet para identificar padrões e prever saídas de texto.

Musk, que fundou a xAI em 2023, destacou os dados sintéticos como a solução principal para o avanço da IA. No entanto, ele alertou sobre os riscos associados à prática, particularmente as “alucinações” de IA, onde os modelos geram informações imprecisas ou sem sentido, conforme relatado pelo The Guardian.

O Guardian observa que as principais empresas de tecnologia, incluindo Meta e Microsoft, adotaram dados sintéticos para seus modelos de IA, como Llama e Phi-4. Google e OpenAI também incorporaram essa abordagem.

Por exemplo, a Gartner estima que 60% dos dados usados para projetos de IA e análises em 2024 foram gerados sinteticamente, conforme relatado por TechCrunch.

Além disso, o treinamento em dados sintéticos oferece uma economia de custos significativa. O TechCrunch destaca que a startup de IA, Writer, afirma que seu modelo Palmyra X 004, desenvolvido usando quase que inteiramente fontes sintéticas, custou apenas $700.000 para ser criado.

Em comparação, estimativas sugerem que um modelo de tamanho similar da OpenAI custaria cerca de $4.6 milhões para ser desenvolvido, disse o TechCrunch. No entanto, enquanto os dados sintéticos permitem o aprimoramento contínuo do modelo, especialistas alertam para possíveis desvantagens.

O The Guardian relatou que Andrew Duncan, diretor de IA fundamental no Instituto Alan Turing, observou que a dependência de dados sintéticos corre o risco de “colapso do modelo”, onde as saídas perdem qualidade ao longo do tempo.

“Quando você começa a alimentar um modelo com coisas sintéticas, começa a obter retornos decrescentes”, disse Duncan, acrescentando que podem surgir também preconceitos e redução da criatividade.

A crescente prevalência de conteúdo gerado por IA na internet gera outra preocupação. Duncan alertou que esse tipo de material pode inadvertidamente entrar em conjuntos de dados de treinamento, agravando ainda mais os desafios, conforme relatado pelo The Guardian.

Duncan mencionou um estudo publicado em 2022 que previu que os dados de texto de alta qualidade para treinamento de IA poderiam se esgotar até 2026 se as tendências atuais persistirem. Os pesquisadores também projetaram que os dados de linguagem de baixa qualidade podem acabar entre 2030 e 2050, enquanto os dados de imagem de baixa qualidade poderiam se esgotar entre 2030 e 2060.

Além disso, um estudo mais recente publicado em julho alerta que os modelos de IA correm o risco de degradação à medida que os dados gerados pela IA saturam cada vez mais a internet. Os pesquisadores descobriram que os modelos treinados em resultados gerados por IA produzem resultados sem sentido ao longo do tempo, um fenômeno chamado de “colapso do modelo”.

Essa degradação poderia retardar os avanços da IA, enfatizando a necessidade de fontes de dados de alta qualidade, diversas e geradas por humanos.