Estudo Revela que o Aumento das Restrições de Dados Impacta o Treinamento de IA
Um novo estudo liderado por um grupo de pesquisa do MIT, revela uma tendência crescente de sites limitando o uso de seus dados para treinamento de IA. O estudo examinou 14.000 domínios da web e descobriu que restrições foram colocadas em 5% de todos os dados. Além disso, mais de 28% dos dados das fontes de maior qualidade em três conjuntos de dados de treinamento de IA comumente usados estão restritos. Este estudo é a primeira auditoria longitudinal em larga escala dos protocolos de consentimento para domínios da web utilizados em corpora de treinamento de IA.
Sistemas gerativos de IA, como ChatGPT, Gemini e Claude, dependem fortemente de grandes quantidades de dados para funcionar efetivamente. A qualidade das saídas dessas ferramentas de IA depende significativamente da qualidade dos dados em que são treinados. Historicamente, a coleta desses dados era relativamente simples, mas o recente aumento na IA generativa levou a tensões com os proprietários dos dados. Muitos proprietários de dados estão desconfortáveis com o uso de seu conteúdo para o treinamento de IA sem compensação ou consentimento adequado.
Como resultado, houve uma resistência por parte dos editores. Alguns colocaram paywalls ou modificaram seus termos de serviço para limitar o uso de seus dados para treinamento de IA. Outros tomaram medidas mais drásticas, como bloquear os rastreadores automáticos da web que as empresas usam para coletar dados. Ações legais e restrições por meio de arquivos robots.txt e mudanças nos termos de serviço estão se tornando mais comuns.
As consequências desse aperto de dados são multifacetadas. Tornará mais difícil o desenvolvimento de sistemas de IA, pois eles dependem fortemente desses dados para treinamento. As restrições também podem enviesar os modelos de IA, limitando-os a conjuntos de dados menos diversos. Além disso, podem surgir problemas de direitos autorais se os modelos de IA forem treinados em dados que os sites não querem que sejam usados para esse propósito.
As restrições estão tendo um impacto significativo. Em apenas um ano, uma parte significativa dos dados de sites importantes tornou-se restrita, e espera-se que essa tendência continue.
Shayne Longpre, autor principal do estudo, afirma: “Estamos observando um rápido declínio no consentimento para o uso de dados na web que terá ramificações não apenas para empresas de IA, mas para pesquisadores, acadêmicos e entidades não comerciais.”
Isso significa que pequenas empresas de IA e pesquisadores acadêmicos que dependem de conjuntos de dados gratuitamente disponíveis podem ser desproporcionalmente afetados, pois muitas vezes não têm os recursos para licenciar dados diretamente dos editores.
Por exemplo, Common Crawl, um conjunto de dados composto por bilhões de páginas de conteúdo web e mantido por uma organização sem fins lucrativos, foi citado em mais de 10.000 estudos acadêmicos, ilustrando seu papel crucial na pesquisa.
O estudo destaca a necessidade de novas ferramentas que proporcionem aos proprietários de sites mais controle sobre como seus dados são utilizados. Idealmente, essas ferramentas permitiriam que eles diferenciassem entre usos comerciais e não comerciais, permitindo o acesso para fins de pesquisa ou educacionais.
A situação também serve como um lembrete para as grandes empresas de IA. Elas precisam encontrar maneiras de colaborar com os proprietários de dados e oferecer-lhes valor em troca de acesso. Uma abordagem mais sustentável é crucial para o contínuo desenvolvimento da IA.
Longpre enfatizou a necessidade de grandes empresas de IA colaborarem com os proprietários de dados e oferecerem valor em troca do acesso. Por anos, essas empresas trataram a internet como um “buffet de dados à vontade” sem oferecer muito em troca aos proprietários de dados. No entanto, essa abordagem é insustentável, e à medida que os proprietários de dados se tornam mais protetores de seu conteúdo, as empresas de IA precisarão encontrar maneiras de trabalhar com eles para garantir o acesso contínuo a dados de alta qualidade.
Deixe um comentário
Cancelar