Investigação Revela que Apple, Nvidia e Outras Usaram Vídeos do YouTube para Treinar IA
Uma nova investigação do estúdio de notícias sem fins lucrativos Proof News e da Wired revelou que grandes empresas de IA, como Anthropic, Nvidia, Apple e Salesforce, usaram milhares de vídeos do YouTube para treinar modelos de IA, apesar das políticas do YouTube contra a coleta sem permissão.
Pesquisadores com expertise técnica analisaram conjuntos de dados de treinamento publicamente disponíveis e descobriram que essas big techs do Vale do Silício e outras empresas utilizaram transcrições de 173.536 vídeos do YouTube de mais de 48.000 canais.
O Proof News explicou que eles encontraram material de estrelas do YouTube, como Mr. Beast, PewDiePie, Jacksepticeye e Marques Brownlee, bem como conteúdo educacional de canais do MIT, Harvard, Khan Academy e agências de notícias como a BBC, NPR e Wall Street Journal. Alguns programas populares, como “Jimmy Kimmel Live”, “The Late Show With Stephen Colbert” e “Last Week Tonight With John Oliver”, também foram mencionados no estudo como parte da coleção.
O YouTube Subtitles, como foi chamado o conjunto de dados, também inclui traduções para idiomas como árabe, alemão e japonês, e foi construído pela EleutherAI, um grupo de pesquisas de IA sem fins lucrativos.
De acordo com um artigo publicado pela EleutherAI, o conjunto de dados faz parte de uma compilação chamada Pile que também inclui material de outras fontes. Apple, Nvidia, Salesforce, Bloomberg, Databricks e Antropic – focadas em “segurança de IA” – confirmaram ter usado o Pile para treinar modelos de IA através de artigos e documentos de pesquisa.
O Proof News também lançou ontem uma ferramenta para ajudar criadores de conteúdo, pesquisadores e o público em geral a encontrar os vídeos usados no banco de dados. “Construímos uma ferramenta para que você possa pesquisar os dados por conta própria”, explicou a organização por meio de um comunicado à imprensa. “Esteja ciente que a ferramenta de pesquisa, ocasionalmente, pode retornar falsos negativos para canais e vídeos que estão no conjunto de dados. Certifique-se de soletrar corretamente o título do seu canal ou vídeo”, acrescentaram.
Os Youtubers incluídos na pesquisa também expressaram sua preocupação e indignação. “Isso é roubo”, disse Dave Wiskus, CEO da Nebula, ao Proof News e à Wired após descobrir que seu conteúdo havia sido usado para treinar modelos de IA. “Isso será usado para explorar e prejudicar os artistas? Sim, absolutamente”, finalizou.
Deixe um comentário
Cancelar