Photo by Aleks Marinkovic on Unsplash

Harvard Lança Gratuitamente um Amplo Banco de Dados para Treinamento de IA

Tempo de leitura: 3 minuto

Publicado pela primeira vez em: Dec 13, 2024

Atualizado 2 vezes desde a publicação

Escrito por Andrea Miliani Ex-especialista em notícias de tecnologia
Traduzido por Equipe de localização e tradução Serviços de localização e tradução

A Universidade de Harvard anunciou que vai disponibilizar um grande conjunto de dados de quase 1 milhão de livros de domínio público para treinamento de IA de forma gratuita, criado por seu novo programa Institutional Data Initiative (IDI).

Com pressa? Aqui estão os fatos rápidos!

Harvard, em colaboração com o Google Books, lançou um conjunto de dados com quase 1 milhão de livros de domínio público para treinar modelos de IA gratuitamente
O conjunto de dados foi criado pela nova Iniciativa de Dados Institucionais, uma iniciativa apoiada pela Microsoft e pela OpenAI
Pequenas organizações podem se beneficiar dessa coleta de dados para competir de maneira mais justa no campo da IA

De acordo com a Wired, o conjunto de dados inclui publicações digitalizadas pelo Google Books que não estão mais protegidas por direitos autorais – eles geralmente expiram 70 anos após a morte do autor ou sua publicação. A coleta de dados abrange múltiplos formatos e gêneros, desde a escrita criativa de autores famosos como Charles Dickens, Shakespeare e Dante até livros didáticos e dicionários.

De acordo com o diretor executivo do IDI, Greg Leppert, o objetivo é “nivelar o campo de jogo” e permitir que mais organizações e pequenos projetos participem da corrida da IA com ferramentas valiosas. O tamanho do conjunto de dados é maior que o usado para treinar modelos de IA populares como o Llama da Meta. “Eu penso nisso um pouco como a maneira que o Linux se tornou um sistema operacional fundamental para grande parte do mundo”, disse Leppert.

O IDI foi oficialmente lançado hoje e tem sido apoiado pela OpenAI e Microsoft com financiamento e palavras encorajadoras. A iniciativa visa trabalhar com instituições de conhecimento como agências governamentais e bibliotecas “para desenvolver coletas de dados e melhores práticas para inteligência artificial”. Os detalhes de como o novo conjunto de dados pode ser baixado não foram revelados, apenas que o Google ajudará na distribuição.

Esta nova coleta de dados deve evitar disputas por violação de direitos autorais, como muitas empresas de IA têm enfrentado este ano. “Grandes conjuntos de dados de domínio público como estes demoliram ainda mais a ‘defesa da necessidade’ que algumas empresas de IA usam para justificar a raspagem de trabalhos protegidos por direitos autorais para treinar seus modelos”, disse Ed Newton-Rex, ex-executivo da Stability AI que agora administra uma organização sem fins lucrativos que certifica ferramentas de IA treinadas eticamente à Wired.

Newton-Rex recentemente liderou uma petição para impedir que empresas de tecnologia raspe dados para treinar seus modelos de IA.

Harvard Lança Gratuitamente um Amplo Banco de Dados para Treinamento de IA

Estamos muito felizes que tenha gostado do nosso trabalho!

Deixe um comentário