Bots de IA Estão Sobrecarregando os Servidores da Wikipédia

Image by Oberon Copeland, from Unsplash

Bots de IA Estão Sobrecarregando os Servidores da Wikipédia

Tempo de leitura: 3 minuto

A Fundação Wikimedia demonstrou preocupação com a crescente pressão em seus servidores devido a bots automatizados que raspam dados para treinar modelos de inteligência artificial.

Está com pressa? Aqui estão os fatos rápidos:

  • Bots de IA estão raspando conteúdos da Wikimedia em níveis recordes.
  • Bots causaram um aumento de 50% no uso de largura de banda multimídia.
  • 65% do tráfego de alto custo agora vem de crawlers.

A Fundação relatou em uma recente publicação que o tráfego gerado por máquinas continua a crescer em um ritmo sem precedentes, enquanto as pessoas compõem apenas uma pequena parte desse tráfego.

“Desde janeiro de 2024, vimos a largura de banda usada para baixar conteúdo multimídia crescer em 50%”, afirma a postagem.

“Esse aumento não está vindo de leitores humanos, mas em grande parte de programas automatizados que raspam o catálogo de imagens do Wikimedia Commons de imagens de licença aberta para alimentar imagens para modelos de IA”, acrescentou a postagem.

Os bots conhecidos como rastreadores roubam grandes quantidades de dados dos projetos da Wikimedia, incluindo a Wikipedia e a Wikimedia Commons, sem o devido crédito ou ferramentas de acesso oficial. O processo dificulta a descoberta da Wikimedia por novos usuários e coloca uma pressão excessiva em seus sistemas técnicos.

Por exemplo, a postagem destaca que a página da Wikipedia de Jimmy Carter recebeu mais de 2,8 milhões de visualizações no dia de sua morte em dezembro de 2024. O vídeo do debate de 1980 causou um aumento significativo no tráfego do site. Um vídeo de seu debate em 1980 também aumentou o tráfego. A Wikimedia lidou com isso – mas por pouco. O verdadeiro problema, segundo os engenheiros, é o fluxo contínuo de tráfego de bots.

“65% do nosso tráfego mais caro vem de bots”, escreveu a Fundação. Os bots “leem em massa” conteúdo, especialmente páginas menos populares, o que aciona solicitações caras aos datacenters centrais da Wikimedia.

Embora o conteúdo da Wikimedia seja gratuito para uso, seus servidores não são. “Nosso conteúdo é gratuito, nossa infraestrutura não é”, disse a Fundação. A equipe continua a desenvolver métodos para promover o “uso responsável da infraestrutura”, instando os desenvolvedores a usar a API em vez de raspar todo o site.

O problema afeta a Wikimedia, bem como vários outros sites e editores. No entanto, para a maior plataforma de conhecimento aberto do mundo, está ameaçando a estabilidade dos serviços nos quais milhões de pessoas confiam.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Deixe um comentário

Loader
Loader Mostrar mais...