
Image by Oberon Copeland, from Unsplash
Bots de IA Estão Sobrecarregando os Servidores da Wikipédia
A Fundação Wikimedia demonstrou preocupação com a crescente pressão em seus servidores devido a bots automatizados que raspam dados para treinar modelos de inteligência artificial.
Está com pressa? Aqui estão os fatos rápidos:
- Bots de IA estão raspando conteúdos da Wikimedia em níveis recordes.
- Bots causaram um aumento de 50% no uso de largura de banda multimídia.
- 65% do tráfego de alto custo agora vem de crawlers.
A Fundação relatou em uma recente publicação que o tráfego gerado por máquinas continua a crescer em um ritmo sem precedentes, enquanto as pessoas compõem apenas uma pequena parte desse tráfego.
“Desde janeiro de 2024, vimos a largura de banda usada para baixar conteúdo multimídia crescer em 50%”, afirma a postagem.
“Esse aumento não está vindo de leitores humanos, mas em grande parte de programas automatizados que raspam o catálogo de imagens do Wikimedia Commons de imagens de licença aberta para alimentar imagens para modelos de IA”, acrescentou a postagem.
Os bots conhecidos como rastreadores roubam grandes quantidades de dados dos projetos da Wikimedia, incluindo a Wikipedia e a Wikimedia Commons, sem o devido crédito ou ferramentas de acesso oficial. O processo dificulta a descoberta da Wikimedia por novos usuários e coloca uma pressão excessiva em seus sistemas técnicos.
Por exemplo, a postagem destaca que a página da Wikipedia de Jimmy Carter recebeu mais de 2,8 milhões de visualizações no dia de sua morte em dezembro de 2024. O vídeo do debate de 1980 causou um aumento significativo no tráfego do site. Um vídeo de seu debate em 1980 também aumentou o tráfego. A Wikimedia lidou com isso – mas por pouco. O verdadeiro problema, segundo os engenheiros, é o fluxo contínuo de tráfego de bots.
“65% do nosso tráfego mais caro vem de bots”, escreveu a Fundação. Os bots “leem em massa” conteúdo, especialmente páginas menos populares, o que aciona solicitações caras aos datacenters centrais da Wikimedia.
Embora o conteúdo da Wikimedia seja gratuito para uso, seus servidores não são. “Nosso conteúdo é gratuito, nossa infraestrutura não é”, disse a Fundação. A equipe continua a desenvolver métodos para promover o “uso responsável da infraestrutura”, instando os desenvolvedores a usar a API em vez de raspar todo o site.
O problema afeta a Wikimedia, bem como vários outros sites e editores. No entanto, para a maior plataforma de conhecimento aberto do mundo, está ameaçando a estabilidade dos serviços nos quais milhões de pessoas confiam.
Deixe um comentário
Cancelar