
Image by Marco Verch, from Ccnull
Labirinto de IA: A Nova Ferramenta da Cloudflare Engana Rastreadores de IA com Páginas Web Falsas
A Cloudflare anunciou o “AI Labyrinth”, uma ferramenta projetada para combater raspadores web impulsionados por IA que extraem dados de sites sem permissão.
Com pressa? Aqui estão os fatos rápidos:
- A ferramenta gera conteúdo realista, mas inútil, criado por IA para desperdiçar o tempo dos raspadores.
- O AI Labyrinth direciona bots que ignoram o robots.txt, incluindo aqueles da Anthropic e Perplexity AI.
- Funciona como uma armadilha de próxima geração, detectando e identificando impressões digitais de rastreadores não autorizados.
Em vez de bloquear completamente esses bots, o AI Labyrinth os engana, levando-os a um labirinto interminável de páginas geradas por IA, desperdiçando seu tempo e poder de computação.
“Quando detectamos rastreamento não autorizado, em vez de bloquear a solicitação, vamos vincular a uma série de páginas geradas por IA que são convincentes o suficiente para atrair um rastreador para percorrê-las”, explicou a Cloudflare em uma postagem de blog.
“Mas, embora pareça real, este conteúdo não é realmente o conteúdo do site que estamos protegendo, então o rastreador gasta tempo e recursos”, acrescentou a Cloudflare.
ArsTechnica destaca que os raspadores de IA são um problema porque coletam grandes quantidades de dados de sites, muitas vezes sem permissão, para treinar modelos de IA. Isso cria vários problemas: pode infringir os direitos de propriedade intelectual, contornando os controles que os proprietários de sites usam para regular o acesso.
Além disso, a raspagem pode levar ao uso indevido de dados sensíveis ou proprietários. O volume de raspagem aumentou drasticamente, com a Cloudflare relatando mais de 50 bilhões de solicitações de rastreadores diariamente.
Essa extração de dados em larga escala esgota os recursos do site, afetando o desempenho e a privacidade do site, ao mesmo tempo que contribui para as crescentes preocupações sobre a exploração de dados no desenvolvimento de IA.
Tradicionalmente, os proprietários de sites contam com o arquivo robots.txt para informar aos bots o que eles podem e não podem acessar, muitas empresas de IA – incluindo grandes players como Anthropic e Perplexity AI – têm sido acusadas de ignorar essas diretrizes, conforme relatado pelo The Verge.
O Labirinto de IA da Cloudflare oferece uma abordagem mais agressiva para lidar com esses bots indesejados. A ferramenta funciona como um “honeypot de próxima geração”, atraindo bots para mais fundo em uma teia artificial de conteúdo que parece real, mas é inútil para o treinamento de IA.
Diferente dos honeypots tradicionais, que os bots aprenderam a identificar, o Labirinto de IA cria informações realistas, porém irrelevantes, usando a plataforma de IA Workers da Cloudflare.
“Nenhum humano real iria quatro links a fundo em um labirinto de absurdos gerados por IA”, observou a Cloudflare. “Qualquer visitante que o faça é muito provável que seja um bot, então isso nos dá uma nova ferramenta para identificar e marcar bots ruins.”
O conteúdo gerado por IA é projetado para ser cientificamente factual, mas não relacionado ao site real que está sendo protegido.
Isso garante que a ferramenta não contribua para a desinformação, enquanto ainda confunde os rastreadores de IA. As páginas enganosas são invisíveis para os visitantes humanos e não afetam as classificações dos mecanismos de busca.
AI Labyrinth está disponível como um recurso gratuito e opcional para todos os usuários do Cloudflare. Os administradores de sites podem ativá-lo através do painel do Cloudflare, em Configurações de Gerenciamento de Bots.
A empresa descreve isso como apenas o início de contramedidas impulsionadas pela IA, com planos futuros para tornar as páginas falsas ainda mais enganosas.
O jogo de gato e rato entre websites e rastreadores de IA continua, com a Cloudflare adotando uma abordagem inovadora para proteger conteúdos online. No entanto, permanecem questões sobre a rapidez com que as empresas de IA se adaptarão a essas armadilhas e se essa estratégia poderia levar a uma escalada na batalha sobre dados da web.
Deixe um comentário
Cancelar