A Fundação Prêmio Arc Lança Novo Benchmark Desafiador AGI, Expondo as Fraquezas da IA

Photo by Igor Omilaev on Unsplash

A Fundação Prêmio Arc Lança Novo Benchmark Desafiador AGI, Expondo as Fraquezas da IA

Tempo de leitura: 3 minuto

A fundação sem fins lucrativos Arc Prize Foundation anunciou uma nova referência, ARC-AGI-2, para desafiar os modelos de IA de fronteira em raciocínio e capacidades de nível humano na segunda-feira. A organização também anunciou um novo concurso, ARC Prize 2025, que acontecerá de março a novembro, e o vencedor ganhará um Grande Prêmio de $700.000.

Está com pressa? Aqui estão os fatos rápidos:

  • A Fundação Prêmio Arc lançou um novo parâmetro de referência chamado ARC-AGI-2 para testar modelos de IA em habilidades de raciocínio no nível humano.
  • Os principais modelos de IA atuais falharam no teste, pontuando entre 0,0% e 4%, enquanto os humanos pontuaram até 100%.
  • A organização sem fins lucrativos também anunciou a competição Prêmio Arc 2025 para o parâmetro de referência, e o vencedor receberá um prêmio de $700,000.

De acordo com as informações compartilhadas pela organização, os modelos de IA mais populares no mercado não conseguiram superar uma pontuação de 4% no ARC-AGI-2, enquanto os humanos podem resolver facilmente o teste.

“Hoje estamos animados para lançar o ARC-AGI-2 para desafiar a nova fronteira”, declara o anúncio. “O ARC-AGI-2 é ainda mais difícil para a IA (em particular, sistemas de raciocínio de IA), enquanto mantém a mesma facilidade relativa para os humanos.”

O ARC-AGI-2 é a segunda edição do benchmark da organização, o ARC-AGI-1, lançado em 2019. No teste anterior, apenas o o3 da OpenAI obteve sucesso com uma pontuação de 85% em dezembro de 2024.

Esta nova versão se concentra em tarefas que são fáceis para humanos e difíceis para modelos de IA – ou impossíveis até agora. Diferente de outros benchmarks, o ARC-AGI-2 não considera habilidades de doutorado ou capacidades sobre-humanas, em vez disso, as tarefas avaliam a capacidade de adaptação e habilidades de resolução de problemas pela aplicação do conhecimento existente.

Arc Prize explicou que cada tarefa no teste foi resolvida por humanos em menos de 2 tentativas, e os modelos de IA devem cumprir regras semelhantes, considerando os custos mais baixos. O teste inclui interpretação simbólica – os modelos de IA devem entender símbolos além de padrões visuais -, considerando regras simultâneas, e regras que mudam dependendo do contexto – algo que a maioria dos sistemas de raciocínio de IA falha.

A organização testou o novo benchmark com humanos e modelos de IA públicos. Painéis humanos obtiveram pontuação de 100% e 60%, enquanto sistemas de fronteira populares como o R1 e R1-zero do DeepSeek pontuaram 0,3%, e o LLM puro e o o3-mini-high do GPT-4.5 pontuaram 0,0%. O o3-low do OpenAI, usando raciocínio, busca e síntese em cadeia de pensamento, alcançou uma estimativa de 4%, com um alto custo por tarefa.

O Arc Prize também lançou o mais recente concurso de código aberto, o ARC Prize 2025, realizado entre março e novembro na popular plataforma online Kaggle. A primeira equipe a alcançar uma pontuação superior a 85% – e uma eficiência de $2,5 por tarefa – no benchmark ARC-AGI-2 receberá um Grande Prêmio de $700,000. Também haverá prêmios em papel e outros prêmios para as melhores pontuações.

A fundação afirmou que mais detalhes serão fornecidos no site oficial e nos próximos dias.

Gostou desse artigo? Avalie!
Eu detestei Eu não gostei Achei razoável Muito bom! Eu adorei!

Estamos muito felizes que tenha gostado do nosso trabalho!

Como um leitor importante, você se importaria de nos avaliar no Trustpilot? É rápido e significa muito para nós. Obrigado por ser incrível!

Avalie-nos no Trustpilot
0 Votado por 0 usuários
Título
Comentar
Obrigado por seu feedback
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Deixe um comentário

Loader
Loader Mostrar mais...