
Photo by Igor Omilaev on Unsplash
A Fundação Prêmio Arc Lança Novo Benchmark Desafiador AGI, Expondo as Fraquezas da IA
A fundação sem fins lucrativos Arc Prize Foundation anunciou uma nova referência, ARC-AGI-2, para desafiar os modelos de IA de fronteira em raciocínio e capacidades de nível humano na segunda-feira. A organização também anunciou um novo concurso, ARC Prize 2025, que acontecerá de março a novembro, e o vencedor ganhará um Grande Prêmio de $700.000.
Está com pressa? Aqui estão os fatos rápidos:
- A Fundação Prêmio Arc lançou um novo parâmetro de referência chamado ARC-AGI-2 para testar modelos de IA em habilidades de raciocínio no nível humano.
- Os principais modelos de IA atuais falharam no teste, pontuando entre 0,0% e 4%, enquanto os humanos pontuaram até 100%.
- A organização sem fins lucrativos também anunciou a competição Prêmio Arc 2025 para o parâmetro de referência, e o vencedor receberá um prêmio de $700,000.
De acordo com as informações compartilhadas pela organização, os modelos de IA mais populares no mercado não conseguiram superar uma pontuação de 4% no ARC-AGI-2, enquanto os humanos podem resolver facilmente o teste.
“Hoje estamos animados para lançar o ARC-AGI-2 para desafiar a nova fronteira”, declara o anúncio. “O ARC-AGI-2 é ainda mais difícil para a IA (em particular, sistemas de raciocínio de IA), enquanto mantém a mesma facilidade relativa para os humanos.”
O ARC-AGI-2 é a segunda edição do benchmark da organização, o ARC-AGI-1, lançado em 2019. No teste anterior, apenas o o3 da OpenAI obteve sucesso com uma pontuação de 85% em dezembro de 2024.
Esta nova versão se concentra em tarefas que são fáceis para humanos e difíceis para modelos de IA – ou impossíveis até agora. Diferente de outros benchmarks, o ARC-AGI-2 não considera habilidades de doutorado ou capacidades sobre-humanas, em vez disso, as tarefas avaliam a capacidade de adaptação e habilidades de resolução de problemas pela aplicação do conhecimento existente.
Arc Prize explicou que cada tarefa no teste foi resolvida por humanos em menos de 2 tentativas, e os modelos de IA devem cumprir regras semelhantes, considerando os custos mais baixos. O teste inclui interpretação simbólica – os modelos de IA devem entender símbolos além de padrões visuais -, considerando regras simultâneas, e regras que mudam dependendo do contexto – algo que a maioria dos sistemas de raciocínio de IA falha.
A organização testou o novo benchmark com humanos e modelos de IA públicos. Painéis humanos obtiveram pontuação de 100% e 60%, enquanto sistemas de fronteira populares como o R1 e R1-zero do DeepSeek pontuaram 0,3%, e o LLM puro e o o3-mini-high do GPT-4.5 pontuaram 0,0%. O o3-low do OpenAI, usando raciocínio, busca e síntese em cadeia de pensamento, alcançou uma estimativa de 4%, com um alto custo por tarefa.
O Arc Prize também lançou o mais recente concurso de código aberto, o ARC Prize 2025, realizado entre março e novembro na popular plataforma online Kaggle. A primeira equipe a alcançar uma pontuação superior a 85% – e uma eficiência de $2,5 por tarefa – no benchmark ARC-AGI-2 receberá um Grande Prêmio de $700,000. Também haverá prêmios em papel e outros prêmios para as melhores pontuações.
A fundação afirmou que mais detalhes serão fornecidos no site oficial e nos próximos dias.
Deixe um comentário
Cancelar