A o3 da OpenAI Alcança Inteligência de Nível Humano em Teste-Chave de Benchmark
Uma recente descoberta na inteligência artificial trouxe os pesquisadores mais perto de criar a inteligência artificial geral (IAG), um objetivo há muito buscado na área.
Com pressa? Aqui estão os fatos rápidos!
- O o3 AI da OpenAI obteve 85% no benchmark de inteligência geral ARC-AGI.
- A pontuação é igual ao desempenho humano médio e supera o recorde anterior de 55% de outros AIs.
- O teste ARC-AGI mede a eficiência de amostragem e a capacidade de adaptação a novas tarefas.
O novo sistema de IA da OpenAI, conhecido como o3, alcançou uma pontuação de 85% no teste ARC-AGI, um teste projetado para medir a capacidade de uma IA de se adaptar a novas situações, conforme relatado por The Conversation.
Este resultado supera o melhor desempenho anterior da IA de 55% e iguala o desempenho humano médio, marcando um marco significativo na pesquisa de IA. A referência ARC-AGI avalia a “eficiência de amostra” de um sistema de IA, que se refere à capacidade de aprender bem com exemplos limitados, diz The Conversation.
Diferentemente dos modelos de IA amplamente utilizados, como o ChatGPT, que dependem de enormes conjuntos de dados para gerar resultados, o modelo o3 demonstra a capacidade de generalizar e se adaptar a tarefas inéditas com dados mínimos. Essa capacidade é considerada fundamental para alcançar uma inteligência semelhante à humana, conforme relatado por The Conversation.
Desenvolvido pelo pesquisador francês de IA, François Chollet, o teste ARC-AGI envolve a resolução de quebra-cabeças baseados em grade, identificando padrões.
Os LLMs tradicionais dependem de memorização, busca e aplicação de “mini-programas” pré-aprendidos, mas têm dificuldades com a inteligência fluida, conforme evidenciado pelas baixas pontuações no benchmark ARC-AGI. O modelo o3 introduz um mecanismo de síntese de programas no momento do teste, permitindo que ele gere e execute novas soluções, conforme detalhado por Chollet.
Chollet explica que, em sua essência, o o3 realiza uma busca de programas em linguagem natural dentro do espaço de tokens, orientada por um modelo avaliador. Quando apresentado a uma tarefa, o o3 explora possíveis “cadeias de pensamento” (CoTs) – soluções passo a passo descritas em linguagem natural.
Ele avalia essas CoTs quanto à adequação, recombinando conhecimento em programas coerentes para enfrentar novos desafios de forma eficaz. A Conversation observa que a OpenAI não revelou os métodos exatos usados para desenvolver o o3, mas os pesquisadores especulam que o sistema emprega um processo semelhante ao AlphaGo do Google, que derrotou o campeão mundial de Go em 2016.
No entanto, Chollet observa que o processo é intensivo em termos de computação. A geração de soluções pode envolver a exploração de milhões de caminhos potenciais no espaço do programa, acarretando custos significativos em tempo e recursos. Diferente de sistemas como o AlphaZero, que adquirem habilidades autonomamente através da aprendizagem iterativa, o o3 depende de dados CoT rotulados por especialistas, limitando sua autonomia.
Apesar desses resultados promissores, ainda restam questões significativas. A OpenAI divulgou informações limitadas sobre o o3, compartilhando detalhes apenas com pesquisadores e instituições selecionadas.
A Conversation observa que não está claro se a adaptabilidade do sistema provém de modelos subjacentes fundamentalmente aprimorados ou de otimizações específicas para tarefas durante o treinamento. Testes adicionais e transparência serão cruciais para entender o verdadeiro potencial do o3.
Além disso, Chollet destaca o custo dessa inteligência: resolver tarefas ARC-AGI custa $5 para humanos, mas $17–$20 para o o3 no modo de baixo consumo de computação. No entanto, eles esperam melhorias rápidas, tornando o o3 competitivo com o desempenho humano em breve.
A conquista reacende debates sobre a viabilidade e as implicações da AG. Para alguns pesquisadores, o sucesso do o3 torna a perspectiva da AGI mais tangível e urgente. Isso é particularmente crucial, dada as preocupações com a segurança cibernética, já que variantes de malware geradas por IA estão cada vez mais escapando da detecção.
No entanto, outros permanecem cautelosos, enfatizando que avaliações robustas são necessárias para determinar se as capacidades do o3 vão além de benchmarks específicos. Enquanto a comunidade de IA aguarda um acesso mais amplo ao o3, o avanço sinaliza um momento transformador na busca por sistemas inteligentes capazes de raciocinar e aprender como os humanos.
Deixe um comentário
Cancelar