Um exame com 2.500 perguntas revelou os limites atuais da IA

Avaliar a inteligência artificial sempre foi um desafio. À medida que os modelos se tornam mais sofisticados, medir suas capacidades reais exige testes cada vez mais complexos. Para enfrentar esse problema, um grupo internacional de pesquisadores decidiu criar um exame extremo, capaz de desafiar até os sistemas mais avançados do mundo. O experimento reúne milhares de perguntas em dezenas de áreas do conhecimento e oferece um retrato intrigante do estágio atual da IA.

Um exame criado para colocar as inteligências artificiais no limite

Para medir o progresso da inteligência artificial, pesquisadores criaram um teste chamado Humanity’s Last Exam — literalmente, “o último exame da humanidade”.

A proposta é simples em teoria, mas extremamente ambiciosa na prática: verificar se modelos de IA conseguem responder perguntas de nível especializado comparáveis às enfrentadas por pesquisadores humanos.

O projeto foi desenvolvido por cientistas do Center for AI Safety em colaboração com a empresa Scale AI. O exame foi apresentado ao público em janeiro de 2025 e descrito em detalhes em um estudo publicado na revista científica Nature.

A escala do projeto impressiona.

O teste reúne 2.500 perguntas, distribuídas em mais de 100 disciplinas diferentes. Entre os temas abordados estão:

matemática avançada
física teórica
história
mitologia
filosofia
ciências naturais

Para construir esse banco de perguntas, os organizadores mobilizaram um esforço global. Mais de 1.000 especialistas, ligados a cerca de 500 instituições em 50 países, contribuíram para a elaboração do conteúdo.

A ideia era criar um exame capaz de avaliar se sistemas como ChatGPT, Gemini, Claude ou DeepSeek poderiam lidar com o tipo de conhecimento que normalmente exige formação acadêmica avançada.

Mas os pesquisadores queriam evitar um problema comum em testes desse tipo: perguntas que a IA pudesse simplesmente encontrar na internet.

Um processo rigoroso para garantir perguntas realmente difíceis

O desenvolvimento do exame passou por uma seleção extremamente rigorosa.

Inicialmente, os pesquisadores reuniram mais de 70 mil perguntas sugeridas por especialistas. Em seguida, esse material foi submetido a um filtro automático.

Qualquer questão que pudesse ser respondida facilmente por modelos de IA existentes era descartada.

Depois dessa primeira triagem, restaram cerca de 13 mil perguntas que conseguiram confundir os sistemas testados.

Mesmo assim, o processo continuou.

Especialistas revisaram manualmente esse conjunto até chegar à versão final do exame, composta por 2.500 questões consideradas extremamente difíceis.

O nível de complexidade é comparável ao de programas de doutorado, com problemas que exigem raciocínio profundo, conhecimento técnico e compreensão detalhada de conceitos.

Entre os exemplos estão análises complexas de sistemas físicos, interpretação de textos históricos raros e problemas matemáticos avançados.

O objetivo não era apenas testar memória ou acesso a informações, mas verificar se os modelos realmente conseguem lidar com conhecimento especializado em diferentes áreas.

Limites Atuais Da Ia1 — © Resource Database – Unsplash

Os resultados mostram avanço rápido — mas ainda distante do nível humano

Quando o teste começou a ser aplicado, os resultados iniciais foram modestos.

Um dos primeiros modelos avaliados, chamado o1, da OpenAI, alcançou apenas 8,3% de respostas corretas.

Esse número refletia o enorme grau de dificuldade do exame.

No entanto, o avanço rápido da inteligência artificial mudou o cenário em pouco tempo.

Em fevereiro de 2026, o melhor desempenho registrado foi obtido pelo modelo Gemini 3 Deep Think, que alcançou 48,4% de acertos.

O salto é significativo.

Em pouco mais de um ano, o desempenho das IAs passou de níveis próximos a 10% para quase metade das respostas corretas.

Mesmo assim, a comparação com especialistas humanos mostra que ainda existe uma diferença importante.

Pesquisadores e especialistas geralmente conseguem atingir cerca de 90% de acerto em perguntas relacionadas às suas áreas de conhecimento.

Isso coloca a inteligência artificial em uma posição curiosa: ela já consegue resolver muitos problemas complexos, mas ainda não domina completamente o conhecimento especializado.

O que esse exame realmente revela sobre o futuro da IA

Os próprios autores do estudo fazem um alerta importante.

O Humanity’s Last Exam não deve ser interpretado como uma prova definitiva da chamada inteligência artificial geral (AGI).

Um bom desempenho no exame indica que um sistema consegue responder perguntas complexas em formato estruturado.

Mas isso não significa que ele possua capacidades comparáveis às de um cientista humano.

Funções como:

pesquisa científica independente
criatividade intelectual
formulação de novas teorias
investigação aberta de problemas

ainda estão além do que esses sistemas conseguem fazer de forma confiável.

Mesmo assim, os resultados mostram algo impressionante: a velocidade com que os modelos de linguagem estão evoluindo.

Em pouco tempo, a inteligência artificial passou de respostas rudimentares para desempenhos que começam a se aproximar do conhecimento especializado em múltiplas disciplinas.

Isso sugere que estamos entrando em uma fase diferente da evolução da IA.

Uma fase em que máquinas já conseguem enfrentar alguns dos exames mais difíceis já criados para elas.

Mas ainda não estão prontas para escrever, sozinhas, o próximo capítulo da ciência.

Um exame com 2.500 perguntas revelou os limites atuais da IA

Um exame criado para colocar as inteligências artificiais no limite

Um processo rigoroso para garantir perguntas realmente difíceis

Os resultados mostram avanço rápido — mas ainda distante do nível humano

O que esse exame realmente revela sobre o futuro da IA

Últimas notícias

Um fóssil raro encontrado na Europa pode mudar tudo o que sabíamos sobre dinossauros

O futuro das criptomoedas pode estar mais próximo de um desafio real

Suspeito de ataque em evento em Washington tinha perfil inesperado

O que deixou essa marca no cosmos pode mudar tudo o que sabemos sobre galáxias

Parasitas sobrevivem 2.000 anos e revelam hábitos dos romanos em Herculano

O dado que pode mudar a forma como vemos o crescimento global

O enigma antigo que pode mudar o que sabemos sobre civilizações

O update que mudou a forma de jogar um sandbox

Artigos relacionados

Um exame com 2.500 perguntas revelou os limites atuais da IA

Um exame criado para colocar as inteligências artificiais no limite

Um processo rigoroso para garantir perguntas realmente difíceis

Os resultados mostram avanço rápido — mas ainda distante do nível humano

O que esse exame realmente revela sobre o futuro da IA

Um fóssil raro encontrado na Europa pode mudar tudo o que sabíamos sobre dinossauros

O futuro das criptomoedas pode estar mais próximo de um desafio real

Suspeito de ataque em evento em Washington tinha perfil inesperado

O que deixou essa marca no cosmos pode mudar tudo o que sabemos sobre galáxias

Parasitas sobrevivem 2.000 anos e revelam hábitos dos romanos em Herculano

O dado que pode mudar a forma como vemos o crescimento global

O enigma antigo que pode mudar o que sabemos sobre civilizações

O update que mudou a forma de jogar um sandbox

Artigos relacionados

O futuro das criptomoedas pode estar mais próximo de um desafio real

Musk quer transformar o X em app financeiro com novo sistema de pagamentos

Hackers estão mudando de estratégia — e isso começa no LinkedIn

IA impulsiona demissões nas big techs e muda o mercado de trabalho

Você fecha o notebook e guarda na mochila, mas esse hábito pode estar destruindo sua bateria sem você perceber

Copa do Mundo 2026 terá novas tecnologias com inteligência artificial