Avaliar a inteligência artificial sempre foi um desafio. À medida que os modelos se tornam mais sofisticados, medir suas capacidades reais exige testes cada vez mais complexos. Para enfrentar esse problema, um grupo internacional de pesquisadores decidiu criar um exame extremo, capaz de desafiar até os sistemas mais avançados do mundo. O experimento reúne milhares de perguntas em dezenas de áreas do conhecimento e oferece um retrato intrigante do estágio atual da IA.
Um exame criado para colocar as inteligências artificiais no limite
Para medir o progresso da inteligência artificial, pesquisadores criaram um teste chamado Humanity’s Last Exam — literalmente, “o último exame da humanidade”.
A proposta é simples em teoria, mas extremamente ambiciosa na prática: verificar se modelos de IA conseguem responder perguntas de nível especializado comparáveis às enfrentadas por pesquisadores humanos.
O projeto foi desenvolvido por cientistas do Center for AI Safety em colaboração com a empresa Scale AI. O exame foi apresentado ao público em janeiro de 2025 e descrito em detalhes em um estudo publicado na revista científica Nature.
A escala do projeto impressiona.
O teste reúne 2.500 perguntas, distribuídas em mais de 100 disciplinas diferentes. Entre os temas abordados estão:
- matemática avançada
- física teórica
- história
- mitologia
- filosofia
- ciências naturais
Para construir esse banco de perguntas, os organizadores mobilizaram um esforço global. Mais de 1.000 especialistas, ligados a cerca de 500 instituições em 50 países, contribuíram para a elaboração do conteúdo.
A ideia era criar um exame capaz de avaliar se sistemas como ChatGPT, Gemini, Claude ou DeepSeek poderiam lidar com o tipo de conhecimento que normalmente exige formação acadêmica avançada.
Mas os pesquisadores queriam evitar um problema comum em testes desse tipo: perguntas que a IA pudesse simplesmente encontrar na internet.
Um processo rigoroso para garantir perguntas realmente difíceis
O desenvolvimento do exame passou por uma seleção extremamente rigorosa.
Inicialmente, os pesquisadores reuniram mais de 70 mil perguntas sugeridas por especialistas. Em seguida, esse material foi submetido a um filtro automático.
Qualquer questão que pudesse ser respondida facilmente por modelos de IA existentes era descartada.
Depois dessa primeira triagem, restaram cerca de 13 mil perguntas que conseguiram confundir os sistemas testados.
Mesmo assim, o processo continuou.
Especialistas revisaram manualmente esse conjunto até chegar à versão final do exame, composta por 2.500 questões consideradas extremamente difíceis.
O nível de complexidade é comparável ao de programas de doutorado, com problemas que exigem raciocínio profundo, conhecimento técnico e compreensão detalhada de conceitos.
Entre os exemplos estão análises complexas de sistemas físicos, interpretação de textos históricos raros e problemas matemáticos avançados.
O objetivo não era apenas testar memória ou acesso a informações, mas verificar se os modelos realmente conseguem lidar com conhecimento especializado em diferentes áreas.

Os resultados mostram avanço rápido — mas ainda distante do nível humano
Quando o teste começou a ser aplicado, os resultados iniciais foram modestos.
Um dos primeiros modelos avaliados, chamado o1, da OpenAI, alcançou apenas 8,3% de respostas corretas.
Esse número refletia o enorme grau de dificuldade do exame.
No entanto, o avanço rápido da inteligência artificial mudou o cenário em pouco tempo.
Em fevereiro de 2026, o melhor desempenho registrado foi obtido pelo modelo Gemini 3 Deep Think, que alcançou 48,4% de acertos.
O salto é significativo.
Em pouco mais de um ano, o desempenho das IAs passou de níveis próximos a 10% para quase metade das respostas corretas.
Mesmo assim, a comparação com especialistas humanos mostra que ainda existe uma diferença importante.
Pesquisadores e especialistas geralmente conseguem atingir cerca de 90% de acerto em perguntas relacionadas às suas áreas de conhecimento.
Isso coloca a inteligência artificial em uma posição curiosa: ela já consegue resolver muitos problemas complexos, mas ainda não domina completamente o conhecimento especializado.
O que esse exame realmente revela sobre o futuro da IA
Os próprios autores do estudo fazem um alerta importante.
O Humanity’s Last Exam não deve ser interpretado como uma prova definitiva da chamada inteligência artificial geral (AGI).
Um bom desempenho no exame indica que um sistema consegue responder perguntas complexas em formato estruturado.
Mas isso não significa que ele possua capacidades comparáveis às de um cientista humano.
Funções como:
- pesquisa científica independente
- criatividade intelectual
- formulação de novas teorias
- investigação aberta de problemas
ainda estão além do que esses sistemas conseguem fazer de forma confiável.
Mesmo assim, os resultados mostram algo impressionante: a velocidade com que os modelos de linguagem estão evoluindo.
Em pouco tempo, a inteligência artificial passou de respostas rudimentares para desempenhos que começam a se aproximar do conhecimento especializado em múltiplas disciplinas.
Isso sugere que estamos entrando em uma fase diferente da evolução da IA.
Uma fase em que máquinas já conseguem enfrentar alguns dos exames mais difíceis já criados para elas.
Mas ainda não estão prontas para escrever, sozinhas, o próximo capítulo da ciência.