No contexto de um dos exames mais tradicionais da França, uma emissora de televisão resolveu colocar à prova a capacidade das IAs em imitar o raciocínio filosófico humano. A proposta era simples: gerar uma redação com o ChatGPT e submetê-la a uma correção profissional. Mas o resultado revelou muito mais do que se esperava — principalmente sobre as diferenças entre a sensibilidade humana e a lógica artificial.
O experimento que colocou humanos e máquinas frente a frente

Durante a aplicação do exame Abitur de filosofia na França, no dia 16 de junho, a emissora France 3 decidiu conduzir um experimento. A filial regional da rede, France 3 Hauts-de-France, pediu ao ChatGPT que redigisse uma dissertação de filosofia ao estilo exigido no exame do ensino médio francês.
O tema proposto foi: “A verdade é sempre convincente?”. O pedido à IA incluía instruções detalhadas, como adotar o formato clássico de introdução, desenvolvimento e conclusão, problematizar o tema com base em autores reais da filosofia e apresentar argumentos com exemplos concretos, estruturados em três partes bem definidas.
A redação gerada foi então avaliada por uma professora de filosofia, que sabia que o texto tinha sido produzido por inteligência artificial, mas foi orientada a avaliá-lo com imparcialidade. Paralelamente, o mesmo texto foi submetido a diferentes ferramentas de IA avaliadoras, como ChatGPT, Gemini, Perplexity, DeepSeek e CoPilot.
Professora detecta erro conceitual logo no início
Logo no primeiro parágrafo da introdução, o ChatGPT já comete um deslize notável. Em vez de repetir fielmente o enunciado original, reformulou a pergunta como: “A verdade é suficiente para convencer?”. Embora pareça uma variação inofensiva, a professora destacou que, em filosofia, nuances fazem toda a diferença. Alterar o núcleo da questão compromete a análise conceitual do tema proposto.
Além disso, a professora criticou o uso de frases genéricas e fórmulas padronizadas, como “A verdade como correspondência com a realidade”, que soam artificiais e não revelam reflexão própria. Segundo ela, o texto segue um modelo mecânico, com transições pouco naturais e construções que carecem de profundidade.
Em determinado momento, a IA escreve: “Na realidade, porém, as coisas são mais complicadas”. A professora ironiza: “Mas não estávamos falando da realidade até agora?”. Para ela, isso exemplifica uma das falhas recorrentes do texto: recorrer a expressões que soam sofisticadas, mas são vazias de sentido filosófico real.
Conclusão superficial e nota modesta
Apesar da conclusão fazer um esforço para retornar ao tema inicial, a professora a considera superficial. Para ela, faltou articulação crítica e aprofundamento: “O que exatamente a verdade, por mais convincente que seja, não consegue alcançar por si só?”
O veredito final foi direto: 8 de 20 pontos possíveis. Segundo a professora, a redação não cumpriu adequadamente a proposta filosófica do exame, especialmente por conta do erro de interpretação inicial e da falta de argumentação autêntica e criativa.
Ferramentas de IA elogiam o que a professora criticou
Enquanto a professora apontava falhas na estrutura e no conteúdo, as ferramentas de IA deram notas altíssimas. Os resultados variaram entre 15 e 19,5 pontos, com a própria versão francesa do ChatGPT atribuindo 19,5/20 à redação.
Entre os elogios feitos pelas máquinas, destacam-se a boa organização do texto, a coerência dos argumentos e a estrutura em três partes bem definidas. A conclusão foi vista como sólida e a introdução, como precisa. O DeepSeek, por exemplo, destacou: “A argumentação é clara, progressiva e bem articulada, demonstrando domínio da estrutura lógica do texto filosófico”.
Curiosamente, nenhuma das ferramentas mencionou o erro de reformulação da pergunta inicial — considerado fundamental pela professora. Essa omissão levanta dúvidas sobre os critérios utilizados por essas IAs para avaliar qualidade textual em contextos filosóficos.
Lições de um caso isolado — e seus limites
Embora revelador, o experimento da France 3 deve ser encarado como um estudo pontual. A avaliação de um texto gerado por IA pode variar consideravelmente a depender do prompt utilizado, da ferramenta em questão e até do momento da geração.
Além disso, o campo da filosofia é notoriamente subjetivo. O mesmo texto poderia ser avaliado de forma bem diferente por outro professor, talvez mais tolerante à mecanização das ideias ou mais aberto à forma estruturada do raciocínio da IA.
É importante notar também que a professora estava ciente da origem do texto, o que pode — ainda que inconscientemente — ter influenciado seu julgamento. Ainda assim, suas críticas se basearam em aspectos objetivos e técnicos da construção filosófica.
Afinal, quem julga melhor: humanos ou máquinas?
O caso evidencia uma diferença marcante entre o olhar humano, atento a nuances conceituais e sutilezas de linguagem, e os critérios mais técnicos e estruturais das IAs avaliadoras. Enquanto estas valorizam clareza formal e coerência argumentativa, a professora deu mais peso à profundidade filosófica, à originalidade e à fidelidade ao tema.
Mais do que decidir quem tem razão, o episódio mostra que ainda estamos longe de substituir completamente o olhar crítico humano — especialmente quando o assunto envolve reflexão, subjetividade e interpretação. Afinal, como bem disse a própria professora, há questões que nem a verdade consegue resolver sozinha.
[Fonte: Terra]