Pular para o conteúdo
Tecnologia

Um texto de filosofia escrito por IA recebeu notas altíssimas de ferramentas automáticas, mas foi duramente criticado por uma professora

Um experimento simples na França revelou uma divergência intrigante entre o olhar humano e o julgamento das máquinas.
Por

Tempo de leitura: 4 minutos

No contexto de um dos exames mais tradicionais da França, uma emissora de televisão resolveu colocar à prova a capacidade das IAs em imitar o raciocínio filosófico humano. A proposta era simples: gerar uma redação com o ChatGPT e submetê-la a uma correção profissional. Mas o resultado revelou muito mais do que se esperava — principalmente sobre as diferenças entre a sensibilidade humana e a lógica artificial.

O experimento que colocou humanos e máquinas frente a frente

Um texto de filosofia escrito por IA recebeu notas altíssimas de ferramentas automáticas, mas foi duramente criticado por uma professora
© Pexels

Durante a aplicação do exame Abitur de filosofia na França, no dia 16 de junho, a emissora France 3 decidiu conduzir um experimento. A filial regional da rede, France 3 Hauts-de-France, pediu ao ChatGPT que redigisse uma dissertação de filosofia ao estilo exigido no exame do ensino médio francês.

O tema proposto foi: “A verdade é sempre convincente?”. O pedido à IA incluía instruções detalhadas, como adotar o formato clássico de introdução, desenvolvimento e conclusão, problematizar o tema com base em autores reais da filosofia e apresentar argumentos com exemplos concretos, estruturados em três partes bem definidas.

A redação gerada foi então avaliada por uma professora de filosofia, que sabia que o texto tinha sido produzido por inteligência artificial, mas foi orientada a avaliá-lo com imparcialidade. Paralelamente, o mesmo texto foi submetido a diferentes ferramentas de IA avaliadoras, como ChatGPT, Gemini, Perplexity, DeepSeek e CoPilot.

Professora detecta erro conceitual logo no início

Logo no primeiro parágrafo da introdução, o ChatGPT já comete um deslize notável. Em vez de repetir fielmente o enunciado original, reformulou a pergunta como: “A verdade é suficiente para convencer?”. Embora pareça uma variação inofensiva, a professora destacou que, em filosofia, nuances fazem toda a diferença. Alterar o núcleo da questão compromete a análise conceitual do tema proposto.

Além disso, a professora criticou o uso de frases genéricas e fórmulas padronizadas, como “A verdade como correspondência com a realidade”, que soam artificiais e não revelam reflexão própria. Segundo ela, o texto segue um modelo mecânico, com transições pouco naturais e construções que carecem de profundidade.

Em determinado momento, a IA escreve: “Na realidade, porém, as coisas são mais complicadas”. A professora ironiza: “Mas não estávamos falando da realidade até agora?”. Para ela, isso exemplifica uma das falhas recorrentes do texto: recorrer a expressões que soam sofisticadas, mas são vazias de sentido filosófico real.

Conclusão superficial e nota modesta

Apesar da conclusão fazer um esforço para retornar ao tema inicial, a professora a considera superficial. Para ela, faltou articulação crítica e aprofundamento: “O que exatamente a verdade, por mais convincente que seja, não consegue alcançar por si só?”

O veredito final foi direto: 8 de 20 pontos possíveis. Segundo a professora, a redação não cumpriu adequadamente a proposta filosófica do exame, especialmente por conta do erro de interpretação inicial e da falta de argumentação autêntica e criativa.

Ferramentas de IA elogiam o que a professora criticou

Enquanto a professora apontava falhas na estrutura e no conteúdo, as ferramentas de IA deram notas altíssimas. Os resultados variaram entre 15 e 19,5 pontos, com a própria versão francesa do ChatGPT atribuindo 19,5/20 à redação.

Entre os elogios feitos pelas máquinas, destacam-se a boa organização do texto, a coerência dos argumentos e a estrutura em três partes bem definidas. A conclusão foi vista como sólida e a introdução, como precisa. O DeepSeek, por exemplo, destacou: “A argumentação é clara, progressiva e bem articulada, demonstrando domínio da estrutura lógica do texto filosófico”.

Curiosamente, nenhuma das ferramentas mencionou o erro de reformulação da pergunta inicial — considerado fundamental pela professora. Essa omissão levanta dúvidas sobre os critérios utilizados por essas IAs para avaliar qualidade textual em contextos filosóficos.

Lições de um caso isolado — e seus limites

Embora revelador, o experimento da France 3 deve ser encarado como um estudo pontual. A avaliação de um texto gerado por IA pode variar consideravelmente a depender do prompt utilizado, da ferramenta em questão e até do momento da geração.

Além disso, o campo da filosofia é notoriamente subjetivo. O mesmo texto poderia ser avaliado de forma bem diferente por outro professor, talvez mais tolerante à mecanização das ideias ou mais aberto à forma estruturada do raciocínio da IA.

É importante notar também que a professora estava ciente da origem do texto, o que pode — ainda que inconscientemente — ter influenciado seu julgamento. Ainda assim, suas críticas se basearam em aspectos objetivos e técnicos da construção filosófica.

Afinal, quem julga melhor: humanos ou máquinas?

O caso evidencia uma diferença marcante entre o olhar humano, atento a nuances conceituais e sutilezas de linguagem, e os critérios mais técnicos e estruturais das IAs avaliadoras. Enquanto estas valorizam clareza formal e coerência argumentativa, a professora deu mais peso à profundidade filosófica, à originalidade e à fidelidade ao tema.

Mais do que decidir quem tem razão, o episódio mostra que ainda estamos longe de substituir completamente o olhar crítico humano — especialmente quando o assunto envolve reflexão, subjetividade e interpretação. Afinal, como bem disse a própria professora, há questões que nem a verdade consegue resolver sozinha.

[Fonte: Terra]

Partilhe este artigo

Artigos relacionados