Durante décadas, a ciência se baseou em dados e informações acumuladas. No entanto, um erro simples ocorrido nos anos 50 se tornou um exemplo de como a digitalização e a inteligência artificial (IA) podem perpetuar falhas de forma quase irreversível. O caso de um termo científico falso, “microscopia eletrônica vegetativa”, é um exemplo claro dos desafios que surgem quando erros históricos são propagados pela IA.
O que é a “Microscopia Eletrônica Vegetativa”?
A “microscopia eletrônica vegetativa” é um termo que, embora pareça técnico e legítimo, na realidade não existe. Embora pareça um erro inofensivo, esse conceito falso apareceu em vários artigos científicos, gerados por IA, e até mesmo em revistas revisadas por pares. Como isso ocorreu?
De acordo com a pesquisa publicada por Retraction Watch, esse erro de escaneamento começou com um artigo de 1959 sobre paredes celulares bacterianas. Ao digitalizar o texto, o software de escaneamento acabou misturando palavras de colunas paralelas, criando o termo incoerente. Esse erro se tornou um “fóssil digital”, um erro preservado nas camadas de dados usados para treinar modelos de IA, que continuam a reproduzi-lo.
A Reprovação do Erro: Como Ele se Espalhou
O erro foi descoberto após o termo “microscopia eletrônica vegetativa” começar a aparecer em novas pesquisas, especialmente em estudos originados no Irã. No idioma persa, a palavra “vegetativo” se assemelha muito com a palavra “escaneamento”, o que fez com que o erro fosse inadvertidamente reintroduzido no campo científico.
Os cientistas envolvidos na pesquisa observam que modelos de IA, como o GPT-4o e Claude 3.5, continuam a gerar este erro, mostrando que o termo foi imortalizado nas bases de dados de treinamento da IA. Isso revela uma preocupação crescente: uma vez que um erro digital se torna parte da memória da internet, removê-lo se torna uma tarefa quase impossível.
Como a IA Está Propagando Fósseis Digitais
Este fenômeno foi descrito como “fósseis digitais”, ou erros que permanecem nos dados de treinamento da IA e continuam a ser replicados sem que haja uma maneira fácil de eliminá-los. A origem do erro foi encontrada no dataset CommonCrawl, um repositório imenso de páginas web que é usado para treinar muitas IAs. A magnitude desse banco de dados torna difícil, senão impossível, corrigir os erros sem o envolvimento das grandes empresas de tecnologia.
Embora a IA tenha muitos usos legítimos na ciência, ela também apresenta grandes riscos de desinformação, como evidenciado por esse caso. Quando erros simples se espalham em uma escala global, a verdade se torna cada vez mais difícil de distinguir. Isso levanta questões sobre como gerenciar a veracidade e a confiabilidade dos dados na era digital.
O Impacto para a Ciência e a Desinformação
Esse caso levanta sérias preocupações sobre a desinformação científica. As editoras científicas também desempenham um papel importante nesse processo, já que algumas tentaram justificar o erro antes de eventualmente corrigir. No entanto, como a IA continua a ser usada em larga escala, a perpetuação de erros como esse sugere que estamos apenas começando a entender os desafios que surgem dessa nova tecnologia.