Sob a nova Iniciativa Institucional de Dados, Harvard permitiu o uso de uma vasta coleção de livros escaneados pelo Google Books, que estão fora de proteção de direitos autorais devido à sua antiguidade. Essa medida oferece um valioso recurso para modelos de linguagem, mas está longe de resolver a crescente demanda por dados exclusivos e atualizados no campo da IA.
Livros clássicos e domínio público
A coleção inclui obras clássicas como Shakespeare, Charles Dickens e Dante, além de livros de texto menos conhecidos e até dicionários de bolso. Segundo as regras de direitos autorais, essas obras estão disponíveis porque seus autores já faleceram há mais de 70 anos.
Modelos de IA como ChatGPT dependem de grandes volumes de texto de alta qualidade para seu treinamento. Quanto mais variada e rica for a base de dados, mais eficaz será a capacidade do modelo de simular interações humanas e fornecer informações relevantes.
Limitações e desafios no acesso a dados
Embora o lançamento de um milhão de livros represente uma contribuição significativa, ele não cobre a necessidade de dados modernos e diversificados. Termos, gírias e temas contemporâneos, especialmente os usados por gerações mais jovens, como a Geração Z, estão ausentes nesse acervo.
Além disso, empresas de IA enfrentam desafios legais e éticos no uso de conteúdos protegidos. OpenAI e outras já foram processadas por editoras como The Wall Street Journal e The New York Times por utilizar material sem autorização. Argumentos que comparam o aprendizado de IA ao processo humano de leitura e criação perdem força devido à velocidade incomparável de processamento das máquinas.
A corrida por dados exclusivos
Com plataformas como Reddit e X limitando agressivamente o uso de seus dados, as empresas de IA enfrentam um futuro incerto em sua busca por conteúdo de qualidade. Recursos como os livros liberados por Harvard são valiosos, mas insuficientes para sustentar a evolução de modelos de linguagem avançados.
O futuro do treinamento de IA
Embora a liberação de obras de domínio público por Harvard seja um passo significativo, ela também evidencia a crescente dificuldade das empresas de IA em encontrar dados de qualidade sem infringir leis. O desenvolvimento de IA mais avançadas dependerá de um equilíbrio entre acesso ético, parcerias estratégicas e a busca por novos formatos de dados que respeitem a propriedade intelectual.
A corrida para alimentar modelos de IA está longe de terminar, e os desafios legais e éticos continuam a moldar o futuro dessas tecnologias.