Pular para o conteúdo
Tecnologia

Harvard libera 1 milhão de livros para treinar modelos de IA

A Universidade de Harvard disponibilizou quase um milhão de livros de domínio público para treinar modelos de inteligência artificial. A iniciativa, financiada por Microsoft e OpenAI, busca ampliar os recursos para o desenvolvimento de IA, mas também levanta questões sobre o futuro do acesso e uso de dados para essas tecnologias.
Por

Tempo de leitura: 2 minutos

Sob a nova Iniciativa Institucional de Dados, Harvard permitiu o uso de uma vasta coleção de livros escaneados pelo Google Books, que estão fora de proteção de direitos autorais devido à sua antiguidade. Essa medida oferece um valioso recurso para modelos de linguagem, mas está longe de resolver a crescente demanda por dados exclusivos e atualizados no campo da IA.

Livros clássicos e domínio público

A coleção inclui obras clássicas como Shakespeare, Charles Dickens e Dante, além de livros de texto menos conhecidos e até dicionários de bolso. Segundo as regras de direitos autorais, essas obras estão disponíveis porque seus autores já faleceram há mais de 70 anos.

Modelos de IA como ChatGPT dependem de grandes volumes de texto de alta qualidade para seu treinamento. Quanto mais variada e rica for a base de dados, mais eficaz será a capacidade do modelo de simular interações humanas e fornecer informações relevantes.

Limitações e desafios no acesso a dados

Embora o lançamento de um milhão de livros represente uma contribuição significativa, ele não cobre a necessidade de dados modernos e diversificados. Termos, gírias e temas contemporâneos, especialmente os usados por gerações mais jovens, como a Geração Z, estão ausentes nesse acervo.

Além disso, empresas de IA enfrentam desafios legais e éticos no uso de conteúdos protegidos. OpenAI e outras já foram processadas por editoras como The Wall Street Journal e The New York Times por utilizar material sem autorização. Argumentos que comparam o aprendizado de IA ao processo humano de leitura e criação perdem força devido à velocidade incomparável de processamento das máquinas.

A corrida por dados exclusivos

Com plataformas como Reddit e X limitando agressivamente o uso de seus dados, as empresas de IA enfrentam um futuro incerto em sua busca por conteúdo de qualidade. Recursos como os livros liberados por Harvard são valiosos, mas insuficientes para sustentar a evolução de modelos de linguagem avançados.

O futuro do treinamento de IA

Embora a liberação de obras de domínio público por Harvard seja um passo significativo, ela também evidencia a crescente dificuldade das empresas de IA em encontrar dados de qualidade sem infringir leis. O desenvolvimento de IA mais avançadas dependerá de um equilíbrio entre acesso ético, parcerias estratégicas e a busca por novos formatos de dados que respeitem a propriedade intelectual.

A corrida para alimentar modelos de IA está longe de terminar, e os desafios legais e éticos continuam a moldar o futuro dessas tecnologias.

Partilhe este artigo

Artigos relacionados