Harvard libera 1 milhão de livros para treinar modelos de IA

A Universidade de Harvard disponibilizou quase um milhão de livros de domínio público para treinar modelos de inteligência artificial. A iniciativa, financiada por Microsoft e OpenAI, busca ampliar os recursos para o desenvolvimento de IA, mas também levanta questões sobre o futuro do acesso e uso de dados para essas tecnologias.

Sob a nova Iniciativa Institucional de Dados, Harvard permitiu o uso de uma vasta coleção de livros escaneados pelo Google Books, que estão fora de proteção de direitos autorais devido à sua antiguidade. Essa medida oferece um valioso recurso para modelos de linguagem, mas está longe de resolver a crescente demanda por dados exclusivos e atualizados no campo da IA.

Livros clássicos e domínio público

A coleção inclui obras clássicas como Shakespeare, Charles Dickens e Dante, além de livros de texto menos conhecidos e até dicionários de bolso. Segundo as regras de direitos autorais, essas obras estão disponíveis porque seus autores já faleceram há mais de 70 anos.

Modelos de IA como ChatGPT dependem de grandes volumes de texto de alta qualidade para seu treinamento. Quanto mais variada e rica for a base de dados, mais eficaz será a capacidade do modelo de simular interações humanas e fornecer informações relevantes.

Limitações e desafios no acesso a dados

Embora o lançamento de um milhão de livros represente uma contribuição significativa, ele não cobre a necessidade de dados modernos e diversificados. Termos, gírias e temas contemporâneos, especialmente os usados por gerações mais jovens, como a Geração Z, estão ausentes nesse acervo.

Além disso, empresas de IA enfrentam desafios legais e éticos no uso de conteúdos protegidos. OpenAI e outras já foram processadas por editoras como The Wall Street Journal e The New York Times por utilizar material sem autorização. Argumentos que comparam o aprendizado de IA ao processo humano de leitura e criação perdem força devido à velocidade incomparável de processamento das máquinas.

A corrida por dados exclusivos

Com plataformas como Reddit e X limitando agressivamente o uso de seus dados, as empresas de IA enfrentam um futuro incerto em sua busca por conteúdo de qualidade. Recursos como os livros liberados por Harvard são valiosos, mas insuficientes para sustentar a evolução de modelos de linguagem avançados.

O futuro do treinamento de IA

Embora a liberação de obras de domínio público por Harvard seja um passo significativo, ela também evidencia a crescente dificuldade das empresas de IA em encontrar dados de qualidade sem infringir leis. O desenvolvimento de IA mais avançadas dependerá de um equilíbrio entre acesso ético, parcerias estratégicas e a busca por novos formatos de dados que respeitem a propriedade intelectual.

A corrida para alimentar modelos de IA está longe de terminar, e os desafios legais e éticos continuam a moldar o futuro dessas tecnologias.

Harvard libera 1 milhão de livros para treinar modelos de IA

Livros clássicos e domínio público

Limitações e desafios no acesso a dados

A corrida por dados exclusivos

O futuro do treinamento de IA

Últimas notícias

Cientistas criam material inspirado em células que armazena energia solar por meses e pode revolucionar o futuro das baterias

A tecnologia que pode transformar a busca por vida extraterrestre: um novo instrumento promete detectar sinais que hoje passam despercebidos

O cannabis nunca foi tão potente, e os cientistas estão descobrindo o que isso realmente significa para o cérebro em cada fase da vida

Neymar está perto de voltar: Ancelotti indica retorno do camisa 10 contra a Escócia e anima torcida brasileira na Copa do Mundo

Cientistas descobrem borboletas que vivem até 25 vezes mais e podem ajudar a explicar o envelhecimento humano

NASA corre contra o tempo para salvar telescópio espacial que está caindo em direção à Terra

Pausas para hidratação estão irritando jogadores, técnicos e torcedores

Oito aditivos presentes em alimentos comuns foram associados a maior risco de doenças cardíacas, e cientistas defendem revisão das regras de segurança

Artigos relacionados

Harvard libera 1 milhão de livros para treinar modelos de IA

Livros clássicos e domínio público

Limitações e desafios no acesso a dados

A corrida por dados exclusivos

O futuro do treinamento de IA

Cientistas criam material inspirado em células que armazena energia solar por meses e pode revolucionar o futuro das baterias

A tecnologia que pode transformar a busca por vida extraterrestre: um novo instrumento promete detectar sinais que hoje passam despercebidos

O cannabis nunca foi tão potente, e os cientistas estão descobrindo o que isso realmente significa para o cérebro em cada fase da vida

Neymar está perto de voltar: Ancelotti indica retorno do camisa 10 contra a Escócia e anima torcida brasileira na Copa do Mundo

Cientistas descobrem borboletas que vivem até 25 vezes mais e podem ajudar a explicar o envelhecimento humano

NASA corre contra o tempo para salvar telescópio espacial que está caindo em direção à Terra

Pausas para hidratação estão irritando jogadores, técnicos e torcedores

Oito aditivos presentes em alimentos comuns foram associados a maior risco de doenças cardíacas, e cientistas defendem revisão das regras de segurança

Artigos relacionados

As empresas apostaram tudo na IA e agora enfrentam uma conta que ninguém esperava

A Noruega tentou digitalizar completamente suas escolas. Agora está fazendo o caminho inverso e limitando o uso de IA nas salas de aula

O WhatsApp não tem lixeira, mas existe um jeito de recuperar conversas apagadas: o segredo está no backup

Pesquisadores surpreendem ao permitir que pessoas controlem um avatar apenas pensando

Waze ou Google Maps? O aplicativo de navegação que continua conquistando motoristas por causa das atualizações em tempo real

Um implante cerebral devolveu a voz a um homem com ELA: ele já usou a tecnologia por quase 4 mil horas e diz que voltou a fazer parte das conversas