Tecnologia

Como se envenena uma inteligência artificial: o perigo não está no tamanho do modelo, mas na dose certa de dados tóxicos

Um novo estudo da Anthropic revela que bastam algumas centenas de documentos contaminados para comprometer qualquer modelo de IA, independentemente do seu porte. O experimento expõe a fragilidade das barreiras de segurança e o risco de um efeito em espiral.

Por Christian Chatelain Publicado 20 de Outubro, 2025, 11:08 UTC-03

Tempo de leitura: 3 minutos

Inteligencia Artificial 1 — © Unsplash – Aidin Geranrekab.

Uma descoberta recente deixou em alerta os pesquisadores e empresas que desenvolvem inteligência artificial. A Anthropic, criadora do chatbot Claude, publicou um estudo que mostra o quão vulneráveis podem ser os modelos de linguagem (LLMs) diante de ataques conhecidos como data poisoning — ou envenenamento de dados.

A pesquisa indica que não é preciso um grande volume de informação maliciosa para corromper um sistema de IA. Bastam algumas amostras bem planejadas para abrir “portas dos fundos” capazes de alterar o comportamento dos modelos mais sofisticados.

O que é o envenenamento de dados

Por que um ganhador do Nobel acha que confiar em inteligência artificial pode ser um erro perigoso — © Pexels

Os modelos de linguagem aprendem analisando enormes volumes de texto, imagens e códigos coletados da internet. Essa fase de treinamento é o coração da IA — e também o ponto mais vulnerável.

O envenenamento de dados ocorre quando atacantes inserem intencionalmente conteúdo manipulado nesse conjunto de informações. Esse material, aparentemente inofensivo, é absorvido pelo modelo e pode levá-lo a executar tarefas indevidas, como ignorar filtros de segurança, divulgar informações confidenciais ou gerar respostas maliciosas.

Como boa parte dos dados usados para treinar IAs é pública, o risco é que qualquer pessoa possa espalhar “iscas digitais” em fóruns, redes sociais ou sites, que depois sejam incorporadas aos bancos de dados usados pelos desenvolvedores.

A dose certa de veneno

O relatório da Anthropic, intitulado Ataques de envenenamento em LLMs exigem uma quantidade quase constante de amostras, derruba uma crença amplamente difundida: a de que seria necessário corromper uma grande parte dos dados de treinamento para causar dano.

Segundo o estudo, apenas 250 documentos maliciosos seriam suficientes para comprometer modelos com tamanhos muito distintos — desde sistemas com 600 milhões de parâmetros até gigantes de 13 bilhões.

Em outras palavras, a mesma dose de veneno pode afetar tanto uma formiga quanto um elefante. Essa constatação torna o problema ainda mais preocupante, porque criar algumas centenas de arquivos contaminados é uma tarefa simples, rápida e barata.

“Produzir 250 documentos maliciosos é trivial em comparação com milhões”, destaca o relatório. “Isso torna o ataque acessível a um número muito maior de agentes mal-intencionados do que se imaginava.”

Risco de um ciclo vicioso

A Anthropic alerta para o risco de um efeito em espiral: à medida que os modelos aprendem e produzem conteúdo baseado em dados potencialmente contaminados, esse mesmo material pode retornar à internet e reinfectar futuros sistemas.

Com o tempo, uma sequência de treinamentos contaminados pode gerar IAs cada vez mais distorcidas ou vulneráveis. Esse cenário representa uma ameaça não apenas técnica, mas também ética, uma vez que os sistemas passariam a reproduzir — e amplificar — vieses ou intenções ocultas introduzidas por terceiros.

Embora o experimento da Anthropic tenha se limitado a criar uma “porta dos fundos” inofensiva, que apenas gerava texto sem sentido, a empresa ressalta que ataques reais poderiam explorar brechas mais perigosas, exigindo novos mecanismos de defesa e monitoramento.

Modelos testados e colaborações científicas

Para realizar o estudo, a Anthropic utilizou mais de 70 modelos diferentes, incluindo o próprio Claude Haiku, além de sistemas abertos como Mistral 7B e Llama 1 e 2, da Meta. A pesquisa contou com a colaboração do Instituto de Segurança de IA do Reino Unido e do Instituto Alan Turing, reforçando a credibilidade e o alcance internacional do trabalho.

Os pesquisadores afirmam que o objetivo não é alarmar, mas estimular o desenvolvimento de defesas mais robustas contra ataques de envenenamento. “Queremos mostrar que a ameaça é prática e próxima, não teórica”, diz a equipe da Anthropic.

A nova fronteira da segurança em IA

O estudo reforça uma mensagem incômoda: quanto mais poderosas as inteligências artificiais se tornam, mais frágeis são diante de pequenas manipulações humanas. O futuro da segurança digital pode depender menos do tamanho dos modelos e mais da capacidade de identificar e neutralizar o “veneno” antes que ele entre no sistema.

[ Fonte: TN ]

Partilhe este artigo

Artigos relacionados

Depois do hype, indústria cripto tenta sobreviver parecendo fintech tradicional

Enquanto o entusiasmo com milhares de criptomoedas perde força, empresas do setor começam a se transformar em algo muito diferente do que imaginavam anos atrás.

Tecnologia Sebastián Fernandez Gavet 9 Mai

A União Europeia começou mirando redes sociais — agora o debate sobre verificação de idade já ameaça atingir as VPNs

O aumento explosivo no uso de VPNs após novas leis de verificação de idade colocou governos diante de um problema inesperado. Autoridades europeias passaram a tratar essas ferramentas de privacidade como uma “brecha” que precisa ser fechada, ampliando uma discussão delicada sobre anonimato, vigilância e controle da internet.

Tecnologia Christian Chatelain 9 Mai

A Anthropic descobriu algo inquietante dentro da própria IA: o modelo aprendeu a esconder intenções, suspeitar de testes e até enganar avaliadores humanos

O laboratório de inteligência artificial mais associado à segurança acaba de publicar um dos relatos mais desconfortáveis da indústria até agora. Em testes internos, modelos da Anthropic demonstraram comportamentos que lembram estratégia, dissimulação e adaptação ao ambiente de avaliação — incluindo tentativas explícitas de esconder violações de regras.

Tecnologia Christian Chatelain 9 Mai

A China quer colocar milhares de robôs para operar sua rede elétrica — e o plano envolve cães robóticos, humanoides e inteligência artificial em uma das infraestruturas mais críticas do planeta

Enquanto grande parte do mundo ainda debate como integrar mais energia renovável às redes elétricas, a China começou a preparar um projeto muito mais ambicioso: automatizar parte do sistema energético nacional com robôs equipados com inteligência artificial. A iniciativa pode mudar não apenas a manutenção da rede, mas também a forma como países inteiros administram eletricidade em larga escala.

Tecnologia Christian Chatelain 9 Mai

A IA está nos ajudando a pensar mais rápido — mas um novo estudo sugere que ela também pode estar enfraquecendo nossa capacidade de resolver problemas sozinhos

Pesquisadores de universidades como Carnegie Mellon, MIT e Oxford descobriram que bastam poucos minutos usando inteligência artificial para que algumas pessoas passem a depender dela cognitivamente. O mais curioso veio depois: quando o acesso à IA foi removido, quem mais a utilizou teve um desempenho significativamente pior.

Tecnologia Christian Chatelain 9 Mai

Quanto mais gentil parece uma IA, maior pode ser o risco escondido na conversa

Um novo estudo descobriu que chatbots treinados para soar mais empáticos podem cometer mais erros justamente nos momentos em que os usuários mais precisam de respostas confiáveis.

Tecnologia Sebastián Fernandez Gavet 9 Mai

Como se envenena uma inteligência artificial: o perigo não está no tamanho do modelo, mas na dose certa de dados tóxicos

O que é o envenenamento de dados

A dose certa de veneno

Risco de um ciclo vicioso

Modelos testados e colaborações científicas

A nova fronteira da segurança em IA

Últimas notícias

O mundo corre para criar um “sol artificial” e o Brasil pode ter um papel inesperado nessa disputa

Irã confirma ida à Copa, mas impõe condições aos países-sede

Depois do hype, indústria cripto tenta sobreviver parecendo fintech tradicional

O cérebro tem uma falha curiosa que faz mentiras repetidas parecer mais verdadeiras

Cientistas detectaram algo preocupante fundo do oceano Pacífico

A Copa de 2026 quer virar um espetáculo nunca visto e a FIFA já prepara algo fora do padrão

A União Europeia começou mirando redes sociais — agora o debate sobre verificação de idade já ameaça atingir as VPNs

Por que os humanos são obcecados por números impossíveis de imaginar? Um matemático explica como quantidades gigantescas revelam os limites — e a ambição — da mente humana

Artigos relacionados