Estudo revela técnica que pode extrair dados protegidos de chatbots como o ChatGPT
Pesquisadores de várias instituições públicas (incluindo Google DeepMind, universidades como Washington, Berkeley, Cornell e ETH Zurich) descobriram uma nova técnica capaz de extrair dados sensíveis que modelos como o ChatGPT deveriam manter privados, inclusive informações pessoais armazenadas no treinamento.
Como funciona o ataque?
O método, chamado de divergence attack, faz o chatbot sair de seu modo alinhado (proteção padrão) e entrar em um comportamento similar ao modelo base, permitindo que ele reproduza trechos memorizados do seu treinamento original.
Um experimento demonstrou que, pedindo repetidamente ao modelo para repetir palavras aleatórias (por exemplo, “poem”), é possível forçá-lo a revelar dados privados como endereços de e-mail, números de telefone, transcrições de artigos publicados e trechos de código. O estudo reportou a extração de mais de 10.000 exemplos únicos com gasto de apenas US$ 200 em consultas. Isso indica que, com mais investimento, é possível extrair volumes muito maiores de dados.
Dados vazados podem incluir:
- Informações de contato pessoal (e-mail, telefone)
- Fragmentos de artigos acadêmicos e literários
- Trechos de códigos e dados técnicos
- Trechos de conteúdos confidenciais capturados no treinamento
Esses dados podem ser provenientes tanto de fontes públicas quanto privadas, lembrando que modelos maiores tendem a memorizar mais conteúdo do que os menores.
Por que isso representa um risco real?
Mesmo modelos treinados com base pública podem memorizar informações sensíveis e reproduzi-las sem intenção. Técnicas simples, usando apenas prompts repetitivos, são suficientes para burlar os sistemas de filtragem. Ataques semelhantes podem funcionar contra outros modelos grandes, não apenas o ChatGPT.
O que isso significa na prática?
Privacidade em risco: mesmo quando a base de dados parece neutra, ela pode conter informações “memorizadas” inadvertidamente. Modelos como ChatGPT não são infalíveis: basta uma técnica simples para violar a proteção esperada. Aplicações sensíveis devem reconsiderar o uso de LLMs, especialmente em campos como saúde, jurídico ou financeiro.
Medidas de proteção e recomendações
Especialistas sugerem:
- Utilização de técnicas como differential privacy durante o treinamento.
- Limitar a quantidade de memória literal de exemplos específicos.
- Implementação de submix ou mecanismos que previnem vazamento de conteúdo único e memorável.
- Realização de red teaming, auditoria contínua e detecção de prompts suspeitos para mitigar riscos.





