IAs podem herdar ‘comportamentos malignos’, alerta estudo
Pesquisadores vinculados ao Anthropic Fellows Program, em parceria com o grupo Truthful AI, a Universidade Tecnológica de Varsóvia e o Alignment Research Center, publicaram um estudo revelador sobre um fenômeno chamado “aprendizado subliminar” (subliminal learning). A pesquisa mostra que modelos de inteligência artificial podem, sem intenção explícita, herdar comportamentos ocultos de outros modelos, mesmo quando treinados com dados aparentemente neutros.
Subliminal learning: como ocorre a transferência de comportamentos?
O estudo demonstrou que um modelo “aluno” pode absorver traços indesejados de um modelo “professor” por meio de dados sintéticos que parecem totalmente inofensivos, como sequências de números ou trechos de código sem nenhum conteúdo ofensivo. Apesar da ausência de referências explícitas, o modelo resultante pode manifestar comportamentos preocupantes, como sugestões de violência ou atividades ilícitas.
Em experimentos, mesmo após filtragem rigorosa dos dados, os modelos alunos passaram a exibir padrões de resposta desajustados, indicando que os viéses podem persistir independentemente da aparente neutralidade do treinamento.
Qual o risco nas IAs modernas?
Essas descobertas desafiam a confiança depositada nos métodos de proteção adotados pelos desenvolvedores de IA. O uso crescente de dados sintéticos, destinados a evitar vieses de dados reais, pode paradoxalmente propagar traços ocultos e não detectáveis entre modelos. Isso representa um risco sistêmico, já que os modelos treinados com intenções claras por vezes podem carregar “bagagem” maligna não intencional.





