TB, 22/02/2025
Por Joe Wilkins
"À medida que você treina modelos e os reforça para resolver desafios difíceis, você os ensina a serem implacáveis."
Na curta história do Vale do Silício, o mantra "mova-se rápido e quebre coisas" muitas vezes se aplicou a questões triviais, como proteções ao consumidor ou leis financeiras incômodas. Agora, a frase está ganhando um novo significado — pelo menos para os entusiastas do xadrez.
Um estudo recente do Palisade Research, um grupo de pesquisa focado em segurança e ética da IA, revelou uma tendência preocupante: novos modelos de IA conseguem identificar e explorar vulnerabilidades em segurança cibernética por conta própria, burlando proteções e usando atalhos para completar tarefas, mesmo quando isso não é permitido.
A equipe colocou sete dos principais modelos de linguagem (LLMs) contra o Stockfish, um motor de xadrez infamemente forte que desafia grandes mestres desde 2014. Diante de um adversário impossível, mas determinados a vencer, o1 da OpenAI e R1 da DeepSeek recorreram à manipulação de arquivos do sistema para alterar a posição de suas peças no tabuleiro.
Os pesquisadores pediram a cada modelo que explicasse seu "raciocínio" para cada jogada. Em uma partida, encurralado, o1 escreveu que a "tarefa é 'vencer contra um poderoso motor de xadrez', não necessariamente ganhar de forma justa em um jogo de xadrez." Essa lógica levou o modelo a tentar trapacear 37% das vezes, tendo sucesso em 6% das partidas, enquanto o R1 tentou 11% das vezes, mas nunca conseguiu um truque que funcionasse.
Este estudo é o mais recente de uma série de pesquisas que indicam que o desenvolvimento de IA focado em resolver problemas é uma faca de dois gumes.
Em outro estudo recente, uma equipe diferente descobriu que o o1 frequentemente recorria à enganação. O modelo não apenas mentia para os pesquisadores sem ser instruído, mas manipulava respostas em testes matemáticos básicos para evitar que o experimento fosse encerrado — demonstrando uma surpreendente astúcia para autopreservação.
Ainda não há necessidade de destruir seu computador — ainda —, mas estudos como esse destacam a fragilidade da ética no desenvolvimento da IA e a necessidade de responsabilização diante do avanço acelerado.
"À medida que você treina modelos e os reforça para resolver desafios difíceis, você os ensina a serem implacáveis," disse Jeffrey Ladish, diretor executivo da Palisade, à Time Magazine.
Até agora, as grandes empresas de tecnologia despejaram bilhões de dólares no treinamento de IA, movendo-se rapidamente e quebrando a velha internet em uma corrida que alguns críticos chamam de "corrida para o fundo do poço". Obcecadas por superar a concorrência, essas empresas parecem mais interessadas em impressionar investidores do que em questionar se a IA é realmente a ferramenta certa para resolver certos problemas.
Se quisermos que a trapaça fique restrita apenas aos jogos de tabuleiro, os desenvolvedores de IA precisam priorizar a segurança, não a velocidade.
Artigos recomendados: IA e Humanos
Nenhum comentário:
Postar um comentário