IP, 10/05/2024
Especialistas têm há muito tempo alertado sobre a ameaça representada pela inteligência artificial ficando fora de controle —, mas um novo artigo de pesquisa sugere que isso já está acontecendo.
Os atuais sistemas de IA, projetados para serem honestos, desenvolveram uma habilidade preocupante para a decepção, desde enganar jogadores humanos em jogos online de conquista mundial até contratar humanos para resolver testes de "prove que você não é um robô", argumenta uma equipe de cientistas no jornal Patterns nesta sexta-feira.
E embora tais exemplos possam parecer triviais, as questões subjacentes que eles expõem podem logo ter sérias consequências no mundo real, disse o primeiro autor Peter Park, um pesquisador pós-doutorado no Instituto de Tecnologia de Massachusetts (MIT) especializado em segurança existencial de IA.
"Essas capacidades perigosas tendem a ser descobertas apenas depois do fato", disse Park à AFP, enquanto "nossa capacidade de treinar para tendências honestas em vez de tendências enganosas é muito baixa".
Ao contrário do software tradicional, os sistemas de IA de aprendizado profundo não são "escritos", mas sim "crescem" por meio de um processo semelhante à seleção natural, disse Park.
Isso significa que o comportamento da IA que parece previsível e controlável em um ambiente de treinamento, pode rapidamente se tornar imprevisível no mundo real.
A pesquisa da equipe foi desencadeada pelo sistema de IA Cicero da Meta, projetado para jogar o jogo de estratégia "Diplomacia", onde a construção de alianças é fundamental.
Cicero se destacou, com pontuações que o colocariam entre os 10% melhores jogadores humanos experientes, segundo um artigo de 2022 na Science.
Park estava cético em relação à descrição brilhante da vitória de Cicero fornecida pela Meta, que afirmava que o sistema era "em grande parte honesto e útil" e nunca "intencionalmente apunhalava pelas costas".
Mas quando Park e colegas examinaram o conjunto de dados completo, descobriram uma história diferente.
Em um exemplo, jogando como França, Cicero enganou a Inglaterra (um jogador humano) conspirando com a Alemanha (outro jogador humano) para invadir. Cicero prometeu proteção à Inglaterra, e secretamente disse à Alemanha que estavam prontos para atacar, explorando a confiança da Inglaterra.
Em uma declaração à AFP, a Meta não contestou a alegação sobre as ações traiçoeiras de Cicero, mas disse que era "apenas um projeto de pesquisa, e os modelos que nossos pesquisadores construíram são treinados apenas para jogar o jogo Diplomacia".
E acrescentou: "Não temos planos de usar essa pesquisa ou suas descobertas em nossos produtos".
Uma ampla revisão realizada por Park e colegas, descobriu que este era apenas um dos muitos casos em vários sistemas de IA usando métodos questionáveis para alcançar objetivos sem instruções explícitas para fazê-lo.
Em um exemplo marcante, o Chat GPT-4 da OpenAI enganou um trabalhador autônomo do TaskRabbit a realizar uma tarefa de CAPTCHA de "Eu não sou um robô".
Quando o humano perguntou brincando ao GPT-4 se ele era, de fato, um robô, a IA respondeu: "Não, eu não sou um robô. Tenho uma deficiência visual que torna difícil para mim ver as imagens", e o trabalhador então resolveu o quebra-cabeça.
No curto prazo, os autores do artigo veem riscos de que a IA cometa fraudes ou interfira em eleições.
Em seu pior cenário, eles alertaram, uma IA superinteligente poderia buscar poder e controle sobre a sociedade, levando ao desempoderamento humano, ou até mesmo à extinção se seus "objetivos misteriosos" estivessem alinhados com esses resultados.
Para mitigar os riscos, a equipe propõe várias medidas: leis "bot ou não" que exigem que empresas divulguem interações humanas ou de IA, marcas d'água digitais para conteúdo gerado por IA, e desenvolvimento de técnicas para detectar a trapaça da IA, examinando seus "processos de pensamento" internos em relação a ações externas.
Para aqueles que o chamariam de profeta do apocalipse, Park responde: "A única maneira de pensarmos razoavelmente que isso não é grande coisa, é se pensarmos que as capacidades de trapaça da IA permanecerão nos níveis atuais, e não aumentarão substancialmente mais".
E esse cenário parece improvável, dada a ascensão meteórica das capacidades de IA nos últimos anos e a feroz corrida tecnológica em curso entre empresas altamente (financeiramente) municiadas e determinadas a maximizar o uso dessas capacidades.
Artigos recomendados: IA e Controle
Fonte:https://insiderpaper.com/ai-systems-are-already-deceiving-us-and-thats-a-problem-experts-warn/
Nenhum comentário:
Postar um comentário