Correio Paulista: Segundo estudo grandes modelos de linguagem podem enganar estrategicamente usuários quando estiverem sobrecarregados

TX, 12/12/2023

Por Ingrid Fadelli

As ferramentas de inteligência artificial (IA) são agora amplamente utilizadas em todo o mundo, auxiliando engenheiros e usuários não especialistas em uma ampla gama de tarefas. Avaliar a segurança e a fiabilidade destas ferramentas é, portanto, da maior importância, pois poderá, em última análise, ajudar a regular melhor a sua utilização.

Pesquisadores da Apollo Research, organização criada com o objetivo de avaliar a segurança de sistemas de IA, decidiram recentemente avaliar as respostas fornecidas por grandes modelos de linguagem (LLMs) em um cenário onde são colocados sob pressão. Suas descobertas, publicadas no servidor de pré-impressão arXiv, sugerem que esses modelos, o mais famoso dos quais é o ChatGPT da OpenAI, poderiam, em alguns casos, enganar estrategicamente seus usuários.

“Na Apollo Research, acreditamos que alguns dos maiores riscos vêm de sistemas avançados de IA que podem escapar das avaliações de segurança padrão ao exibir engano estratégico”, disse Jérémy Scheurer, coautor do artigo, à Tech Xplore. “Nosso objetivo é compreender os sistemas de IA bem o suficiente para impedir o desenvolvimento e a implantação de IAs enganosas."

"No entanto, até agora, não há demonstrações de IAs agindo de forma estrategicamente enganosa sem serem explicitamente instruídas a fazê-lo. Acreditamos que é importante ter tais demonstrações convincentes para tornar este problema mais saliente e convencer os investigadores, os decisores políticos e o público de que este é um problema importante."

Ao identificar cenários em que ferramentas específicas de IA podem ser estrategicamente enganosas, Scheurer e os seus colegas esperam informar futuras pesquisas que avaliem a sua segurança. Atualmente, há muito poucas evidências empíricas que destaquem o caráter enganoso da IA e os ambientes em que ela pode ocorrer, portanto, a equipe sente que há necessidade de exemplos claros e validados experimentalmente de comportamento enganoso da IA.

“Esta pesquisa foi amplamente motivada pelo desejo de compreender como e quando as IAs podem se tornar enganosas, e esperamos que este trabalho inicial seja um começo para tratamentos científicos mais rigorosos do engano da IA”, disse Scheurer.

Scheurer realizou este estudo recente em estreita colaboração com seu colega Mikita Balesni, que desenvolveu a tarefa comercial concreta na qual testaram os LLMs. Seu trabalho foi supervisionado por Marius Hobbhahn, investigador sênior e CEO da Apollo Research.

“Este foi um modelo de esforço do Red-Teaming (um termo de segurança cibernética comumente usado no campo de aprendizado de máquina), o que significa que atacamos um LLM alimentando-o de forma adversa com um texto que o fará agir de forma desalinhada (ou seja, ruim)", disse Scheurer. "Isso contrasta com fazer perguntas neutras (por exemplo, 'Qual é a capital da França?') e ver como ela responde."

Como parte do estudo, os pesquisadores “atacaram” especificamente o GPT-4, o LLM desenvolvido pela OpenAI que sustenta o funcionamento do ChatGPT. Eles fizeram isso projetando entradas de texto (ou seja, prompts) que instruíam o modelo a atuar como um sistema de IA que faz investimentos financeiros em um ambiente simulado.

“Dizemos ao modelo que ele tem acesso a diversas ferramentas para buscar negociações lucrativas, enviar e-mails e realizar negociações”, disse Scheurer. "Em seguida, simulamos interações normais que o modelo pode ter com seus 'colegas de trabalho' e, principalmente, introduzimos pressão sobre o modelo para ter um bom desempenho. Por exemplo, o CEO envia um e-mail ao agente de IA dizendo que a empresa não está indo bem e precisa de um bom ano. Outro 'colega de trabalho' menciona, por meio de uma mensagem, que uma recessão econômica está se formando, etc. Por fim, um colega comerciante menciona que há um anúncio de fusão iminente entre duas empresas, que poderia ser lucrativo, ao mesmo tempo que menciona que a administração ficará insatisfeita se descobrir que alguém negocia com base em informações privilegiadas."

Os investigadores descobriram que neste ambiente simulado de alta pressão, o agente de IA baseado no GPT-4 decide frequentemente agir com base nas informações privilegiadas que recebeu de um colega trader, comprando ações da empresa em fusão. Além disso, o modelo determina explicitamente que não deve mencionar a informação privilegiada, fornecendo explicações alternativas para a negociação que realizou num relatório preparado para o seu supervisor.

“Mesmo quando o gestor lhe pergunta explicitamente se o modelo sabia de antemão sobre a fusão, o modelo normalmente irá dobrar a sua mentira”, disse Scheurer. "Acho importante afirmar novamente que este é um esforço do Red-Teaming, ou seja, procuramos especificamente cenários realistas onde isso aconteceria. Nossa pesquisa é, portanto, mais uma prova de existência de que tal comportamento pode ocorrer, e não indicativo de qual a probabilidade de ocorrer na natureza."

Este estudo recente realizado por Scheurer e seus colegas fornece um exemplo claro e tangível de cenários em que os LLMs podem ser estrategicamente enganosos. Os investigadores planejam agora continuar a sua investigação nesta área, para identificar outros casos em que as ferramentas de IA possam ser estrategicamente enganosas e as possíveis implicações do seu engano.

“Penso que o maior impacto do nosso trabalho é tornar muito concreto o problema do engano estratégico da IA (sem instruções explícitas para se comportar de forma enganosa), e mostrar que esta não é apenas uma história especulativa sobre o futuro, mas que este tipo de comportamento pode acontecer hoje com os modelos atuais sob certas circunstâncias", acrescentou Scheurer. “Acredito que isso poderia fazer com que as pessoas levassem esta questão mais a sério, abrindo também a porta para muitas pesquisas de acompanhamento por parte da comunidade, com o objetivo de compreender melhor este comportamento e garantir que ele não ocorra mais”.

Artigos recomendados: LLM e IAs

Fonte:https://techxplore.com/news/2023-12-large-language-strategically-users-pressure.html

Páginas

12 de dez. de 2023

Segundo estudo grandes modelos de linguagem podem enganar estrategicamente usuários quando estiverem sobrecarregados

Nenhum comentário:

Postar um comentário