Páginas

15 de nov. de 2023

IAs podem armazenar mensagens secretas em seus textos que são imperceptíveis para os humanos




TB, 14/11/2023 



Por Maggie Harrison 



Tinta invisível

Exatamente o que precisávamos: IA dominando sua própria versão imperceptível de tinta invisível.

Como relata VentureBeat, um estudo recente – embora ainda a ser revisado por pares – conduzido pelo grupo de pesquisa de alinhamento de IA Redwood Research descobriu que grandes modelos de linguagem (LLMs) são incrivelmente bons em um tipo de esteganografia apelidada de "raciocínio codificado". Basicamente, diz o estudo, os LLMs podem ser treinados para usar mensagens secretas para obscurecer os seus processos de pensamento passo a passo, uma prática que, curiosamente, poderia tornar os seus resultados mais precisos – ao mesmo tempo que os torna mais enganadores.

Código DaVAInci

De acordo com o estudo, os LLMs são capazes de tirar vantagem específica do raciocínio da cadeia de pensamento (CoT), ou de uma técnica amplamente utilizada que ensina efetivamente os modelos de IA como mostrar seu trabalho em suas respostas. O aprendizado de máquina é preditivo e, para cada entrada dada, há uma série de resultados que um agente de IA poderia obter de maneira viável; ao treinar um modelo para usar CoT, diz a lógica, fica mais fácil rastrear o raciocínio da caixa preta de um determinado modelo e, portanto, o refinamento do modelo também.

Mas de acordo com esta nova pesquisa, parece que os LLMs são capazes de subverter o CoT. Como disseram os pesquisadores: “Um LLM poderia codificar etapas intermediárias de raciocínio em suas escolhas de uma palavra ou frase específica (quando múltiplas palavras seriam igualmente boas do ponto de vista do usuário) e, em seguida, decodificar essas etapas intermediárias mais tarde na geração que chegará obtendo uma resposta mais precisa do que se tentasse responder à pergunta sem qualquer passo intermediário." Em outras palavras? Um LLM pode aprender a codificar certas etapas de seu CoT em sua própria chave de resposta – como um treinador pode dar sinais manuais aparentemente indefinidos para certas jogadas – que apenas o próprio LLM pode decifrar. Depois, à medida que a geração continua, a IA descodifica as suas próprias mensagens, o que a ajuda a produzir resultados precisos. E tudo isso é invisível para os humanos.

Esta também pode não ser uma habilidade totalmente benigna. Quer uma IA chegue a uma conclusão correta ou não, é importante ser capaz de rastrear o CoT de um modelo. A maioria das IAs são treinadas por meio de aprendizagem por reforço; se não conseguirmos acompanhar o processo de pensamento de um modelo, poderemos, sem saber, reforçar o mau comportamento. Essas habilidades de esteganografia também podem fazer com que as IAs passem códigos e mensagens ocultas para outros agentes de IA, bem debaixo de nossos narizes humanos.

Existem possíveis técnicas de mitigação. Os pesquisadores incentivam particularmente os usuários a pedir aos LLMs que parafraseiem seus resultados, uma prática que pode remover algumas das bobagens da resposta de um modelo. Ainda assim, esta descoberta é bastante perturbadora, e não queremos sentir que temos que codificar DaVinci cada resposta gerada pela IA. Não há notas de rodapé na aula!!

Artigos recomendados: Código e Criptografia


Fonte:https://futurism.com/the-byte/ai-secret-messages-text-imperceptible 

Nenhum comentário:

Postar um comentário