Correio Paulista: Modelos de IA mostram fotos de pessoas reais e imagens protegidas por direitos autorais

6 de fev. de 2023

Modelos de IA mostram fotos de pessoas reais e imagens protegidas por direitos autorais

MITTR, 03/02/2023

A descoberta pode fortalecer as alegações dos artistas de que as empresas de IA estão infringindo seus direitos.

Modelos populares de geração de imagens podem ser solicitados a produzir fotos identificáveis de pessoas reais, potencialmente ameaçando sua privacidade, de acordo com uma nova pesquisa. O trabalho também mostra que esses sistemas de IA podem ser feitos para regurgitar cópias exatas de imagens médicas e trabalhos protegidos por direitos autorais de artistas. É uma descoberta que pode fortalecer o caso de artistas que atualmente estão processando empresas de IA por violações de direitos autorais.

Os pesquisadores, do Google, DeepMind, UC Berkeley, ETH Zürich e Princeton, obtiveram seus resultados solicitando Stable Diffusion e Google's Imagen com legendas para imagens, como o nome de uma pessoa, muitas vezes. Em seguida, eles analisaram se alguma das imagens geradas correspondia às imagens originais no banco de dados do modelo. O grupo conseguiu extrair mais de 100 réplicas de imagens no conjunto de treinamento da IA.

Esses modelos de IA geradores de imagens são treinados em vastos conjuntos de dados que consistem em imagens com descrições de texto que foram extraídas da Internet. A última geração da tecnologia funciona pegando imagens no conjunto de dados e alterando um pixel por vez até que a imagem original não seja nada além de uma coleção de pixels aleatórios. O modelo AI então reverte o processo para transformar a bagunça pixelizada em uma nova imagem.

O artigo é a primeira vez que os pesquisadores conseguiram provar que esses modelos de IA memorizam imagens em seus conjuntos de treinamento, diz Ryan Webster, aluno de doutorado da Universidade de Caen Normandy, na França, que estudou privacidade em outros modelos de geração de imagens, mas não foi envolvidos na pesquisa. Isso pode ter implicações para startups que desejam usar modelos generativos de IA na área da saúde, porque mostra que esses sistemas correm o risco de vazar informações privadas confidenciais. OpenAI, Google e Stability.AI não responderam aos nossos pedidos de comentários.

Eric Wallace, um estudante de doutorado da UC Berkeley que fazia parte do grupo de estudo, diz que espera alertar sobre os possíveis problemas de privacidade em torno desses modelos de IA antes que sejam amplamente implementados em setores sensíveis como a medicina.

“Muitas pessoas são tentadas a aplicar esses tipos de abordagens generativas a dados confidenciais, e nosso trabalho é definitivamente um alerta de que essa provavelmente é uma má ideia, a menos que haja algum tipo de proteção extrema para evitar [violações de privacidade]”, Wallace diz.

A medida em que esses modelos de IA memorizam e regurgitam imagens de seus bancos de dados também está na raiz de uma grande disputa entre empresas de IA e artistas. A Stability.AI está enfrentando dois processos de um grupo de artistas e da Getty Images, que argumentam que a empresa raspou e processou ilegalmente seu material protegido por direitos autorais.

As descobertas dos pesquisadores podem fortalecer a mão de artistas que acusam empresas de IA de violações de direitos autorais. Se os artistas cujo trabalho foi usado para treinar a Stable Diffusion puderem provar que o modelo copiou seu trabalho sem permissão, a empresa pode ter que compensá-los.

As descobertas são oportunas e importantes, diz Sameer Singh, professor associado de ciência da computação na Universidade da Califórnia, em Irvine, que não participou da pesquisa. “É importante para a conscientização do público em geral e para iniciar discussões sobre segurança e privacidade desses grandes modelos”, acrescenta.

O artigo demonstra que é possível descobrir se os modelos de IA copiaram imagens e medir até que ponto isso aconteceu, ambos muito valiosos a longo prazo, diz Singh.

O Stable Diffusion é de código aberto, o que significa que qualquer pessoa pode analisá-lo e investigá-lo. O Imagen está fechado, mas o Google concedeu acesso aos pesquisadores. Singh diz que o trabalho é um ótimo exemplo de como é importante dar acesso à pesquisa a esses modelos para análise, e ele argumenta que as empresas devem ser igualmente transparentes com outros modelos de IA, como o ChatGPT da OpenAI.

No entanto, embora os resultados sejam impressionantes, eles vêm com algumas ressalvas. As imagens que os pesquisadores conseguiram extrair apareceram várias vezes nos dados de treinamento ou eram altamente incomuns em relação a outras imagens no conjunto de dados, diz Florian Tramèr, professor assistente de ciência da computação na ETH Zürich, que fazia parte do grupo.

Pessoas que parecem incomuns ou têm nomes incomuns correm maior risco de serem memorizadas, diz Tramèr.

Os pesquisadores só conseguiram extrair relativamente poucas cópias exatas das fotos dos indivíduos do modelo de IA: apenas uma em um milhão de imagens eram cópias, de acordo com Webster.

Mas isso ainda é preocupante, diz Tramèr: “Eu realmente espero que ninguém olhe para esses resultados e diga 'Ah, na verdade, esses números não são tão ruins se for apenas um em um milhão.'”

“O fato de serem maiores que zero é o que importa”, acrescenta.

Artigos recomendados: IA e ES

Fonte:https://www.technologyreview.com/2023/02/03/1067786/ai-models-spit-out-photos-of-real-people-and-copyrighted-images/