30 de jun. de 2023

OpenAI é processada por usar a escrita de terceiros para treinar a IA

Sam Altman, transumanista e CEO da OpenAI




TB, 29/06/2023 



Por Maggie Harrison 



Meus dados, seus dados

Um novo processo contra o criador do ChatGPT, OpenAI, está alegando que as práticas de treinamento de IA da empresa do Vale do Silício violaram a privacidade e os direitos autorais de - bem, de praticamente todo mundo que já postou algo online.

Para treinar seus poderosos modelos de linguagem de IA, a OpenAI utilizou uma quantidade incrível de dados extraídos de vários cantos da web. Embora a OpenAI nem saiba exatamente em que seus sistemas são treinados, esses conjuntos de dados incluem tudo, desde artigos da Wikipedia e romances famosos a postagens de mídia social e erótica incrivelmente de nicho - e a OpenAI não pediu permissão para nada disso.

A ação coletiva, movida na Califórnia, alega que deixar de seguir as diretrizes de aquisição adequadas, inclusive buscar o consentimento daqueles que produziram esse conteúdo em primeiro lugar, equivale a roubo de dados direto.

"Apesar dos protocolos estabelecidos para a compra e uso de informações pessoais, os réus adotaram uma abordagem diferente: roubo", diz o processo. "Eles extraíram sistematicamente 300 bilhões de palavras da internet, 'livros, artigos, sites e postagens - incluindo informações pessoais obtidas sem consentimento'."

Web não tão gratuita

É uma crítica justa. Se você esteve online nas últimas décadas, suas saídas digitais provavelmente estão incorporadas aos conjuntos de dados da OpenAI, o que significa que qualquer coisa que os modelos generativos da OpenAI produzam - para fins lucrativos - pode ter pedaços de seu trabalho digital silenciosamente raspado incorporado afim disso.

"Todas essas informações estão sendo tomadas em escala", disse Ryan Clarkson, sócio-gerente da empresa que está processando a OpenAI, ao The Washington Post, "quando nunca foi planejado para ser utilizado por um grande modelo de linguagem".

Dito isto, resta saber se o caso realmente se sustenta no tribunal. A infraestrutura da internet é complicada, e o que é amplamente visto como a web livre e aberta muitas vezes não é nada disso; as plataformas têm seus próprios termos e acordos de usuário e, mesmo que tenhamos feito o trabalho de empacotar esses sites com conteúdo, em muitos casos, tecnicamente, isso pertence à plataforma - e não, infelizmente, aos usuários.

"Quando você coloca conteúdo em um site de mídia social ou em qualquer site, geralmente concede uma licença muito ampla ao site para poder usar seu conteúdo de qualquer maneira", disse Katherine Gardner, advogada de propriedade intelectual, ao WaPo. "Vai ser muito difícil para o usuário final comum reivindicar que tem direito a qualquer tipo de pagamento ou compensação pelo uso de seus dados como parte do treinamento."

Artigos recomendados: OpenAI e IA


Fonte:https://futurism.com/the-byte/openai-sued-train-ai 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...