TB, 12/08/2023
Por Frank Landymore
Raspador de dados
A OpenAI lançou um novo rastreador da Web chamado "GPTBot", que vasculhará a Internet em busca de conteúdo para treinar seus grandes modelos de linguagem, como o GPT-4, que alimenta o ChatGPT.
“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”, diz um post no site da OpenAI.
O gigante da IA também afirma que o GPTBot é "filtrado" para remover fontes com acesso pago, informações de identificação pessoal e textos que violam suas políticas.
Felizmente, o OpenAI fornece uma maneira de bloquear facilmente o GPTBot adicionando uma entrada ao robot.txt de um site, um arquivo que informa aos rastreadores da web de mecanismos de pesquisa como o Google o que eles podem acessar.
Além disso, os administradores podem personalizar quais partes de seus sites o GPTBot pode rastrear. Seus múltiplos IPs também estão disponíveis para fácil bloqueio.
Não entre!
Até agora, os grandes modelos de linguagem por trás do ChatGPT foram treinados em hordas de dados online coletados até setembro de 2021.
Não há como remover retroativamente os dados que foram extraídos antes dessa data limite, mas bloquear seu novo rastreador da Web pelo menos protegerá os sites à prova de futuro que desejam mantê-los fora daqui para frente.
E você pode apostar que muitos proprietários de sites, que provavelmente não estão interessados em ter seu conteúdo aspirado e imitado por uma IA, já estão tirando proveito disso.
Um exemplo é a popular revista de ficção científica Clarkesworld, que anunciou no X, anteriormente conhecido como Twitter, que estava bloqueando o GPTBot.
O outlet de tecnologia The Verge fez o mesmo silenciosamente, e já estão circulando inúmeros artigos que aconselham sobre como bloquear o rastreador.
Bichos rastejantes
Obviamente, os rastreadores da Web são, para o bem ou para o mal, a força vital da Internet moderna e não são novidade. Em muitos casos, os sites são incentivados a permitir a passagem de rastreadores do Google e de outros mecanismos de pesquisa para ajudar a atrair tráfego da web.
Agora, porém, muitos acham que fazê-los coletar dados para treinar a IA generativa é uma ponte longe demais.
Por exemplo, um processo recente contra a OpenAI argumenta que, uma vez que seu chatbot é treinado para que todos escrevam sem permissão – tudo, desde livros a artigos disponíveis online – isso constitui roubo.
O fato de a OpenAI ter avançado e anunciado o GPTBot, apesar do processo, pode sugerir que não está preocupada com o resultado. Por outro lado, ao dar aos sites a opção de bloquear o rastreador, ele também pode estar cobrindo seus rastros.
Artigos recomendados: Chatbot e Dados
Fonte:https://futurism.com/the-byte/openai-crawler-vacuum-posts
Nenhum comentário:
Postar um comentário