Páginas

2 de abr. de 2024

Empresas de IA ficando sem dados de treinamento após esgotar todo o conteúdo da internet




TB, 01/04/2024



Por Noor Al-Sibai 



Escassez em Massa

À medida que as empresas de IA continuam construindo modelos maiores e melhores, elas estão enfrentando um problema compartilhado: em breve, a internet não será grande o suficiente para fornecer todos os dados de que precisam.

Segundo o Wall Street Journal, algumas empresas estão buscando fontes alternativas de dados de treinamento agora que a internet está se tornando pequena demais, considerando opções como transcrições de vídeos disponíveis publicamente e até mesmo "dados sintéticos" gerados por IA.

Embora existam algumas empresas, como a Dataology, formada pelo ex-pesquisador da Meta e do Google DeepMind, Ari Morcos, que estão investigando maneiras de treinar modelos maiores e mais inteligentes com menos dados e recursos, a maioria das grandes empresas está buscando meios de treinamento de dados inovadores — e controversos.

A OpenAI, por exemplo, conforme fontes do WSJ, discutiu o treinamento do GPT-5 em transcrições de vídeos públicos do YouTube — mesmo quando sua própria diretora de tecnologia, Mira Murati, luta para responder perguntas sobre se o seu gerador de vídeos Sora foi treinado usando dados do YouTube.

Não Entre em Pânico

Enquanto isso, os dados sintéticos têm sido objeto de amplo debate nos últimos meses, depois que pesquisadores descobriram no ano passado que treinar um modelo de IA, com dados gerados por IA, seria uma forma digital de "endogamia" que acabaria levando ao "colapso do modelo" ou "IA de Habsburgo".

Algumas empresas, como a de ex-membros da OpenAI, a Anthropic, em 2021 na tentativa de construir uma IA mais segura e ética do que as de seu antigo empregador, estão buscando evitar isso criando dados sintéticos supostamente de maior qualidade — embora, é claro, nenhuma delas revele o segredo de exatamente o que isso implicaria.

De fato, a Anthropic admitiu ao anunciar seu Claude 3 LLM que o modelo foi treinado com "dados que geramos internamente", e em uma entrevista ao WSJ, o cientista-chefe da empresa, Jared Kaplan, disse que acredita que também existem bons casos de uso para dados sintéticos.

Embora as preocupações sobre a IA ficar sem dados pareçam estar assustando pesquisadoresalgum tempo, o pesquisador Pablo Villalobos disse ao jornal que, embora sua empresa, Epoch, tenha estimado que a IA ficará sem dados de treinamento utilizáveis nos próximos anos, não há motivo para pânico.

"A maior incerteza", disse Villalobos, "é quais avanços você verá".

Por outro lado, há outra solução óbvia para esse problema fabricado: as empresas de IA poderiam simplesmente parar de tentar criar modelos maiores e melhores, considerando que, além da escassez de dados de treinamento, elas também consomem muita eletricidade e chips de computação caros que requerem a mineração de minerais de terras raras.

Artigos recomendados: Dados e Pessoas


Fonte:https://futurism.com/the-byte/ai-training-data-shortage 

Nenhum comentário:

Postar um comentário