TB, 20/07/2023
Por Noor Al-Sibai
Dados criados por humanos são extremamente caros
Auto-realizável
Embora a maioria dos modelos de IA seja construída com base em dados produzidos por humanos, algumas empresas estão começando a usar – ou estão tentando descobrir como usar – dados que foram gerados pela própria IA. Se eles conseguirem, pode ser um grande benefício, embora faça todo o ecossistema de IA parecer ainda mais uma espécie de ouroboros algorítmico.
Como relata o Financial Times, empresas como OpenAI, Microsoft e a startup de dois bilhões de dólares Cohere estão investigando cada vez mais o que é conhecido como "dados sintéticos", para treinar seus modelos de linguagem grande (LLMs) por vários motivos, entre os quais sendo que é aparentemente mais rentável.
"Dados criados por humanos", disse o CEO da Cohere, Aiden Gomez, ao FT, "são extremamente caros".
Além do baixo custo relativo dos dados sintéticos, no entanto, está a questão da escala. O treinamento de LLMs de ponta começa a usar essencialmente todos os dados criados por humanos que estão realmente disponíveis, o que significa que, para construir dados ainda mais fortes, eles quase certamente precisarão de mais.
"Se você pudesse obter todos os dados de que precisa na web, isso seria fantástico", disse Gomez. "Na realidade, a web é tão barulhenta e confusa que não é realmente representativa dos dados que você deseja. A web simplesmente não faz tudo o que precisamos."
Tudo está acontecendo
Como observou o CEO, a Cohere e outras empresas já estão usando discretamente dados sintéticos para treinar seus LLMs “mesmo que não sejam amplamente divulgados”, e outras como a OpenAI parecem esperar usá-los no futuro.
Durante um evento em maio, o CEO da OpenAI, Sam Altman, brincou dizendo que está “bastante confiante de que em breve todos os dados serão dados sintéticos”, observa o relatório, e a Microsoft começou a publicar estudos sobre como os dados sintéticos poderiam reforçar LLMs mais rudimentares. Existem até startups cujo objetivo é vender dados sintéticos para outras empresas, observa o relatório.
Há uma desvantagem, é claro: como os críticos apontam, a integridade ou a confiabilidade dos dados gerados por IA podem ser facilmente questionadas, uma vez que mesmo IAs treinados em material gerado por humanos são conhecidos por cometer grandes erros e enganos factuais. E o processo pode gerar alguns loops de feedback confusos. Pesquisadores de Oxford e Cambridge chamam esses problemas potenciais de "defeitos irreversíveis" em um artigo recente, e não é difícil entender por quê.
No geral, o objetivo que empresas como a Cohere estão buscando são IAs autodidatas que geram seus próprios dados sintéticos.
"O que você realmente quer é que os modelos possam aprender sozinhos", disse Gomez. "Você quer que eles sejam capazes de... fazer suas próprias perguntas, descobrir novas verdades e criar seu próprio conhecimento. Esse é o sonho."
Artigos recomendados: Dados e Metaverso
Nenhum comentário:
Postar um comentário