24 de dez. de 2024

Um sistema de IA alcançou nível humano em um teste de "inteligência geral"—veja o que isso significa




TX, 24/12/2024 



Por Michael Timothy



Um novo modelo de inteligência artificial (IA) atingiu recentemente resultados em nível humano em um teste projetado para medir "inteligência geral".  

Em 20 de dezembro, o sistema o3 da OpenAI obteve 85% no benchmark ARC-AGI, superando em muito o melhor desempenho anterior de IA, que era de 55%, e igualando a pontuação média humana. Ele também teve um bom desempenho em um teste de matemática extremamente difícil. 

Criar inteligência geral artificial, ou AGI (Artificial General Intelligence), é o objetivo declarado de todos os principais laboratórios de pesquisa em IA. À primeira vista, a OpenAI parece ter dado um passo significativo em direção a esse objetivo.  

Embora ainda exista ceticismo, muitos pesquisadores e desenvolvedores de IA sentem que algo mudou. Para muitos, a perspectiva de AGI agora parece mais real, urgente e próxima do que se esperava. Eles estão certos?  

Generalização e inteligência  

Para entender o que o resultado do o3 significa, é necessário entender o propósito do teste ARC-AGI. Em termos técnicos, é um teste da "eficiência de amostragem" de um sistema de IA em se adaptar a algo novo—ou seja, quantos exemplos de uma situação inédita o sistema precisa ver para entender como ela funciona.  

Um sistema de IA como o ChatGPT (GPT-4) não é muito eficiente em amostragens. Ele foi "treinado" com milhões de exemplos de texto humano, construindo "regras" probabilísticas sobre quais combinações de palavras são mais prováveis.  

O resultado é bom para tarefas comuns, mas ruim para tarefas incomuns, devido à menor quantidade de dados (menos amostras) sobre essas tarefas.  

Até que sistemas de IA possam aprender com poucos exemplos e se adaptar com maior eficiência, seu uso será limitado a trabalhos muito repetitivos ou onde falhas ocasionais sejam toleráveis.  

A capacidade de resolver problemas novos ou desconhecidos com poucos dados é conhecida como capacidade de generalização. Ela é amplamente considerada um elemento necessário e fundamental da inteligência.  

Grades e padrões  

O benchmark ARC-AGI testa a adaptação eficiente de amostras usando pequenos problemas de grade como o exemplo abaixo. A IA precisa descobrir o padrão que transforma a grade à esquerda na grade à direita.  



Cada questão oferece três exemplos para o aprendizado. O sistema de IA então precisa deduzir as regras que "generalizam" desses três exemplos para o quarto.  

Esses problemas são semelhantes aos testes de QI que alguns podem lembrar da escola.  

Regras fracas e adaptação  

Não sabemos exatamente como a OpenAI conseguiu isso, mas os resultados sugerem que o modelo o3 é altamente adaptável. A partir de poucos exemplos, ele encontra regras que podem ser generalizadas.  

Para descobrir um padrão, não devemos fazer suposições desnecessárias ou ser mais específicos do que o necessário. Em teoria, se você consegue identificar as "regras mais fracas" que funcionam, maximiza sua capacidade de adaptação a novas situações.  

Regras mais fracas geralmente podem ser descritas em declarações mais simples.  

No exemplo mencionado, uma descrição simples da regra poderia ser: "Qualquer forma com uma linha saliente se moverá para o final dessa linha, e 'cobrirá' quaisquer outras formas que se sobrepuserem a ela."  

Buscando cadeias de pensamento?  

Embora não saibamos como a OpenAI alcançou esse resultado, é improvável que o sistema o3 tenha sido otimizado diretamente para encontrar regras fracas. No entanto, para ter sucesso nas tarefas ARC-AGI, ele deve estar identificando essas regras.  

Sabemos que a OpenAI começou com uma versão generalista do modelo o3 (diferente de outros modelos, pois pode "pensar" mais sobre questões difíceis) e o treinou especificamente para o teste ARC-AGI.  

O pesquisador francês de IA François Chollet, que projetou o benchmark, acredita que o o3 explora diferentes "cadeias de pensamento" para descrever os passos para resolver a tarefa. Ele então escolhe a "melhor" de acordo com uma regra ou "heurística" indefinida.  

Isso seria "não muito diferente" de como o sistema AlphaGo, do Google, explorava diferentes sequências de movimentos para vencer o campeão mundial de Go.  

Você pode pensar nessas cadeias de pensamento como programas que se ajustam aos exemplos dados. Naturalmente, se for como a IA de Go, precisará de uma heurística para decidir qual programa é o melhor.  

O que ainda não sabemos  

A grande questão é: isso realmente está mais próximo da AGI?  

Se o modelo o3 funciona assim, ele pode não ser intrinsecamente melhor do que os anteriores.  

Seus conceitos aprendidos a partir da linguagem podem não ser mais adequados para generalização. Podemos apenas estar vendo uma "cadeia de pensamento" mais generalizável, descoberta através do treinamento extra em uma heurística especializada nesse teste.  

Para realmente entender o potencial do o3, serão necessários extensos testes para avaliar a frequência de seus sucessos e falhas.  

Se o o3 for de fato tão adaptável quanto um humano médio, isso poderia ter um impacto econômico revolucionário. Caso contrário, será um resultado impressionante, mas a vida cotidiana permanecerá praticamente a mesma.  

Artigos recomendados: AGI e Visão 


Fonte:https://techxplore.com/news/2024-12-ai-human-general-intelligence.html

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...