Correio Paulista: A OpenAI acaba de lançar o GPT-4, que agora pode interpretar imagens: aqui está o que você precisa saber

ZMSC, 14/03/2023

A nova iteração pode funcionar em "nível humano" em vários benchmarks profissionais e acadêmicos.

O ChatGPT conquistou o mundo, estabelecendo um recorde para o crescimento mais rápido de usuários em janeiro, quando atingiu 100 milhões de usuários ativos dois meses após o lançamento. Para aqueles que vivem embaixo de uma pedra, o ChatGPT é um chatbot lançado pela OpenAI, um laboratório de pesquisa fundado por alguns dos maiores nomes da tecnologia, como Elon Musk, Reid Hoffman, Peter Thiel e Sam Altman. O ChatGPT pode escrever e-mails, ensaios, poesia, responder a perguntas ou gerar linhas complexas de código, tudo com base em um prompt de texto.

Resumindo, o ChatGPT é um grande negócio, o que nos leva à notícia da semana: OpenAI acaba de anunciar o lançamento do GPT 4, o novo e melhorado modelo multimodal grande. A partir de hoje, 14 de março de 2023, o modelo estará disponível para usuários do ChatGPT Plus e para selecionar parceiros terceirizados por meio de sua API.

Toda vez que a OpenAI lançou um novo transformador pré-treinado generativo, ou GPT, a versão mais recente quase sempre marcou pelo menos uma ordem de magnitude de melhoria em relação à iteração anterior. Ainda não testei a ferramenta, mas a julgar pela postagem no blog de pesquisa oficial da empresa de IA, esta nova atualização não é diferente, trazendo uma série de melhorias importantes e novos recursos.

GPT-4 agora pode usar imagens como prompts

Até o GPT-3.5, a IA de última geração só conseguia entender e produzir texto. Mas agora o GPT-4 pode aceitar imagens como prompts.

“Ele gera saídas de texto com entradas que consistem em texto e imagens intercalados”, diz o anúncio da OpenAI. “Em uma variedade de domínios – incluindo documentos com texto e fotografias, diagramas ou capturas de tela – o GPT-4 exibe recursos semelhantes aos das entradas somente de texto.”

O que isso significa em termos práticos é que agora você pode carregar uma imagem e pedir ao GPT-4 para fazer várias coisas com base em sua análise. Por exemplo, digamos que você carregue uma imagem representando um monte de balões flutuando no céu amarrados por cordas. Se você perguntar ao GPT-4 o que aconteceria se você cortasse as cordas, o modelo pode raciocinar que os balões voariam para o céu.

No exemplo abaixo compartilhado pela equipe OpenAI, uma imagem propositalmente estranha é carregada mostrando um homem passando roupas enquanto está preso na parte de trás de um táxi, e o ChatGPT-4 pode realmente raciocinar sobre o que é incomum na imagem se você perguntar.

Havia rumores de que o GPT-4 também teria recursos de vídeo, mas agora sabemos que, se houvesse tais planos, eles foram descartados para esta versão. Até o momento, não há recursos de vídeo ou animação, mas certamente não estão muito distantes.

É (muito) mais inteligente também

De acordo com o OpenAI, o GPT-4 pontua muito mais alto em vários testes de aptidão. GPT-3.5 pontuou no 10º percentil inferior no Uniform Bar Exam e no 31º percentil na Olimpíada de Biologia. O GPT 4 pontua no percentil 90 e 99 para o exame da ordem e olimpíada, respectivamente, colocando-o no mesmo nível de alguns dos estudantes humanos mais brilhantes.

Aqui está um exemplo das habilidades de raciocínio aprimoradas do GPT-4.

ENTRADA: Andrew está disponível das 11h às 15h, Joanne está disponível do meio-dia às 14h e depois das 15h30 às 17h. Hannah está disponível ao meio-dia por meia hora e depois das 16h às 18h. Quais são algumas opções de horários de início para uma reunião de 30 minutos com Andrew, Hannah e Joanne?

Encontrar a janela aberta para quando três pessoas com horários diferentes estiverem disponíveis pode ser complicado até mesmo para um humano descobrir rapidamente. Nesse cenário, o GPT-3.5 falha ao sugerir 16h como um horário adequado porque entra em conflito com a agenda de Andrew. No entanto, o GPT-4 conseguiu raciocinar corretamente e oferece uma boa solução que funciona para todos os três.

O GPT-4 será integrado aos serviços da Microsoft, incluindo o Bing

Em fevereiro, a Microsoft integrou uma versão modificada do GPT-3.5 ao Bing, seu mecanismo de busca que há anos está ridiculamente atrás do Google. Não mais, no entanto. A Microsoft investiu mais de US$ 10 bilhões na OpenAI, o que destaca o quão sério é a próxima revolução generativa da IA e a busca pelo Google. Em resposta, o Google fez um anúncio desajeitado de lançamento de seu próprio mecanismo de busca com inteligência artificial chamado Bard, que no momento parece nada assombroso, para dizer o mínimo.

O GPT-4 só pode responder a perguntas sobre eventos não ficcionais e pessoas sobre as quais possui informações até setembro de 2021. Mas o Bing passará a usar o GPT-4, que tem acesso à web aberta, permitindo assim responder a perguntas sobre eventos que acontecem quase em em tempo real, assim que são divulgados pela internet.

Além disso, o GPT-4 agora está disponível por meio da API do aplicativo, que permite que terceiros selecionados acessem o mecanismo de IA em seus produtos. Duolingo, o aplicativo de idiomas, está usando o GPT-4 para aprofundar conversas com usuários que procuram aprender um novo idioma. Da mesma forma, a Khan Academy integrou o novo GPT para oferecer aulas particulares e personalizadas para alunos de matemática, ciência da computação e uma variedade de outras disciplinas disponíveis em sua plataforma.

Atualmente, o recurso de solicitação de imagem está disponível apenas para um parceiro externo. O Be My Eyes, um aplicativo gratuito que conecta pessoas cegas e com visão limitada a voluntários com visão, integrou o GPT-4 ao seu Voluntário Virtual.

“Por exemplo, se um usuário enviar uma foto do interior de sua geladeira, o Voluntário Virtual poderá não só identificar corretamente o que tem dentro dela, mas também extrapolar e analisar o que pode ser preparado com aqueles ingredientes. A ferramenta também pode oferecer várias receitas para esses ingredientes e enviar um guia passo a passo sobre como prepará-los”, diz Be My Eyes em um post de blog explicando esse recurso.

No entanto, esses recursos são caros de se ter. A OpenAI cobra US$ 0,03 por 1.000 tokens “prompt”, que são cerca de 750 palavras. O preço do processamento de imagem ainda não foi divulgado.

GPT-4 ainda não é perfeito no entanto

O ChatGPT é tão famoso por suas mentiras e alucinações convincentes, às vezes hilárias, quanto por sua capacidade fenomenal de sintetizar informações e conduzir conversas semelhantes às humanas. A boa notícia é que o GPT-4 é muito mais preciso e factual.

“Passamos 6 meses tornando o GPT-4 mais seguro e alinhado. O GPT-4 tem 82% menos probabilidade de responder a solicitações de conteúdo proibido e 40% mais probabilidade de produzir respostas factuais do que o GPT-3.5 em nossas avaliações internas”, disse a OpenAI.

“Em uma conversa casual, a distinção entre GPT-3.5 e GPT-4 pode ser sutil”, escreveu OpenAI em um post de blog anunciando o GPT-4. “A diferença surge quando a complexidade da tarefa atinge um limite suficiente – o GPT-4 é mais confiável, criativo e capaz de lidar com instruções muito mais sutis do que o GPT-3.5.”

No entanto, embora tenha 40% mais chances de fornecer informações factuais, isso não significa que não continuará cometendo erros, algo que a OpenAI reconhece. Isso significa que o ChatGPT deve ser usado com extremo cuidado, especialmente em situações de alto risco, como a produção de conteúdo para sua apresentação de trabalho.

No entanto, o GPt-4 marca mais um grande marco na revolução contínua da IA que deve transformar nossas vidas em mais de uma maneira.

Artigos recomendados: Tech e IoT

Fonte:https://www.zmescience.com/science/gpt-4-features-announced/

Páginas

15 de mar. de 2023

A OpenAI acaba de lançar o GPT-4, que agora pode interpretar imagens: aqui está o que você precisa saber

Nenhum comentário:

Postar um comentário