Correio Paulista: Amanhecer dos Agentes: Nova IA Claude pode assumir o controle do seu computador

NA, 22/10/2024

A próxima onda de modelos de IA revolucionários está prestes a chegar – modelos no estilo "agente", capazes de assumir tarefas e trabalhos inteiros com total autonomia. O mais novo modelo de IA da Anthropic nos dá uma prévia, assumindo o controle completo do seu computador.

Se você ainda não se deparou com a ideia de um agente de IA – ou se vê Modelos de Linguagem Natural (LLMs) como o Claude e o GPT principalmente como serviços de bate-papo, o CEO da OpenAI, Sam Altman, pode ajudar a colocar as coisas em perspectiva. No breve vídeo abaixo, Altman explica os cinco níveis de IA conforme sua empresa os enxerga.

In a recent interview with T-Mobile, Sam Altman compared o1’s current state to the ‘GPT-2 stage’ of reasoning models

He also revealed that the development of o1 unlocks a much quicker path to fully capable AI agents

Hear it from the man himself:pic.twitter.com/jQ13JJOaad
— Rowan Cheung (@rowancheung) September 20, 2024

Primeiro, existem os chatbots – e muitos de nós estamos nos familiarizando com as capacidades notáveis que eles oferecem nos últimos anos. Depois vêm os "raciocinadores" – Altman diz que o modelo recente o1 da OpenAI é o primeiro desses. O terceiro nível são os "agentes" – esses serão, efetivamente, IAs em que as pessoas confiarão para cuidar de tarefas em seu nome, tomando suas próprias decisões sobre como completar uma tarefa.

IAs agentes terão acesso ao seu cartão de crédito e permissão para usá-lo. Elas terão acesso à internet e a capacidade de interagir com sites e ferramentas em seu nome. Você poderá dar a elas um trabalho e confiar que o farão, consultando você apenas quando necessário.

O quarto nível, segundo Altman, será o dos "inovadores", capazes de criar novo conhecimento, e o quinto será o das "organizações completas", funcionando basicamente sem nenhuma entrada humana – um conceito que teria sido ridicularizado pela maioria das pessoas há apenas alguns anos, mas que agora parece inevitável.

Pode-se argumentar que exemplos de todos os cinco níveis já estão em funcionamento ao redor do mundo há anos –, mas em termos de disponibilidade mundial em massa, nenhuma das grandes empresas de IA lançou algo que possa ser chamado de agente, até o lançamento de hoje pela Anthropic.

Como parte do lançamento do novo modelo Claude 3.5 Haiku e de uma versão atualizada do Claude 3.5 Sonnet, a empresa anunciou o seguinte: "Também estamos introduzindo uma nova e revolucionária capacidade em beta público: uso de computador. Disponível hoje na API, os desenvolvedores podem direcionar o Claude a usar computadores da mesma forma que as pessoas – olhando para uma tela, movendo um cursor, clicando em botões e digitando texto." Confira um vídeo introdutório abaixo.

The new Claude 3.5 Sonnet is the first frontier AI model to offer computer use in public beta.

While groundbreaking, computer use is still experimental—at times error-prone. We're releasing it early for feedback from developers. pic.twitter.com/a5SZQMKvLj
— Anthropic (@AnthropicAI) October 22, 2024

"O uso de computador é uma abordagem completamente diferente no desenvolvimento de IA", escreve a equipe da Anthropic. "Até agora, os desenvolvedores de LLMs adaptaram as ferramentas para se ajustarem ao modelo, criando ambientes personalizados onde IAs utilizam ferramentas especialmente projetadas para realizar várias tarefas. Agora, podemos fazer o modelo se ajustar às ferramentas – Claude pode se encaixar nos ambientes de computador que todos usamos diariamente. Nosso objetivo é que Claude use softwares de computador preexistentes da mesma maneira que uma pessoa faria."

Aqui está um exemplo de um caso de uso inicial – a pesquisadora da Anthropic, Pujaa Rajan, pede ao Claude que organize uma caminhada ao nascer do sol pela Ponte Golden Gate e solicita que ele resolva a logística, e crie uma entrada no calendário para a hora de sair de casa. Ele abre um navegador, encontra os horários do nascer do sol e os locais de caminhada, calcula o tempo de viagem da área de Rajan, e então abre um calendário e faz a entrada correspondente.

We're trying something fundamentally new.

Instead of making specific tools to help Claude complete individual tasks, we're teaching it general computer skills—allowing it to use a wide range of standard tools and software programs designed for people. pic.twitter.com/42u8VeTvXd
— Anthropic (@AnthropicAI) October 22, 2024

LLMs como Claude também se tornaram programadores razoavelmente competentes –, mas com esse recurso de Uso de Computador, vem a capacidade não apenas de gerar, editar e depurar código, mas de sair da janela do navegador, lançar servidores e realmente implantar o código.

We've built an API that allows Claude to perceive and interact with computer interfaces.

This API enables Claude to translate prompts into computer commands. Developers can use it to automate repetitive tasks, conduct testing and QA, and perform open-ended research. pic.twitter.com/eK0UCGEozm
— Anthropic (@AnthropicAI) October 22, 2024

É importante notar que este novo recurso ainda é muito preliminar e limitado. Para começar, ele está disponível apenas para desenvolvedores que acessam o Claude através da interface da API back-end, então o público geral ainda não pode utilizá-lo para, por exemplo, pagar nossos impostos.

Também é limitado pelo fato de que ele só consegue ver o que está acontecendo na sua tela como uma série de capturas de tela, que usa para determinar como mover o cursor e quais botões ou teclas pressionar. Então, é inútil em aplicações visualmente dinâmicas – embora o Google Deepmind já esteja avançado na tarefa de construir IAs capazes de jogar videogames.

Curiosamente, às vezes ele parece ficar entediado e sair navegando pela internet, como no vídeo abaixo, onde parou de fazer a demonstração de programação que a Anthropic estava tentando gravar e foi ver algumas fotos cênicas.

Even while recording these demos, we encountered some amusing moments. In one, Claude accidentally stopped a long-running screen recording, causing all footage to be lost.

Later, Claude took a break from our coding demo and began to peruse photos of Yellowstone National Park. pic.twitter.com/r6Lrx6XPxZ
— Anthropic (@AnthropicAI) October 22, 2024

E aparentemente ele também é bastante limitado. No teste de benchmark OSWorld, que avalia a capacidade de um modelo de usar um computador, humanos normalmente pontuam entre 70-75%, e o Claude pontuou apenas 14,9%. Mas isso é quase o dobro da pontuação do próximo melhor modelo de IA em sua categoria, e isso é apenas o começo.

Naturalmente, fornecer a modelos de IA de última geração amplamente acessíveis esse nível de controle sobre computadores traz riscos de segurança – e, de fato, a Anthropic afirma que é por isso que está lançando o recurso de Uso de Computador em um formato tão embrionário. Assim como a OpenAI fez com o GPT-4, a ideia aqui é que liberar o recurso ao público dará à Anthropic a oportunidade de ficar à frente dos riscos de segurança e das tentativas de jailbreak, permitindo que as capacidades de segurança melhorem à medida que o modelo se desenvolve.

Dessa forma, escreve a Anthropic, "podemos começar a lidar com quaisquer problemas de segurança antes que as apostas sejam altas demais, em vez de adicionar capacidades de uso de computador pela primeira vez a um modelo com riscos muito mais sérios."

Sem dúvida, é também uma oportunidade rara para a Anthropic vencer a OpenAI no mercado com uma nova capacidade significativa de modelo; a OpenAI já vem falando sobre IAs no nível de agentes há algum tempo. Certamente tem algo semelhante em desenvolvimento, e muitos esperam que vejamos os primeiros modelos de agentes do GPT nas próximas semanas ou meses.

Mas para aqueles de nós que estão apenas tentando acompanhar tudo o que está acontecendo nesse espaço incrivelmente rápido, isso parece um momento significativo. Dentro de um ano, é razoável esperar que todos nós tenhamos acesso a modelos de agentes altamente competentes que possam assumir o controle de computadores e realizar todo tipo de tarefas.

E esse é outro momento decisivo para essa tecnologia maluca, porque uma IA agente que pode dividir uma tarefa em centenas de etapas e executá-la? Isso começa a parecer muito mais com um funcionário do que com um chatbot. Os ganhos de produtividade podem ser épicos, e as perdas de empregos que já estamos vendo devido aos modelos atuais de IA provavelmente vão se acelerar.

Dentro de cinco ou dez anos, é difícil imaginar que essas IAs agentes não se tornem nosso principal meio de realizar coisas no mundo digital. Operar um computador, usar um teclado e mouse, procurar bits de informação aqui para movê-los para lá... Quanto do seu dia é consumido por esse tipo de trabalho mecânico? Não seria muito mais agradável simplesmente delegar essas tarefas a um assistente de IA confiável? Este é um momento extremamente transformador.

Como continuo dizendo: segurem-se, amigos, não há freios neste trem.

Artigos recomendados: Claude e ChatGPT

Fonte:https://newatlas.com/ai-humanoids/anthropic-claude-computer-use-agent-ai/

Páginas

24 de out. de 2024

Amanhecer dos Agentes: Nova IA Claude pode assumir o controle do seu computador

Nenhum comentário:

Postar um comentário

Publicações recentes