11 de dez. de 2024

Microsoft Copilot Vision já está aqui, permitindo que a IA veja o que você faz online




VB, 06/12/2024 



Por Shubham Sharma 



O Microsoft Copilot está ficando mais inteligente a cada dia. A empresa liderada por Satya Nadella anunciou que seu assistente de IA agora possui capacidades de "visão", permitindo navegar pela internet com os usuários.

Embora o recurso tenha sido anunciado inicialmente em outubro deste ano, agora está sendo apresentado em uma prévia para um conjunto limitado de assinantes Pro. De acordo com a Microsoft, esses usuários poderão ativar o Copilot Vision em páginas da web abertas no navegador Edge, e interagir com ele sobre os conteúdos visíveis na tela.

O recurso ainda está em estágios iniciais de desenvolvimento e é bastante restrito, mas, uma vez plenamente evoluído, poderá se tornar um divisor de águas para os clientes corporativos da Microsoft — auxiliando em análises e na tomada de decisões enquanto interagem com produtos do ecossistema da empresa (OneDrive, Excel, SharePoint, etc.).

A longo prazo, será interessante observar como o Copilot Vision se compara a outras ofertas mais abertas e avançadas, como as da Anthropic e Emergence AI, que permitem que desenvolvedores integrem agentes capazes de ver, raciocinar e agir em aplicativos de diferentes fornecedores.

O que esperar do Copilot Vision?

Quando um usuário abre um site, ele pode ou não ter um objetivo em mente. No entanto, quando tem, como ao realizar uma pesquisa acadêmica, o processo envolve navegar pelo site, ler todo o conteúdo e decidir se ele é adequado como referência. O mesmo vale para tarefas cotidianas, como fazer compras online.

Com a nova experiência do Copilot Vision, a Microsoft visa simplificar esse processo. Essencialmente, o usuário agora conta com um assistente que fica no rodapé do navegador e pode ser acionado quando necessário para ler os conteúdos da página — cobrindo textos e imagens — e ajudar na tomada de decisões.

Ele pode imediatamente escanear, analisar e fornecer todas as informações necessárias, levando em consideração o objetivo do usuário — funcionando como um "segundo par de olhos".  

Essa capacidade traz benefícios amplos, como acelerar fluxos de trabalho, mas também levanta implicações importantes, já que o agente lê e avalia tudo o que o usuário está navegando. No entanto, a Microsoft garante que todas as informações e o contexto compartilhados pelo usuário são excluídos assim que a sessão do Vision é encerrada. Além disso, os dados dos sites não são capturados nem armazenados para treinar os modelos subjacentes.

"Em resumo, estamos priorizando os direitos autorais, os criadores e a privacidade e segurança dos nossos usuários, colocando tudo isso em primeiro lugar", escreveu a equipe do Copilot em um blog anunciando a prévia da funcionalidade.

Expansão baseada no feedback

Atualmente, um grupo seleto de assinantes Pro do Copilot nos EUA, que se inscreveram no programa de acesso antecipado Copilot Labs, poderá usar os recursos de visão no navegador Edge. A funcionalidade será opcional, ou seja, os usuários não precisam se preocupar com a IA lendo suas telas o tempo todo.

Por enquanto, o recurso funcionará apenas em sites específicos. A Microsoft afirmou que usará o feedback desses usuários iniciais para melhorar gradualmente o recurso, enquanto expande o suporte para mais assinantes Pro e outros sites.

No futuro, a empresa pode até expandir essas capacidades para outros produtos do seu ecossistema, como o OneDrive e o Excel, permitindo que usuários corporativos trabalhem e tomem decisões de maneira mais fácil. Porém, ainda não há confirmação oficial. Além disso, dado o enfoque cauteloso da Microsoft, pode levar algum tempo para que isso se concretize.

A decisão da Microsoft de lançar a prévia do Copilot Vision ocorre em um momento em que concorrentes estão elevando o nível no espaço da IA agente. O Salesforce, por exemplo, já lançou o AgentForce em sua plataforma Customer 360, automatizando fluxos de trabalho em vendas, marketing e atendimento.

Enquanto isso, a Anthropic introduziu o recurso Computer Use, que permite que desenvolvedores integrem o Claude para interagir com ambientes de desktop, realizando tarefas antes exclusivamente humanas, como abrir aplicativos, interagir com interfaces e preencher formulários.

Artigos recomendados: AGI e Controle


Fonte:https://venturebeat.com/ai/microsoft-copilot-vision-is-here-letting-ai-see-what-you-do-online/ 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...