VB, 16/12/2022
Por Peter Wayner
A percepção da máquina é a capacidade de um computador de receber e processar informações sensoriais de maneira semelhante à forma como os humanos percebem o mundo. Pode contar com sensores que imitam os sentidos humanos comuns – visão, audição, tato, paladar – além de receber informações de maneiras que os humanos não conseguem.
A detecção e o processamento de informações por uma máquina geralmente requerem hardware e software especializados. É um processo de várias etapas para receber e converter ou traduzir dados brutos na varredura geral e na seleção detalhada do foco pelo qual os humanos (e animais) percebem seu mundo.
A percepção também é o primeiro estágio em muitos dos modelos sensoriais de inteligência artificial (IA). Os algoritmos convertem os dados coletados do mundo em um modelo bruto do que está sendo percebido. O próximo estágio é a construção de uma compreensão mais ampla do mundo percebido, um estágio às vezes chamado de cognição. Depois vem a estratégia e a escolha de como agir.
Em alguns casos, o objetivo não é fazer as máquinas pensarem exatamente como os humanos, mas apenas pensar de maneira semelhante. Muitos algoritmos para diagnóstico médico podem fornecer respostas melhores do que os humanos porque os computadores têm acesso a imagens ou dados mais precisos do que os humanos podem perceber. O objetivo não é ensinar os algoritmos de IA a pensar exatamente como os humanos, mas fornecer informações úteis sobre a doença que podem ajudar médicos e enfermeiras humanos. Ou seja, tudo bem e às vezes até preferível que a máquina perceba de maneira diferente dos humanos.
Tipos de percepção da máquina
Aqui alguns tipos de percepção da máquina, em vários estágios de desenvolvimento:
- Visão de máquina ou computador via câmera óptica
- Audição de máquina (audição de computador) via microfone
- Toque da máquina via sensor tátil
- Cheiro de máquina (olfatório) via nariz eletrônico
- Gosto de máquina via língua eletrônica
- Imagem 3D ou digitalização via sensor LiDAR ou scanner
- Detecção de movimento via acelerômetro, giroscópio, magnetômetro ou sensor de fusão
- Imagem térmica ou detecção de objetos via scanner infravermelho
Em teoria, qualquer coleta direta de informações do mundo baseada em computador é percepção de máquina.
Muitas das áreas geralmente consideradas desafios para o desenvolvimento de uma boa percepção da máquina são aquelas em que os humanos se saem bem, mas que não são fáceis de codificar como regras simples. Por exemplo, a caligrafia humana geralmente varia de palavra para palavra. Os humanos podem discernir um padrão, mas é mais difícil ensinar um computador a reconhecer as letras com precisão porque há muitas pequenas variações.
Mesmo entender o texto impresso pode ser um desafio, devido às diferentes fontes e variações sutis na impressão. O reconhecimento óptico de caracteres requer a programação do computador para pensar em questões maiores, como a forma básica da letra, e se adaptar se a fonte esticar alguns dos aspectos.
Alguns pesquisadores em percepção de máquinas querem construir conexões com o computador que possam realmente começar a duplicar a maneira como os humanos percebem o mundo. Alguns estão construindo narizes e línguas eletrônicas que tentam imitar ou mesmo duplicar as reações químicas que são interpretadas pelo cérebro humano.
Em alguns casos, a eletrônica oferece melhor detecção do que os órgãos humanos equivalentes. Muitos microfones podem detectar frequências de som muito além do alcance humano. Eles também podem captar sons muito suaves para os humanos detectarem. Ainda assim, o objetivo é entender como fazer o computador perceber o mundo como um ser humano.
Alguns cientistas de percepção de máquinas se concentram em tentar simular como os humanos são capazes de captar sons específicos. Por exemplo, o cérebro humano geralmente é capaz de rastrear conversas específicas em um ambiente barulhento. Filtrar o ruído de fundo é um desafio para os computadores porque requer a identificação dos recursos mais importantes em um mar de cacofonia.
Quais sentidos humanos as máquinas podem imitar bem?
Os computadores contam com muitos sensores diferentes para permitir que eles se conectem com o mundo, mas todos se comportam de maneira diferente dos órgãos humanos que sentem as mesmas coisas. Alguns são mais precisos e conseguem captar mais informações sobre o ambiente com maior precisão. Outros não são tão precisos.
A visão de máquina pode ser o sentido mais poderoso, graças a câmeras sofisticadas e lentes ópticas que podem captar mais luz. Embora muitas dessas câmeras sejam ajustadas deliberadamente para duplicar a maneira como o olho humano responde à cor, câmeras especiais podem captar uma gama mais ampla de cores, incluindo algumas que o olho humano não consegue ver. Sensores infravermelhos, por exemplo, costumam ser usados para procurar vazamentos de calor em residências.
As câmeras também são mais sensíveis a mudanças sutis na intensidade da luz, então é possível que os computadores percebam pequenas mudanças melhor do que os humanos. Por exemplo, as câmeras podem captar o rubor sutil que vem com o sangue correndo pelos capilares faciais e, assim, rastrear os batimentos cardíacos de uma pessoa.
O som costuma ser o próximo tipo de percepção de máquina mais bem-sucedido. Os microfones são pequenos e muitas vezes mais sensíveis do que os ouvidos humanos, especialmente os ouvidos humanos mais velhos. Eles podem detectar frequências bem fora do alcance humano, permitindo que os computadores ouçam eventos e rastreiem sons que os humanos literalmente não conseguem. Os microfones também podem ser colocados em arranjos, com o computador rastreando vários microfones simultaneamente, permitindo estimar a localização da fonte com mais eficiência do que os humanos. Arranjos com três ou mais microfones podem fornecer estimativas melhores do que humanos com apenas dois ouvidos.
Os computadores podem sentir o toque, mas geralmente apenas em circunstâncias especiais. As telas sensíveis ao toque ou touchpads em telefones e laptops podem ser muito precisos. Eles podem detectar vários dedos e pequenos movimentos. Os desenvolvedores também trabalharam para permitir que esses sensores detectassem diferenças na duração de um toque, de modo que ações como um toque longo ou um toque curto possam ter significados diferentes.
Olfato e paladar são menos comumente abordados pelos desenvolvedores de percepção de máquina. Existem poucos sensores que tentam imitar esses sentidos humanos, talvez porque esses sentidos sejam baseados em uma química tão complexa. Em alguns laboratórios, porém, os pesquisadores conseguiram dividir os processos em etapas suficientemente pequenas para que alguns algoritmos de inteligência artificial possam começar a cheirar ou provar.
A percepção da máquina é difícil?
Cientistas de inteligência artificial aprenderam rapidamente que algumas das tarefas mais simples para os humanos podem ser extremamente difíceis para os computadores aprenderem a fazer. Por exemplo, olhar para uma sala e procurar um lugar para sentar acontece automaticamente para a maioria de nós. Ainda é uma tarefa difícil para os robôs.
Na década de 1980, Hans Moravec descreveu o paradoxo desta forma: “É comparativamente fácil fazer computadores exibirem desempenho de nível adulto em testes de inteligência ou jogar damas, e difícil ou impossível dar a eles as habilidades de uma criança de um ano quando se trata de à percepção e à mobilidade”.
Parte disso ocorre porque os humanos não percebem o quanto seu cérebro está trabalhando para interpretar seus sentidos. Cientistas do cérebro geralmente estimam que mais da metade do cérebro trabalha para entender o que nossos olhos estão olhando. Tendemos a ver as coisas sem decidir conscientemente procurá-las, pelo menos na iluminação normal. É apenas no escuro ou na neblina que os humanos procuram pistas visuais sobre os objetos e onde eles podem estar.
A visão de máquina é apenas uma área da percepção da máquina, e os cientistas continuam lutando para duplicar até mesmo as tarefas humanas mais simples. Quando os algoritmos funcionam, eles retornam respostas diretas, amplamente numéricas e muitas vezes sem contexto ou interpretação. Os sensores podem detectar um objeto vermelho em um determinado local, mas identificá-lo ou mesmo determinar se é parte de outro objeto é difícil.
Como as principais empresas de IA lidam com a percepção da máquina?
As principais empresas que vendem algoritmos de inteligência artificial fornecem uma variedade de ferramentas para detectar e processar tipos de percepção humana, da visão à linguagem. Eles são mais frequentemente diferenciados pelos algoritmos de software que processam, analisam e apresentam descobertas e previsões sensoriais. Eles oferecem ferramentas brutas para empresas que desejam trabalhar a partir de uma base, bem como ferramentas específicas de domínio que abordam problemas específicos, como pesquisar um feed de vídeo em busca de ações anômalas ou conversar com clientes.
IBM
A IBM tem sido líder em melhorar a capacidade de seus algoritmos de ver o mundo como os humanos o veem. Seu sistema Watson AI , por exemplo, começa com uma camada sofisticada de processamento de linguagem natural (NLP) que fornece uma interface de conversação. Os clientes podem usar o Watson Studio da IBM para analisar perguntas, propor respostas hipotéticas e, em seguida, pesquisar no corpus de evidências as respostas corretas. A versão que venceu jogos do Jeopardy contra campeões humanos é um bom exemplo de algoritmos bem socializados que podem interagir com humanos porque percebem as palavras, mais ou menos, como os humanos.
Amazon
A Amazon oferece uma ampla gama de produtos e serviços, começando com ferramentas básicas e também incluindo ferramentas especializadas. O Amazon Comprehend, por exemplo, extrai informações da linguagem natural. Uma versão especializada, Amazon Comprehend Medical, está focada em fornecer o tipo de análise automatizada e codificação necessária para hospitais e consultórios médicos. O Amazon HealthLake é um produto de armazenamento de dados que incorpora rotinas de inteligência artificial para extrair significado e fazer previsões dos dados armazenados.
O Google oferece vários produtos de nuvem para solução de problemas básicos e focados. Ela também vem adicionando discretamente melhores algoritmos para percepção de máquina a seus produtos padrão, tornando-os mais úteis e muitas vezes intuitivos. O Google Drive, por exemplo, aplicará silenciosamente algoritmos de reconhecimento óptico de caracteres para ler texto em e-mail ou arquivos armazenados. Isso permite que os usuários pesquisem palavras que podem estar apenas em uma imagem ou meme. O Google Photo usará algoritmos de classificação de nível superior para possibilitar a busca de imagens com base em seu conteúdo.
Microsoft
A Microsoft oferece uma ampla variedade de serviços para ajudar os clientes a criar ferramentas mais perspicazes. O Azure Percept fornece uma coleção de modelos de IA pré-criados que podem ser personalizados e implantados com um IDE Studio simples. Esses produtos de ponta são projetados para integrar software e hardware personalizado em um único produto. As ferramentas de desenvolvimento da Microsoft estão focadas na compreensão da linguagem natural, bem como feeds de vídeo e áudio que podem ser coletados por dispositivos da Internet das Coisas (IoT).
Meta
A Meta também usa uma variedade de algoritmos de PNL para melhorar seu produto básico, sua rede social. A empresa também está começando a explorar o metaverso e a usar ativamente interfaces de linguagem natural e algoritmos de visão de máquina para ajudar os usuários a criar e usar o metaverso. Por exemplo, os usuários querem decorar seus espaços pessoais, e boas interfaces de IA tornam mais simples para as pessoas criar e explorar designs diferentes.
Como as startups e os desafiadores estão abordando a percepção da máquina?
Várias empresas, tanto iniciantes quanto concorrentes estabelecidas, estão trabalhando para fazer com que seus modelos funcionem como os humanos.
Uma área em que isso é de grande interesse é o transporte autônomo. Quando as IAs vão compartilhar a estrada com motoristas e pedestres humanos, as IAs precisarão entender o mundo como os humanos. Startups como Waymo, Pony AI, Aeye, Cruise Automation e Argo são algumas das grandes empresas com financiamento significativo que estão construindo carros que já operam nas ruas de algumas cidades. Eles estão integrando IAs bem projetadas que podem catalogar e evitar obstáculos na estrada.
Algumas startups estão mais focadas em construir apenas o software que rastreia objetos e potenciais barreiras para o movimento autônomo. Empresas como aiMotive, StradVision, Phantom AI e CalmCar são apenas alguns exemplos de empresas que estão criando “pilhas de percepção” que gerenciam todas as informações provenientes de uma variedade de sensores.
Esses sistemas geralmente são melhores que os humanos em vários aspectos. Às vezes, eles contam com um conjunto de câmeras que podem ver simultaneamente em 360 graus ao redor do veículo. Em outros casos, eles usam iluminação controlada especial, como lasers, para extrair dados ainda mais precisos sobre a localização dos objetos.
Compreender as palavras e ir além da pesquisa básica de palavras-chave é um desafio que algumas startups estão enfrentando. Blackbird.ai, Basis Technology e Narrative Science (agora parte do Tableau) são bons exemplos de empresas que desejam entender a intenção do ser humano que está elaborando o texto. Eles falam sobre ir além de simplesmente identificar as palavras-chave, para detectar narrativas.
Alguns estão procurando uma maneira preditiva de antecipar o que os humanos podem estar planejando fazer, procurando por pistas visuais. A Humanização da Autonomia quer reduzir a responsabilidade e eliminar acidentes construindo um modelo preditivo de humanos a partir de um feed de vídeo.
Algumas empresas estão focadas em resolver problemas práticos específicos. A AMP Robotics, por exemplo, está construindo máquinas de classificação que podem separar materiais recicláveis de fluxos de resíduos. Essas máquinas usam visão de máquina e algoritmos de aprendizado para fazer o que os humanos fazem no processo de classificação.
Alguns estão simplesmente usando IA para aprimorar a experiência dos humanos por meio de sua compreensão do que os humanos percebem. A Pensa Systems, por exemplo, usa câmeras de vídeo para examinar as prateleiras das lojas e procurar exibições ruins. Essa “inteligência de prateleira” visa melhorar a visibilidade e o posicionamento para tornar mais fácil para os clientes encontrarem o que desejam.
O que a percepção da máquina não pode fazer?
Os computadores pensam de forma diferente dos humanos. Eles são especialmente adeptos de cálculos aritméticos simples e lembram grandes coleções de números ou letras. Mas encontrar um conjunto de algoritmos que lhes permitam ver, ouvir ou sentir o mundo ao seu redor como os humanos o fazem é mais desafiador.
O nível de sucesso varia. Algumas tarefas, como localizar objetos em uma imagem e distingui-los, são surpreendentemente complexas e difíceis. Os algoritmos que os cientistas de visão de máquina criaram podem funcionar, mas ainda são frágeis e cometem erros que uma criança pequena evitaria.
Muito disso é porque não temos modelos sólidos e lógicos de como apreendemos o mundo. A definição de um item como uma cadeira é óbvia para os humanos, mas pedir a um computador para distinguir entre um banquinho e uma mesa baixa é um desafio.
Os algoritmos mais bem-sucedidos geralmente são amplamente estatísticos. Os sistemas de aprendizado de máquina coletam uma grande quantidade de dados e, em seguida, calculam modelos estatísticos elaborados e adaptativos que geram a resposta certa em algum momento. Esses algoritmos de aprendizado de máquina e redes neurais são a base para muitos dos algoritmos de classificação que podem reconhecer objetos em uma imagem.
Apesar de todo o seu sucesso, esses mecanismos estatísticos são apenas aproximações. Eles são mais como truques de salão. Eles se aproximam de como os humanos pensam, mas na verdade não pensam da mesma maneira. Isso torna muito difícil prever quando eles falharão.
Em geral, os algoritmos de percepção de máquina são úteis, mas cometerão erros e produzirão resultados incorretos em momentos imprevisíveis. Muito disso é porque não entendemos muito bem a percepção humana. Temos alguns bons blocos de construção lógicos da física e da psicologia, mas eles são apenas o começo. Não sabemos realmente como os humanos percebem o mundo e, por enquanto, nos contentamos com os modelos estatísticos.
Às vezes, é melhor focar mais no que as máquinas fazem melhor. Muitas das câmeras e sensores de imagem, por exemplo, podem detectar luz em comprimentos de onda que não podem ser vistos pelo olho humano. O Telescópio Espacial Webb, por exemplo, opera inteiramente com luz infravermelha. As imagens que vemos são modificadas pelo computador para aparecerem em cores na faixa visível. Em vez de construir algo que duplicasse o que a percepção humana poderia fazer, esses cientistas criaram um telescópio que estendeu o alcance humano para ver coisas que de outra forma não poderiam ser vistas.
Fonte:https://venturebeat.com/programming-development/what-is-machine-perception/
Nenhum comentário:
Postar um comentário