Correio Paulista: DayDreamer: Um algoritmo para ensinar rapidamente novos comportamentos aos robôs no mundo real

TX, 27/07/2022

Por Ingrid Fadelli

Treinar robôs para completar tarefas no mundo real pode ser um processo muito demorado, que envolve a construção de um simulador rápido e eficiente, a realização de inúmeras tentativas nele e a transferência dos comportamentos aprendidos durante essas tentativas para o mundo real. Em muitos casos, no entanto, o desempenho obtido nas simulações não corresponde ao obtido no mundo real, devido a mudanças imprevisíveis no ambiente ou na tarefa.

Pesquisadores da Universidade da Califórnia, Berkeley (UC Berkeley) desenvolveram recentemente o DayDreamer, uma ferramenta que pode ser usada para treinar robôs para completar tarefas do mundo real de forma mais eficaz. Sua abordagem, apresentada em um artigo pré-publicado no arXiv, é baseada em modelos de aprendizado do mundo que permitem que os robôs prevejam os resultados de seus movimentos e ações, reduzindo a necessidade de treinamento extensivo de tentativa e erro no mundo real.

“Queríamos construir robôs que aprendessem continuamente diretamente no mundo real, sem ter que criar um ambiente de simulação”, disse Danijar Hafner, um dos pesquisadores que realizaram o estudo, ao TechXplore. "Nós só tínhamos aprendido modelos mundiais de videogames antes, então foi super empolgante ver que o mesmo algoritmo permite que os robôs aprendam rapidamente no mundo real também!"

Usando sua abordagem, os pesquisadores foram capazes de ensinar robôs com eficiência e rapidez a realizar comportamentos específicos no mundo real. Por exemplo, eles treinaram um cachorro robótico para rolar, se levantar e andar em apenas uma hora.

Depois de treinado, a equipe começou a empurrar o robô e descobriu que, em 10 minutos, ele também era capaz de resistir a empurrões ou rolar rapidamente para trás. A equipe também testou sua ferramenta em braços robóticos, treinando-os para pegar objetos e colocá-los em locais específicos, sem dizer onde os objetos estavam inicialmente localizados.

“Vimos os robôs se adaptarem às mudanças nas condições de iluminação, como sombras se movendo com o sol ao longo do dia”, disse Hafner. "Além de aprender rápida e continuamente no mundo real, o mesmo algoritmo sem nenhuma alteração funcionou bem nos quatro robôs e tarefas diferentes. Assim, acreditamos que os modelos mundiais e a adaptação online terão um grande papel na robótica daqui para frente."

Modelos computacionais baseados em aprendizado por reforço podem ensinar comportamentos de robôs ao longo do tempo, dando-lhes recompensas por comportamentos desejáveis, como boas estratégias de agarrar objetos ou mover-se em uma velocidade adequada. Normalmente, esses modelos são treinados por meio de um longo processo de tentativa e erro, usando simulações que podem ser aceleradas e experimentos no mundo real.

Por outro lado, Dreamer, o algoritmo desenvolvido por Hafner e seus colegas, constrói um modelo de mundo baseado em suas "experiências" passadas. Este modelo de mundo pode então ser usado para ensinar aos robôs novos comportamentos baseados em interações "imaginadas". Isso reduz significativamente a necessidade de testes no ambiente do mundo real, acelerando substancialmente o processo de treinamento.

“A previsão direta de entradas sensoriais futuras seria muito lenta e cara, especialmente quando grandes entradas, como imagens de câmeras, estão envolvidas”, disse Hafner. "O modelo do mundo primeiro aprende a codificar suas entradas sensoriais a cada passo de tempo (ângulos motores, medições de acelerômetros, imagens de câmeras, etc.) em uma representação compacta. Dada uma representação e um comando motor, ele aprende a prever a representação resultante em o próximo passo de tempo."

O modelo de mundo produzido pelo Dreamer permite que os robôs "imaginem" representações futuras em vez de processar entradas sensoriais brutas. Isso, por sua vez, permite que o modelo planeje milhares de sequências de ação em paralelo, usando uma única unidade de processamento gráfico (GPU). Essas sequências "imaginadas" ajudam a melhorar rapidamente o desempenho dos robôs em tarefas específicas.

"O uso de recursos latentes no aprendizado por reforço tem sido estudado extensivamente no contexto do aprendizado de representação; a ideia é que se pode criar uma representação compacta de grandes entradas sensoriais (imagens de câmera, varreduras de profundidade), reduzindo assim o tamanho do modelo e talvez reduzindo o tempo de treinamento necessário", disse Alejandro Escontrela, outro pesquisador envolvido no estudo, ao TechXplore. "No entanto, as técnicas de aprendizado de representação ainda exigem que o robô interaja com o mundo real ou um simulador por um longo tempo para aprender uma tarefa. simulador.' Isso permite que o robô realize uma grande quantidade de treinamento dentro do modelo de mundo aprendido."

Ao treinar robôs, o Dreamer coleta continuamente novas experiências e as usa para aprimorar seu modelo de mundo, melhorando assim o comportamento dos robôs. O método permitiu que os pesquisadores treinassem um robô quadrúpede para andar e se adaptar a estímulos ambientais específicos em apenas uma hora, sem usar um simulador, o que nunca havia sido feito antes.

"No futuro, imaginamos que essa tecnologia permitirá que os usuários ensinem aos robôs muitas novas habilidades diretamente no mundo real, eliminando a necessidade de projetar simuladores para cada tarefa", disse Hafner. “Isso também abre a porta para a construção de robôs que se adaptam a falhas de hardware, como poder andar apesar de um motor quebrado em uma das pernas”.

Em seus testes iniciais, Hafner, Escontrela, Philip Wu e seus colegas também usaram seu método para treinar um robô para pegar objetos e colocá-los em locais específicos. Essa tarefa, que é realizada por trabalhadores humanos em armazéns e linhas de montagem todos os dias, pode ser difícil para os robôs completarem, principalmente quando a posição dos objetos que eles devem pegar é desconhecida.

“Outra dificuldade associada a esta tarefa é que não podemos dar feedback intermediário ou recompensa ao robô até que ele realmente tenha entendido algo, então há muito para o robô explorar sem orientação intermediária”, disse Hafner. "Em 10 horas de operação totalmente autônoma, o robô treinado no Dreamer se aproximou do desempenho de teleoperadores humanos. Esse resultado sugere modelos mundiais como uma abordagem promissora para automatizar estações em armazéns e linhas de montagem."

Em seus experimentos, os pesquisadores usaram com sucesso o algoritmo Dreamer para treinar quatro robôs morfologicamente diferentes em várias tarefas. Treinar esses robôs usando o aprendizado de reforço convencional normalmente requer um ajuste manual substancial, realizado bem em todas as tarefas sem ajuste adicional.

“Com base em nossos resultados, esperamos que mais equipes de robótica comecem a usar e melhorar o Dreamer para resolver problemas de robótica mais desafiadores”, disse Hafner. “Ter um algoritmo de aprendizado por reforço que funciona fora da caixa dá às equipes mais tempo para se concentrar na construção do hardware do robô e na especificação das tarefas que desejam automatizar com o modelo mundial”.

O algoritmo pode ser facilmente aplicado a robôs e seu código em breve será de código aberto. Isso significa que em breve outras equipes poderão usá-lo para treinar seus próprios robôs usando modelos mundiais.

Hafner, Escontrela, Wu e seus colegas agora gostariam de realizar novos experimentos, equipando um robô quadrúpede com uma câmera para que ele possa aprender não apenas a andar, mas também a identificar objetos próximos. Isso deve permitir que o robô enfrente tarefas mais complexas, por exemplo, evitando obstáculos, identificando objetos de interesse em seu ambiente ou andando ao lado de um usuário humano.

"Um desafio aberto na robótica é como os usuários podem especificar tarefas intuitivamente para robôs", acrescentou Hafner. "Em nosso trabalho, implementamos os sinais de recompensa que o robô otimiza como funções do Python, mas, em última análise, seria bom ensinar os robôs a partir das preferências humanas, dizendo diretamente a eles quando eles fizeram algo certo ou errado. Isso pode acontecer pressionando um botão para dar uma recompensa ou mesmo equipando os robôs com uma compreensão da linguagem humana."

Até agora, a equipe só usou seu algoritmo para treinar robôs em tarefas específicas, que foram claramente definidas no início de seus experimentos. No futuro, no entanto, eles também gostariam de treinar robôs para explorar seu ambiente sem enfrentar uma tarefa claramente definida.

“Uma direção promissora seria treinar os robôs para explorar seus arredores na ausência de uma tarefa por meio de curiosidade artificial e depois se adaptar para resolver tarefas especificadas pelos usuários ainda mais rapidamente”, acrescentou Hafner.

Artigos recomendados: IA e Dados

Fonte:https://techxplore.com/news/2022-07-daydreamer-algorithm-quickly-robots-behaviors.html

Páginas

28 de jul. de 2022

DayDreamer: Um algoritmo para ensinar rapidamente novos comportamentos aos robôs no mundo real

Nenhum comentário:

Postar um comentário

Publicações recentes