MX, 27/07/2022
Por Ingrid Fadelli
Pesquisas anteriores em neurociência e psicologia demonstraram repetidamente o papel crucial das recompensas em como humanos e outros animais adquirem comportamentos que promovem sua sobrevivência. Neurônios dopaminérgicos, neurônios que produzem dopamina no sistema nervoso central de mamíferos, são conhecidos por serem amplamente responsáveis pelo aprendizado baseado em recompensas em mamíferos.
Estudos descobriram que quando um mamífero está recebendo uma recompensa inesperada, esses neurônios respondem prontamente, através da chamada excitação fásica. Este é um período curto, mas forte de excitação que ocorre em receptores cerebrais de adaptação rápida (ou seja, receptores fásicos).
Quando os animais começam a criar associações entre uma recompensa e um estímulo ou sugestão específica, os neurônios dopaminérgicos sintonizam suas respostas à recompensa em questão. Este pode ser um mecanismo evolutivo destinado a apoiar a aprendizagem associativa.
Nos últimos anos, os cientistas da computação têm tentado replicar artificialmente os fundamentos neurais do aprendizado por recompensa em mamíferos, para criar modelos eficientes de aprendizado de máquina que possam lidar com tarefas complexas. Um renomado método de aprendizado de máquina que replica a função dos neurônios dopaminérgicos é o chamado algoritmo de aprendizado de diferença temporal (TD).
Pesquisadores da Harvard University, Nagoya University e Keio University School of Medicine realizaram recentemente um estudo explorando um aspecto do método computacional de aprendizagem TD que pode estar relacionado a como os humanos aprendem com base em recompensas. Seu artigo, publicado na Nature Neuroscience, pode lançar alguma nova luz sobre como o cérebro constrói associações entre pistas e recompensas que são separadas no tempo (ou seja, que não são consecutivas e, portanto, não experimentadas uma após a outra).
Os algoritmos de aprendizado TD são uma classe de abordagens de aprendizado por reforço que não requerem um modelo, mas podem aprender a fazer previsões com base em mudanças no ambiente que ocorrem em sucessivas etapas de tempo. Em contraste com outros métodos de aprendizado de máquina, os métodos TD podem ajustar suas estimativas várias vezes antes de revelar sua previsão final.
Nos últimos anos, vários estudos destacaram as semelhanças entre os algoritmos de aprendizado de TD e os neurônios de dopamina de aprendizado de recompensa no cérebro. No entanto, um aspecto particular do funcionamento do algoritmo raramente foi considerado na pesquisa em neurociência.
"Estudos anteriores falharam em observar uma previsão chave deste algoritmo: que quando um agente associa uma deixa e uma recompensa que são separadas no tempo, o tempo dos sinais de dopamina deve mover-se gradualmente para trás no tempo desde o momento da recompensa até o momento da recompensa, como sugestão em várias tentativas", escreveram Ryunosuke Amo, Sara Matias, Akihiro Yamanaka, Kenji F. Tanaka, Naoshige Uchida e Mitsuko Watabe-Uchida em seu artigo. "Nós demonstramos que essa mudança gradual ocorre tanto no nível da atividade celular dopaminérgica quanto na liberação de dopamina no corpo estriado ventral em camundongos".
Em seu artigo, Amo e seus colegas consideraram os resultados de experimentos realizados em camundongos não treinados que estavam aprendendo a associar sinais de odor com recompensas de água. Quando os animais começaram a associar odores específicos ao recebimento de água, eles exibiram um comportamento de lamber, sugerindo que esperavam receber água depois de apenas sentirem o odor associado.
Em seus experimentos, os pesquisadores apresentaram aos camundongos o odor de pré-recompensa e a recompensa em diferentes prazos. Em outras palavras, eles mudaram a quantidade de tempo entre o momento em que os camundongos foram expostos ao odor e o momento em que receberam a recompensa da água.
Eles descobriram que quando a recompensa foi adiada (ou seja, foi dada aos ratos mais tarde do que eles haviam experimentado anteriormente), os neurônios de dopamina não eram tão ativos no início, mas se tornaram mais ativos com o passar do tempo. Isso mostrou que, como observado nas abordagens de aprendizado TD, o tempo das respostas da dopamina no cérebro pode mudar enquanto os camundongos estão aprendendo associações entre odores e recompensas pela primeira vez.
A equipe também realizou outros experimentos, para testar se essa mudança também ocorreu em animais que já haviam sido treinados para fazer essas associações odor-recompensa e durante tarefas inversas (ou seja, tarefas em que a sugestão e a recompensa foram invertidas). Eles observaram uma mudança temporal nos sinais de dopamina do animal durante o período de atraso, que foi semelhante ao exibido quando os animais estavam aprendendo associações pela primeira vez, mas em uma velocidade mais rápida.
No geral, as descobertas reunidas por Amo e seus colegas destacam a ocorrência de um retrocesso no tempo da atividade da dopamina no cérebro dos camundongos ao longo de diferentes experimentos de aprendizado associativo. Essa mudança temporal observada se assemelha muito aos mecanismos que sustentam os métodos de aprendizado de TD.
No futuro, as descobertas reunidas por essa equipe de pesquisadores podem abrir caminho para novos estudos investigando essa semelhança potencial entre o aprendizado por recompensa no cérebro de mamíferos e as abordagens de aprendizado por reforço TD. Isso pode ajudar a melhorar a compreensão atual da aprendizagem por recompensa no cérebro, ao mesmo tempo em que potencialmente inspira o desenvolvimento de algoritmos de aprendizagem TD.
“Nossos resultados estabelecem uma ligação há muito procurada entre a atividade dopaminérgica e o algoritmo de aprendizado TD, fornecendo informações fundamentais sobre como o cérebro associa pistas e recompensas separadas no tempo”, escreveram os pesquisadores em seu artigo.
Artigos recomendados: IA e Tech
Fonte:https://medicalxpress.com/news/2022-07-link-dopamine-based-reward-machine.html
Nenhum comentário:
Postar um comentário