Aprendizagem por Demonstração de Planos Coordenados em Sistemas Multiagentes

DISCENTEMarco Simões

DATA 05/07/2022
 

HORA: 10:00



TÍTULO:

Aprendizagem por Demonstração de Planos Coordenados em Sistemas Multiagentes



RESUMO:

Um dos grandes desafios em Sistemas Multiagentes (SMA) é a criação de planos cooperativos para lidar com os diversos cenários que se apresentam num ambiente dinâmico, de tempo real, composto por times de robôs móveis. Neste cenário, cada robô é controlado por um agente do SMA, o qual precisa tomar decisões complexas em um curto espaço de tempo de forma coordenada com os demais robôs de seu time. Apesar das muitas soluções desenvolvidas com base em planejamento multiagente e aprendizagem por reforço, um especialista humano no domínio do problema usualmente percebe oportunidades para melhores planos cooperativos em muitos cenários em que os robôs apresentam performance abaixo do esperado. A pesquisa apresentada nesta tese consiste em capturar o conhecimento do especialista humano para demonstrar como times de robôs podem cooperar melhor na solução do problema que devem resolver. O especialista humano, ao assistir o desempenho de um time de robôs em ação, é capaz de indicar as situações em que um plano cooperativo pode solucionar melhor um determinado problema. Como consequência, as diversas observações humanas podem ser reunidas em um conjunto de dados para treinamento dos agentes que controlam os robôs. Para o desenvolvimento desta pesquisa, foi utilizado o ambiente RoboCup Soccer Simulation 3D e a coleta das demonstrações humanas foi realizada por meio de um ferramental desenvolvido a partir da adaptação de soluções existentes na comunidade RoboCup, utilizando uma estratégia de crowdsourcing. Além disso, foi utilizado o agrupamento fuzzy para reunir demonstrações de especialistas (setplays) que tenham o mesmo significado semântico, mesmo que com pequenas diferenças entre elas. Com os dados organizados, um mecanismo de aprendizagem por reforço foi utilizado para aprender uma política de classificação que permite aos agentes decidirem qual o grupo de setplays é mais adequado a cada situação que se apresenta no ambiente. Os resultados evidenciam a capacidade de evolução do time de robôs, a partir da aprendizagem dos setplays sugeridos e do seu uso de forma adequada às habilidades de cada robô.
 

 

MEMBROS DA BANCA:

Membro Externo: Luis Paulo Reis (Universidade do Porto, Portugal)

 
Membro Externo 2: Reinaldo Augusto da Costa Bianchi (FEI-SP)
 
Membro Externo 3: João Alberto Fabro (UTFPR)
 
Membro Interno: Rita Suzana Pitangueira Maciel
 
Membro Suplente Externo: Marcos Ricardo Omena de Albuquerque Maximo (ITA-SP)
 
Membro Suplente Externo 2: Esther Luna Colombini (UNICAMP)

Membro Suplente Externo 3: Flavio Tonidandel (FEI-SP)
 
Membro Suplente Externo 4: Matheus Giovanni Pires (UEFS)

 

Data da Defesa: 
05/07/2022 - 09:00
Tipo de Defesa: 
Defesa de Doutorado