Uma Abordagem Baseada em LLMs para Triagem de Documentos em Revisões de Literatura Cinza

Nome do aluno

 

Thiago Miranda dos Santos Souza

 

Título do trabalho

 

Uma Abordagem Baseada em LLMs para Triagem de Documentos em Revisões de Literatura Cinza

 

Resumo do trabalho

 

A seleção de documentos que serão incluídos em revisões sistemáticas de literatura é um fator determinante para a qualidade da síntese produzida, pois garante que as evidências analisadas sejam relevantes, consistentes com a pergunta de pesquisa e representem o conhecimento acumulado sobre o tema. No entanto, em áreas como a Engenharia de Software muitas evidências práticas encontram-se fora da literatura acadêmica formal, distribuída em fontes como fóruns de discussão, repositórios de projetos, blogs e documentos técnicos. A utilização dessa Literatura Cinza amplia o alcance da revisão, permitindo capturar conhecimentos atualizados, experiências do mundo real e práticas emergentes que frequentemente não estão representadas em periódicos revisados por pares. Contudo, a triagem desses materiais apresenta desafios específicos, sobretudo devido à heterogeneidade dos formatos, à dispersão das fontes e ao grande volume de conteúdo disponível, o que torna o processo manual de seleção especialmente trabalhoso, demorado e sujeito a inconsistências. Nesse cenário, esta dissertação investiga o uso de Modelos de Linguagem de Larga Escala (LLMs) para automatizar a triagem de discussões extraídas de fóruns de perguntas e respostas, como o StackExchange, com o objetivo de reduzir o esforço humano, melhorar a consistência das decisões e aumentar a escalabilidade das revisões baseadas em literatura cinza. A abordagem proposta combina múltiplos LLMs com diferentes estratégias de prompting (zero-shot, few-shot e chain-of-thought), testadas sobre um conjunto de discussões utilizado em uma revisão de literatura cinza já realizada, que analisou a perspectiva de gestores de projeto sobre gestão da dívida técnica. O estudo irá contemplar a construção e avaliação de prompts, análise de estratégias de seleção de exemplos em few-shot prompting, baseadas em amostragem aleatória, desempenho prévio e ordenação semântica, e uma abordagem de consenso entre múltiplos LLMs. As respostas geradas pelos modelos serão avaliadas segundo métricas para classificação binária e comparadas com os rótulos atribuídos manualmente na revisão original. Como contribuição, será desenvolvida uma ferramenta que sistematiza o processo de triagem automatizada e oferece suporte a pesquisadores que desejam incorporar LLMs em revisões baseadas em literatura cinza.

 

Orientador

 

Manoel Gomes de Mendonça Neto

 

Membro Titular 1

 

Cláudio Nogueira Sant`Anna (DCC-UFBA)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/3228159608138969

 

Membro Titular 2

 

Flavio Dusse (Universidade Católica do Salvador)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/1050336407353442

 

Suplente 1

 

Emmanuel Savio Silva Freire (IFCE)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/6459838697209307

 

Suplente 2

 

Methanias Colaço Júnior (UFS)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/5575237386798588

 

Data do exame

 

17 Jul, 2025

 

Horário do exame

 

10:00 AM

 

 

Data da Defesa: 
17/07/2025 - 10:00
Tipo de Defesa: 
Qualificação de Mestrado