|
Nome do aluno
|
Thiago Miranda dos Santos Souza
|
|---|---|
|
Título do trabalho
|
Uma Abordagem Baseada em LLMs para Triagem de Documentos em Revisões de Literatura Cinza
|
|
Resumo do trabalho
|
A seleção de documentos que serão incluídos em revisões sistemáticas de literatura é um fator determinante para a qualidade da síntese produzida, pois garante que as evidências analisadas sejam relevantes, consistentes com a pergunta de pesquisa e representem o conhecimento acumulado sobre o tema. No entanto, em áreas como a Engenharia de Software muitas evidências práticas encontram-se fora da literatura acadêmica formal, distribuída em fontes como fóruns de discussão, repositórios de projetos, blogs e documentos técnicos. A utilização dessa Literatura Cinza amplia o alcance da revisão, permitindo capturar conhecimentos atualizados, experiências do mundo real e práticas emergentes que frequentemente não estão representadas em periódicos revisados por pares. Contudo, a triagem desses materiais apresenta desafios específicos, sobretudo devido à heterogeneidade dos formatos, à dispersão das fontes e ao grande volume de conteúdo disponível, o que torna o processo manual de seleção especialmente trabalhoso, demorado e sujeito a inconsistências. Nesse cenário, esta dissertação investiga o uso de Modelos de Linguagem de Larga Escala (LLMs) para automatizar a triagem de discussões extraídas de fóruns de perguntas e respostas, como o StackExchange, com o objetivo de reduzir o esforço humano, melhorar a consistência das decisões e aumentar a escalabilidade das revisões baseadas em literatura cinza. A abordagem proposta combina múltiplos LLMs com diferentes estratégias de prompting (zero-shot, few-shot e chain-of-thought), testadas sobre um conjunto de discussões utilizado em uma revisão de literatura cinza já realizada, que analisou a perspectiva de gestores de projeto sobre gestão da dívida técnica. O estudo irá contemplar a construção e avaliação de prompts, análise de estratégias de seleção de exemplos em few-shot prompting, baseadas em amostragem aleatória, desempenho prévio e ordenação semântica, e uma abordagem de consenso entre múltiplos LLMs. As respostas geradas pelos modelos serão avaliadas segundo métricas para classificação binária e comparadas com os rótulos atribuídos manualmente na revisão original. Como contribuição, será desenvolvida uma ferramenta que sistematiza o processo de triagem automatizada e oferece suporte a pesquisadores que desejam incorporar LLMs em revisões baseadas em literatura cinza.
|
|
Orientador
|
Manoel Gomes de Mendonça Neto
|
|
Membro Titular 1
|
Cláudio Nogueira Sant`Anna (DCC-UFBA)
|
|
Link para o curriculum lattes
|
http://lattes.cnpq.br/
|
|
Membro Titular 2
|
Flavio Dusse (Universidade Católica do Salvador)
|
|
Link para o curriculum lattes
|
http://lattes.cnpq.br/
|
|
Suplente 1
|
Emmanuel Savio Silva Freire (IFCE)
|
|
Link para o curriculum lattes
|
http://lattes.cnpq.br/
|
|
Suplente 2
|
Methanias Colaço Júnior (UFS)
|
|
Link para o curriculum lattes
|
http://lattes.cnpq.br/
|
|
Data do exame
|
17 Jul, 2025
|
|
Horário do exame
|
10:00 AM
|