O POTENCIAL DO USO DE APRENDIZADO DE MÁQUINA NA MITIGAÇÃO DE VIESES DECORRENTES DE ERROS DE LINKAGE

Nome do aluno

 

Carlos José Cardoso dos Santos

 

Título do trabalho

 

O POTENCIAL DO USO DE APRENDIZADO DE MÁQUINA NA MITIGAÇÃO DE VIESES DECORRENTES DE ERROS DE LINKAGE

 

Resumo do trabalho

 

Record Linkage (RL) refere-se a métodos computacionais destinados à identificação de registros que representam uma mesma entidade em múltiplas fontes de dados. Na literatura, diferentes soluções de RL integram técnicas de pré-processamento, indexação e classificação, estruturando pipelines capazes de maximizar acurácia, precisão e desempenho computacional. Dentre as soluções desenvolvidas no contexto brasileiro, destaca-se o CIDACS-RL, amplamente utilizado na vinculação de registros provenientes do Cadastro Único e dos Sistemas de Informação em Saúde, sendo peça central na construção da Coorte de 100 Milhões de Brasileiros. Embora sua escalabilidade e elevada qualidade de vinculação estejam bem documentadas, não se identificam, na literatura, estudos comparativos que avaliem o CIDACS-RL frente a outras soluções de RL baseadas em inteligência artificial, especialmente no que se refere à sua capacidade de promover Justiça Algorítmica (JA) na classificação de indivíduos pertencentes a grupos socialmente marginalizados ou historicamente excluídos. Este estudo objetiva avaliar o potencial de ferramentas de RL, disponíveis no estado da arte, que incorporam modelos de aprendizado de máquina (AM) na vinculação de grandes bases administrativas brasileiras. A metodologia adotada compreende seis etapas: (i) mapeamento das ferramentas de RL e das métricas de JA aplicáveis; (ii) formulação de hipóteses e definição de questões de pesquisa; (iii) desenho experimental, incluindo a geração de bases sintéticas, bases padrão-ouro e a adaptação das ferramentas para captura das métricas de interesse; (iv) execução dos experimentos; (v) análise dos resultados obtidos; e (vi) disseminação dos achados por meio de publicações científicas, seminários e ações de engajamento pública. Os resultados preliminares sugerem que o mecanismo de indexação adotado pelo CIDACS-RL potencialmente impacta suas métricas associadas à JA, sinalizando espaço para melhorias que apliquem modelos baseados em AM. Entretanto, a elevada complexidade computacional, tanto no treinamento quanto na aplicação desses modelos, ainda constitui um entrave relevante para sua adoção em ambientes que demandam processamento de grandes volumes de dados.

 

Orientador

 

Robespierre Dantas da Rocha Pita

 

Membro Titular 1

 

Thiago Pereira da Nóbrega (UFRPE)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/5048923517404787

 

Membro Titular 2

 

Gecynalda Soares da Silva Gomes (UFBA)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/3389510216870588

 

Suplente 1

 

Marcos Ennes Barreto

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/2919125967043242

 

Suplente 2

 

Frederico Araujo Durão (UFBA)

 

Link para o curriculum lattes

 

http://lattes.cnpq.br/6271096128174325

 

Data do exame

 

24 Jul, 2025

 

Horário do exame

 

10:00 AM

 

 

Data da Defesa: 
24/07/2025 - 10:00
Tipo de Defesa: 
Qualificação de Mestrado