Explorando Técnicas de Computação Heterogênea para Suporte à Vinculação de Grandes Volumes de Dados

Banca de DEFESA: CLICIA DOS SANTOS PINTO

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.

DISCENTE : CLICIA DOS SANTOS PINTO

DATA : 28/07/2020

HORA: 15:00

LOCAL: Virtual (Google Meet)

 

TÍTULO: Explorando Técnicas de Computação Heterogênea para Suporte à Vinculação de Grandes Volumes de Dados



PALAVRAS-CHAVES:

Vinculação de dados. Balanceamento de carga. Computação paralela heterogênea. Aceleradores gráficos.



PÁGINAS: 85

RESUMO:

Embora a computação heterogênea seja uma poderosa abordagem para a resolução de problemas computacionalmente intensivos, o seu desempenho e eficiência estão profundamente atrelados às propriedades da carga de trabalho a que são submetidos. O gerenciamento de grandes volumes de dados em ambientes heterogêneos implica na escolha de algoritmos dinâmicos de escalonamento e particionamento que minimizem o tempo de resposta e o volume de comunicação entre as unidades de processamento, ao mesmo tempo em que assegurem escalabilidade. Esta exigência tem se tornado mais urgente à medida que os dispositivos que compõem as plataformas heterogêneas se tornam mais numerosos e diversificados. Este trabalho apresenta uma metodologia para a exploração de técnicas de computação heterogênea em ambientes compostos por CPUs e GPUs para aplicações de vinculação probabilística de grandes volumes de dados, bem como propõe a integração deste método à ferramenta AtyImo, desenvolvida parcialmente durante esta pesquisa. A metodologia proposta permite uma distribuição de dados e tarefas adequada às aplicações que manipulam grandes conjuntos de dados, mais especificamente aplicações de vinculação de registros (data linkage). Como prova de conceito, a solução implementada foi utilizada para integrar dados socioeconômicos em larga escala (100 milhões de registros) com dados de saúde pública armazenados em diferentes fontes governamentais brasileiras. Através da metodologia proposta foi possível vincular 1x10ˆ12 pares de registros em um tempo total próximo a uma hora, o que pode ser considerado um resultado promissor em relação às ferramentas de vinculação de dados existentes. Estes resultados demonstram que a solução desenvolvida possui bom desempenho e se apresenta como alternativa viável para resolver problemas comuns de escalabilidade relacionados à vinculação de registros. A possibilidade de vinculação probabilística de grandes volumes de dados sobre arquiteturas híbridas, explorando a natureza heterogênea dos recursos disponíveis e com tempo de execução extremamente eficiente, constituem as principais contribuições deste trabalho. 



MEMBROS DA BANCA:

Presidente - 2810986 - MARCOS ENNES BARRETO

Interno - 2215121 - GEORGE MARCONI DE ARAUJO LIMA

Interno - 1850683 - MAYCON LEONE MACIEL PEIXOTO

Externo à Instituição - ESBEL TOMÁS VALERO ORELLANA - UESC-BA

Externo à Instituição - RODRIGO DA ROSA RIGHI - Unisinos

Data da Defesa: 
28/07/2020 - 15:00
Tipo de Defesa: 
Defesa de Doutorado