From Build-Up to Solid Foundations: Exploring Deep Learning for Classifying Dental Conditions on Panoramic Radiographs

Enviado por alberto.oliveira em qua, 23/10/2024 - 19:54

Nome completo do aluno	Bernardo Peters Menezes Silva
Título do trabalho	From Build-Up to Solid Foundations: Exploring Deep Learning for Classifying Dental Conditions on Panoramic Radiographs
Resumo do trabalho	Português: As radiografias panorâmicas dentárias não são apenas exames altamente valiosos, mas também versáteis. Elas podem ser utilizadas para diagnosticar perda óssea periodontal, lesões, cistos e tumores, além de estimar a idade e o sexo biológico do paciente. Os trabalhos que aplicam \textit{deep learning} para determinar essas condições em radiografias panorâmicas se baseiam em abordagens supervisionadas que exigem a anotação manual de cada atributo e condição considerada. No entanto, a anotação manual dessas radiografias é exigente, pois demanda mão de obra qualificada, sendo, consequentemente, cara. Este trabalho busca superar essa dificuldade ao explorar o conceito de \textit{Human-in-the-Loop}, uma técnica de aprendizado semi-supervisionado que acelera o processo de rotulagem por meio de uma interação entre especialistas humanos e modelos de aprendizado de máquina. Para apoiar essa abordagem, deu-se foco especial aos dentes, por serem os principais objetos de atenção e pontos de referência para os radiologistas ao interpretar radiografias panorâmicas. Como resultado, foi produzido um conjunto de dados para segmentação de instâncias de dentes em radiografias panorâmicas: o conjunto O$^2$PR, contendo 4.000 imagens. Os demais dados do trabalho incluem 4.795 radiografias no conjunto\textit{ Raw Panoramic Radiographs} (RPR), com imagens em formato bruto, e o conjunto \textit{Textual Report Panoramic Radiograph}s (TRPR), contendo 8.029 pares de imagens de radiografias e relatórios textuais. Esses grupos de dados compõem o maior conjunto de dados da literatura. Com base nesses conjuntos, classificamos treze condições dentárias presentes nos dentes ou em seus arredores. Para classificar todas as condições consideradas, foi necessária uma abordagem holística. Primeiro, utilizamos as radiografias anotadas do conjunto O$^2$PR para treinar uma rede neural de segmentação de instâncias, a fim de pseudo-rotular os dentes nas radiografias não anotadas. Em seguida, todas as imagens dos dentes foram recortadas para facilitar a classificação das condições dentárias. Os conjuntos O$^2$PR e RPR não incluem relatórios textuais, impossibilitando a geração de rótulos para treinamento ou avaliação dessas imagens quanto a condições dentárias. Em vez disso, os recortes de dentes desses conjuntos foram usados para pré-treinar Vision Transformers (que posteriormente foram empregados como redes de classificação para as condições dentárias) por meio de uma técnica de aprendizado autossupervisionado chamada Masked Autoencoders. Essa abordagem se mostrou eficaz, pois permitiu o uso de dados não anotados para melhorar o desempenho. O procedimento de extração de rótulos segue uma linha diferente. Exploramos a API de um Grande Modelo de Linguagem, o GPT-4, para evitar a rotulagem puramente manual das condições dentárias. O objetivo de sua utilização foi identificar os sintagmas nominais nos relatórios textuais para encontrar as condições dentárias. Em seguida, uma heurística associou cada dente mencionado nas sentenças do relatório a todas as condições dentárias presentes na mesma sentença. Aproveitamos o Vision Transformer pré-treinado para treinar vários modelos de classificação de condições dentárias. De forma encorajadora, os resultados consistentemente atingiram ou superaram as métricas de referência para o coeficiente de correlação de Matthews. A comparação da solução proposta com profissionais humanos, respaldada por análise estatística, destacou sua eficácia e limitações de desempenho; com base no grau de concordância entre especialistas, a solução demonstrou um nível de precisão comparável ao de um especialista júnior. Inglês: Dental panoramic radiographs are not only a highly valuable exam but also a versatile one. They can be used to diagnose periodontal bone loss, lesions, cysts, and tumors, as well as estimate the age and biological sex of the patient. The works that use deep learning to determine such conditions in panoramic radiographs are based on supervised approaches that require manual annotation of each attribute and condition considered. However, manual annotation of radiographs is demanding, as it requires qualified labor and is, consequently, expensive. This work seeks to overcome this difficulty by exploring the Human-in-the-Loop concept, a semi-supervised learning technique that expedites the labeling process through an interaction between human experts and machine learning models. To support this approach, special focus was given to teeth, as they are the main objects of attention and reference points for radiologists when reading panoramic radiographs. As a result, a dataset for tooth instance segmentation of panoramic radiographs was produced: the O$^2$PR dataset, containing 4,000 images. The remaining data of work consists of 4,795 radiographs in the Raw Panoramic Radiographs (RPR) dataset, with images in their crude format, and the Textual Report Panoramic Radiographs (TRPR) dataset, containing 8,029 pairs of radiograph images and textual reports. These groups of data comprise the most extensive dataset in the literature. Starting from these datasets, we classify thirteen dental conditions in the tooth or its surroundings. To classify all the considered conditions, a holistic approach was necessary. First, using the labeled radiographs of the O$^2$PR dataset, we trained an instance segmentation neural network to pseudolabel the teeth in the unlabeled radiographs. Subsequently, all tooth images were cropped to facilitate the classification of dental conditions. The O$^2$PR and RPR datasets do not include textual reports, making it impossible to generate labels for training or evaluating these images for dental conditions. Instead, the tooth crops from these datasets were used to pre-train Vision Transformers (which were later employed as classification networks for dental conditions) through a self-supervised learning technique called Masked Autoencoders. This approach proved effective as it allowed the use of unlabeled data to improve performance. The label extraction procedure follows a different branch. We explored the API of a Large Language Model, GPT-4, to avoid the pure manual labeling of the dental conditions. The goal of using it was to identify the noun phrases from the textual reports to find the dental conditions. Later, a heuristic associated each tooth present in the report sentences with all the dental conditions of the same sentence. We leverage the pretrained Vision Transformer to train several dental condition classification models. Encouragingly, the results consistently met or surpassed the baseline metrics for the Matthews correlation coefficient. A comparison of the proposed solution with human practitioners, supported by statistical analysis, highlighted its effectiveness and performance limitations; based on the degree of agreement among specialists, the solution demonstrated an accuracy level comparable to that of a junior specialist.
Orientador	Luciano Rebouças de Oliveira
Co-orientador	Patricia Ramos Cury
Membro Titular Externo 1 (com afiliação)	Rodrigo de Melo Souza Veras (UFPI)
Link para o curriculum lattes	http://lattes.cnpq.br/2634254790193199
Membro Titular Externo 2 (com afiliação)	João Paulo Papa (UNESP)
Link para o curriculum lattes	http://lattes.cnpq.br/9039182932747194
Membro Titular Interno 1 ou Titular Externo 3 (com afiliação)	Thiago Oliveira dos Santos (UEFS)
Link para o curriculum lattes	http://lattes.cnpq.br/5117339495064254
Membro Titular Interno 2 ou Titular Externo 4 (com afiliação)	Flávia Caló de Aquino Xavier (UFBA)
Link para o curriculum lattes	http://lattes.cnpq.br/8592653259660789
Membro Suplente Externo 1 (com afiliação)	Angelo Amâncio Duarte (UEFS)
Link para o curriculum lattes	http://lattes.cnpq.br/8821536792042504
Membro Suplente Externo 2 (com afiliação)	Michele Fúlvia Angelo (UEFS)
Link para o curriculum lattes	http://lattes.cnpq.br/6032273849847285
Membro Suplente Interno 1 ou Suplente Externo 3 (com afiliação)	Marcelo Mendonça dos Santos (UFBA)
Link para o curriculum lattes	http://lattes.cnpq.br/4271397173667661
Membro Suplente Interno 2 ou Suplente Externo 4 (com afiliação)	Pompílio José Silva Araújo Júnior
Link para o curriculum lattes	http://lattes.cnpq.br/3090487002785427
Data da defesa	13 Nov, 2024
Horário da defesa	2:00 PM
Quais os principais impactos deste trabalho (social, tecnológico, científico, ambiental)?	O trabalho desenvolvido com radiografias panorâmicas utilizando técnicas de Deep Learning apresenta impactos significativos em diversas esferas: social, tecnológica, científica e ambiental. Esses impactos destacam a relevância da pesquisa para a sociedade e mostram como a aplicação de inteligência artificial na área da saúde pode transformar não apenas a prática odontológica, mas também contribuir para avanços mais amplos. No campo social, a principal contribuição reside na melhoria do diagnóstico precoce de condições odontológicas. A automatização dos processos permite que diagnósticos sejam realizados de forma mais rápida e precisa, o que facilita intervenções em estágios iniciais das doenças, aumentando as chances de sucesso no tratamento. Além disso, essa tecnologia pode ampliar o acesso à saúde bucal, especialmente em regiões onde a oferta de especialistas é limitada, viabilizando diagnósticos remotos e melhorando a distribuição dos serviços de saúde. Como consequência, a automação pode contribuir para a redução das desigualdades em saúde, oferecendo uma solução acessível para populações vulneráveis. Cientificamente, a pesquisa avança as fronteiras do conhecimento ao explorar abordagens inéditas para a análise de imagens odontológicas e ao desenvolver novos frameworks baseados em aprendizado profundo. Esse avanço não se limita ao impacto imediato da pesquisa, pois a metodologia e os dados gerados podem ser utilizados por outros pesquisadores, fomentando estudos futuros e promovendo uma abordagem interdisciplinar que integra saúde ia e inteligência artificial. No que se refere ao impacto ambiental, o uso de sistemas digitais para a análise de radiografias reduz a necessidade de impressões e cópias físicas, contribuindo para a diminuição do consumo de papel e produtos químicos, o que representa um benefício relevante para a sustentabilidade. Além disso, a possibilidade de realizar diagnósticos remotamente reduz a necessidade de deslocamentos de pacientes e profissionais, minimizando a pegada de carbono associada ao transporte. A eficiência proporcionada pela automação também otimiza o uso de recursos clínicos, evitando o desperdício de materiais e insumos durante os tratamentos. Por fim, a organização eficiente dos dados clínicos possibilitada pela digitalização promove um uso mais sustentável da informação, com menor impacto ambiental. Em síntese, o desenvolvimento de soluções baseadas em Deep Learning para a análise de radiografias panorâmicas gera benefícios que transcendem o campo da odontologia. Ao promover impactos sociais, tecnológicos, científicos e ambientais, essa pesquisa mostra-se relevante para a sociedade como um todo, consolidando-se como um exemplo de inovação que une tecnologia e saúde em prol de um futuro mais eficiente e sustentável.

Data da Defesa:

13/11/2024 - 14:00

Tipo de Defesa:

Defesa de Doutorado

Formulário de busca