Published December 20, 2024
| Version v1
Publication
From Medical Records to Data Utilization. Development of an artificial intelligence process to structure unstructured medical data in thyroid pathology
Creators
Contributors
Description
This thesis aims to develop artificial intelligence (AI) methods to extract, structure, and analyze unstructured data from electronic health records (EHR) in thyroid pathology. These health data warehouses are crucial for both research and clinical care, facilitating the management of complex information derived from various medical reports.In the first phase, a convolutional neural network (CNN) algorithm was trained on a dataset of 6,000 patients to identify those with thyroid pathologies. The algorithm's performance was evaluated using key metrics such as accuracy (0.95), recall (0.83), precision (0.85), specificity (0.97), and F1 score (0.84), demonstrating its high robustness in identifying relevant patients.The second phase involved automating the extraction of data from various medical reports, including consultations, ultrasounds, anesthesia records, surgical reports, and histopathology. An AI model was tested on a cohort of 1,500 patients to extract 42 clinical variables. The overall accuracy of the tool was 90.89%. Compared to human experts (97.95%) and non-experts (95.45%), the algorithm exhibited similar performance for most variables. However, its performance was less accurate for some more complex variables requiring clinical judgment, underscoring the need for human oversight in more nuanced tasks.Concurrently, an interactive statistical analysis tool, StatiCAL, was developed to enable real-time descriptive, univariate, and multivariate analyses on the generated dataset. Accessible via the Centre Antoine Lacassagne's intranet, this tool allows users to conduct analyses without programming skills, making statistical analysis more accessible while ensuring robust and reliable results.Additionally, a retrospective study was conducted on 3,334 patients to identify predictive factors for the loss of neuromonitoring signal (LOS) during thyroid surgery and its impact on recurrent laryngeal nerve palsy (RLNP). The findings revealed that male gender (OR = 2.64) and total thyroidectomy (OR = 1.76) were independent risk factors for LOS. However, these factors did not significantly affect the occurrence of RLNP, as only 41% of patients who experienced LOS developed RLNP.In conclusion, this thesis demonstrates that AI can significantly enhance the extraction and exploitation of medical data, optimizing data management for both clinical research and medical practice.
Abstract (French)
Cette thèse vise à développer des méthodes d'intelligence artificielle (IA) pour extraire, structurer et analyser les données non structurées des dossiers médicaux électroniques (EHR) en pathologie thyroïdienne. Ces entrepôts de données de santé sont cruciaux tant pour la recherche que pour la prise en charge clinique, facilitant ainsi la gestion des informations issues de comptes rendus médicaux complexes.Dans une première phase, un algorithme de réseau de neurones convolutifs (CNN) a été entraîné sur un ensemble de 6 000 patients afin d'identifier ceux présentant des pathologies thyroïdiennes. Les performances ont été évaluées avec des métriques d'exactitude (0,95), rappel (0,83), précision (0,85), spécificité (0,97) et score F1 (0,84), montrant une robustesse élevée pour l'identification des patients concernés.La deuxième phase a consisté en l'automatisation de l'extraction des données issues de divers comptes rendus médicaux (consultations, échographies, anesthésies, chirurgies, et histopathologies). Un modèle IA a été testé sur une cohorte de 1 500 patients pour extraire 42 variables cliniques. La précision globale moyenne était de 90,89 %. Comparé aux experts humains (97,95 %) et aux non-experts (95,45 %), l'algorithme a montré des performances similaires pour la majorité des variables. Cependant, les performances étaient moins bonnes pour certaines variables plus complexes, nécessitant un jugement clinique, ce qui justifie une supervision humaine pour les tâches les plus délicates.En parallèle, un outil d'analyse statistique interactif, StatiCAL, a été développé pour permettre des analyses descriptives, univariées et multivariées en temps réel sur cette base de données. Accessible via l'intranet du Centre Antoine Lacassagne, cet outil facilite l'exploitation des données sans nécessiter de compétences en programmation, rendant ainsi l'analyse accessible à un plus grand nombre d'utilisateurs.Une étude rétrospective a également été menée sur 3 334 patients pour évaluer les facteurs prédictifs de la perte de signal de neuromonitoring (LOS) pendant la chirurgie thyroïdienne et leur impact sur la paralysie du nerf laryngé récurrent (RLNP). Les résultats ont révélé que le sexe masculin (OR = 2,64) et la thyroïdectomie totale (OR = 1,76) étaient des facteurs de risque indépendants de perte de signal. Cependant, ces facteurs n'avaient pas d'incidence significative sur la survenue d'une RLNP, puisque seulement 41 % des patients ayant présenté une perte de signal ont développé une paralysie du nerf laryngé.En conclusion, cette thèse démontre que l'IA peut grandement améliorer l'extraction et l'exploitation des données médicales, optimisant ainsi les bases de données pour la recherche clinique et la pratique médicale.Additional details
Identifiers
- URL
- https://theses.hal.science/tel-05004809
- URN
- urn:oai:HAL:tel-05004809v1
Origin repository
- Origin repository
- UNICA