Ítem
Acceso Abierto

Procesamiento del lenguaje natural para el apoyo en el diagnóstico de tuberculosis


Fecha
2021-05-27

Directores
Orjuela Cañón, Alvaro David
Jutinico Alarcón, Andrés Leonardo

ISSN de la revista
Título del volumen
Editor
Universidad del Rosario

Buscar en:

Métricas alternativas

Resumen
La tuberculosis (TB) es una enfermedad infecciosa causada por la Mycobacterium Tuberculosis, que puede afectar a cualquier órgano del cuerpo, siendo la TB pulmonar la forma más frecuente de la enfermedad y la que más muertes causa. Según la Organización Mundial de la Salud (OMS), la TB se encuentra entre las 10 principales causas de muerte a nivel mundial, y en el caso de Colombia la TB es una enfermedad de interés en cuanto a la salud pública, por el alto número de casos que son reportados en el territorio, respecto a otras enfermedades transmisibles. Uno de los principales problemas para manejo de la TB está en los métodos de diagnóstico, para los cuales se necesita de personal e infraestructura que no siempre están disponibles en lugares con sistemas de salud deficientes. Según el protocolo nacional para la detección de la TB, el diagnóstico de la TB pulmonar se debe hacer mediante una confirmación microbiológica, para lo cual se tienen tres tipos de pruebas, las baciloscopias, las pruebas moleculares y los cultivos. Todas las pruebas tienen un coste asociado y su disponibilidad es limitada, por lo que la generación de herramientas que den apoyo en el diagnóstico de la TB, pueden ayudar a tener un mejor control de la enfermedad. La inteligencia artificial (IA) es un área de la informática que busca dotar a las máquinas de comportamientos inteligentes, con el fin de que realicen una tarea especifica. Una de las aplicaciones de la IA son los sistemas de apoyo a la toma de decisiones del inglés Decision Support System (DSS), estos sistemas aplicados en salud, buscan generar modelos que se basan en grandes volúmenes de datos y conocimientos clínicos previos, para ayudar al médico en la toma de mejores decisiones respecto a los pacientes. Con el fin de generar herramientas que ayuden en el manejo de la TB, en el presente trabajo se utilizan técnicas de IA para el desarrollo un DSS que de apoyo en el diagnóstico de la TB, usando la información contenida en las historias clínicas electrónicas (HCE). Las HCE son fuentes de información ampliamente usadas por los médicos, en las cuales se registra el estado de salud de los pacientes, por lo que se espera que con la información contenida en ellas, se pueda generar una herramienta computacional que ayude a los profesionales de la salud en el manejo de la TB. Para el desarrollo del trabajo se construyó una base de datos a partir de 151 HCE de pacientes sospechosos de TB pulmonar, en la base de datos se encuentran los reportes clínicos de los pacientes en fechas previas a la realización de las pruebas diagnósticas, de manera que en los reportes no se encuentra información sobre el diagnóstico final de TB. Para la creación de la herramienta diagnóstica, se tomaron los reportes clínicos y se les aplicó un preprocesamiento para limpiar el texto, luego, se extrajeron características usando 2 métodos TF-IDF (del inglés, term-frequency - inverse document frequency) y Word2Vec; posteriormente, se usaron modelos de aprendizaje automático para hacer la predicción de la TB. La exploración de modelos se realizó mediante validación cruzada, encontrando que los mejores resultados se obtienen haciendo una reducción de la dimensionalidad de las características obtenidas con TF-IDF, y usando del algoritmo de árboles aleatorios para la clasificación. Las métricas de desempeño obtenidas sobre los conjuntos de prueba con este modelo son: 0.721, 0.802, 0.462, y 0.723, en exactitud, sensibilidad, especificidad, y F1-score respectivamente. Este trabajo se desarrolló dentro del proyecto ``Generación de modelos alternativos basados en inteligencia computacional para tamización y diagnóstico de tuberculosis pulmonar'' (minciencias, Universidad del Rosario, Universidad Antonio Nariño, Subred Integrada de Servicios de Salud Centro-Oriente–Hospital Santa Clara), el cual es un proyecto conformado por un equipo conjunto de médicos e ingenieros, y tiene por objetivo generar herramientas computacionales, que puedan ser empleadas en lugares con infraestructura precaria para el diagnóstico de la TB pulmonar. Dentro del proyecto se están desarrollando modelos computacionales usando variables clínicas, epidemiológicas y sociodemográficas, se espera en un futuro integrar este trabajo con otras estrategias generadas dentro del proyecto, para la construcción de un sistema más robusto, que pueda apoyar al médico en el diagnóstico de la TB pulmonar.
Abstract
Tuberculosis (TB) is an infectious disease caused by Mycobacterium Tuberculosis, which can affect any organ in the body, with pulmonary TB being the most common form of the disease and the one that causes the most deaths. According to the World Health Organization (WHO), TB is among the top 10 causes of death worldwide, and in the case of Colombia TB is a disease of interest in terms of public health, due to the high number of cases that are reported in the territory, with respect to other communicable diseases. One of the main problems for TB management is in the diagnostic methods, for which personnel and infrastructure are needed that are not always available in places with poor health systems. According to the national protocol for the detection of TB, the diagnosis of pulmonary TB must be made through microbiological confirmation, for which there are three types of tests, smear microscopy, molecular tests and cultures. All tests have an associated cost and their availability is limited, so the generation of tools that provide support in the diagnosis of TB can help to have better control of the disease. Artificial intelligence (AI) is an area of ​​computing that seeks to provide machines with intelligent behaviors, in order to carry out a specific task. One of the applications of AI is the decision support systems of the English Decision Support System (DSS), these systems applied in health, seek to generate models that are based on large volumes of data and previous clinical knowledge, to help the doctor in making better decisions regarding patients. In order to generate tools that help in the management of TB, in the present work AI techniques are used to develop a DSS that supports the diagnosis of TB, using the information contained in electronic medical records (EHR). ). EHRs are sources of information widely used by doctors, in which the health status of patients is recorded, so it is expected that with the information contained in them, a computational tool can be generated that helps healthcare professionals. health in the management of TB. For the development of the work, a database was built from 151 EHR of patients suspected of pulmonary TB, in the database there are the clinical reports of the patients on dates prior to the performance of the diagnostic tests, so that no information is found in the reports on the final diagnosis of TB. For the creation of the diagnostic tool, clinical reports were taken and preprocessing was applied to clean the text, then characteristics were extracted using 2 methods TF-IDF (term-frequency - inverse document frequency) and Word2Vec; Subsequently, machine learning models were used to make the prediction of TB. The exploration of models was carried out by cross validation, finding that the best results are obtained by reducing the dimensionality of the characteristics obtained with TF-IDF, and using the algorithm of random trees for classification. The performance metrics obtained on the test sets with this model are: 0.721, 0.802, 0.462, and 0.723, in accuracy, sensitivity, specificity, and F1-score respectively. This work was developed within the project `` Generation of alternative models based on computational intelligence for screening and diagnosis of pulmonary tuberculosis '' (minciencias, Universidad del Rosario, Universidad Antonio Nariño, Integrated Subnet of Health Services Centro-Oriente – Hospital Santa Clara ), which is a project made up of a joint team of doctors and engineers, and its objective is to generate computational tools that can be used in places with poor infrastructure for the diagnosis of pulmonary TB. Within the project, computational models are being developed using clinical, epidemiological and sociodemographic variables, it is expected in the future to integrate this work with other strategies generated within the project, for the construction of a more robust system that can support the doctor in the diagnosis of pulmonary TB.
Palabras clave
Sistemas de apoyo a la toma de decisiones (DSS) basado en inteligencia Artificial (IA) para el diagnostico de tuberculosis (TB) , Sistema de procesamiento de historias clínicas electrónicas (HCE) como herramienta diagnostica en (TB) , Métodos TF-IDF y Word2Vec para el análisis de datos en IA medica diagnostica , Programa informático para el diagnostico basado en Procesamiento del Lenguaje Natural registrado en historias clínicas electrónicas (HCE) , Tecnología medica
Keywords
Decision support systems (DSS) based on Artificial Intelligence (AI) for the diagnosis of tuberculosis (TB) , Electronic medical record processing system (EHR) as a diagnostic tool in (TB) , TF-IDF and Word2Vec methods for data analysis in diagnostic medical AI Computer program for the diagnosis based on Natural Language Processing registered in electronic medical records (EHR) , Medical technology
Buscar en:
Enlace a la fuente