Ítem
Acceso Abierto

Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

dc.contributor.advisorAndrade Lotero, Edgar José
dc.creatorRivera Burgos, Jenny Paola
dc.creator.degreeMagíster en Matemáticas Aplicadas y Ciencias de la Computación
dc.date.accessioned2025-09-22T18:29:21Z
dc.date.available2025-09-22T18:29:21Z
dc.date.created2025-08-28
dc.descriptionEn Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia.
dc.description.abstractIn Colombia, violence against LGBTIQ+ individuals remains a systematically underreported issue in official statistics, which often lack contextual and differential variables. As a response, several civil society organizations rely on news media as alternative sources to document these cases, facing the challenge of manually processing large volumes of unstructured data. This project proposes a natural language processing (NLP) tool to automate the collection, classification, and extraction of key variables from digital news articles about homicides. The proposed solution encompasses all stages of the machine learning lifecycle. First, a web scraping pipeline was implemented to collect news articles from Google News. These articles were manually annotated using Label Studio, following a BIO scheme with 24 target entities. Two models based on BETO—a Spanish-adapted version of BERT—were fine-tuned: one for binary classification (to detect whether an article reports a homicide) and another for named entity recognition (NER). Hyperparameters were selected via random search, and an active learning strategy based on entropy and minimum confidence was used to prioritize ambiguous examples for annotation. The classification model achieved 85% accuracy, with an F1-score of 0.89 for the “relevant” class. The NER model performed well on frequently reported variables such as victim name, age, location, and date of the incident, with F1-scores above 0.70. A minimum viable product (MVP) was also deployed in the form of a web application, allowing users to input a date range and receive a structured table containing the identified cases and extracted entities. This project constitutes a technical, methodological, and political contribution to the analysis of bias-motivated violence in Colombia. By combining NLP with a human rights perspective, it offers a replicable solution for civil society organizations, journalists, and researchers seeking to convert large volumes of text into structured evidence for justice advocacy.
dc.format.extent56 pp
dc.format.mimetypeapplication/pdf
dc.identifier.doihttps://doi.org/10.48713/10336_46564
dc.identifier.urihttps://repository.urosario.edu.co/handle/10336/46564
dc.language.isospa
dc.publisherUniversidad del Rosariospa
dc.publisher.departmentEscuela de Ciencias e Ingenieríaspa
dc.publisher.programMaestría en Matemáticas Aplicadas y Ciencias de la Computaciónspa
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.accesRightsinfo:eu-repo/semantics/openAccess
dc.rights.accesoAbierto (Texto Completo)
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.source.bibliographicCitationColombia Diversa, «La realidad de la discriminación,» Colombia Diversa, Bogotá, 2024.
dc.source.bibliographicCitationInstituto Nacional de Medicina Legal y Ciencias Forenses, «Forensis 2023 Datos para la vida,» 2024.
dc.source.bibliographicCitationCoalición contra la vinculación de niños, niñas y jóvenes al conflicto armado en Colombia (COALICO), «Boletín de Monitoreo No. 31 del Observatorio de Niñez y Conflicto Armado de la COALICO - ONCA,» 2024.
dc.source.bibliographicCitationColombia Diversa, «La violencia no nos impide ser y amar Informe Situación de Derechos Humanos Personas LGBT 2021,» 2022.
dc.source.bibliographicCitationCaribe Afirmativo, «Con permiso para despreciar. Informe sobre la situación de derechos humanos de personas LGBTIQ+ en Colombia en 2024.,» 2025.
dc.source.bibliographicCitationY. Hou y J. Huang, «Natural language processing for social science research: A comprehensive review,» Chinese Journal of Sociology, vol. 11, nº 1, pp. 121-157, 2025.
dc.source.bibliographicCitationK. R. Chowdhary, Fundamentals of Artificial Intelligence, Jodhpur, Rajasthan, India: Springer, 2020.
dc.source.bibliographicCitationD. Jurafsky y J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 2025.
dc.source.bibliographicCitationA. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, Ł. Kaiser y I. Polosukhin, «Attention Is All You Need,» Advances in neural information processing systems, vol. 30, 2017.
dc.source.bibliographicCitationJ. Devlin, M.-W. Chang, K. Lee y K. Toutanova, «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,» arXiv, 2018.
dc.source.bibliographicCitationJ. Cañete, G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang y J. Pérez, «Spanish pre-trained BERT model and evaluation data,» arXiv preprint arXiv, 2023.
dc.source.bibliographicCitationJ. Bergstra y Y. Bengio, «Random Search for Hyper-Parameter Optimization,» Journal of Machine Learning Research, vol. 13, pp. 281-305, 2012.
dc.source.bibliographicCitationJ. C. Upegui y V. Saavedra, «PretorIA y la automatización del procesamiento de causas de derechos humanos,» Dejusticia, 2021.
dc.source.bibliographicCitationComisión de la Verdad, «Metodologías de análisis de entrevistas utilizando Procesamiento de Lenguaje Natural (PLN),» Comisión de la Verdad, Bogotá, 2022.
dc.source.bibliographicCitationK. R. Varshney, Trustworthy Machine Learning, Chappaqua, NY: Independently Published, 2022.
dc.source.bibliographicCitationF. Stollenwerk, J. Öhman, D. Petrelli, E. Wallerö, F. Olsson, C. Bengtsson, A. Horndahl y G. Zarzar Gandler, Text Annotation Handbook A Practical Guide for Machine Learning Projects.
dc.source.bibliographicCitationX. Fang, S. Che, M. Mao, H. Zhang, M. Zhao y X. Zhao, «Bias of AI-generated content: an examination of news produced by large language models,» Scientific Reports, vol. 14, nº 5224, 2024.
dc.source.bibliographicCitationDefensoría del Pueblo Colombia, «Una Radiografía del Prejuicio Boletín Anual 2023 de Derechos Humanos de Personas OSIGD-LGBTI,» Defensoría del Pueblo, Bogotá, 2024.
dc.source.instnameinstname:Universidad del Rosario
dc.source.reponamereponame:Repositorio Institucional EdocURspa
dc.subjectProcesamiento de lenguaje natural
dc.subjectAprendizaje automático
dc.subjectReconocimiento de entidades nombradas (NER)
dc.subjectClasificación multietiqueta
dc.subjectClasificación binaria
dc.subjectBert en español
dc.subjectFine-tuning
dc.subjectNoticias de homicidios
dc.subjectPoblación LGBTIQ+
dc.subject.keywordNatural language processing
dc.subject.keywordMachine learning
dc.subject.keywordNamed entity recognition (NER)
dc.subject.keywordSpanish BERT
dc.subject.keywordMultilabel classification
dc.subject.keywordBinary classification
dc.subject.keywordFine-tuning
dc.subject.keywordHomicide news
dc.subject.keywordLGBTIQ+ population
dc.titleVisibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+
dc.title.TranslatedTitleUncovering the Invisible: A Natural Language Processing Tool to Systematize News on Homicides of LGBTIQ+ Population
dc.typemasterThesis
dc.type.hasVersioninfo:eu-repo/semantics/acceptedVersion
dc.type.spaTesis de maestría
local.department.reportEscuela de Ciencias e Ingeniería
local.regionesBogotá
Archivos
Bloque original
Mostrando1 - 1 de 1
Cargando...
Miniatura
Nombre:
Visibilizar_lo_invisibilizado_herramienta_Rivera_Burgos_Jenny_Paola.pdf
Tamaño:
3.01 MB
Formato:
Adobe Portable Document Format
Descripción: