Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

Rivera Burgos, Jenny Paola

doi:https://doi.org/10.48713/10336_46564

Ítem

Acceso Abierto

Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

Mostrar el registro sencillo de la publicación

dc.contributor.advisor	Andrade Lotero, Edgar José
dc.creator	Rivera Burgos, Jenny Paola
dc.creator.degree	Magíster en Matemáticas Aplicadas y Ciencias de la Computación
dc.date.accessioned	2025-09-22T18:29:21Z
dc.date.available	2025-09-22T18:29:21Z
dc.date.created	2025-08-28
dc.description	En Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia.
dc.description.abstract	In Colombia, violence against LGBTIQ+ individuals remains a systematically underreported issue in official statistics, which often lack contextual and differential variables. As a response, several civil society organizations rely on news media as alternative sources to document these cases, facing the challenge of manually processing large volumes of unstructured data. This project proposes a natural language processing (NLP) tool to automate the collection, classification, and extraction of key variables from digital news articles about homicides. The proposed solution encompasses all stages of the machine learning lifecycle. First, a web scraping pipeline was implemented to collect news articles from Google News. These articles were manually annotated using Label Studio, following a BIO scheme with 24 target entities. Two models based on BETO—a Spanish-adapted version of BERT—were fine-tuned: one for binary classification (to detect whether an article reports a homicide) and another for named entity recognition (NER). Hyperparameters were selected via random search, and an active learning strategy based on entropy and minimum confidence was used to prioritize ambiguous examples for annotation. The classification model achieved 85% accuracy, with an F1-score of 0.89 for the “relevant” class. The NER model performed well on frequently reported variables such as victim name, age, location, and date of the incident, with F1-scores above 0.70. A minimum viable product (MVP) was also deployed in the form of a web application, allowing users to input a date range and receive a structured table containing the identified cases and extracted entities. This project constitutes a technical, methodological, and political contribution to the analysis of bias-motivated violence in Colombia. By combining NLP with a human rights perspective, it offers a replicable solution for civil society organizations, journalists, and researchers seeking to convert large volumes of text into structured evidence for justice advocacy.
dc.format.extent	56 pp
dc.format.mimetype	application/pdf
dc.identifier.doi	https://doi.org/10.48713/10336_46564
dc.identifier.uri	https://repository.urosario.edu.co/handle/10336/46564
dc.language.iso	spa
dc.publisher	Universidad del Rosario	spa
dc.publisher.department	Escuela de Ciencias e Ingeniería	spa
dc.publisher.program	Maestría en Matemáticas Aplicadas y Ciencias de la Computación	spa
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.accesRights	info:eu-repo/semantics/openAccess
dc.rights.acceso	Abierto (Texto Completo)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.source.bibliographicCitation	Colombia Diversa, «La realidad de la discriminación,» Colombia Diversa, Bogotá, 2024.
dc.source.bibliographicCitation	Instituto Nacional de Medicina Legal y Ciencias Forenses, «Forensis 2023 Datos para la vida,» 2024.
dc.source.bibliographicCitation	Coalición contra la vinculación de niños, niñas y jóvenes al conflicto armado en Colombia (COALICO), «Boletín de Monitoreo No. 31 del Observatorio de Niñez y Conflicto Armado de la COALICO - ONCA,» 2024.
dc.source.bibliographicCitation	Colombia Diversa, «La violencia no nos impide ser y amar Informe Situación de Derechos Humanos Personas LGBT 2021,» 2022.
dc.source.bibliographicCitation	Caribe Afirmativo, «Con permiso para despreciar. Informe sobre la situación de derechos humanos de personas LGBTIQ+ en Colombia en 2024.,» 2025.
dc.source.bibliographicCitation	Y. Hou y J. Huang, «Natural language processing for social science research: A comprehensive review,» Chinese Journal of Sociology, vol. 11, nº 1, pp. 121-157, 2025.
dc.source.bibliographicCitation	K. R. Chowdhary, Fundamentals of Artificial Intelligence, Jodhpur, Rajasthan, India: Springer, 2020.
dc.source.bibliographicCitation	D. Jurafsky y J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 2025.
dc.source.bibliographicCitation	A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, Ł. Kaiser y I. Polosukhin, «Attention Is All You Need,» Advances in neural information processing systems, vol. 30, 2017.
dc.source.bibliographicCitation	J. Devlin, M.-W. Chang, K. Lee y K. Toutanova, «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,» arXiv, 2018.
dc.source.bibliographicCitation	J. Cañete, G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang y J. Pérez, «Spanish pre-trained BERT model and evaluation data,» arXiv preprint arXiv, 2023.
dc.source.bibliographicCitation	J. Bergstra y Y. Bengio, «Random Search for Hyper-Parameter Optimization,» Journal of Machine Learning Research, vol. 13, pp. 281-305, 2012.
dc.source.bibliographicCitation	J. C. Upegui y V. Saavedra, «PretorIA y la automatización del procesamiento de causas de derechos humanos,» Dejusticia, 2021.
dc.source.bibliographicCitation	Comisión de la Verdad, «Metodologías de análisis de entrevistas utilizando Procesamiento de Lenguaje Natural (PLN),» Comisión de la Verdad, Bogotá, 2022.
dc.source.bibliographicCitation	K. R. Varshney, Trustworthy Machine Learning, Chappaqua, NY: Independently Published, 2022.
dc.source.bibliographicCitation	F. Stollenwerk, J. Öhman, D. Petrelli, E. Wallerö, F. Olsson, C. Bengtsson, A. Horndahl y G. Zarzar Gandler, Text Annotation Handbook A Practical Guide for Machine Learning Projects.
dc.source.bibliographicCitation	X. Fang, S. Che, M. Mao, H. Zhang, M. Zhao y X. Zhao, «Bias of AI-generated content: an examination of news produced by large language models,» Scientific Reports, vol. 14, nº 5224, 2024.
dc.source.bibliographicCitation	Defensoría del Pueblo Colombia, «Una Radiografía del Prejuicio Boletín Anual 2023 de Derechos Humanos de Personas OSIGD-LGBTI,» Defensoría del Pueblo, Bogotá, 2024.
dc.source.instname	instname:Universidad del Rosario
dc.source.reponame	reponame:Repositorio Institucional EdocUR	spa
dc.subject	Procesamiento de lenguaje natural
dc.subject	Aprendizaje automático
dc.subject	Reconocimiento de entidades nombradas (NER)
dc.subject	Clasificación multietiqueta
dc.subject	Clasificación binaria
dc.subject	Bert en español
dc.subject	Fine-tuning
dc.subject	Noticias de homicidios
dc.subject	Población LGBTIQ+
dc.subject.keyword	Natural language processing
dc.subject.keyword	Machine learning
dc.subject.keyword	Named entity recognition (NER)
dc.subject.keyword	Spanish BERT
dc.subject.keyword	Multilabel classification
dc.subject.keyword	Binary classification
dc.subject.keyword	Fine-tuning
dc.subject.keyword	Homicide news
dc.subject.keyword	LGBTIQ+ population
dc.title	Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+
dc.title.TranslatedTitle	Uncovering the Invisible: A Natural Language Processing Tool to Systematize News on Homicides of LGBTIQ+ Population
dc.type	masterThesis
dc.type.hasVersion	info:eu-repo/semantics/acceptedVersion
dc.type.spa	Tesis de maestría
local.department.report	Escuela de Ciencias e Ingeniería
local.regiones	Bogotá

Archivos

Bloque original

Mostrando1 - 1 de 1

Nombre:: Visibilizar_lo_invisibilizado_herramienta_Rivera_Burgos_Jenny_Paola.pdf
Tamaño:: 3.01 MB
Formato:: Adobe Portable Document Format
Descripción:

Descargar