Ítem
Acceso Abierto
Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+
| dc.contributor.advisor | Andrade Lotero, Edgar José | |
| dc.creator | Rivera Burgos, Jenny Paola | |
| dc.creator.degree | Magíster en Matemáticas Aplicadas y Ciencias de la Computación | |
| dc.date.accessioned | 2025-09-22T18:29:21Z | |
| dc.date.available | 2025-09-22T18:29:21Z | |
| dc.date.created | 2025-08-28 | |
| dc.description | En Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia. | |
| dc.description.abstract | In Colombia, violence against LGBTIQ+ individuals remains a systematically underreported issue in official statistics, which often lack contextual and differential variables. As a response, several civil society organizations rely on news media as alternative sources to document these cases, facing the challenge of manually processing large volumes of unstructured data. This project proposes a natural language processing (NLP) tool to automate the collection, classification, and extraction of key variables from digital news articles about homicides. The proposed solution encompasses all stages of the machine learning lifecycle. First, a web scraping pipeline was implemented to collect news articles from Google News. These articles were manually annotated using Label Studio, following a BIO scheme with 24 target entities. Two models based on BETO—a Spanish-adapted version of BERT—were fine-tuned: one for binary classification (to detect whether an article reports a homicide) and another for named entity recognition (NER). Hyperparameters were selected via random search, and an active learning strategy based on entropy and minimum confidence was used to prioritize ambiguous examples for annotation. The classification model achieved 85% accuracy, with an F1-score of 0.89 for the “relevant” class. The NER model performed well on frequently reported variables such as victim name, age, location, and date of the incident, with F1-scores above 0.70. A minimum viable product (MVP) was also deployed in the form of a web application, allowing users to input a date range and receive a structured table containing the identified cases and extracted entities. This project constitutes a technical, methodological, and political contribution to the analysis of bias-motivated violence in Colombia. By combining NLP with a human rights perspective, it offers a replicable solution for civil society organizations, journalists, and researchers seeking to convert large volumes of text into structured evidence for justice advocacy. | |
| dc.format.extent | 56 pp | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.doi | https://doi.org/10.48713/10336_46564 | |
| dc.identifier.uri | https://repository.urosario.edu.co/handle/10336/46564 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad del Rosario | spa |
| dc.publisher.department | Escuela de Ciencias e Ingeniería | spa |
| dc.publisher.program | Maestría en Matemáticas Aplicadas y Ciencias de la Computación | spa |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
| dc.rights.accesRights | info:eu-repo/semantics/openAccess | |
| dc.rights.acceso | Abierto (Texto Completo) | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
| dc.source.bibliographicCitation | Colombia Diversa, «La realidad de la discriminación,» Colombia Diversa, Bogotá, 2024. | |
| dc.source.bibliographicCitation | Instituto Nacional de Medicina Legal y Ciencias Forenses, «Forensis 2023 Datos para la vida,» 2024. | |
| dc.source.bibliographicCitation | Coalición contra la vinculación de niños, niñas y jóvenes al conflicto armado en Colombia (COALICO), «Boletín de Monitoreo No. 31 del Observatorio de Niñez y Conflicto Armado de la COALICO - ONCA,» 2024. | |
| dc.source.bibliographicCitation | Colombia Diversa, «La violencia no nos impide ser y amar Informe Situación de Derechos Humanos Personas LGBT 2021,» 2022. | |
| dc.source.bibliographicCitation | Caribe Afirmativo, «Con permiso para despreciar. Informe sobre la situación de derechos humanos de personas LGBTIQ+ en Colombia en 2024.,» 2025. | |
| dc.source.bibliographicCitation | Y. Hou y J. Huang, «Natural language processing for social science research: A comprehensive review,» Chinese Journal of Sociology, vol. 11, nº 1, pp. 121-157, 2025. | |
| dc.source.bibliographicCitation | K. R. Chowdhary, Fundamentals of Artificial Intelligence, Jodhpur, Rajasthan, India: Springer, 2020. | |
| dc.source.bibliographicCitation | D. Jurafsky y J. H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 2025. | |
| dc.source.bibliographicCitation | A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, Ł. Kaiser y I. Polosukhin, «Attention Is All You Need,» Advances in neural information processing systems, vol. 30, 2017. | |
| dc.source.bibliographicCitation | J. Devlin, M.-W. Chang, K. Lee y K. Toutanova, «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,» arXiv, 2018. | |
| dc.source.bibliographicCitation | J. Cañete, G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang y J. Pérez, «Spanish pre-trained BERT model and evaluation data,» arXiv preprint arXiv, 2023. | |
| dc.source.bibliographicCitation | J. Bergstra y Y. Bengio, «Random Search for Hyper-Parameter Optimization,» Journal of Machine Learning Research, vol. 13, pp. 281-305, 2012. | |
| dc.source.bibliographicCitation | J. C. Upegui y V. Saavedra, «PretorIA y la automatización del procesamiento de causas de derechos humanos,» Dejusticia, 2021. | |
| dc.source.bibliographicCitation | Comisión de la Verdad, «Metodologías de análisis de entrevistas utilizando Procesamiento de Lenguaje Natural (PLN),» Comisión de la Verdad, Bogotá, 2022. | |
| dc.source.bibliographicCitation | K. R. Varshney, Trustworthy Machine Learning, Chappaqua, NY: Independently Published, 2022. | |
| dc.source.bibliographicCitation | F. Stollenwerk, J. Öhman, D. Petrelli, E. Wallerö, F. Olsson, C. Bengtsson, A. Horndahl y G. Zarzar Gandler, Text Annotation Handbook A Practical Guide for Machine Learning Projects. | |
| dc.source.bibliographicCitation | X. Fang, S. Che, M. Mao, H. Zhang, M. Zhao y X. Zhao, «Bias of AI-generated content: an examination of news produced by large language models,» Scientific Reports, vol. 14, nº 5224, 2024. | |
| dc.source.bibliographicCitation | Defensoría del Pueblo Colombia, «Una Radiografía del Prejuicio Boletín Anual 2023 de Derechos Humanos de Personas OSIGD-LGBTI,» Defensoría del Pueblo, Bogotá, 2024. | |
| dc.source.instname | instname:Universidad del Rosario | |
| dc.source.reponame | reponame:Repositorio Institucional EdocUR | spa |
| dc.subject | Procesamiento de lenguaje natural | |
| dc.subject | Aprendizaje automático | |
| dc.subject | Reconocimiento de entidades nombradas (NER) | |
| dc.subject | Clasificación multietiqueta | |
| dc.subject | Clasificación binaria | |
| dc.subject | Bert en español | |
| dc.subject | Fine-tuning | |
| dc.subject | Noticias de homicidios | |
| dc.subject | Población LGBTIQ+ | |
| dc.subject.keyword | Natural language processing | |
| dc.subject.keyword | Machine learning | |
| dc.subject.keyword | Named entity recognition (NER) | |
| dc.subject.keyword | Spanish BERT | |
| dc.subject.keyword | Multilabel classification | |
| dc.subject.keyword | Binary classification | |
| dc.subject.keyword | Fine-tuning | |
| dc.subject.keyword | Homicide news | |
| dc.subject.keyword | LGBTIQ+ population | |
| dc.title | Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+ | |
| dc.title.TranslatedTitle | Uncovering the Invisible: A Natural Language Processing Tool to Systematize News on Homicides of LGBTIQ+ Population | |
| dc.type | masterThesis | |
| dc.type.hasVersion | info:eu-repo/semantics/acceptedVersion | |
| dc.type.spa | Tesis de maestría | |
| local.department.report | Escuela de Ciencias e Ingeniería | |
| local.regiones | Bogotá |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Visibilizar_lo_invisibilizado_herramienta_Rivera_Burgos_Jenny_Paola.pdf
- Tamaño:
- 3.01 MB
- Formato:
- Adobe Portable Document Format
- Descripción:



