Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

Rivera Burgos, Jenny Paola

doi:https://doi.org/10.48713/10336_46564

Ítem

Acceso Abierto

Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+

https://repository.urosario.edu.co/handle/10336/46564
https://doi.org/10.48713/10336_46564

Autores

Rivera Burgos, Jenny Paola

Fecha

2025-08-28

Directores

Andrade Lotero, Edgar José

Editor

Universidad del Rosario

Export Format:

Buscar en:

Métricas alternativas

Resumen

En Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia.

Abstract

In Colombia, violence against LGBTIQ+ individuals remains a systematically underreported issue in official statistics, which often lack contextual and differential variables. As a response, several civil society organizations rely on news media as alternative sources to document these cases, facing the challenge of manually processing large volumes of unstructured data. This project proposes a natural language processing (NLP) tool to automate the collection, classification, and extraction of key variables from digital news articles about homicides. The proposed solution encompasses all stages of the machine learning lifecycle. First, a web scraping pipeline was implemented to collect news articles from Google News. These articles were manually annotated using Label Studio, following a BIO scheme with 24 target entities. Two models based on BETO—a Spanish-adapted version of BERT—were fine-tuned: one for binary classification (to detect whether an article reports a homicide) and another for named entity recognition (NER). Hyperparameters were selected via random search, and an active learning strategy based on entropy and minimum confidence was used to prioritize ambiguous examples for annotation. The classification model achieved 85% accuracy, with an F1-score of 0.89 for the “relevant” class. The NER model performed well on frequently reported variables such as victim name, age, location, and date of the incident, with F1-scores above 0.70. A minimum viable product (MVP) was also deployed in the form of a web application, allowing users to input a date range and receive a structured table containing the identified cases and extracted entities. This project constitutes a technical, methodological, and political contribution to the analysis of bias-motivated violence in Colombia. By combining NLP with a human rights perspective, it offers a replicable solution for civil society organizations, journalists, and researchers seeking to convert large volumes of text into structured evidence for justice advocacy.

Palabras clave

Procesamiento de lenguaje natural , Aprendizaje automático , Reconocimiento de entidades nombradas (NER) , Clasificación multietiqueta , Clasificación binaria , Bert en español , Fine-tuning , Noticias de homicidios , Población LGBTIQ+

Keywords

Natural language processing , Machine learning , Named entity recognition (NER) , Spanish BERT , Multilabel classification , Binary classification , Fine-tuning , Homicide news , LGBTIQ+ population