Maestría en Matemáticas Aplicadas y Ciencias de la Computación

URI permanente para esta colección

https://repository.urosario.edu.co/handle/10336/38191

Examinar

Mostrando1 - 30 de 30

Acceso Abierto
Modelación de precios por medio del juego de las minorías
(2024-07-15) López López, Edwin Jair; Gaitán Rubio, Sergio; Andrade Lotero, Edgar José
El movimiento geométrico browniano es un modelo tradicionalmente usado para describir el comportamiento del precio de un activo. A pesar de su popularidad, el modelo tiene limitaciones; por ejemplo, la modelación de burbujas financieras. Por ello, el presente proyecto explora la modelación del comportamiento del precio de un activo por medio de modelos basados en agentes, todo esto con el fin de proponer metodologías alternativas que permitan capturar las características de los precios durante una burbuja financiera. Así las cosas, en el proyecto se implementaron dos modelos de precios (basados en variaciones del minority game), para luego contrastar sus características frente al modelo tradicional y contra datos reales de burbujas financieras. Los resultados demuestran que la modelación por medio de agentes permite simular circunstancias de mercado que se asemejan más a las de una burbuja financiera que el modelo browniano.
Acceso Abierto
Integración del aprendizaje por refuerzo en parsers semánticos para la deducción lógica en lenguaje natural
(2025-08-27) Gómez Vargas, Camilo Andrés; Andrade Lotero, Edgar José
El procesamiento del lenguaje natural (NLP) es una subdisciplina de la inteligencia artificial centrada en la interacción entre las computadoras y los seres humanos mediante lenguaje natural. Su objetivo es desarrollar modelos y sistemas que comprendan, interpreten y generen lenguaje natural de manera similar a como lo hace una persona. En este contexto, los parsers semánticos juegan un papel fundamental, ya que son herramientas que descomponen y representan la estructura y el significado de las oraciones. Estos permiten transformar el texto en una representación formal, proporcionando un medio para que los sistemas inteligentes cuenten con una representación del significado subyacente de las palabras y relaciones. Aunque los parsers semánticos son herramientas de gran importancia en NLP, estos métodos tienden a depender de reglas preestablecidas o de modelos supervisados que aprenden de ejemplos etiquetados, limitando su capacidad para la generalización y representación de nuevas estructuras. Esta falta de flexibilidad de los parsers para adaptarse a nuevas oraciones o a estructuras más complejas sin la necesidad de re-entrenamiento o de una definición más amplia de reglas gramaticales, restringen su utilidad en tareas complejas de inferencia y razonamiento lógico. Por tanto, el objeto de estudio de este trabajo es desarrollar un sistema que utilice aprendizaje por refuerzo profundo para optimizar la representación de estructuras lógicas a partir de oraciones en lenguaje natural. Así, esta investigación desarrolla un modelo capaz de realizar representaciones de silogismos con estructuras conjuntivas e implicatorias. El trabajo se centra en la definición del entorno de aprendizaje, la señal de recompensas, el esquema de entrenamiento y la evaluación de resultados. De esta manera, se busca mejorar la capacidad de las máquinas para interpretar y razonar sobre el lenguaje, lo cual representa un avance en el desarrollo de sistemas de inteligencia artificial que puedan operar con un razonamiento estructurado, consistente y fundamentado.
Acceso Abierto
Sistema de reconocimiento de voz: una aplicacion para aumentar la eficiencia del sistema esperanza
(2024-05-25) Lizarazo Malambo, William; Morales Pinto, Yiby Karolina; Matemáticas Aplicadas y Computación - MACC
La Ley 906 de 2004 otorga a los fiscales la facultad para interceptar comunicaciones, bajo el cumplimiento de los requisitos legales. Esta herramienta, clave en investigaciones penales, enfrenta desafíos crecientes debido a la adopción de las tecnologías de comunicación encriptada y el alto volumen de datos. En este contexto, surge la necesidad de implementar nuevas metodologías de an´alisis de datos que incrementen la eficiencia del sistema de interceptación de comunicaciones. El reconocimiento e identificación de voz es una de estas metodologías, permitiendo a través de la generación de una huella digital, identificar y rastrear a la persona a la que pertenece dicha huella dentro de un conjunto de datos. Esta t´ecnica resulta particularmente útil en el contexto judicial, ya que facilita la asociación de casos y mejora la eficiencia del sistema al identificar si una misma persona está siendo o ha sido monitoreada en diferentes salas posibilitando la construcción de casos m´as sólidos. La base t´ecnica de este método incluye el an´alisis de frecuencias de sonido y el uso de espectrogramas, que actúan como huellas digitales en la identificación de voces. Para el análisis de estos datos se emplean dos modelos de redes neuronales convolucionales, modelos que son ampliamente usados para el an´alisis de este tipo de datos no estructurados. Las métricas de desempeño calculadas para cada uno de los modelos y experimentos diseñados muestran resultados satisfactorios para la solución del problema de identificación del hablante, sin embargo, uno de los modelos planteados domina todas las métricas aplicadas, siendo este el candidato para su implementación.
Acceso Abierto
Predicción del precio del bitcoin utilizando algoritmos de aprendizaje profundo
(2023-10-23) Moreno Quintero, Emanuelle Alejandro; Morales Pinto, Yiby Karolina
El mercado de criptomonedas está experimentando un rápido crecimiento, lo que lo convierte en una alternativa potencialmente más lucrativa que los mercados financieros convencionales. No obstante, esta expansión va de la mano con una significativa volatilidad, presentando así un desafío crucial. En el contexto de esta tesis de maestría, se desarrollaron modelos de predicción de series temporales para el precio de cierre de Bitcoin mediante el uso de algoritmos de aprendizaje profundo, tales como LSTM y GRU. Además, se llevó a cabo una comparación con modelos tradicionales como ARIMA, con el propósito de analizar y evaluar su rendimiento.
Acceso Abierto
Automatizacion de procesos de cualificacion en IQAP mediante chatbot de IA para Ingreso a universidades internacionales
(2024-06-26) Tamayo Ramírez, Jairo Vladimir; Rico González, Rubén Darío; Noriega Cárcamo, Gustavo Adolfo; Andrade Lotero, Edgar José
Uno de los grandes desafíos empresariales es poder interactuar con sus potenciales usuarios de una manera cómoda y fluida, el presente proyecto ayudó a la empresa SOFIRI PTY LTD a mejorar su Plataforma de Cualificación Instantánea de Aspirantes IQAP con la implementación de técnicas avanzadas de Procesamiento del Lenguaje Natural (NLP) y modelos de lenguaje de gran escala (LLMs) de compañías líderes en AI. Como resultado de la aplicación de esta propuesta se logró desarrollar un chatbot que consiguió mejores resultados que el actual e interactuó con los usuarios de forma más natural; resultados que se midieron mediante la aplicación de una encuesta a los usuarios de prueba para evaluarlo de forma cualitativa y el cálculo de métricas para hacerlo cuantitativamente.
Acceso Abierto
Machine learning para arbitraje financiero en el mercado de renta variable colombiano
(2022-12-26) Ramírez, Daniel Eduardo; Segura, Jaime Augusto; Caicedo Dorado, Alexander; Andrade Lotero, Edgar José
El desarrollo y la tecnificación de los mercados de capitales en los últimos años ha derivado en una competencia entre los actores del mismo por la búsqueda de oportunidades de inversión mediante el uso de herramientas computacionales veloces, potentes y sofisticadas. El hallazgo de patrones en algunas oportunidades de inversión cuya duración es de fracciones de segundo pero que pueden ocurrir un sin número de veces en el término de un día, multiplica las oportunidades de aquellos inversionistas que se encuentran bien equipados para explotarlas a su favor. En el presente trabajo, mostraremos como se pueden aplicar algunas técnicas de inteligencia artificial para construir estrategias rentables de trading algorítmico en el mercado de renta variable colombiano. Construiremos varios modelos de Machine y Deep Learnig capaces de predecir con precisión aceptable, algunas oportunidades de inversión que se presentan en ventanas cortas de tiempo. Mostraremos con detalle cuáles son las capacidades predictivas de los modelos desarrollados y los retornos esperados
Desconocido
Determinación de eventos adversos prevenibles en la gestión del riesgo asistencial de una institución hospitalaria
(2025-02-17) Soba Loaiza, José David; Roldán Jimenéz, Diego Gerardo
Este proyecto busca automatizar la clasificación de eventos adversos como prevenibles o no prevenibles en una institución hospitalaria colombiana mediante técnicas de procesamiento de lenguaje natural y aprendizaje automático. Se analizaron 418 reportes que incluyen variables categóricas y descripciones textuales, estas últimas representadas mediante enfoques estáticos y dinámicos. Los clasificadores evaluados incluyeron modelos lineales y basados en árboles de decisión, aplicados tanto a las variables categóricas como a las representaciones textuales. Los resultados obtenidos abordan de manera efectiva la necesidad de automatizar la clasificación de estos eventos adversos en la búsqueda de mejorar su evaluación y monitoreo, alineándose con las mejores prácticas en seguridad del paciente.
Acceso Abierto
Pronosticando el volumen del mercado interbancario de divisas: caso colombiano
(2023-08-25) Torres Medina, Paula Andrea; Pérez Castañeda, Gabriel Camilo
En este trabajo se estudian las fortalezas y debilidades de los modelos de pronóstico del volumen de transacciones del mercado colombiano interbancario de divisas, generado por un modelo basado en árboles de decisión y dos tipos de redes neuronales, las Long short term memory y las temporal convolutional nexworks, comparados con los modelos econométricos tradicionales para el estudio de series de tiempo.
Acceso Abierto
Identificación automática de facies litológicas de una secuencia sedimentaria basado en registros de pozo
(2023-08-11) Montealegre Pallares, Tomás Andrés; Villarejo Mayor, John Jairo
La identificación precisa de la litología es esencial en la caracterización de yacimientos, ya que impacta significativamente la calidad de los yacimientos de petróleo y gas. La convencional interpretación manual de los datos de registro de pozo requiere un volumen masivo de datos y es subjetiva al depender de la experiencia del geofísico. En los últimos años se han desarrollado métodos automáticos basados en inteligencia artificial para identificar la litología mediante el análisis de los registros de pozos. No obstante, muchos de estos enfoques utilizan valores de una sola medición y tienen dificultades para distinguir las características de respuesta de las litologías, lo que lleva a predicciones inexactas. Este estudio tiene como objetivo desarrollar un modelo de aprendizaje automático efectivo para la clasificación de facies litológicas en pozos. Se propusieron modelos de redes neuronales como CNN1D y LSTM para aprovechar la naturaleza secuencial de los registros. Además, se exploraron modelos ramificados que combinan diferentes tipos de redes neuronales, incluyendo un mecanismo de autoatención. Comparando estos modelos con los enfoques tradicionales KNN y FC basada en una única medición se encontró que el CNN1D fue más efectivo en términos de métricas de evaluación, superando las limitaciones de los enfoques basados en datos puntuales. Además, un análisis de importancia de características reveló que todos los registros de pozo son relevantes en la clasificación, destacando GR, RDEP, RMED y DTC como los más influyentes. La importancia asignada a estos registros en el modelo propuesto coincidió con la atención dada por un petrofísico experto durante su identificación manual. Los resultados obtenidos con los modelos propuestos presentan alternativas eficientes y satisfactorias para su aplicación en el campo de la industria de gas y petróleo.
Acceso Abierto
Gestión activa de portafolios de cripto activos utilizando técnicas de aprendizaje por refuerzo
(2024-01-31) Muñoz Pérez, Emilio; Andrade Lotero, Edgar José
En un entorno financiero marcado por la volatilidad y la falta de transparencia que caracteriza al mercado de criptoactivos, la gestión de portafolios se enfrenta a desafíos significativos. Tradicionalmente, las estrategias de gestión de activos se ven limitadas por la impredecibilidad de este sector en constante evolución. Este estudio se propone abordar este desafío mediante la aplicación del aprendizaje por refuerzo, una técnica de aprendizaje automático que utiliza la retroalimentación de un agente para aprender y adaptarse de manera continua. En este contexto, el "agente" es el portafolio de criptoactivos y las "recompensas" son los retornos financieros que este logra obtener. El objetivo de este enfoque es permitir que el portafolio aprenda de la retroalimentación en tiempo real que proviene del mercado de criptoactivos y, en consecuencia, ajuste de manera continua la asignación de activos. Esto se realiza con la finalidad de maximizar el rendimiento del portafolio y superar las estrategias de inversión pasiva en activos digitales. A través del aprendizaje por refuerzo, se espera que el portafolio se adapte de manera eficiente a los cambios del mercado y tome decisiones óptimas para mejorar los retornos y minimizar el riesgo. Para evaluar la efectividad de este enfoque, se utilizarán datos históricos de precios de criptoactivos. El modelo basado en aprendizaje por refuerzo se comparará con otras estrategias de gestión de portafolios, como la asignación pasiva de activos. El resultado principal obtenido es que el modelo por refuerzo tiene un desempeño superior, generando mejores rendimientos y menor volatilidad en comparación con las estrategias tradicionales. En resumen, este trabajo busca demostrar que el aprendizaje por refuerzo puede ser una técnica efectiva para mejorar la gestión de portafolios de criptoactivos. Al adaptarse de manera dinámica a las condiciones cambiantes del mercado, este enfoque permite una optimización continua de la iv asignación de activos, maximizando el retorno y reduciendo el riesgo. En un escenario de inversiones digitales en constante evolución, esta investigación ofrece una perspectiva prometedora para quienes buscan gestionar activos de manera eficiente en el mundo de los criptoactivos.
Acceso Abierto
Sistema inteligente de detección de asentamientos humanos informales en el municipio de Neiva Huila empleando aprendizaje profundo
(2023-12-13) Rojas Serrano, Héctor Leandro; Henao González, Jorge Esneider; Salazar Centeno, Cesar Augusto
Los asentamientos informales en Colombia son una problemática latente que requiere de continuo control y verificación por parte de los entes territoriales, en esta investigación, enfocada en el municipio de Neiva Huila, dicho proceso lleva décadas manifestándose de diferentes formas y su dinámica obedece a múltiples factores como el político, social y ambiental[1]. A pesar de los esfuerzos legislativos, como lo define la ley 388 de 1997 que busca proveer a los municipios de mecanismos apropiados para la correcta administración y gestión del territorio, la realidad muestra que aún existen muchos aspectos que intervenir. Los procesos de reconocimiento pueden llegar a representar desafíos en la administración pública, desde sus orígenes en la modernidad colombiana, los asentamientos se caracterizan por albergar población vulnerable, donde, la labor del Estado es insuficiente [2]. Sumado a ello, los problemas socioeconómicos y ambientales se ciernen sobre estas poblaciones representando un proceso complejo que requiere de atención especializada[3]. Esta investigación presenta en primera medida una descripción del estado actual de los asentamientos informales en Colombia. En el marco teórico, se hará una revisión de la literatura en cuanto a la evolución de los procesos y metodologías de clasificación de imágenes, así como la aplicación de casos alrededor del mundo en la detección de asentamiento informales. Además, se incluirá algunos trabajos relacionados a la clasificación y detección de zonas geográficas y trabajos de investigación en otras problemáticas que fueron útiles para el desarrollo de la investigación. Finalmente, este trabajo presenta un sistema inteligente para la detección y clasificación de asentamiento informales para el municipio de Neiva, Huila, utilizando técnicas de aprendizaje por transferencia o (transfer learning), donde este recurso puede convertirse en un recurso valioso para las entidades dedicadas a esta problemática, ofreciendo un método ágil y eficaz para la identificación de dichos territorios.
Acceso Abierto
Visibilizar lo invisibilizado: herramienta de procesamiento de lenguaje natural para sistematizar noticias de homicidios de población LGBTIQ+
(2025-08-28) Rivera Burgos, Jenny Paola; Andrade Lotero, Edgar José
En Colombia, la violencia contra personas LGBTIQ+ continúa siendo una problemática sistemáticamente invisibilizada por las estadísticas oficiales, que carecen de variables diferenciales y de contexto. Diversas organizaciones sociales han recurrido a los medios de comunicación como fuente alternativa para documentar estos casos, enfrentándose al reto de sistematizar grandes volúmenes de información no estructurada. Este trabajo propone una herramienta de procesamiento de lenguaje natural (NLP) para automatizar la recolección, clasificación y extracción de variables clave a partir de noticias digitales sobre homicidios. El sistema desarrollado abarca todas las etapas del ciclo de vida del aprendizaje automático. Primero, se implementó un proceso de web scraping para recolectar noticias desde Google Noticias. Luego, estas fueron etiquetadas manualmente mediante Label Studio, utilizando un esquema BIO con 24 entidades de interés. Se entrenaron dos modelos basados en BETO, una variante de BERT para español: uno para clasificación binaria (detectar si la noticia corresponde a un homicidio) y otro para reconocimiento de entidades nombradas (NER). La selección de hiperparámetros se realizó mediante búsqueda aleatoria y se incorporó una estrategia de aprendizaje activo basada en entropía y mínima confianza para priorizar ejemplos ambiguos durante la anotación. El modelo de clasificación alcanzó un accuracy del 85 %, con un F1-score de 0.89 para la clase “relevante”. El modelo NER mostró buen desempeño en variables frecuentes como nombre de la víctima, edad, lugar y fecha del hecho, con F1-scores superiores a 0.70. Finalmente, se desplegó un producto viable mínimo (MVP) en forma de una aplicación web que permite a los usuarios ingresar un rango de fechas y obtener una tabla estructurada con los casos identificados y las entidades extraídas. Este proyecto representa una contribución técnica, metodológica y política al análisis de violencia por prejuicio en Colombia. Al combinar NLP con una perspectiva de derechos humanos, ofrece una solución replicable para organizaciones sociales, periodistas e investigadoras interesadas en transformar grandes volúmenes de texto en evidencia estructurada para la exigibilidad de justicia.
Acceso Abierto
Desarrollo de una librería MLOps: versionamiento, trazabilidad y automatización del ciclo de vida de modelos en entornos Big Data
(2026-02-27) Acevedo Orjuela, Bryam Camilo; Avilán Vargas, Nicolás Guillermo
Esta tesis de maestría presenta el diseño, implementación y validación empírica de MomentumML, una librería modular de MLOps construida sobre PySpark y MLflow, desarrollada para cerrar la brecha entre la experimentación de modelos de ML y su despliegue confiable en producción — desafío respaldado por evidencia que indica que más del 90% de los modelos desarrollados nunca alcanzan entornos productivos estables. La librería comprende 34.582 líneas de código organizadas en módulos especializados que cubren el ciclo de vida completo del ML: preprocesamiento (10 clases Transformer), entrenamiento (5 clases Estimator con soporte para 8 algoritmos), versionado automático en Unity Catalog, predicción y monitoreo de drift mediante técnicas estadísticas multimodales como PSI, Kolmogorov-Smirnov, Jensen-Shannon Divergence y Chi-cuadrado. Validada durante seis meses en una organización real del sector telecomunicaciones, los resultados fueron contundentes: reducción del 81% en código para pipelines end-to-end, disminución del 71% en tiempos de despliegue (de 3–4 semanas a 5–7 días), incremento del 740% en frecuencia de despliegue, reducción del 77% en tasa de fallos, y disminución del 40% en consumo de unidades de cómputo en Databricks. El resultado más destacado: 35 de 85 modelos operativos (41.2%) lograron transitar exitosamente a entornos de QA, un hito inédito en la organización. El trabajo aporta un framework práctico, de código abierto y escalable que integra ingeniería de software, ciencia de datos y operaciones, posicionándose como referencia replicable para la adopción empresarial de MLOps.
Acceso Abierto
Aplicación de máquinas de soporte vectorial para la predicción del volumen de fluido desplazado por una bomba electrosumergible
(2023-01-10) Murcia Navas, Jose Alberto; Andrade Lotero, Edgar José; Caicedo Dorado, Alexander
La explotación y producción de crudo en los campos petroleros en Colombia presenta varios retos, entre estos, la confiabilidad en la medición de los fluidos producidos y la capacidad de respuesta frente a caídas de producción. La determinación del volumen de fluido que es desplazado por un equipo de levantamiento artificial (Bomba BES) es fundamental para realizar un control de producción adecuado. Ya que, con estos valores es posible proyectar la producción diaria del campo e identificar pérdidas de eficiencia en los equipos de levantamiento artificial, lo cual tiene asociada una caída de la producción debido a que llegan menos volúmenes de crudo y agua a las estaciones de recolección y tratamiento, y un incumplimiento con el pronóstico de producción del día. Con el desarrollo de este proyecto es posible estimar el volumen de fluido que aporta o desplaza un equipo BES en función a sus variables y condiciones operativas. El modelo de aprendizaje de máquina entrenado corresponde a máquinas de soporte vectorial (SVM) y puede ser usado en sistemas multifásicos agua-crudo con poca producción de gas. Para el entrenamiento del modelo se tuvo en cuenta los registros de los 11 sensores instalados en los equipos BES tanto en fondo como en superficie, y se lograron resultados confiables para aquellos que desplazan fluidos con poca o nula presencia de gas.
Acceso Abierto
Detección de anomalías transaccionales usando técnicas de machine learning con grafos
(2023-09-02) Cortés Sánchez, Juan Sebastián; Romero Ramírez, Juan Felipe
Este documento propone una metodología para la identificación de transacciones anómalas realizadas a través de un servicio de depósito electrónico de una entidad financiera con el objetivo de prevenir y detractar el lavado de activos y de financiación del terrorismo, esta metodología consiste en la implementación de múltiples técnicas de Machine Learning, especificamente de aprendizaje no supervisado.
Acceso Abierto
Procesamiento de imágenes satelitales a través de algoritmos de aprendizaje profundo, uso del suelo y cobertura terrestre para la estimación de la demanda de tráfico 5G
(2023-08-01) Sarmiento Henriquez, Alex Felipe; Henao Parra, Juan Sebastián; Jiménez Hernández, Mario Fernando
Los sistemas de comunicaciones móviles, también conocidos como Telecomunicaciones Móviles Internacionales (IMT), se han convertido en parte integrante de nuestra vida cotidiana y prestan diversos servicios de telecomunicaciones que contribuyen significativamente al bienestar social. Históricamente, estos sistemas se han centrado en las necesidades de voz y banda ancha. Sin embargo, con la llegada de la 5G, los objetivos se han ampliado significativamente para abarcar un espectro más amplio de aplicaciones, incluidas las adaptadas a las necesidades industriales y al Internet de las Cosas (IoT). Aunque existen metodologías y recomendaciones internacionales para orientar el desarrollo de estos sistemas, a menudo se quedan cortas a la hora de identificar las necesidades únicas de la 5G. Los métodos de estimación tradicionales utilizan datos históricos sobre población y tráfico, pero pasan por alto las nuevas posibilidades que permite la 5G, como la comunicación ultra fiable y de baja latencia y el Internet de las cosas (IoT). El resultado son graves limitaciones en la estimación de la demanda potencial de tráfico para las redes 5G. Este trabajo introduce un enfoque novedoso, utilizando técnicas de teledetección y aprendizaje profundo, en concreto métodos de uso y cobertura del suelo, para comprender el contexto geográfico. Estas técnicas ofrecen una estimación detallada de las características geográficas mediante la medición remota de la radiación electromagnética reflejada y emitida. La integración del aprendizaje profundo para el procesamiento de imágenes añade aún más valor, ya que estos algoritmos han demostrado su éxito en la clasificación, segmentación, detección de objetos, restauración y mejora de imágenes. Adicionalmente, se pretende aplicar estas técnicas utilizando la base de datos de imágenes EuroSat, para mejorar el proceso de planificación de las tecnologías 5G en Colombia. El objetivo es incluir características geográficas en la planeación del despliegue, inferir casos de uso potenciales y mejorar significativamente los análisis de demanda, valoración, factibilidad y otros aspectos necesarios para el desarrollo de 5G.
Acceso Abierto
Detección de fraude bancario en Colombia mediante el análisis de grafos
(2024-01-02) Calderon Adames, Brayan Steven; Romero Ramírez, Juan Felipe
Este proyecto se enfoca en desarrollar un sistema de puntuación de riesgo para los empleados de una entidad financiera, con el objetivo de mitigar el fraude interno. Para ello, se han implementado técnicas avanzadas de grafos, las cuales han demostrado ser cruciales en la identificación de relaciones complejas entre Además, se ha integrado el uso de modelos de Machine Learning en el proyecto, lo que ha facilitado la creación de algoritmos predictivos. Estos modelos ofrecen la capacidad de prever posibles incidentes de fraude interno, lo que a su vez permite tomar medidas proactivas en la mitigación de riesgos. En resumen, la aplicación de estas metodologías computacionales ha resultado ser extremadamente valiosa, no solo para establecer controles de primera línea eficientes, sino también para desarrollar sistemas predictivos capaces de identificar potenciales defraudadores dentro de la organización financiera.
Embargo
Securing software development lifecycle using artificial intelligence and security chaos engineering
(2024-04-16) Bedoya Rodríguez, Martín Steven; Díaz López, Daniel Orlando
Aunque los procesos de desarrollo de software se han optimizado sustancialmente en los últimos años, las brechas de seguridad siguen representando un factor de riesgo importante para las organizaciones. Los procesos de transformación digital que no implementan la seguridad como pilar tienden a generar reprocesos y costos adicionales por remediación; en el peor de los casos, fugas de información, ataques de ransomware, denegación de servicio y otros ciberataques que generan fuerte impacto reputacional, legal o monetario. A lo largo de los años, las prácticas de desarrollo seguro han evolucionado, y hoy en día los frameworks de desarrollo ayudan a prevenir intrínsecamente las vulnerabilidades. También han surgido los Programas de Seguridad de Aplicaciones, que son un mecanismo que engloba las políticas, directrices, procesos, herramientas y personas que las organizaciones implementan para proteger sus aplicaciones. Aumentar el nivel de madurez de un programa de seguridad de aplicaciones requiere automatizar actividades y definir formas novedosas de desafiar la seguridad de las aplicaciones. Uno de los mecanismos en auge para automatizar las actividades de seguridad es la Inteligencia Artificial, con el surgimiento de los Large Language Models es posible resolver tareas en cada fase del ciclo de vida del software, reduciendo el tiempo empleado por las organizaciones para generar sistemas seguros. Por otro lado, a través de Security Chaos Engineering es posible descubrir nuevas formas de riesgo que no son fácilmente descubiertas a través de métodos tradicionales de pen-testing o herramientas automatizadas, lo que mejora la postura de seguridad de las aplicaciones. Esta tesis de máster genera una serie de aportaciones que permiten a las organizaciones mejorar sus Programas de Seguridad de Aplicaciones. Este trabajo introduce ideas sobre la identificación temprana de amenazas aplicando Procesamiento del Lenguaje Natural sobre historias de usuario, demuestra la automatización de modelos de amenazas basados en árboles de ataque-defensa utilizando Large Language Models, y propone casos de uso de Security Chaos Engineering aplicables a prácticas DevSecOps.
Acceso Abierto
Resilient DevSecOps: leveraging large language models and chaos engineering for automated threat hypothesis validation
(2025-11-07) Betancourt Alonso, Miguel Santiago; Díaz López, Daniel Orlando
La securitización del ciclo de vida del desarrollo de software es una práctica que permite a las empresas producir código que cumple con los tres pilares fundamentales de la seguridad: integridad, confidencialidad y disponibilidad de los datos procesados, así como de los servicios prestados en sus aplicaciones de producción. Actualmente, es obligatorio integrar prácticas del Ciclo de Vida de Desarrollo de Software Seguro (SSDLC) en las tareas del equipo debido al creciente aumento de amenazas a la seguridad. Los equipos de desarrollo suelen estar compuestos por personal técnico y no técnico que participa en las primeras etapas del SSDLC, como la planificación y el diseño. Sin embargo, muchos de estos miembros carecen de conocimientos en ciberseguridad. Además de esta falta de conocimientos, la integración de herramientas de securitización en el SSDLC se ve obstaculizada por el hecho de que estas herramientas se aplican manualmente y requieren un tiempo considerable para su construcción. Asimismo, el retraso en la gestión de nuevas amenazas hace que el producto final sea vulnerable a ciberataques debido a componentes o políticas de seguridad obsoletos. Este trabajo, presentado como proyecto de grado para el Máster en MACC, propone la integración de Modelos de Lenguaje Largos (LLM) y la metodología de Ingeniería de Caos de Seguridad (SCE) para facilitar la incorporación de tareas centradas en la seguridad dentro del Ciclo de Vida de Desarrollo de Software Seguro (SSDLC). Por un lado, los LLM automatizan la construcción e interpretación de árboles de ataque y defensa, lo que facilita la generación de hipótesis sobre escenarios de ataque. Por otro lado, la SCE proporciona una evaluación de la resiliencia, estabilidad y capacidad de recuperación del sistema, resultante de la ejecución de un conjunto de experimentos en un entorno DevSecOps controlado, destinados a explotar las vulnerabilidades del sistema.
Acceso Abierto
Análisis del tráfico aéreo mediante grafos
(2023-12-13) Rodríguez Cruz, Diego Alberto; Romero Ramírez, Juan Felipe
La planificación de vuelos es crucial para las aerolíneas, ya que afecta directamente su oferta y, por lo tanto, la demanda de pasajeros, lo que influye en sus ganancias. Además, la representación efectiva de las rutas y el flujo de pasajeros es esencial para tomar decisiones informadas en una aerolínea. Este estudio utiliza herramientas de análisis de redes, como grafos, para examinar el tráfico aéreo y representar la información de manera clara. Es importante destacar que la planificación de la demanda también involucra aspectos relacionados con la fijación de precios, especialmente en el contexto de las aerolíneas que operan en un entorno de que se considera oligopolista. Este enfoque en la planificación de la demanda y la estrategia de precios es esencial para optimizar el desempeño de las aerolíneas en mercados con limitada competencia. El objetivo principal de este trabajo es utilizar grafos para visualizar y analizar la demanda de pasajeros entre ciudades, utilizando la información de la Aerocivil. Estas visualizaciones y análisis ayudarán a las aerolíneas a tomar decisiones más efectivas en la planificación de sus rutas y la gestión de la demanda. Este enfoque tiene un alto valor estratégico y puede contribuir significativamente a la eficiencia y rentabilidad de las aerolíneas en dicho contexto.
Acceso Abierto
Comparación de técnicas para la estimación del valor comercial de predios en la ciudad de Bogotá
(2025-08-19) Rodriguez Trujillo, Raul Andres; Cruz Gutierrez, Nelson Alirio; Toloza Delgado, Jurgen Daniel
Este trabajo de grado tiene como objetivo comparar distintas técnicas de estimación del valor comercial de predios residenciales en Bogotá, a partir de una base de datos construida y depurada con más de 21.000 registros de ofertas inmobiliarias en la ciudad. La metodología empleada contempla una evaluación comparativa entre enfoques tradicionales y modernos de modelación, incluyendo modelos aditivos generalizados (GAM), Random Forest (RF) y LightGBM (LGBM), mediante métricas como el MAPE y el R². El desarrollo se realizó en R, por su característica de ser un software de código abierto, lo que permitió explorar diversas alternativas y aprovechar el amplio desarrollo existente alrededor de los modelos GAM. Tras aplicar los modelos a una muestra representativa de predios y evaluar su desempeño según métricas de error y capacidad predictiva, se encontró que LGBM obtuvo los mejores resultados para predios en propiedad horizontal, mientras que RF mostró mayor precisión en predios en propiedad no horizontal.
Acceso Abierto
IA explicable en administración de riesgo de crédito
(2023-08-11) Zamora Mahecha, Cristhian Camilo; Fernández Barreto, Oscar Samuel
La adopción de métodos de inteligencia artificial (IA) en el sector financiero puede conducir a mejoras significativas en temas de experiencia de cliente, bancarización de poblaciones remotas, lucha contra el lavado de capitales, administración del riesgo de crédito, entre otros. Particularmente en el campo de riego de crédito, el principal objetivo es estimar probabilidades de incumplimiento lo más cercanas al incumplimiento observado en la realidad, este objetivo puede alcanzarse mediante la aplicación de algoritmos nuevos y potentes que logran mejorar las medidas de precisión con respecto a métodos más tradicionales. Sin embargo, estos algoritmos pierden transparencia y explicabilidad, por lo que generalmente son denominados como “cajas negras”, lo que significa que se conocen las entradas y salidas del algoritmo, pero es difícil de entender y explicar lo que hace el algoritmo en su interior. Dicha falta de inteligibilidad de los métodos es contraria a los requerimientos de los reguladores financieros, llevando a que exista un rezago en el campo respecto al estado del arte en IA. El propósito de este proyecto es motivar la adopción de métodos de IA en el campo de riego de crédito, mediante la aplicación de un modelo de XGBoost a un conjunto de datos, y la aplicación de un conjunto de metodologías que incluyen la aplicación de Shapeley Values, expectativa condicional individual, diagramas de dependencia parcial, extracción de reglas, entre otras. Estas metodologías se enmarcan en un esquema de preguntas correctamente formuladas que permiten explicar el funcionamiento del modelo a las partes interesadas.
Acceso Abierto
Tornidentifier: identificación y clasificación automática de tornillos con redes neuronales profundas
(2023-01-05) García Espitia, Luis Alejandro; Rojas Gacha, Juan David; Andrade Lotero, Edgar José; Alférez Baquero, Edwin Santiago
La tarea de clasificación de tornillos hasta el momento es solo ejecutada por humanos. De hecho, las fotos no son aceptadas como insumo para la clasificación de tornillos debido a que existe información que no se puede determinar con las imágenes, como el diámetro del tornillo y el paso de la rosca. Con el avance de los modelos del aprendizaje automático de maquina y la inclusión de la clasificación automática de imágenes digitales con arquitecturas de redes neuronales profundas, no se ha explorado la solución de esta tarea, en gran parte, porque el factor trascendental para su entrenamiento es un conjunto de datos apropiado que no existe para este problema. En el presente proyecto se construyó un conjunto de imágenes inédito con el cual se pretende entrenar redes neuronales profundas para la clasificación de los tornillos. Además, se entrenó un modelo de detección de objetos especializados para tornillos el cual funcionará juntamente con el modelo de clasificación para aparte de dar una clasificación se identifique en que parte de la imagen este el tornillo. Por último, los modelos fueron puestos en producción dentro de una interfaz en la cual el objetivo es subir una imagen con tornillos y que los modelos sean capaces de detectar donde están y clasificar sus características
Acceso Abierto
Detección de anomalías en tráfico de red de Sistemas de Control Industrial soportada en algoritmos de machine learning
(2023-02-07) Tristancho Muñoz, Miguel Angel; Díaz López, Daniel Orlando
Establecer un sistema de análisis de tráfico de red basado en algoritmos de machine learning (ML), orientado a sistemas de control industrial que permita: la identificación de comportamientos anormales para evitar la explotación de vulnerabilidades que afecten la seguridad de procesos industriales reduciendo riesgos de disponibilidad y soporte la continuidad del negocio.
Acceso Abierto
Aprendizaje por refuerzo de un parser semántico óptimo en DRT
(2024-08-12) Piza Londoño, Jessenia; Andrade Lotero, Edgar José
Este documento se trata del procesamiento de lenguaje natural (NLP, por sus siglas en inglés), que se enfoca en desarrollar sistemas de comunicación efectivos entre computadoras y humanos. Aunque los mayores avances en esta área se han logrado mediante grandes modelos de lenguaje (LLMs, por sus siglas en inglés), estos suelen ser imprecisos en dominios regidos por reglas, como las relaciones espaciales o las normas legales. Para abordar estos dominios, se utilizan parsers semánticos que asignan representaciones lógicas a los textos a través del análisis de su estructura sintáctica y la interpretación semántica. Sin embargo, estos parsers son complejos y su diseño es complicado debido a la implementación manual de reglas específicas. Este estudio propone un enfoque innovador que utiliza el aprendizaje por refuerzo profundo para desarrollar un parser semántico que pueda aprender y adaptarse automáticamente. El agente, a través de recompensas, optimizará su comportamiento con el tiempo, lo que podría tener un impacto significativo en el avance del procesamiento de lenguaje natural.
Embargo
Metodología para le estimación robusta de la pérdida esperada en crédito de consumo mediante datos sintéticos y algoritmos de aprendizaje automático
(2026-02-23) Barriga Barrantes, Carlos Daniel; Seijas Ruiz, Luis Eduardo
El presente proyecto aborda la optimización de la gestión del riesgo de crédito en instituciones financieras, enfrentando los desafíos críticos de la privacidad de la información y el desbalance de clases inherente a los portafolios de consumo. La metodología desarrollada implementa una arquitectura de Redes Generativas Antagónicas tipo WGAN-GP (Wasserstein GAN con Penalización de Gradiente) para generar un portafolio de datos sintéticos tabulares de alta fidelidad. Este enfoque permitió replicar exitosamente la estructura estadística multivariada y las correlaciones de los datos reales sin exponer información sensible, validando su calidad mediante pruebas de bondad de ajuste y consistencia estructural. Sobre este entorno de datos sintéticos y balanceados, se evaluó el desempeño predictivo de tres modelos de clasificación: Regresión Logística Multinomial, Redes Neuronales Artificiales (MLP) y XGBoost. Los resultados demostraron la clara superioridad de los algoritmos no lineales sobre los métodos tradicionales. Específicamente, el modelo XGBoost presentó el mejor rendimiento en términos de discriminación global y sensibilidad para la detección de la clase de "Pérdida". Adicionalmente, se evidenció que la incorporación de variables de memoria temporal incrementa la capacidad discriminatoria del modelo a niveles de precisión casi perfecta. La investigación concluye con la materialización de estos hallazgos en una herramienta computacional para el cálculo de la Pérdida Esperada (PE) y la simulación de escenarios de estrés, proporcionando una solución robusta para la toma de decisiones financieras bajo un esquema de privacidad garantizada.
Acceso Abierto
Arquitectura de protección de privacidad de datos para modelos de lenguaje de gran tamaño (LLM) usando chatgpt
(2025-04-03) Bonilla Beltrán, Sofia Luisa Carolina; Ocampo Candela, Danna Natalia; Wightman Rojas, Pedro Mario; Díaz López, Daniel Orlando
El presente trabajo surge de la necesidad de fortalecer la privacidad en los modelos de lenguaje de gran tamaño (LLMs) como ChatGPT, Google Gemini y XLNet, los cuales presentan vulnerabilidades que pueden comprometer datos sensibles. A pesar de los avances en inteligencia artificial, la seguridad y privacidad de la información en estos modelos aún presentan desafíos, especialmente en la protección contra filtraciones de datos y accesos no autorizados. Esta investigación tiene como objetivo diseñar e implementar una arquitectura de protección de privacidad que mitigue riesgos tanto en la entrada como en la salida de los LLMs. Para ello, se abordan mecanismos para identificar y ofuscar datos sensibles en distintos tipos de información, incluyendo texto e imágenes, garantizando así la confidencialidad del usuario en todas las etapas de la comunicación con el modelo. El proyecto se estructura en tres etapas. La primera etapa consiste en un análisis ofensivo,demostrando las vulnerabilidades existentes en los modelos de lenguaje y cómo pueden ser explotadas para extraer información privada. En la segunda fase, se desarrolla una arquitectura de seguridad que emplea técnicas avanzadas de anonimización, protegiendo los datos sensibles antes de ser procesados por el modelo y controlando la información generada en sus respuestas. Finalmente, la tercera etapa evalúa el desempeño de la arquitectura mediante pruebas experimentales, asegurando que la implementación no afecte la precisión ni la utilidad del modelo, pero sí refuerce la protección de los datos. Los resultados de este proyecto permiten establecer nuevas estrategias de seguridad en LLMs, contribuyendo al desarrollo de modelos más confiables y con mejores garantías de privacidad para los usuarios.
Acceso Abierto
Factores asociados a la reelección de congresistas colombianos en los años 2014, 2018 y 2022: un estudio basado en analítica de redes y métodos estadísticos
(2026-02-27) Carrerá Martínez, Sofía; Andrade Lotero, Edgar José; Otero Bahamon, Silvia Alejandra
Aunque la literatura sobre la reelección de congresistas es amplia, son pocas las investigaciones que exploran la relación entre la arena legislativa y electoral en Colombia; y aún menos las que utilizan análisis de redes para caracterizar las relaciones entre congresistas. El objetivo de este proyecto es identificar qué factores influyeron en la reelección de legisladores en el Congreso colombiano (2014, 2018, 2022), con un foco especial en las relaciones de coautoría como variable predictora. Para la metodología, las interacciones entre congresistas (2012–2020) fueron representadas mediante grafos de coautorías legislativas, y se usaron los embeddings de los nodos junto con las medidas de centralidad como variables predictoras. La relación entre las variables y los resultados de las elecciones legislativas subsiguientes (2014–2022) se evaluó con regresiones logísticas y árboles de decisión. Los resultados muestran que la reelección de congresistas está asociada a factores como un mayor gasto en campaña, mayor cantidad de votos individuales y partidistas en elecciones previas, una menor centralidad de intermediación y la cantidad de conexiones que tienen y el lugar que ocupan dentro de la red.
Acceso Abierto
Inteligencia artificial en el monitoreo de la contración pública en salud
(2024-12-12) Salazar Mejía, Andrés Sebastián; Gallego Durán, Jorge Andrés
El sector salud en Colombia enfrenta grandes desafíos relacionados con la adecuada gestión de los recursos en los procesos de contratación, necesarios para el funcionamiento del sistema. La contratación pública es el aspecto más susceptible al despilfarro en Colombia, relacionado con altas ineficiencias, que son más frecuentes y pueden comprometer mayores recursos. A esto se suma un aumento de la participación del Estado y la cantidad de contratos públicos debido a posibles reformas. Este trabajo propone una metodología basada en aprendizaje de máquinas para predicción temprana de ineficiencias en los contratos del sector salud, usando como medida el número de adiciones en valor (sobrecostos) reportadas en la plataforma de contratación del Estado. Además, introduce a la literatura de contratación pública el uso de modelos de regresión y la incorporación de ensambles de modelos de detección de anomalías. Entre los principales hallazgos destacan los métodos basados en árboles como los de mejor desempeño, especialmente Random Forest, con un RMSE de prueba menor a 0,7. El estudio también identifica el tamaño del contrato, en valor y duración, las condiciones de entrega y el presupuesto de las entidades como características valiosas para la formulación de políticas públicas; y muestra que la incorporación de medidas de detección de anomalías mejora la comprensión de las ineficiencias. Adicionalmente, se encuentra la medida de ineficiencias propuesta superior a la usada en la literatura para la priorización de la investigación de contratos por parte de las entidades de control, con un 𝑀𝐴𝑃1000 de 1. Esta metodología permitirá mejorar el cuidado de los recursos del sistema de salud colombiano por medio de una eficaz intervención por parte de las entidades de control.
Acceso Abierto
Estudio de la red de coautores del proyecto Alianza EFI usando aprendizaje automático con grafos
(2022-08-29) Garavito Cárdenas, Carlos Stivert; García Suaza, Andrés Felipe
El presente trabajo muestra el uso de técnicas de aprendizaje automático basado en grafos para analizar la red de coautoría entre autores afiliados al Proyecto Alianza EFI. El documento se divide en tres capítulos: el primero ofrece una visión general completa del contexto global y local de la Inteligencia Artificial (IA) de manera que justifica la importancia de trabajar con temas de IA en el mundo actual. El segundo capítulo está dedicado a construir el marco teórico para trabajar con grafos y aprendizaje automático. El capítulo final muestra los resultados de la implementación del aprendizaje automático basado en grafos para tareas predictivas a nivel de nodos, enlaces y comunidades. Específicamente, este capítulo revela que el proyecto Alianza EFI involucra contribuciones de 390 autores únicos, asociados con 112 instituciones distintas, lo que resulta en 274 productos únicos. También demuestra que la Universidad del Rosario desempeña un papel central en las colaboraciones institucionales, en contraste con las demás instituciones dentro de la alianza. Finalmente, después de aplicar técnicas de aprendizaje automático basado en grafos, se observó que estas estrategias permiten a la alianza identificar nuevos temas de investigación para los autores, establecer nuevas conexiones entre autores aislados y descubrir nuevas comunidades de intereses de investigación.

Maestría en Matemáticas Aplicadas y Ciencias de la Computación

URI permanente para esta colección

Examinar

Políticas

Portales

Gestionado por

Enlaces directos

Nuestros programas

Servicios académicos

Protección de datos

Comprometidos
con la calidad

Examinar

Examinando Maestría en Matemáticas Aplicadas y Ciencias de la Computación por Fecha de publicación

Resultados por página

Opciones de clasificación

Políticas

Portales

Gestionado por

Enlaces directos

Nuestros programas

Servicios académicos

Protección de datos