Maestría en Matemáticas Aplicadas y Ciencias de la Computación

Examinar

Envíos recientes

Mostrando1 - 5 de 30
  • Ítem
    Embargo
    Metodología para le estimación robusta de la pérdida esperada en crédito de consumo mediante datos sintéticos y algoritmos de aprendizaje automático
    (2026-02-23) Barriga Barrantes, Carlos Daniel; Seijas Ruiz, Luis Eduardo
    El presente proyecto aborda la optimización de la gestión del riesgo de crédito en instituciones financieras, enfrentando los desafíos críticos de la privacidad de la información y el desbalance de clases inherente a los portafolios de consumo. La metodología desarrollada implementa una arquitectura de Redes Generativas Antagónicas tipo WGAN-GP (Wasserstein GAN con Penalización de Gradiente) para generar un portafolio de datos sintéticos tabulares de alta fidelidad. Este enfoque permitió replicar exitosamente la estructura estadística multivariada y las correlaciones de los datos reales sin exponer información sensible, validando su calidad mediante pruebas de bondad de ajuste y consistencia estructural. Sobre este entorno de datos sintéticos y balanceados, se evaluó el desempeño predictivo de tres modelos de clasificación: Regresión Logística Multinomial, Redes Neuronales Artificiales (MLP) y XGBoost. Los resultados demostraron la clara superioridad de los algoritmos no lineales sobre los métodos tradicionales. Específicamente, el modelo XGBoost presentó el mejor rendimiento en términos de discriminación global y sensibilidad para la detección de la clase de "Pérdida". Adicionalmente, se evidenció que la incorporación de variables de memoria temporal incrementa la capacidad discriminatoria del modelo a niveles de precisión casi perfecta. La investigación concluye con la materialización de estos hallazgos en una herramienta computacional para el cálculo de la Pérdida Esperada (PE) y la simulación de escenarios de estrés, proporcionando una solución robusta para la toma de decisiones financieras bajo un esquema de privacidad garantizada.
  • Ítem
    Acceso Abierto
    Desarrollo de una librería MLOps: versionamiento, trazabilidad y automatización del ciclo de vida de modelos en entornos Big Data
    (2026-02-27) Acevedo Orjuela, Bryam Camilo; Avilán Vargas, Nicolás Guillermo
    Esta tesis de maestría presenta el diseño, implementación y validación empírica de MomentumML, una librería modular de MLOps construida sobre PySpark y MLflow, desarrollada para cerrar la brecha entre la experimentación de modelos de ML y su despliegue confiable en producción — desafío respaldado por evidencia que indica que más del 90% de los modelos desarrollados nunca alcanzan entornos productivos estables. La librería comprende 34.582 líneas de código organizadas en módulos especializados que cubren el ciclo de vida completo del ML: preprocesamiento (10 clases Transformer), entrenamiento (5 clases Estimator con soporte para 8 algoritmos), versionado automático en Unity Catalog, predicción y monitoreo de drift mediante técnicas estadísticas multimodales como PSI, Kolmogorov-Smirnov, Jensen-Shannon Divergence y Chi-cuadrado. Validada durante seis meses en una organización real del sector telecomunicaciones, los resultados fueron contundentes: reducción del 81% en código para pipelines end-to-end, disminución del 71% en tiempos de despliegue (de 3–4 semanas a 5–7 días), incremento del 740% en frecuencia de despliegue, reducción del 77% en tasa de fallos, y disminución del 40% en consumo de unidades de cómputo en Databricks. El resultado más destacado: 35 de 85 modelos operativos (41.2%) lograron transitar exitosamente a entornos de QA, un hito inédito en la organización. El trabajo aporta un framework práctico, de código abierto y escalable que integra ingeniería de software, ciencia de datos y operaciones, posicionándose como referencia replicable para la adopción empresarial de MLOps.
  • Ítem
    Acceso Abierto
    Resilient DevSecOps: leveraging large language models and chaos engineering for automated threat hypothesis validation
    (2025-11-07) Betancourt Alonso, Miguel Santiago; Díaz López, Daniel Orlando
    La securitización del ciclo de vida del desarrollo de software es una práctica que permite a las empresas producir código que cumple con los tres pilares fundamentales de la seguridad: integridad, confidencialidad y disponibilidad de los datos procesados, así como de los servicios prestados en sus aplicaciones de producción. Actualmente, es obligatorio integrar prácticas del Ciclo de Vida de Desarrollo de Software Seguro (SSDLC) en las tareas del equipo debido al creciente aumento de amenazas a la seguridad. Los equipos de desarrollo suelen estar compuestos por personal técnico y no técnico que participa en las primeras etapas del SSDLC, como la planificación y el diseño. Sin embargo, muchos de estos miembros carecen de conocimientos en ciberseguridad. Además de esta falta de conocimientos, la integración de herramientas de securitización en el SSDLC se ve obstaculizada por el hecho de que estas herramientas se aplican manualmente y requieren un tiempo considerable para su construcción. Asimismo, el retraso en la gestión de nuevas amenazas hace que el producto final sea vulnerable a ciberataques debido a componentes o políticas de seguridad obsoletos. Este trabajo, presentado como proyecto de grado para el Máster en MACC, propone la integración de Modelos de Lenguaje Largos (LLM) y la metodología de Ingeniería de Caos de Seguridad (SCE) para facilitar la incorporación de tareas centradas en la seguridad dentro del Ciclo de Vida de Desarrollo de Software Seguro (SSDLC). Por un lado, los LLM automatizan la construcción e interpretación de árboles de ataque y defensa, lo que facilita la generación de hipótesis sobre escenarios de ataque. Por otro lado, la SCE proporciona una evaluación de la resiliencia, estabilidad y capacidad de recuperación del sistema, resultante de la ejecución de un conjunto de experimentos en un entorno DevSecOps controlado, destinados a explotar las vulnerabilidades del sistema.
  • Ítem
    Acceso Abierto
    Factores asociados a la reelección de congresistas colombianos en los años 2014, 2018 y 2022: un estudio basado en analítica de redes y métodos estadísticos
    (2026-02-27) Carrerá Martínez, Sofía; Andrade Lotero, Edgar José; Otero Bahamon, Silvia Alejandra
    Aunque la literatura sobre la reelección de congresistas es amplia, son pocas las investigaciones que exploran la relación entre la arena legislativa y electoral en Colombia; y aún menos las que utilizan análisis de redes para caracterizar las relaciones entre congresistas. El objetivo de este proyecto es identificar qué factores influyeron en la reelección de legisladores en el Congreso colombiano (2014, 2018, 2022), con un foco especial en las relaciones de coautoría como variable predictora. Para la metodología, las interacciones entre congresistas (2012–2020) fueron representadas mediante grafos de coautorías legislativas, y se usaron los embeddings de los nodos junto con las medidas de centralidad como variables predictoras. La relación entre las variables y los resultados de las elecciones legislativas subsiguientes (2014–2022) se evaluó con regresiones logísticas y árboles de decisión. Los resultados muestran que la reelección de congresistas está asociada a factores como un mayor gasto en campaña, mayor cantidad de votos individuales y partidistas en elecciones previas, una menor centralidad de intermediación y la cantidad de conexiones que tienen y el lugar que ocupan dentro de la red.
  • Ítem
    Acceso Abierto
    Integración del aprendizaje por refuerzo en parsers semánticos para la deducción lógica en lenguaje natural
    (2025-08-27) Gómez Vargas, Camilo Andrés; Andrade Lotero, Edgar José
    El procesamiento del lenguaje natural (NLP) es una subdisciplina de la inteligencia artificial centrada en la interacción entre las computadoras y los seres humanos mediante lenguaje natural. Su objetivo es desarrollar modelos y sistemas que comprendan, interpreten y generen lenguaje natural de manera similar a como lo hace una persona. En este contexto, los parsers semánticos juegan un papel fundamental, ya que son herramientas que descomponen y representan la estructura y el significado de las oraciones. Estos permiten transformar el texto en una representación formal, proporcionando un medio para que los sistemas inteligentes cuenten con una representación del significado subyacente de las palabras y relaciones. Aunque los parsers semánticos son herramientas de gran importancia en NLP, estos métodos tienden a depender de reglas preestablecidas o de modelos supervisados que aprenden de ejemplos etiquetados, limitando su capacidad para la generalización y representación de nuevas estructuras. Esta falta de flexibilidad de los parsers para adaptarse a nuevas oraciones o a estructuras más complejas sin la necesidad de re-entrenamiento o de una definición más amplia de reglas gramaticales, restringen su utilidad en tareas complejas de inferencia y razonamiento lógico. Por tanto, el objeto de estudio de este trabajo es desarrollar un sistema que utilice aprendizaje por refuerzo profundo para optimizar la representación de estructuras lógicas a partir de oraciones en lenguaje natural. Así, esta investigación desarrolla un modelo capaz de realizar representaciones de silogismos con estructuras conjuntivas e implicatorias. El trabajo se centra en la definición del entorno de aprendizaje, la señal de recompensas, el esquema de entrenamiento y la evaluación de resultados. De esta manera, se busca mejorar la capacidad de las máquinas para interpretar y razonar sobre el lenguaje, lo cual representa un avance en el desarrollo de sistemas de inteligencia artificial que puedan operar con un razonamiento estructurado, consistente y fundamentado.