Metodología para le estimación robusta de la pérdida esperada en crédito de consumo mediante datos sintéticos y algoritmos de aprendizaje automático

Barriga Barrantes, Carlos Daniel

doi:https://doi.org/10.48713/10336_47642

Ítem

Embargo

Metodología para le estimación robusta de la pérdida esperada en crédito de consumo mediante datos sintéticos y algoritmos de aprendizaje automático

Mostrar el registro sencillo de la publicación

dc.contributor.advisor	Seijas Ruiz, Luis Eduardo
dc.creator	Barriga Barrantes, Carlos Daniel
dc.creator.degree	Magíster en Matemáticas Aplicadas y Ciencias de la Computación
dc.date.accessioned	2026-03-18T16:26:04Z
dc.date.available	2026-03-18T16:26:04Z
dc.date.created	2026-02-23
dc.date.embargoEnd	info:eu-repo/date/embargoEnd/2028-03-19
dc.description	El presente proyecto aborda la optimización de la gestión del riesgo de crédito en instituciones financieras, enfrentando los desafíos críticos de la privacidad de la información y el desbalance de clases inherente a los portafolios de consumo. La metodología desarrollada implementa una arquitectura de Redes Generativas Antagónicas tipo WGAN-GP (Wasserstein GAN con Penalización de Gradiente) para generar un portafolio de datos sintéticos tabulares de alta fidelidad. Este enfoque permitió replicar exitosamente la estructura estadística multivariada y las correlaciones de los datos reales sin exponer información sensible, validando su calidad mediante pruebas de bondad de ajuste y consistencia estructural. Sobre este entorno de datos sintéticos y balanceados, se evaluó el desempeño predictivo de tres modelos de clasificación: Regresión Logística Multinomial, Redes Neuronales Artificiales (MLP) y XGBoost. Los resultados demostraron la clara superioridad de los algoritmos no lineales sobre los métodos tradicionales. Específicamente, el modelo XGBoost presentó el mejor rendimiento en términos de discriminación global y sensibilidad para la detección de la clase de "Pérdida". Adicionalmente, se evidenció que la incorporación de variables de memoria temporal incrementa la capacidad discriminatoria del modelo a niveles de precisión casi perfecta. La investigación concluye con la materialización de estos hallazgos en una herramienta computacional para el cálculo de la Pérdida Esperada (PE) y la simulación de escenarios de estrés, proporcionando una solución robusta para la toma de decisiones financieras bajo un esquema de privacidad garantizada.
dc.description.abstract	This project addresses the optimization of credit risk management in financial institutions, tackling the critical challenges of data privacy and class imbalance inherent in consumer portfolios. The developed methodology implements a WGAN-GP (Wasserstein GAN with Gradient Penalty) architecture to generate a high-fidelity synthetic tabular data portfolio. This approach successfully replicated the multivariate statistical structure and correlations of real data without exposing sensitive information, validating its quality through goodness-of-fit and structural consistency tests. Using this synthetic and balanced data environment, the predictive performance of three classification models was evaluated: Multinomial Logistic Regression, Artificial Neural Networks (MLP), and XGBoost. The results demonstrated the clear superiority of non-linear algorithms over traditional methods. Specifically, the XGBoost model presented the best performance in terms of global discrimination and sensitivity for the detection of the "Lossçlass. Additionally, incorporating temporal memory variables was shown to increase the model’s discriminatory capacity to near-perfect precision levels. The research concludes by materializing these findings into a computational tool for calculating Expected Loss (EL) and simulating stress scenarios, providing a robust solution for financial decision-making under a guaranteed privacy framework.
dc.format.extent	64 pp
dc.format.mimetype	application/pdf
dc.identifier.doi	https://doi.org/10.48713/10336_47642
dc.identifier.uri	https://repository.urosario.edu.co/handle/10336/47642
dc.language.iso	spa
dc.publisher	Universidad del Rosario	spa
dc.publisher.department	Escuela de Ciencias e Ingeniería	spa
dc.publisher.program	Maestría en Matemáticas Aplicadas y Ciencias de la Computación	spa
dc.rights	Attribution-NonCommercial-ShareAlike 4.0 International	*
dc.rights.accesRights	info:eu-repo/semantics/embargoedAccess
dc.rights.acceso	Restringido (Temporalmente bloqueado)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.source.bibliographicCitation	Superintendencia Financiera de Colombia, Circular Básica Contable y Financiera (Circular Externa 100 de 1995), 1995. dirección: https://www.superfinanciera.gov.co/publicaciones/15466/normativanormativa-generalcircular-basica-contable- y-financiera-circular-externa-de-15466/.
dc.source.bibliographicCitation	J. Chen, “Research on Financial Loan Default Prediction Based on Multi-Model Ensemble and Custom Thresholds,” Transactions on Computer Science and Intelligent Systems Research, vol. 7, págs. 666-674, nov. de 2024, ISSN: 2960-2238, 2960-1800. DOI: 10.62051/7dnjhn18.
dc.source.bibliographicCitation	X. Zhang y L. Yu, “Consumer credit risk assessment: A review from the state-of-the-art classification algorithms, data traits, and learning methods,” Expert Systems with Applications, vol. 237, pág. 121 484, mar. de 2024, ISSN: 09574174. DOI: 10.1016/j.eswa.2023.121484.
dc.source.bibliographicCitation	D. Borrero-Tigreros y O. Bedoya-Leiva, “Predicción de riesgo crediticio en Colombia usando técnicas de inteligencia artificial,” Revista UIS Ingenierías, vol. 19, n.o 4, págs. 37-52, jun. de 2020, ISSN: 21458456, 16574583. DOI: 10.18273/revuin.v19n4-2020004.
dc.source.bibliographicCitation	I. M. Bermudez Vera, J. Mosquera Restrepo y D. F. Manotas-Duque, “Data Mining for the Adjustment of Credit Scoring Models in Solidarity Economy Entities: A Methodology for Addressing Class Imbalances,” Risks, vol. 13, n.o 2, pág. 20, ene. de 2025, ISSN: 227-9091. DOI: 10.3390/risks13020020.
dc.source.bibliographicCitation	A. Aljadani, B. Alharthi, M. A. Farsi, H. M. Balaha, M. Badawy y M. A. Elhosseini, “Mathematical Modeling and Analysis of Credit Scoring Using the LIME Explainer: A Comprehensive Approach,” Mathematics, vol. 11, n.o 19, pág. 4055, sep. de 2023, ISSN: 2227-7390. DOI: 10.3390/math11194055.
dc.source.bibliographicCitation	E. Strelcenia y S. Prakoonwit, “A Survey on GAN Techniques for Data Augmentation to Address the Imbalanced Data Issues in Credit Card Fraud Detection,” Machine Learning and Knowledge Extraction, vol. 5, n.o 1, págs. 304-329, mar. de 2023, ISSN: 2504-4990. DOI: 10.3390/make5010019.41
dc.source.bibliographicCitation	I. Goodfellow et al., “Generative adversarial networks,” Communications of the ACM, vol. 63, n.o 11, págs. 139-144, oct. de 2020, SSN: 0001-0782, 1557-7317. DOI: 10.1145/3422622.
dc.source.bibliographicCitation	A. Pandey, D. Bhatt y T. Bhowmik, “Limitations and Applicability of GANs in Banking Domain,” s.f.
dc.source.bibliographicCitation	I. J. Goodfellow et al., “Generative Adversarial Nets,” en Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence y K. Q. Weinberger, eds., vol. 27, Curran Associates, Inc., 2014. dirección: https://proceedings.neurips.cc/paper_files/paper/2014/file/f033ed80deb0234979a61f95710dbe25Paper.pdf.
dc.source.bibliographicCitation	S. Kullback y R. A. Leibler, “On Information and Sufficiency,” The Annals of Mathematical Statistics, vol. 22, n.o 1, págs. 79-86, 1951. DOI: 10.1214/aoms/1177729694. dirección: https://doi.org/10.1214/aoms/1177729694.
dc.source.bibliographicCitation	A. Langevin, T. Cody, S. Adams y P. Beling, “Generative adversarial networks for data augmentation and transfer in credit card fraud detection,” Journal of the Operational Research Society, vol. 73, n.o 1, págs. 153-180, ene. de 2022, ISSN: 0160-5682, 1476-9360. DOI: 10.1080/01605682.2021.1880296.
dc.source.bibliographicCitation	G. H. Golub y C. F. Van Loan, Matrix computations (Johns Hopkins studies in the mathematical sciences), Fourth edition. Baltimore: The Johns Hopkins University Press, 2013, ISBN:978-1-4214-0794-4.
dc.source.bibliographicCitation	N. Mantel, “The Detection of Disease Clustering and a Generalized Regression Approach,” Cancer Research, vol. 27, n.o 2Part1, págs. 209-220, feb. de 1967, ISSN: 0008-5472.
dc.source.bibliographicCitation	D. E. Rodríguez Guevara, J. F. Rendón Garcia, A. Trespalacios Carrasquilla y E. A. Jiménez Echeverri, “Modelación de riesgo de crédito de personas naturales. Un caso aplicado a una caja de compensación familiar colombiana,” Revista de Métodos Cuantitativos para la Economía y la Empresa, dic. de 2021, ISSN: 1886-516X, 1886-516X. DOI: 10.46661/revmetodoscuanteconempresa.5146.
dc.source.bibliographicCitation	D. W. Hosmer, S. Lemeshow y R. X. Sturdivant, Applied Logistic Regression, 3rd. Hoboken, NJ: John Wiley & Sons, 2013.
dc.source.bibliographicCitation	T. Chen y C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” en Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ép. KDD ’16, San Francisco, California, USA: Association for Computing Machinery,2016, págs. 785-794, ISBN: 9781450342322. DOI: 10.1145/2939672.2939785. dirección:https://doi.org/10.1145/2939672.2939785.42
dc.source.bibliographicCitation	J. Snoek, H. Larochelle y R. P. Adams, “Practical Bayesian Optimization of Machine Learning Algorithms,” s.f.
dc.source.bibliographicCitation	D. J. Hand, “Good practice in retail credit scorecard assessment,” Journal of the Operational Research Society, vol. 56, n.o 9, págs. 1109-1117, sep. de 2005, ISSN: 0160-5682, 1476-9360. DOI: 10.1057/palgrave.jors.2601932.
dc.source.bibliographicCitation	J. A. Brown, B. McGourty y T. Schuermann, “Model Risk and the Great Financial Crisis,” New International Financial System, The: Analyzing The Cumulative Impact Of Regulatory Reform, vol. 48, pág. 339, 2015.
dc.source.bibliographicCitation	S. Watts, “The Gaussian copula and the financial crisis: A recipe for disaster or cooking the books?” University of Oxford, vol. 8, pág. 114, 2016.
dc.source.bibliographicCitation	S. M. Bellovin, P. K. Dutta y N. Reitinger, “Privacy and synthetic datasets,” Stan. Tech. L. Rev., vol. 22, pág. 1, 2019.
dc.source.bibliographicCitation	J. Yoon, D. Jarrett y M. Van der Schaar, “Time-series generative adversarial networks,” Advances in neural information processing systems, vol. 32, 2019.
dc.source.bibliographicCitation	M. H. Naveed, U. S. Hashmi, N. Tajved, N. Sultan y A. Imran, “Assessing deep generative models on time series network data,” IEEE Access, vol. 10, págs. 64 601-64 617, 2022.
dc.source.bibliographicCitation	M. Goyal y Q. H. Mahmoud, “A systematic review of synthetic data generation techniques using generative AI,” Electronics, vol. 13, n.o 17, pág. 3509, 2024.
dc.source.bibliographicCitation	N. Suh et al., “TimeAutoDiff: A Unified Framework for Generation, Imputation, Forecas ting, and Time-Varying Metadata Conditioning of Heterogeneous Time Series Tabular Data,” arXiv preprint arXiv:2406.16028, 2024.
dc.source.bibliographicCitation	O. Olby, R. Baggott y N. Stillman, “TABL-ABM: A Hybrid Framework for Synthetic LOB Generation,” arXiv preprint arXiv:2510.22685, 2025.
dc.source.instname	instname:Universidad del Rosario
dc.source.reponame	reponame:Repositorio Institucional EdocUR	spa
dc.subject	Pérdida esperada
dc.subject	Aprendizaje automático
dc.subject	Redes neuronales
dc.subject	Redes neuronales generativas adversarias
dc.subject.keyword	Expected loss
dc.subject.keyword	Machine learning
dc.subject.keyword	Neural networks
dc.subject.keyword	Generative adversarial networks
dc.title	Metodología para le estimación robusta de la pérdida esperada en crédito de consumo mediante datos sintéticos y algoritmos de aprendizaje automático
dc.title.TranslatedTitle	Methodology for the Robust Estimation of Expected Loss in Consumer Credit Using Synthetic Data and Machine Learning Algorithms
dc.type	masterThesis
dc.type.hasVersion	info:eu-repo/semantics/acceptedVersion
dc.type.spa	Trabajo de grado
local.department.report	Escuela de Ciencias e Ingeniería
local.regiones	Bogotá