Ítem
Acceso Abierto

Predicción del comportamiento de un índice bursátil usando Deep Learning y Procesamiento de Lenguaje Natural


Fecha
2025-09-15

Directores
Sánchez Salazar, Fabián

ISSN de la revista
Título del volumen
Editor
Universidad del Rosario


Buscar en:

Métricas alternativas

Resumen
En este trabajo de grado se estudió la predicción del comportamiento del índice bursátil colombiano MSCI COLCAP mediante técnicas de aprendizaje profundo y procesamiento de lenguaje natural. Para esto, se entrenaron redes neuronales LSTM con los precios y volúmenes históricos del índice, la tasa de cambio representativa del mercado (TRM) y el sentimiento de noticias económicas y financieras. Con estos datos, se predijeron los cambios en el precio de cierre del COLCAP con 1, 2 y 3 días de anticipación. Al mismo tiempo, se implementaron modelos tanto de regresión como de clasificación, evaluando diferentes combinaciones de variables y ventanas temporales. Los modelos de regresión no generalizaron bien, ya que presentaron sobreajuste, valores negativos de R^2 en prueba y errores absolutos mayores al cambio promedio del índice. En contraste, al simplificar el problema como una tarea de clasificación binaria (aumento o disminución del COLCAP), los modelos exhibieron métricas de exactitud consistentes. También se destaca que la inclusión del análisis de sentimiento y de la TRM aportó mejoras relevantes en el desempeño, sobre todo para predicciones a uno y tres días en el futuro. Además, al simplificar los datos de entrada (utilizando únicamente sus signos), se redujo el ruido y se mejoró la generalización de los modelos, obteniendo valores de exactitud entre 52% y 59% en datos desconocidos, especialmente con ventanas de 20 a 50 días. Finalmente, se concluye que predecir la dirección del mercado, es decir, si aumenta o disminuye el valor del COLCAP, es más viable que estimar con precisión la variación exacta de este índice, y que el sentimiento de mercado aporta información valiosa para las predicciones.
Abstract
In this undergraduate thesis, the prediction of the behavior of the Colombian stock market index MSCI COLCAP was studied using deep learning techniques and natural language processing. To this end, LSTM neural networks were trained with the historical prices and volumes of the index, the market representative exchange rate (TRM, for its acronym in Spanish), and the sentiment of economic and financial news articles. With these data, changes in the COLCAP’s closing price were predicted at 1, 2, and 3 days in advance. At the same time, both regression and classification models were implemented, evaluating different combinations of variables and sliding time windows. The regression models did not generalize well, as they showed overfitting, negative R^2 values on the test set, and absolute errors greater than the average change of the index. In contrast, by simplifying the problem into a binary classification task (increase or decrease of the COLCAP), the models showed consistent accuracy metrics. It is also highlighted that the inclusion of sentiment analysis and TRM provided relevant improvements in performance, especially for predictions one and three days in the future. Furthermore, by simplifying the input data (using only their signs), noise was reduced and generalization of the models was improved, obtaining accuracy scores between 52% and 59% on unknown data, especially with windows of 20 to 50 days. Finally, it is concluded that predicting the direction of the market, that is, whether the value of the COLCAP increases or decreases, is more feasible than precisely estimating the exact variation of the index, and that market sentiment provides valuable information for predictions.
Palabras clave
MSCI COLCAP , Índice bursátil , Aprendizaje profundo , Procesamiento de lenguaje natural , LSTM , Análisis de sentimiento , Predicción de mercado
Keywords
MSCI COLCAP , Stock index , Market prediction , Deep learning , Natural language processing , LSTM , Sentiment analysis
Buscar en:
Enlace a la fuente
Enlaces relacionados
Set de datos