Programa de Matemáticas Aplicadas y Ciencias de la Computación - MACC
URI permanente para esta colección
Nuestro programa de Matemáticas Aplicadas y Ciencias de la Computación, MACC, es la elección ideal para aquellos estudiantes que quieran crear y liderar la transformación digital en el marco de la Revolución 4.0. Estudiar MACC les permitirá comprender el mundo mediante el lenguaje de las matemáticas y las ciencias de la computación. Contamos con líneas de profundización que responden a las necesidades de la Revolución 4.0 y que están encaminadas a que los estudiantes amplíen sus oportunidades laborales en una economía digital. Nuestros egresados tendrán la capacidad de crear puentes entre problemas reales y soluciones digitales, generando transferencia de tecnología y de conocimiento.
Examinar
Examinando Programa de Matemáticas Aplicadas y Ciencias de la Computación - MACC por Título
Mostrando1 - 11 de 11
Resultados por página
Opciones de clasificación
- ÍtemAcceso AbiertoAprendizaje de máquina aplicado al control(Universidad del Rosario, ) Rambaut Lemus, Daniel Felipe; Obando Bravo, Germán DarioEl objetivo de este trabajo es emular la acción de un controlador utilizando modelos de inteligencia artificial (IA). Para ello, se empleó como planta un sistema de segundo orden que describe la temperatura en un cuarto. Sobre dicha planta, se diseña un controlador predictivo basado en modelo (MPC, por sus siglas en inglés) como referencia para entrenar los algoritmos de IA. MPC es un método que utiliza modelos matemáticos para predecir el comportamiento futuro del sistema y tomar acciones de control óptimas en función de ciertos objetivos preestablecidos. La emulación del controlador puede plantearse como un problema de regresión, por lo tanto se emplearon tres de los modelos más populares de IA para efectuar regresiones: regresión lineal, vectores de soporte y redes neuronales. Para el entrenamiento de los modelos de IA, se utilizó una base de datos generada al simular el comportamiento del controlador MPC sobre la planta de temperatura. Se realizaron diferentes pruebas para evaluar el desempeño de los modelos de IA comparándolos con el controlador MPC. Los resultados mostraron que los modelos de IA pueden ser utilizados con éxito para emular dicho controlador con la ventaja de tener un menor costo computacional. En este sentido, cabe resaltar que MPC necesita resolver iterativamente un problema de optimización, mientras que los algoritmos de IA usados sólo requieren evaluar cierta función (que se obtiene al entrenar los modelos) en cada iteración de control. En conclusión, esta investigación es un primer paso exitoso en un camino prometedor: el uso de IA para el control de procesos dinámicos.
- ÍtemAcceso AbiertoAutomatic determination of the learning rate for multivariate and multinomial regression models(Universidad del Rosario, ) Acosta Fajardo, Manuela; Caicedo Dorado, AlexanderA lo largo de los años, la inteligencia artificial se ha convertido en un campo ampliamente investigado y aplicado, como resultado de los importantes avances tecnológicos y la expansión de los recursos informáticos. La inteligencia artificial intenta no solo comprender cómo funciona la mente humana, sino también desarrollar sistemas que puedan imitar el comportamiento humano. El aprendizaje automático es una de las principales ramas de la inteligencia artificial y su objetivo es construir y mejorar modelos que puedan aprender de un conjunto de datos y de la experiencia, a través de métodos computacionales, sin necesidad de ser programados explícitamente. Los algoritmos de aprendizaje automático construyen modelos basados en datos de muestra, con el fin de hacer predicciones o decisiones, y se utilizan en diferentes aplicaciones, como medicina, visión artificial, clasificación de imágenes, entre otras. Un algoritmo de aprendizaje automático es un programa que encuentra patrones o hace predicciones a partir de datos nunca antes vistos. Dependiendo de los objetivos del algoritmo, así como de los datos utilizados, existen diferentes tipos de modelos de aprendizaje: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Uno de los algoritmos de aprendizaje más comunes es Gradient Descent, que se utiliza para encontrar un mínimo local de una función diferenciable. Funciona dando pasos repetidos en la dirección opuesta al gradiente de la función. El tamaño de los pasos tomados por el algoritmo de descenso de gradiente está determinado por un hiperparámetro conocido como Tasa de aprendizaje. Este parámetro indica qué tan rápido o lento es el movimiento hacia los parámetros óptimos del algoritmo. Por lo general, se configura manualmente. Sin embargo, para alcanzar los mínimos de función es necesario establecer una tasa de aprendizaje adecuada, es decir, ni demasiado grande ni demasiado pequeña. En el primer caso, los pasos dados son demasiado grandes y, en consecuencia, el algoritmo puede divergir. Por el contrario, si la tasa de aprendizaje es demasiado pequeña, resulta en un aprendizaje lento y el algoritmo tampoco podría converger nunca. La mayoría de las veces se desea un aprendizaje rápido, por lo que se pueden seleccionar altas tasas de aprendizaje. Sin embargo, es importante seleccionar el valor adecuado para este parámetro, de modo que se pueda garantizar la convergencia del algoritmo. En (2021, Ruiz) se presentó un método para determinar un límite superior para la tasa de aprendizaje de modelos basados en modelos de regresión lineal, haciendo un análisis del algoritmo de gradiente descendente como un sistema dinámico discreto. Este trabajo de tesis pretende extender estos resultados a modelos basados en clasificación y regresión multinomial. También buscamos encontrar un valor óptimo para la tasa de aprendizaje para estos métodos. A lo largo de esta tesis se desarrolla un algoritmo que determina automáticamente un valor óptimo para la tasa de aprendizaje de los modelos de clasificación y regresión. En primer lugar, los resultados obtenidos para los modelos de regresión lineal se generalizan a otras funciones de activación. Como resultado, se encuentran un límite superior y un valor óptimo para la tasa de aprendizaje para los modelos que usan regresión y clasificación. Luego, los resultados obtenidos se extienden a un modelo de regresión multinomial. Proponemos un análisis del descenso de gradiente como un sistema dinámico discreto, donde la cota superior surge como criterio para determinar la estabilidad de este sistema. Además, presentamos un valor óptimo para la tasa de aprendizaje, que minimiza la suma de las distancias de los polos extremos del sistema dinámico estudiado. Este análisis se realiza linealizando el algoritmo de descenso de gradiente y aplicándolo a la regresión lineal, logística y multinomial. El límite superior y el valor óptimo de la tasa de aprendizaje son aproximaciones al valor óptimo que garantizan la convergencia más rápida del algoritmo. Presentamos simulaciones y experimentos para comprobar los resultados obtenidos. Primero los probamos con ejemplos de juguetes, creando manualmente los datos para estudiar el comportamiento del algoritmo para el modelo de regresión lineal y logística. Luego, validamos nuestro enfoque en conjuntos de datos reales. Los resultados muestran que, aunque la tasa de aprendizaje máxima, que viene dada por la cota superior, parece hacer que el algoritmo converja más rápido que la tasa de aprendizaje óptima para el caso logístico y multinomial, es mejor utilizar este último valor, ya que garantiza una convergencia suave y relativamente rápida al mínimo en todos los casos
- ÍtemAcceso AbiertoChaosXploit: A Security Chaos Engineering framework based on Attack Trees(Universidad del Rosario, ) Palacios Chavarro, Sara; Díaz López, Daniel OrlandoLos incidentes de seguridad pueden tener varios orígenes. Sin embargo, muchas veces son causados por componentes que se supone que están correctamente configurados o desplegados. Es decir, los métodos tradicionales pueden no detectar esos supuestos de seguridad, y es necesario probar nuevas alternativas. La Ingeniería del Caos de la Seguridad (SCE) representa una nueva forma de detectar esos componentes que fallan para proteger los activos en escenarios de riesgo cibernético. Para demostrar la aplicación de la SCE en la seguridad, este proyecto de grado presenta, en primer lugar, una introducción a los fundamentos de la Ingeniería del Caos (CE), ya que la SCE hereda sus principios y metodología. Para ello, se realiza un análisis de los Frameworks y herramientas propuestos para la implementación de la CE y se comprueba su funcionalidad con cuatro experimentos. En segundo lugar, este proyecto de grado propone ChaosXploit, un framework de ingeniería del caos de la seguridad basado en árboles de ataque, que aprovecha la metodología de CE junto con una base de datos de conocimiento compuesta por árboles de ataque para detectar y explotar vulnerabilidades en diferentes objetivos como parte de un ejercicio de seguridad ofensiva. Una vez detallados los componentes teóricos y conceptuales de SCE y explicada la propuesta de ChaosXploit, se realiza un conjunto de experimentos para validar la viabilidad de ChaosXploit y así validar la seguridad de los servicios gestionados en la nube, es decir, los buckets de Amazon, que pueden ser propensos a la desconfiguración.
- ÍtemAcceso AbiertoData driven initialization for machine learning classification models(Universidad del Rosario, ) López Jaimes, David Santiago; Caicedo Dorado, AlexanderEl principal objetivo de este proyecto de grado es desarrollar una estrategia para la inicialización de los parámetros θ tanto para la regresión logística (clasificador lineal) como para la regresión multinomial, y las redes neuronales clásicas (fully connected feed-forward). Esta inicialización se basó en las propiedades de la distribución estadística de los datos con los que se entrenan los modelos. Esto con el fin de inicializar el modelo en una región de la función de costo más adecuada y así, pueda llegar a una mejorar su tasa de convergencia, y producir mejores resultados en menores tiempos de entrenamiento. La tesis presenta una explicación intuitiva y matemática de los modelos de inicialización propuestos, y contrasta el desarrollo teórico con un benchmark donde se utilizaron diferentes datasets, incluyendo toy examples. Así mismo, también se presenta un análisis de estos resultados, se discuten las limitaciones de las propuestas y el trabajo futuro que se puede derivar a partir de este trabajo.
- ÍtemAcceso AbiertoFCTNLP: Fighting cyberterrorism with natural language processing(Universidad del Rosario, ) Zapata Rozo, Andrés Felipe; Díaz López, Daniel OrlandoLas redes sociales son una rica fuente de datos y han sido utilizadas para promover u organizar ciberdelitos que afectan al mundo real. Por ello, las fuerzas del orden se interesan por la información crucial que puede obtenerse de estas fuentes. La cantidad de información y el lenguaje informal que se utiliza para difundir la información hace que el Procesamiento del Lenguaje Natural (PLN) sea una excelente herramienta para realizar análisis sobre las publicaciones en las redes sociales. Por ello, en esta propuesta se integra una arquitectura con tres modelos de PLN para proporcionar un análisis exhaustivo de fuentes abiertas como los medios sociales. Este análisis extrae entidades del texto, identifica clusters de usuarios y su respectiva polaridad, finalmente todos los resultados se relacionan en una base de datos gráfica. Esta arquitectura se puso a prueba utilizando datos de un escenario real para determinar su viabilidad.
- ÍtemAcceso AbiertoFiltros en espacios de Banach(Universidad del Rosario, ) Duque Báez, Nicolás; del Valle Salas-Brown, MargotLas sucesiones juegan un papel fundamental en las matemáticas por su utilidad en las demostraciones de teoremas y propiedades de la topología, también son fundamentales en las matemáticas aplicadas. Solo por nombrar ejemplos, las sucesiones son claves en la caracterización de funciones continuas o en la caracterización de subconjuntos compactos en espacios metrizables, son usadas para demostrar la existencia de soluciones de ciertas ecuaciones a través del Teorema del Punto Fijo o en métodos iterativos como el de divide y vencerás, e incluso en la notación asintótica que permite estimar la eficiencia de un algoritmo. En los últimos 50 años, aproximadamente, diversos matemáticos han realizado contribuciones sobre generalizaciones de este concepto. Específicamente, han realizado generalizaciones del concepto clásico de convergencia por medio de nociones conjuntistas. Por ejemplo, Kostyrko, Šalát y Wilczyński usan la noción de ideal topológico, introducida por Kuratowski en el año 1933, para generar una convergencia de sucesiones vía ideales. También es muy conocida la generalización de convergencia de sucesiones usando la noción de filtro, los cuales fueron introducidos por Cartan en 1937. No se sabe a ciencia cierta quien introduce la noción de convergencia usando filtros, lo que sí es cierto es que ya forma parte del folklore dentro de la topología y es usada por muchos matemáticos para realizar generalizaciones de teorías basadas en este concepto. En este trabajo se realiza un estudio de los filtros, se dan ejemplos, se enuncian y se demuestran sus principales propiedades. Se hace uso del Lema de Zorn para garantizar la existencia, bajo ciertas condiciones, de los ultrafiltros (filtros maximales), se dota a la colección de todos los ultrafiltros sobre N de una topología, el espacio topológico obtenido resulta siendo la compactificación de Stone-Čech de los números naturales. Luego, dado un filtro F, se estudia la noción de sucesión F−convergente sobre un espacio topológico. Puntualmente, se desglosa el artículo de Ferreira, en el cual se trabaja el concepto de convergencia de sucesiones usando filtros libres sobre los números naturales. Además, se caracterizan nociones comunes de la topología como: punto de adherencia o acumulación y el comportamiento de sucesiones F−convergentes bajo funciones continuas. Tal y como ya se habia mencionado, en el año 2000 Kostyrko, Šalát y Wilczyński generalizan la noción de convergencia por medio de una estructura dual a la de filtros: los ideales. En este artículo, para un ideal I, se introduce la noción de I−convergencia, se estudian propiedades y caracterizaciones, entre otras cosas. Sobre la misma década se introducen las nociones de sucesión I−Cauchy, I−convergencia débil e I−convergencia débil∗. La noción de I−Cauchy fue introducida en el año 2005, por Dems, en este trabajo se estudia la relación que existe entre las sucesiones I−Cauchy y las sucesiones I−convergentes, aun cuando podría pensarse que estas nociones podrían conducir a un I−espacio de Banach, sorprende leer el resultado proporcionado por los autores en donde caracterizan los espacios de Banach en términos de sucesiones I−Cauchy y las sucesiones I− convergentes, lo cual proporciona una herramienta adicional para el estudio de este tipo de espacios. En el año 2010 Pelihvan, Şençimen y Yaman trabajan las nociones de I−convergencia débil e I−débil∗ y establecen propiedades de éstas similares a las que satisfacen las sucesiones débilmente convergente y las sucesiones de operadores débilmente* convergentes. En este trabajo, se realiza un estudio de nociones de convergencia desde el punto de vista de filtros, lo cual representa un aporte modesto a la literatura ya que hasta la fecha no se han encontrado referencias que evidencien la existencia de estas. Finalmente, las notaciones asintóticas son comprendidas como la herramienta fundamental para estimar la complejidad computacional de los algoritmos, es decir, estudiar su tasa de crecimiento. Teniendo en cuenta la naturaleza de las notaciones asintóticas, es posible interpretarlas en términos de sucesiones y, por tanto, generalizarlas usando filtros. De manera que, en este trabajo, se introduce una generalización de las notaciones asintóticas: OF y oF, se establecen relaciones entre estas dos notaciones, las propiedades que satisfacen, así como también se relacionan con las nociones previamente definidas y estudiadas.
- ÍtemAcceso AbiertoGeneralización de notación asintótica vía filtros(Universidad del Rosario, ) López Chacón, Ana Valentina; Salas Brown, Margot del ValleEn este documento, proporcionamos una generalización de la notación asintótica mediante la estructura topológica conocida como filtro. Presentamos algunas propiedades relevantes, como reflexividad, simetría y transitividad, junto con ejemplos adecuados para exhibir el amplio alcance de esta nueva noción. Además, se demuestra que la definición habitual de notaciones asintóticas implica la generalizada por filtros, y presentamos diferentes ejemplos para asegurar que la afirmación recíproca no es válida. Además, proponemos una caracterización de las notaciones asintóticas usuales en términos de filtros. Finalmente, establecemos una relación entre sucesiones acotadas o convergentes a cero y notaciones asintóticas en filtros, que nos permiten determinar algunas propiedades de los temas tratados en este estudio
- ÍtemAcceso AbiertoIntroducción a la Criptografía post-cuántica basada en teoría de códigos(Universidad del Rosario, ) Rambaut Lemus, Daniel Felipe; Gauthier-Umaña, ValérieLa criptografía es la disciplina que estudia el arte de transformar un mensaje (llamado texto plano) en un mensaje no legible por un tercero (llamado texto cifrado) utilizando una clave secreta. Los protocolos de cifrado, descifrado y construcción de claves es lo que llamamos un criptosistema. Existen dos grandes familias: 1. Criptografía simétrica: conformada por los criptosistemas que utilizan una misma clave secreta para cifrar y descifrar mensajes. 2. Criptografía asimétrica o a clave pública: son aquellos en los que los procesos de cifrado y descifrado son llevados a cabo por dos claves, una pública para el proceso de cifrado y otra secreta para descifrado. La criptografía simétrica tiene dos principales problemas: las personas que van a comunicarse deben tener un primer encuentro para definir la clave secreta y por otro lado para cada pareja de personas que se quieran comunicar debe existir una clave secreta. Ambos problemas son resueltos por la criptografía a clave pública ya que en este caso no hay necesidad de ponerse de acuerdo con la clave y por otro lado una misma clave pública le permite a una persona recibir mensajes de muchas personas sin que estas tengan la posibilidad de descifrar el mensaje. Esto hace que la criptografía a clave pública sea la base del comercio electrónico. En 1978 se propuso el RSA, el cual fue el primer criptosistema a clave pública. Más de 40 años después los criptosistemas a clave pública que se utilizan dependen únicamente de dos problemas matemáticos: la factorización y el logaritmo discreto. Es decir que, si de alguna manera lográramos resolver estos problemas, toda la criptografía a clave pública quedaría expuesta e insegura. Sin embargo, en 1994, Peter Shor, publicó un algoritmo en el cual, de tener un computador cuántico suficientemente poderoso, podría resolver estos dos problemas. La carrera de varias empresas y centros de investigación por crear un computador cuántico ha sido bastante activa y ya se han creados algunos en los cuales se ha podido implementar el algoritmo de Shor y factorizar, por ejemplo, el número 15. Como respuesta a este nuevo escenario, en donde la computación cuántica pone en jaque a toda la criptografía a clave pública, se presenta la criptografía post-cuántica, la cual consiste en buscar criptosistemas que sean resistentes a ataques hechos en computadores convencionales y cuánticos. El instituto Nacional de estándares y Tecnología de Estados Unidos (llamado NIST por sus siglas en inglés, National Institute of Standards and Technology) preocupado por esta situación, y buscando promover la investigación en critpografía post-cuántica organizó un concurso público para buscar un criptosistema post-cuántico que se pueda convertir en el estándar. Existen diferentes familias que han inspirado algunas propuestas de criptosistemas post-cuánticos: la teoría de códigos, retículos funciones de Hash y álgebra multivariada que se vienen estudiando aproximadamente desde los años 2000 y recientemente se trabajan con isogeny en curvas elípticas. En este trabajo de grado nos concentramos en la criptografía post-cuántica basada en la teoría de códigos. En 1978, McEliece propuso un criptosistema que no tuvo mucha acogida dado su tamaño de la clave secreta, pero que resulta ser resistente a ataques post-cuánticos. En los últimos 20 años se han propuesto varias variantes del McEliece, que usan la misma idea de basarse en códigos correctores de errores, pero que usan protocolos diferentes para tratar de reducir el tamaño de la clave. Hasta el momento la mayoría han sido atacados, existen algunos vigentes, pero todavía la comunidad no tiene confianza en su seguridad ya que son muy recientes. En esta tesis se realizó un documento donde se introduce las bases matemáticas, la criptografía, la teoría de corrección de errores y la computación cuántica necesaria para poder entender la criptografía post-cuántica basada en teoría de códigos. Al final de la tesis introducimos los criptosistemas de McEliece y Niederreiter así como la versión del criptosistema de McEliece que llegó a la última etapa de la competencia de la NIST (todavía en curso).
- ÍtemAcceso AbiertoUna propuesta de neurona artificial: la Unidad Neuro-Vascular Artificial (UNVA)(Universidad del Rosario, ) Ruiz Ortiz, Juan Camilo; Caicedo Dorado, AlexanderLas neuronas artificiales son un modelo computacional simplificado de cómo funcionan las neuronas biológicas presentes en el cerebro. Sin embargo, los modelos de las primeras neuronas artificiales se fundamentaron únicamente en el procesamiento de información proveniente de señales eléctricas, y no tuvieron en cuenta los cambios vasculares necesarios que permiten entregar nutrientes a las neuronas para que funcionen correctamente, en particular durante su activación eléctrica. Por lo tanto, en esta tesis se propone un nuevo modelo computacional que considera tanto el comportamiento eléctrico como el vascular. Para diseñar la nueva arquitectura, se revisaron las condiciones de estabilidad del descenso del gradiente. Este análisis nos permite definir cotas superiores para la tasa de aprendizaje. Una vez propuesta la arquitectura se evaluó su comportamiento comparado con algoritmos más tradicionales como la regresión lineal.
- ÍtemAcceso AbiertoTeoría de la información y la compresión de cadenas(Universidad del Rosario, ) Hernández Ramírez, Esteban; Álvarez Cabrera, Carlos EduardoEl problema de la compresión sin perdida consiste en implementar la codificación (únicamente decodificable) de un alfabeto, que asigna a cada cadena de símbolos del alfabeto el código de menor longitud posible. Encontrar esta representación de menor tamaño de un conjunto de datos puede ahorrar costos en el espacio de almacenamiento, tiempo en transferencia de los datos o número de operaciones en su procesamiento, dentro de un computador. Lo anterior hace de la compresión sin perdida un objetivo razonable dentro de las Ciencias de la Computación y representa un reto importante durante el desarrollo de muchas soluciones tecnológicas. La teoría de la información, por su parte, ha establecido el formalismo matemático necesario para el estudio de medidas cuantitativas de información como la entropía de Shannon y ha encontrado su lugar dentro de la implementación de la compresión sin perdida al proveer algunas de las herramientas teóricas necesarias para el estudio de los modelos que describen las fuentes de datos en la teoría de la codificación. Por otro lado, la cercana relación que se ha encontrado entre la teoría de la información y la teoría de la compresión sin perdida ha motivado a muchos autores a ingeniar formas de medir a través de la compresión de archivos la información en ellos. Lo que ha resultado en interesantes aplicaciones de la compresión sin perdida en el aprendizaje automático, particularmente, en la clasificación de textos escritos en lenguaje natural o cadenas de ADN. En este escrito, se presenta una revisión monográfica acerca de cómo la teoría de la información se aplica a la compresión sin perdida. Para esto, se presentan algunas de las implementaciones de la compresión sin perdida en la teoría de códigos y sus respectivos análisis. Las demostraciones, gráficas, algoritmos e implementaciones en este escrito generalizan algunos de los hechos más importantes acerca de codificaciones binarias que se han enunciado en la literatura, al caso general de alfabetos de tamaños arbitrarios. Finalmente, se presenta una aplicación de la compresión sin perdida al aprendizaje automático de máquina, para la clasificación del lenguaje natural, mediante la aplicación del algoritmo de codificación LZ77 para estimar algunas medidas de información bien conocidas en la literatura, las cuales se emplean como medida de distancia para comparar los lenguajes entre sí. El resultado de la clasificación es presentado en la forma de árboles filogenéticos del lenguaje natural
- ÍtemEmbargoUnsupervised machine learning for the classification of astrophysical X-ray sources(Universidad del Rosario, ) Pérez Díaz, Víctor Samuel; Martínez Galarza, Juan Rafael; Caicedo Dorado, Alexander; Matemáticas Aplicadas y Computación - MACCContexto. El Chandra Source Catalog (CSC), que recoge las fuentes de rayos X detectadas por el Observatorio de Rayos X Chandra a lo largo de su historia, es un terreno fértil para el descubrimiento, ya que muchas de las fuentes que contiene no han sido estudiadas en detalle. En el CSC podríamos encontrar varios tipos de fuentes, desde objetos estelares jóvenes (YSO) y sistemas binarios, hasta incluso cuásares muy lejanos (QSO) o galaxias activas con agujeros negros supermasivos en sus núcleos. Entre las fuentes que podrían cambiar el paradigma y que podríamos buscar en los datos de Chandra están las fusiones de objetos compactos, los tránsitos de planetas extrasolares, los eventos de disrupción de mareas, etc. Sin embargo, sólo se ha clasificado una pequeña fracción de las fuentes del CSC. Para llevar a cabo una investigación exhaustiva de las fuentes del CSC, y estar preparados para los próximos grandes estudios de rayos X, necesitamos clasificar tantas fuentes del catálogo como sea posible. Objetivos. Este trabajo propone un enfoque de aprendizaje no supervisado para clasificar el mayor número posible de fuentes del Chandra Source Catalog, explorando primero las ventajas y los límites de utilizar sólo los datos de rayos X disponibles. El aprendizaje no supervisado es especialmente adecuado dada la gran cantidad de detecciones que aún no han sido clasificadas de forma independiente. Agrupando las observaciones de las fuentes por sus similitudes, y asociando después estos grupos con objetos previamente clasificados espectroscópicamente, buscamos proponer una nueva metodología que pueda proporcionarnos una clasificación probabilística para una numerosa cantidad de fuentes. Métodos. Empleamos métodos de aprendizaje no supervisado, primero K-means, y luego Gaussian Mixtures, aplicados a una lista de propiedades de rayos X, para clasificar probabilísticamente las fuentes de alta energía en el Chandra Source Catalog (CSC). Esto lo conseguimos asociando clusters específicos con aquellos objetos del CSC que tienen una clasificación en la base de datos SIMBAD, y luego asignando clases probabilísticas por asociación a los objetos no clasificados en cada cluster con un algoritmo basado en la distancia de Mahalanobis. Resultados. Somos capaces de identificar con éxito clusters de objetos previamente identificados que probablemente pertenezcan a la misma clase, e incluso dentro de los grupos que fueron identificados teniendo predominantemente un tipo de fuente, como "galaxias", "QSO", "YSO", encontramos subclases relacionadas con su variabilidad y propiedades espectrales únicas. El resultado de este ejercicio es una clasificación probabilística robusta (es decir, una posterior sobre las clases) para 10090 de las fuentes del CSC. Las tablas correspondientes a cada cluster y el código respectivo están disponibles en https://github.com/BogoCoder/astrox. Conclusiones. Hemos desarrollado una metodología para proporcionar una asignación probabilística de clases a numerosas fuentes de rayos X del Chandra Source Catalog. A través de este proceso hemos visto que es posible construir un pipeline basado en aprendizaje automático no supervisado para esta tarea. Hemos visto que nuestro enfoque funciona bien para determinados tipos de fuentes generales, como un YSO, o fuentes extragalácticas. En otros casos, tenemos ambigüedad en el número de clases presentes en un cluster particular, teniendo clases predominantes muy diferentes dentro de ellos. Esta ambigüedad podría resolverse añadiendo datos de otro régimen de longitudes de onda, como datos ópticos del SDSS (Sloan Digital Survey Summary). Este análisis está previsto para un futuro trabajo. Esta tesis presenta una primera aproximación al objetivo final de clasificar todas las posibles fuentes CSC que carecen de una clase.