Ítem
Embargo

Unsupervised machine learning for the classification of astrophysical X-ray sources

dc.contributor.advisorMartínez Galarza, Juan Rafael
dc.contributor.advisorCaicedo Dorado, Alexander
dc.contributor.gruplacMatemáticas Aplicadas y Computación - MACCes
dc.creatorPérez Díaz, Víctor Samuel
dc.creator.degreeProfesional en Matemáticas Aplicadas y Ciencias de la Computaciónes
dc.creator.degreeLevelPregrado
dc.creator.degreetypeFull timees
dc.date.accessioned2022-03-01T15:56:26Z
dc.date.available2022-03-01T15:56:26Z
dc.date.created2021-11-24
dc.date.embargoEndinfo:eu-repo/date/embargoEnd/2024-03-08
dc.descriptionContexto. El Chandra Source Catalog (CSC), que recoge las fuentes de rayos X detectadas por el Observatorio de Rayos X Chandra a lo largo de su historia, es un terreno fértil para el descubrimiento, ya que muchas de las fuentes que contiene no han sido estudiadas en detalle. En el CSC podríamos encontrar varios tipos de fuentes, desde objetos estelares jóvenes (YSO) y sistemas binarios, hasta incluso cuásares muy lejanos (QSO) o galaxias activas con agujeros negros supermasivos en sus núcleos. Entre las fuentes que podrían cambiar el paradigma y que podríamos buscar en los datos de Chandra están las fusiones de objetos compactos, los tránsitos de planetas extrasolares, los eventos de disrupción de mareas, etc. Sin embargo, sólo se ha clasificado una pequeña fracción de las fuentes del CSC. Para llevar a cabo una investigación exhaustiva de las fuentes del CSC, y estar preparados para los próximos grandes estudios de rayos X, necesitamos clasificar tantas fuentes del catálogo como sea posible. Objetivos. Este trabajo propone un enfoque de aprendizaje no supervisado para clasificar el mayor número posible de fuentes del Chandra Source Catalog, explorando primero las ventajas y los límites de utilizar sólo los datos de rayos X disponibles. El aprendizaje no supervisado es especialmente adecuado dada la gran cantidad de detecciones que aún no han sido clasificadas de forma independiente. Agrupando las observaciones de las fuentes por sus similitudes, y asociando después estos grupos con objetos previamente clasificados espectroscópicamente, buscamos proponer una nueva metodología que pueda proporcionarnos una clasificación probabilística para una numerosa cantidad de fuentes. Métodos. Empleamos métodos de aprendizaje no supervisado, primero K-means, y luego Gaussian Mixtures, aplicados a una lista de propiedades de rayos X, para clasificar probabilísticamente las fuentes de alta energía en el Chandra Source Catalog (CSC). Esto lo conseguimos asociando clusters específicos con aquellos objetos del CSC que tienen una clasificación en la base de datos SIMBAD, y luego asignando clases probabilísticas por asociación a los objetos no clasificados en cada cluster con un algoritmo basado en la distancia de Mahalanobis. Resultados. Somos capaces de identificar con éxito clusters de objetos previamente identificados que probablemente pertenezcan a la misma clase, e incluso dentro de los grupos que fueron identificados teniendo predominantemente un tipo de fuente, como "galaxias", "QSO", "YSO", encontramos subclases relacionadas con su variabilidad y propiedades espectrales únicas. El resultado de este ejercicio es una clasificación probabilística robusta (es decir, una posterior sobre las clases) para 10090 de las fuentes del CSC. Las tablas correspondientes a cada cluster y el código respectivo están disponibles en https://github.com/BogoCoder/astrox. Conclusiones. Hemos desarrollado una metodología para proporcionar una asignación probabilística de clases a numerosas fuentes de rayos X del Chandra Source Catalog. A través de este proceso hemos visto que es posible construir un pipeline basado en aprendizaje automático no supervisado para esta tarea. Hemos visto que nuestro enfoque funciona bien para determinados tipos de fuentes generales, como un YSO, o fuentes extragalácticas. En otros casos, tenemos ambigüedad en el número de clases presentes en un cluster particular, teniendo clases predominantes muy diferentes dentro de ellos. Esta ambigüedad podría resolverse añadiendo datos de otro régimen de longitudes de onda, como datos ópticos del SDSS (Sloan Digital Survey Summary). Este análisis está previsto para un futuro trabajo. Esta tesis presenta una primera aproximación al objetivo final de clasificar todas las posibles fuentes CSC que carecen de una clase.es
dc.description.abstractContext. The Chandra Source Catalog (CSC), which collects the X-ray sources detected by the Chandra X-ray Observatory through its history, is a fertile ground for discovery, because many of the sources it contains have not been studied in detail. In CSC we could find several types of sources, from young stellar objects (YSO) and binary systems, to even very far quasars (QSO) or active galaxies with supermassive black holes in their cores. Among the potentially paradigm changing sources that we could look for in Chandra data are compact object mergers, extrasolar planet transits, tidal disruption events, etc. However, only a small fraction of the CSC sources have been classified. In order to conduct a thorough investigation of the CSC sources, and to be prepared for the coming very large X-ray surveys, we need to classify as many catalog sources as possible. Aims. This work proposes an unsupervised learning approach to classify as many Chandra Source Catalog sources as possible, first exploring the advantages and limits of using only the X-ray data available. Unsupervised learning is particularly suitable given the vast amount of detections that have not been independently classified yet. Clustering the source observations by their similarities, and then associating these clusters with objects previously classified spectroscopically, we aim to propose a new methodology that could provide us with a probabilistic classification for a numerous amount of sources. Methods. We employ unsupervised learning methods, first K-means, then focusing on Gaussian Mixtures, applied to a list of X-ray properties, to probabilistically classify high energy sources in the Chandra Source Catalog (CSC). We achieve this by associating specific clusters with those CSC objects that have a classification in the SIMBAD database, and then assigning probabilistic classes by association to unclassified objects in each cluster with an algorithm based on the Mahalanobis distance. Results. We are able to successfully identify clusters of previously identified objects that likely belong to the same class, and even within groups that were identified as having predominantly a type of source, such as "galaxies", "QSO", "YSO", we find sub-classes related to their unique variability and spectral properties. The result of this exercise is a robust probabilistic classification (i.e. a posterior over classes) for 10090 of CSC sources. The tables for each cluster and respective code is available at https://github.com/BogoCoder/astrox. Conclusions. We developed a methodology to provide probabilistic class assignation to numerous X-ray sources of the Chandra Source Catalog. Through this process we have seen that it is possible to construct a pipeline based on unsupervised machine learning for this task. We have seen that our approach works well for particular general type of sources, such as a YSO, or extra-galactic sources. In other cases, we have ambiguity in the number of classes presented in a particular cluster, having very different predominant types within them. This ambiguity might be solved by an addition of other wavelength regime data, such as optical from SDSS (Sloan Digital Survey Summary). This analysis is planned for a future work. This thesis present an early approach for the final goal of classifying all possible CSC sources that lacks of a class.es
dc.description.embargo2022-03-14 14:41:02: Script de automatizacion de embargos. Correo recibido 1 mar 2022: hablando con mis directores de tesis después del cargado del archivo concluimos que sería mejor que tuviera acceso restringido, pues estamos expandiendo los resultados para un paper. Si me pueden ayudar con esto sería genial. Correo respuesta 8 mar 2022: De acuerdo con su solicitud, el documento ha quedado embargado por 2 años hasta el 8 de marzo de 2022 en concordancia con las Políticas de Acceso Abierto de la Universidad. Si usted desea dejarlo con acceso abierto antes de finalizar dicho periodo o si por el contrario desea extender el embargo al finalizar este tiempo, puede enviar un correo a esta misma dirección realizando la solicitud. Tenga en cuenta que los documentos en acceso abierto propician una mayor visibilidad de su producción académica. De otra parte, dado que desea publicar su obra en una revista de prestigio, queremos invitarlo a tomar una asesoría con nuestros asesores de información del CRAI, quienes podrán brindarle orientación en la identificación de una revista adecuada para su obra y acompañamiento en la edición para publicación. La solicitud de asesoría puede agendarla en el siguiente link: https://n9.cl/agendamiento_servicios_crai
dc.format.extent58 ppes
dc.format.mimetypeapplication/pdfes
dc.identifier.doihttps://doi.org/10.48713/10336_33793_
dc.identifier.urihttps://repository.urosario.edu.co/handle/10336/33793
dc.language.isospaes
dc.publisherUniversidad del Rosario
dc.publisher.departmentEscuela de Ingeniería, Ciencia y Tecnología
dc.publisher.programPrograma de Matemáticas Aplicadas y Ciencias de la Computación - MACC
dc.rightsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.rights.accesRightsinfo:eu-repo/semantics/embargoedAccesses
dc.rights.accesoRestringido (Temporalmente bloqueado)es
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.source.bibliographicCitationMerloni, A; Predehl, P; Becker, W; Böhringer, H; Boller, T; Brunner, H; Brusa, M; Dennerl, K; Freyberg, M; Friedrich, P; Georgakakis, A; Haberl, F; Hasinger, G; Meidinger, N; Mohr, J; Nandra, K; Rau, A; Reiprich, T H; Robrade, J; Salvato, M; Santangelo, A; Sasaki, M; Schwope, A; Wilms, J; Consortium, The German Erosita (2012) eROSITA Science Book: Mapping the Structure of the Energetic Universe. En: arXiv [astro-ph.HE]. Disponible en: http://arxiv.org/abs/1209.3114.
dc.source.bibliographicCitationVan Rossum, Guido; Drake, Fred L (2009) Python 3 Reference Manual. Scotts Valley, CA: CreateSpace; 9781441412690;
dc.source.bibliographicCitationHarris, Charles R; Millman, K Jarrod; van der Walt, Stéfan J; Gommers, Ralf; Virtanen, Pauli; Cournapeau, David; Wieser, Eric; Taylor, Julian; Berg, Sebastian; Smith, Nathaniel J; Kern, Robert; Picus, Matti; Hoyer, Stephan; van Kerkwijk, Marten H; Brett, Matthew; Haldane, Allan; del Río, Jaime Fernández; Wiebe, Mark; Peterson, Pearu; Gérard-Marchant, Pierre; Sheppard, Kevin; Reddy, Tyler; Weckesser, Warren; Abbasi, Hameer; Gohlke, Christoph; Oliphant, Travis E (2020) Array programming with NumPy. En: Nature. Vol. 585; No. 7825; pp. 357-362 : Springer Science and Business Media LLC; Disponible en: https://doi.org/10.1038/s41586-020-2649-2; http://dx.doi.org/10.1038/s41586-020-2649-2. Disponible en: 10.1038/s41586-020-2649-2.
dc.source.bibliographicCitationHunter, J D (2007) Matplotlib: A 2D graphics environment. En: Computing in Science & Engineering. Vol. 9; No. 3; pp. 90-95 : IEEE COMPUTER SOC; Disponible en: http://dx.doi.org/10.1109/MCSE.2007.55. Disponible en: 10.1109/MCSE.2007.55.
dc.source.bibliographicCitationPandas development team, The (2020) pandas-dev/pandas: Pandas. : Zenodo; Disponible en: https://doi.org/10.5281/zenodo.3509134; http://dx.doi.org/10.5281/zenodo.3509134. Disponible en: 10.5281/zenodo.3509134.
dc.source.bibliographicCitationWaskom, Michael L (2021) seaborn: statistical data visualization. En: Journal of Open Source Software. Vol. 6; No. 60; pp. 3021 : The Open Journal; Disponible en: https://doi.org/10.21105/joss.03021; http://dx.doi.org/10.21105/joss.03021. Disponible en: 10.21105/joss.03021.
dc.source.bibliographicCitation (2013) Astropy: A community Python package for astronomy. En: Astronomy & Astrophysics. Vol. 558; pp. A33 Disponible en: http://dx.doi.org/10.1051/0004-6361/201322068; http://arxiv.org/abs/1307.6212. Disponible en: 10.1051/0004-6361/201322068.
dc.source.bibliographicCitation (2018) The Astropy Project: Building an Open-science Project and Status of the. En: The Astronomical Journal. Vol. 156; No. 3; pp. 123 Disponible en: http://dx.doi.org/10.3847/1538-3881/aabc4f; http://arxiv.org/abs/1801.02634. Disponible en: 10.3847/1538-3881/aabc4f.
dc.source.bibliographicCitationPedregosa, F; Varoquaux, G; Gramfort, A; Michel, V; Thirion, B; Grisel, O; Blondel, M; Prettenhofer, P; Weiss, R; Dubourg, V; Vanderplas, J; Passos, A; Cournapeau, D; Brucher, M; Perrot, M; Duchesnay, E (2011) Scikit-learn: Machine Learning in Python. En: Journal of Machine Learning Research. Vol. 12; pp. 2825-2830
dc.source.bibliographicCitation Wilkes, Belinda; Tucker, Wallace (2019) The Chandra X-ray Observatory. En: 2514-3433.: IOP Publishing; 9780750321631; Disponible en: http://dx.doi.org/10.1088/2514-3433/ab43dc. Disponible en: 10.1088/2514-3433/ab43dc.
dc.source.bibliographicCitationEvans, Ian N; Primini, Francis A; Glotfelty, Kenny J; Anderson, Craig S; Bonaventura, Nina R; Chen, Judy C; Davis, John E; Doe, Stephen M; Evans, Janet D; Fabbiano, Giuseppina; Galle, Elizabeth C; Gibbs, Danny G; Grier, John D; Hain, Roger M; Hall, Diane M; Harbo, Peter N; He, Xiangqun (helen); Houck, John C; Karovska, Margarita; Kashyap, Vinay L; Lauer, Jennifer; McCollough, Michael L; McDowell, Jonathan C; Miller, Joseph B; Mitschang, Arik W; Morgan, Douglas L; Mossman, Amy E; Nichols, Joy S; Nowak, Michael A; Plummer, David A; Refsdal, Brian L; Rots, Arnold H; Siemiginowska, Aneta; Sundheim, Beth A; Tibbetts, Michael S; Van Stone, David W; Winkelman, Sherry L; Zografou, Panagoula (2010) THE CHANDRA SOURCE CATALOG. En: The Astrophysical Journal Supplement Series. Vol. 189; No. 1; pp. 37-82 : American Astronomical Society; Disponible en: https://doi.org/10.1088/0067-0049/189/1/37; http://dx.doi.org/10.1088/0067-0049/189/1/37. Disponible en: 10.1088/0067-0049/189/1/37.
dc.source.bibliographicCitation (2019) First M87 Event Horizon Telescope Results. I. The Shadow of the. En: The Astrophysical Journal Letters. Vol. 875; No. 1; pp. L1 Disponible en: http://dx.doi.org/10.3847/2041-8213/ab0ec7; http://arxiv.org/abs/1906.11238. Disponible en: 10.3847/2041-8213/ab0ec7.
dc.source.bibliographicCitationPerlman, Eric S; Wilson, Andrew S (2005) The X-Ray Emissions from the M87 Jet: Diagnostics and Physical. En: The Astrophysical Journal. Vol. 627; No. 1; pp. 140-155 Disponible en: http://dx.doi.org/10.1086/430340; http://arxiv.org/abs/astro-ph/0503024. Disponible en: 10.1086/430340.
dc.source.bibliographicCitationBishop, Christopher M (2006) Pattern Recognition and Machine Learning (Information Science and. Berlin, Heidelberg: Springer-Verlag; 9780387310732;
dc.source.bibliographicCitationAlpaydin, Ethem (2014) Introduction to Machine Learning. En: Adaptive Computation and Machine Learning. Cambridge, MA: MIT Press; 9780262028189;
dc.source.bibliographicCitationDempster, A P; Laird, N M; Rubin, D B (1977) Maximum Likelihood from Incomplete Data via the EM Algorithm. En: Journal of the Royal Statistical Society. Series B (Methodological). Vol. 39; No. 1; pp. 1-38 : [Royal Statistical Society, Wiley]; 0035-9246; Disponible en: http://www.jstor.org/stable/2984875.
dc.source.bibliographicCitationNeal, Radford M; Hinton, Geoffrey E; Jordan, Michael I (1998) A View of the Em Algorithm that Justifies Incremental, Sparse, and other. En: Learning in Graphical Models. pp. 355-368 Dordrecht: Springer Netherlands; 9789401150149; Disponible en: https://doi.org/10.1007/978-94-011-5014-9_12; http://dx.doi.org/10.1007/978-94-011-5014-9_12. Disponible en: 10.1007/978-94-011-5014-9_12.
dc.source.bibliographicCitationDeisenroth, Marc Peter; Faisal, A Aldo; Ong, Cheng Soon (2020) Mathematics for Machine Learning. : Cambridge University Press;
dc.source.bibliographicCitationMahalanobis, Prasanta Chandra (1936) On the generalized distance in statistics. En: Proceedings of the National Institute of Sciences (Calcutta). Vol. 2; pp. 49-55
dc.source.bibliographicCitationWenger, M; Ochsenbein, F; Egret, D; Dubois, P; Bonnarel, F; Borde, S; Genova, F; Jasniewicz, G; Laloë, S; Lesteven, S; Monier, R (2000) The SIMBAD astronomical database. The CDS reference database for. En: AAPS. Vol. 143; pp. 9-22 Disponible en: http://dx.doi.org/10.1051/aas:2000332; http://arxiv.org/abs/astro-ph/0002110. Disponible en: 10.1051/aas:2000332.
dc.source.bibliographicCitationTaylor, M B; Shopbell, P; Britton, M; Ebert, R (2005) TOPCAT & STIL: Starlink Table/VOTable Processing Software. En: Astronomical Data Analysis Software and Systems XIV. Vol. 347; pp. 29
dc.source.bibliographicCitationMcLachlan, Geoffrey J (2005) Discriminant analysis and statistical pattern recognition. Vol. 583; John Wiley & Sons;
dc.source.bibliographicCitationMuench, August; Getman, Konstantin; Hillenbrand, Lynne; Preibisch, Thomas (2009) Star Formation in the Orion Nebula I: Stellar Content.
dc.source.bibliographicCitationLópez-Morales, Mercedes; Morrell, Nidia I; Butler, R Paul; Seager, Sara (2006) Limits to Transits of the Neptune-Mass Planet Orbiting GJ 5811. Vol. 118; No. 849; pp. 1506-1509 : IOP Publishing; Disponible en: https://doi.org/10.1086/508904; http://dx.doi.org/10.1086/508904. Disponible en: 10.1086/508904.
dc.source.bibliographicCitationRani, B; Madejski, G M; Mushotzky, R F; Reynolds, C; Hodgson, J A (2018) NuStar View of the Central Region of the Perseus Cluster. Vol. 866; No. 1; pp. L13 : American Astronomical Society; Disponible en: https://doi.org/10.3847/2041-8213/aae48f; http://dx.doi.org/10.3847/2041-8213/aae48f. Disponible en: 10.3847/2041-8213/aae48f.
dc.source.bibliographicCitationVéron-Cetty, M.-P.; Véron, P. (2006) A catalogue of quasars and active nuclei: 12th edition. En: A&A. Vol. 455; No. 2; pp. 773-777 Disponible en: https://doi.org/10.1051/0004-6361:20065177; http://dx.doi.org/10.1051/0004-6361:20065177. Disponible en: 10.1051/0004-6361:20065177.
dc.source.bibliographicCitationMatt, G.; Bianchi, S.; Guainazzi, M.; Barcons, X.; Panessa, F. (2012) The Suzaku X-ray spectrum of NGC 3147. En: A&A. Vol. 540; pp. A111 Disponible en: https://doi.org/10.1051/0004-6361/201118729; http://dx.doi.org/10.1051/0004-6361/201118729. Disponible en: 10.1051/0004-6361/201118729.
dc.source.bibliographicCitationPotekhin, A Y; Zyuzin, D A; Yakovlev, D G; Beznogov, M V; Shibanov, Yu A (2020) Thermal luminosities of cooling neutron stars. En: Monthly Notices of the Royal Astronomical Society. Vol. 496; No. 4; pp. 5052-5071 0035-8711; Disponible en: https://doi.org/10.1093/mnras/staa1871; http://dx.doi.org/10.1093/mnras/staa1871. Disponible en: 10.1093/mnras/staa1871.
dc.source.bibliographicCitationHsiang, Jr-Yue; Chang, Hsiang-Kuang (2021) The power-law component of the X-ray emissions from pulsar-wind nebulae. En: Monthly Notices of the Royal Astronomical Society. Vol. 502; No. 1; pp. 390-397 0035-8711; Disponible en: https://doi.org/10.1093/mnras/stab025; http://dx.doi.org/10.1093/mnras/stab025. Disponible en: 10.1093/mnras/stab025.
dc.source.bibliographicCitationLin, Dacheng; Webb, Natalie A; Barret, Didier (2012) CLASSIFICATION OF X-RAY SOURCES IN THEXMM-NEWTONSERENDIPITOUS SOURCE. Vol. 756; No. 1; pp. 27 : American Astronomical Society; Disponible en: https://doi.org/10.1088/0004-637x/756/1/27; http://dx.doi.org/10.1088/0004-637x/756/1/27. Disponible en: 10.1088/0004-637x/756/1/27.
dc.source.bibliographicCitationPineau, F-X; Derriere, S; Michel, L; Motch, C (2010) Comparison of classification methods for XMM sources. En: Astronomical Data Analysis Software and Systems XIX. Vol. 434; pp. 369
dc.source.bibliographicCitationLo, Kitty K; Farrell, Sean; Murphy, Tara; Gaensler, B M (2014) Automatic classification of time-variable X-ray sources. En: The Astrophysical Journal. Vol. 786; No. 1; pp. 20 : IOP Publishing;
dc.source.bibliographicCitationFarrell, Sean A; Murphy, Tara; Lo, Kitty K (2015) Autoclassification of the variable 3xmm sources using the random forest. En: The Astrophysical Journal. Vol. 813; No. 1; pp. 28 : IOP Publishing;
dc.source.bibliographicCitationRostami Osanloo, Mehrdad; Rangelov, Blagoy; Kargaltsev, Oleg; Hare, Jeremy (2019) Classification of Extragalactic X-Ray Sources Using Machin Learning. En: AAS. Vol. 233; pp. 457-403
dc.source.bibliographicCitationAnsari, Zoe; Agnello, Adriano; Gall, Christa (2021) Mixture models for photometric redshifts. En: A&A. Vol. 650; pp. A90 Disponible en: https://doi.org/10.1051/0004-6361/202039675; http://dx.doi.org/10.1051/0004-6361/202039675. Disponible en: 10.1051/0004-6361/202039675.
dc.source.bibliographicCitationLogan, C. H. A.; Fotopoulou, S. (2020) Unsupervised star, galaxy, QSO classification. En: A&A. Vol. 633; pp. A154 Disponible en: https://doi.org/10.1051/0004-6361/201936648; http://dx.doi.org/10.1051/0004-6361/201936648. Disponible en: 10.1051/0004-6361/201936648.
dc.source.instnameinstname:Universidad del Rosario
dc.source.reponamereponame:Repositorio Institucional EdocUR
dc.subjectClusteringes
dc.subjectGMMes
dc.subjectK-meanses
dc.subjectChandra Source Cataloges
dc.subjectChandra X-ray Observatoryes
dc.subjectClasificaciónes
dc.subjectAgrupaciónes
dc.subjectAprendizaje automático no supervisadoes
dc.subjectAstrofísica de alta energíaes
dc.subjectRayos Xes
dc.subject.ddcProbabilidades & matemáticas aplicadases
dc.subject.keywordClassificationes
dc.subject.keywordClusteringes
dc.subject.keywordK-meanses
dc.subject.keywordGMMes
dc.subject.keywordChandra X-ray Observatoryes
dc.subject.keywordChandra Source Cataloges
dc.subject.keywordUnsupervised Machine Learninges
dc.subject.keywordX-rayes
dc.subject.keywordHigh Energy Astrophysicses
dc.titleUnsupervised machine learning for the classification of astrophysical X-ray sourceses
dc.title.TranslatedTitleAprendizaje Automático No Supervisado para la Clasificación de Fuentes Astrofísicas de Rayos Xes
dc.typebachelorThesiseng
dc.type.documentTrabajo de gradoes
dc.type.hasVersioninfo:eu-repo/semantics/acceptedVersion
dc.type.spaTrabajo de gradospa
Archivos
Bloque original
Mostrando1 - 2 de 2
Cargando...
Miniatura
Nombre:
PerezDiaz-VictorSamuel-2021.pdf
Tamaño:
7.63 MB
Formato:
Adobe Portable Document Format
Descripción:
Main thesis document.
Cargando...
Miniatura
Nombre:
references.ris
Tamaño:
22.17 KB
Formato:
Unknown data format
Descripción:
References.