Ítem
Acceso Abierto

Teoría de la información y la compresión de cadenas
dc.contributor.advisor | Álvarez Cabrera, Carlos Eduardo | |
dc.creator | Hernández Ramírez, Esteban | |
dc.creator.degree | Profesional en Matemáticas Aplicadas y Ciencias de la Computación | |
dc.creator.degreeLevel | Pregrado | |
dc.creator.degreetype | Full time | |
dc.date.accessioned | 2023-03-12T01:02:23Z | |
dc.date.available | 2023-03-12T01:02:23Z | |
dc.date.created | 2022-11-23 | |
dc.description | El problema de la compresión sin perdida consiste en implementar la codificación (únicamente decodificable) de un alfabeto, que asigna a cada cadena de símbolos del alfabeto el código de menor longitud posible. Encontrar esta representación de menor tamaño de un conjunto de datos puede ahorrar costos en el espacio de almacenamiento, tiempo en transferencia de los datos o número de operaciones en su procesamiento, dentro de un computador. Lo anterior hace de la compresión sin perdida un objetivo razonable dentro de las Ciencias de la Computación y representa un reto importante durante el desarrollo de muchas soluciones tecnológicas. La teoría de la información, por su parte, ha establecido el formalismo matemático necesario para el estudio de medidas cuantitativas de información como la entropía de Shannon y ha encontrado su lugar dentro de la implementación de la compresión sin perdida al proveer algunas de las herramientas teóricas necesarias para el estudio de los modelos que describen las fuentes de datos en la teoría de la codificación. Por otro lado, la cercana relación que se ha encontrado entre la teoría de la información y la teoría de la compresión sin perdida ha motivado a muchos autores a ingeniar formas de medir a través de la compresión de archivos la información en ellos. Lo que ha resultado en interesantes aplicaciones de la compresión sin perdida en el aprendizaje automático, particularmente, en la clasificación de textos escritos en lenguaje natural o cadenas de ADN. En este escrito, se presenta una revisión monográfica acerca de cómo la teoría de la información se aplica a la compresión sin perdida. Para esto, se presentan algunas de las implementaciones de la compresión sin perdida en la teoría de códigos y sus respectivos análisis. Las demostraciones, gráficas, algoritmos e implementaciones en este escrito generalizan algunos de los hechos más importantes acerca de codificaciones binarias que se han enunciado en la literatura, al caso general de alfabetos de tamaños arbitrarios. Finalmente, se presenta una aplicación de la compresión sin perdida al aprendizaje automático de máquina, para la clasificación del lenguaje natural, mediante la aplicación del algoritmo de codificación LZ77 para estimar algunas medidas de información bien conocidas en la literatura, las cuales se emplean como medida de distancia para comparar los lenguajes entre sí. El resultado de la clasificación es presentado en la forma de árboles filogenéticos del lenguaje natural | |
dc.description.abstract | The lossless compression problem consists in implementing the encoding (uniquely decodable) of an alphabet, which assigns to each string of symbols of the alphabet the shortest possible code length. Finding this smallest representation of data can save costs in storage space, data transfer time, or number of data processing operations within a computer. This makes lossless compression a reasonable goal in Computer Science and represents a significant challenge during the development of many technological solutions. Information theory, for its part, has established the necessary mathematical formalism for the study of quantitative measures of information such as Shannon entropy and has found its place within the implementation of lossless compression by providing some of the theoretical tools necessary for the study of models that describe data sources in coding theory. On the other hand, the close relationship that has been found between information theory and lossless compression theory has motivated many authors to devise ways to measure the information in them through file compression. This has resulted in interesting applications of lossless compression in machine learning, particularly in the classification of texts written in natural language or DNA strings. In this paper, a monographic review is presented about how information theory is applied to lossless compression. For this, some of the implementations of lossless compression in code theory and their respective analysis are presented. The proofs, graphs, algorithms, and implementations in this paper generalize some of the most important facts about binary encodings that have been stated in the literature, to the general case of alphabets of arbitrary sizes. Finally, an application of lossless compression to automatic machine learning is presented, for the classification of natural language, through the application of the LZ77 coding algorithm to estimate some information measures well known in the literature, which are used as a distance metric to compare the languages with each other. The result of the classification is presented in the form of phylogenetic trees of natural language | |
dc.format.extent | 108 pp | |
dc.format.mimetype | application/pdf | |
dc.identifier.doi | https://doi.org/10.48713/10336_38216 | |
dc.identifier.uri | https://repository.urosario.edu.co/handle/10336/38216 | |
dc.language.iso | spa | |
dc.publisher | Universidad del Rosario | |
dc.publisher.department | Escuela de Ingeniería, Ciencia y Tecnología | |
dc.publisher.program | Programa de Matemáticas Aplicadas y Ciencias de la Computación - MACC | |
dc.rights | Attribution-NonCommercial-ShareAlike 4.0 International | * |
dc.rights.accesRights | info:eu-repo/semantics/openAccess | |
dc.rights.acceso | Abierto (Texto Completo) | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | * |
dc.source.bibliographicCitation | Dario Benedetto, Emanuele Caglioti y Vittorio Loreto. «Language Trees and Zipping». En: Physical Review Letters 88.4 (2002). doi: 10.1103/PhysRevLett.88.048702. | |
dc.source.bibliographicCitation | G. J. Chaitin. «A theory of program size formally identical to information theory». En: Journal of the ACM 22.3 (1975), págs. 329-340. doi: 10.1145/321892.321894. | |
dc.source.bibliographicCitation | Rudi Cilibrasi y Paul M.B Vitányi. «Clustering by compression». En: IEEE TRANSACTIONS OF INFORMATION THEORY VOL 51, NO.4 (2005). | |
dc.source.bibliographicCitation | Python community. scipy.cluster.hierarchy. 2022. url: https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html. | |
dc.source.bibliographicCitation | Thomas. M. Cover y Joy. A. Thomas. Elements of information theory. Wiley-Interscience. A John Wiley & Sons, INC, publication, 2006. | |
dc.source.bibliographicCitation | Russell. D Gray, Simon. J Greenhill y Quentin. D Atkinson. «Lenguaje evolution and human history: what a difference a data makes». En: PHYLOSOPHICAL TRANSACTIONS OF THE ROYAL SOCIERY VOL 51, NO.4 (2011). doi: 10.1098/rstb.2010.0378. | |
dc.source.bibliographicCitation | Ralph. V. L. Hartley. «Transmission of Information». En: bell system technical journal (1928). url: http://keszei.chem.elte.hu/entropia/Hartley1928text.pdf. | |
dc.source.bibliographicCitation | Esteban Hernández Ramírez. Information-theory-Clustering. Nov. de 2022. url: https://github.com/estebanhernandezr/Information-theory-Clustering. | |
dc.source.bibliographicCitation | PHILIPP VON HILGERS y AMY N. LANGVILLE. «THE FIVE GREATEST APPLICATIONS OF MARKOV CHAINS». En: Information and Control 7 (2010). url: https://langvillea.people. cofc.edu/MCapps7.pdf. | |
dc.source.bibliographicCitation | Richard A. Johnson y Dean W. Wichern. Applied multivariate statistical analysis. Pearson, Prentice hall, 2007. | |
dc.source.bibliographicCitation | K.Lindgren. Information theory for complex systems. Complex systems group. Department of Energy y Environment, 2014. isbn: 9780198520115 | |
dc.source.bibliographicCitation | A. N. Kolmogorov. «Three approaches to the quantitative definition of information». En: Problems in Information Transmission 1.1 (1965), págs. 1-7. | |
dc.source.bibliographicCitation | Stanislav Krajci et al. «Performance Analysis of Fano coding». En: Signal and Information Processing Lab (2012). | |
dc.source.bibliographicCitation | Ming Li y Paul Vitányi. An Introduction to Kolmogorov Complexity and Its Applications. Texts in computer science. Springer, 2019. isbn: 978-3-030-11297-4. | |
dc.source.bibliographicCitation | Toshiko Matsumoto. «Biological Sequence Compression Algorithms». En: Genome Informatics 11 (2000), págs. 43-52. doi: 10.11234/GI1990.11.43. | |
dc.source.bibliographicCitation | Organización de Naciones Unidas. Base de datos de la Declaración Universal de los Derechos Humanos. 2022. url: https://www.ohchr.org/es/universal-declaration-of-human-rights. | |
dc.source.bibliographicCitation | C. E. Shannon. «A mathematical theory of communication». En: The Bell System Technical Journal 27.3 (1948), págs. 379-423. doi: 10.1002/j.1538-7305.1948.tb01338.x. | |
dc.source.bibliographicCitation | R. J. Solomonoff. «A formal theory of inductive inference». En: Information and Control 7 Parts 1 and 2.1-22 (1964), págs. 224-254. doi: https://doi.org/10.1016/S0019-9958(64)90223-2. | |
dc.source.bibliographicCitation | Madhu Sudan y Xiang David. «A Self-Contained Analysis of the Lempel-Ziv Compression Algorithm». En: Harvard John A. Paulson School of Engineering and Applied Sciences (2019). | |
dc.source.bibliographicCitation | Andreia Teixeira et al. «Entropy Measures vs. Kolmogorov Complexity». En: Entropy 13.3 (2011), págs. 595-611. issn: 1099-4300. doi: 10.3390/e13030595. url: https://www.mdpi.com/1099-4300/13/3/595. | |
dc.source.bibliographicCitation | Benedetta Tondi y Mauro Barni. Lectures notes on Information Theory and Coding. Universita degli Studi di Siena Facolta di Ingegneria, 2012. | |
dc.source.bibliographicCitation | Paul M.B. Vitányi. «How Incomputable Is Kolmogorov Complexity?» En: Entropy 22.4 (2020). issn: 1099-4300. doi: 10.3390/e22040408. url: https://www.mdpi.com/1099-4300/22/4/408. | |
dc.source.bibliographicCitation | Mark M. Wilde. Quantum Information Theory. Cambridge University press, 2013. isbn: 978-1-107-03425-9. | |
dc.source.bibliographicCitation | Christina Zeeh. The Lempel Ziv Algorithm. Seminar ”Famous Algorithms”. 2003. | |
dc.source.bibliographicCitation | Jacob Ziv y Abraham Lempel. «A Universal Algorithm for Sequential Data Compression». En: IEEE TRANSACTIONS ON INFORMATION THEORY 23.3 (1977), págs. 337-343. doi: 10.1109/TIT.1977.1055714. | |
dc.source.bibliographicCitation | Peter Zörnig. Non-linear programming. De Gruyter Textbook. 2014. doi: https://doi.org/10.1515/9783110315288. | |
dc.source.instname | instname:Universidad del Rosario | |
dc.source.reponame | reponame:Repositorio Institucional EdocUR | |
dc.subject | Teoría de la información | |
dc.subject | Teoría de la codificación | |
dc.subject | Compresión de archivos | |
dc.subject | Entropía de Shannon | |
dc.subject | Aprendizaje automático de máquina | |
dc.subject | Codificación de Huffman | |
dc.subject | Procesamiento del lenguaje natural | |
dc.subject | Árboles filogenéticos del lenguaje natural | |
dc.subject | Principio de máxima entropía | |
dc.subject | Divergencia Kullback-Leibler | |
dc.subject | Procesos estocásticos | |
dc.subject | Contenido de información de Hartley | |
dc.subject.keyword | Information theory | |
dc.subject.keyword | Coding theory | |
dc.subject.keyword | File compression | |
dc.subject.keyword | Machine learning | |
dc.subject.keyword | Shannon's entropy | |
dc.subject.keyword | Huffman coding | |
dc.subject.keyword | LZ77 | |
dc.subject.keyword | Natural language processing | |
dc.subject.keyword | Phylogenetic trees of natural language | |
dc.subject.keyword | Principle of maximum entropy | |
dc.subject.keyword | Kullback-Leibler divergence | |
dc.subject.keyword | Stochastic processes | |
dc.title | Teoría de la información y la compresión de cadenas | |
dc.title.TranslatedTitle | Information theory and file compression | |
dc.type | bachelorThesis | |
dc.type.document | Trabajo de grado | |
dc.type.hasVersion | info:eu-repo/semantics/acceptedVersion | |
dc.type.spa | Trabajo de grado | |
local.department.report | Escuela de Ingeniería, Ciencia y Tecnología |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Teoria_de_la_informacion_y-la compresion-de-cadenas.pdf
- Tamaño:
- 2.22 MB
- Formato:
- Adobe Portable Document Format
- Descripción: