Valérie Gauthier-Umaña Rafael Alberto Méndez-Romero Jeimy Cano Jorge Ramió Aguirre Luis Enrique Sánchez Crespo —Editores académicos— Seguridad Informática X Congreso Iberoamericano CIBSI 2020 SEGURIDAD INFORMÁTICA X Congreso Iberoamericano, CIBSI 2020 Valérie Gauthier-Umaña Rafael Alberto Méndez-Romero Jeimy Cano Jorge Ramió Aguirre Luis Enrique Sánchez Crespo —Editores académicos— Bogotá D. C., 2020 Editorial Universidad del Rosario Universidad del Rosario © Varios autores ISBN-e: 978-958-784-393-4 https://doi.org/10.12804/si9789587844337 Diseño portada y preliminares Precolombi EU, David Reyes Hecho en Colombia Made in Colombia Los conceptos y opiniones de esta obra son de exclusiva responsabilidad de sus autores y no comprometen a la Universidad ni sus políticas institucionales. Contenido Prefacio 6 Big data e inteligencia artificial aplicada a la seguridad 1. Definiendo Métricas para la Gestión Dinámica del riesgo, mediante la metodología MARISMA 8 Luis E. Sánchez, Antonio Santos-Olmo, Julio Moreno, Manuel Serrano, David G. Rosado, Eduardo Fernández-Medina 2. Inteligencia Artificial aplicada al Análisis Forense Digital: Una revisión preliminar 19 J. J. Cano, J. D. Miranda, S. Pinzón 3. MARISMA BiDa: Gestión y control del riesgo en Big Data. Caso de estudio 28 David G. Rosado, Julio Moreno, Luis E. Sánchez, Antonio Santos-Olmo, Manuel A. Serrano, Eduardo Fernández-Medina Análisis forense aplicado a sistemas multimedia 4. Detección de Manipulaciones Copy-Move en Ficheros Multimedia mediante la Transformada Discreta del Coseno 42 Esteban Alejandro Armas Vega, Ana Lucila Sandoval Orozco, Luis Javier García Villalba, Member, IEEE 5. Detección de Post-Procesamiento en Vídeos Digitales de Dispositivos Móviles mediante el Análisis de la Estructura del Contenedor Multimedia 54 Carlos Quinto Huamán, Daniel Povedano Álvarez, Ana Lucila Sandoval Orozco, Luis Javier García Villalba, Member, IEEE 3 6. Técnica de Detección de Manipulación en Vídeos Digitales Basada en los Algoritmos de Compresión 64 Edgar González Fernández, Ana Lucila Sandoval Orozco, and Luis Javier García Villalba, Member, IEEE Tendencias en seguridad 7. Methodology to Securitize Smart Toys in Household Environments 76 P. González, F. Paniagua, D. Suárez, J. J. Nombela 8. Análisis de la Estructura del Contenedor de Vídeos Digitales de Dispositivos Móviles para identificación de la Fuente de Vídeos en Escenarios Abiertos 85 Raquel Ramos López, Elena Almaraz Luengo, Ana Lucila Sandoval Orozco, Luis Javier García Villalba, Member IEEE Análisis de amenazas y vulnerabilidades 9. Modelo SOCIA. Una reflexión conceptual y práctica desde la perspectiva del adversario 97 Jeimy J. Cano M. 10. Amenazas Cibernéticas a la Seguridad y Defensa Nacional. Reflexiones y perspectivas en Colombia 105 M. E. Realpe, J. Cano Gestión de la seguridad y análisis de riesgos 11. Realizando una Revisión Sistemática de Metodologías ISRA orientadas a la Seguridad TIC. Periodo 2014-2019 115 L. E. Sánchez, A. Santos-Olmo, V. Figueroa, D.G. Rosado, E. Fernandez-Medina 12. Análisis de la Privacidad y de la Seguridad en Contratos Inteligentes 130 Antonio López Vivar, Ana Lucila Sandoval Orozco, and Luis Javier García Villalba, Member IEEE 4 13. Revisión Sistemática de Análisis de Riesgos Asociativos y Jerárquicos. Periodo 2014 2019 139 A. Santos-Olmo, L. E. Sánchez, E. Álvarez, D.G. Rosado, E. Fernandez-Medina Seguridad en redes 14. Análisis y evaluación de la Seguridad proporcionada por DNSSEC en Redes de Información IPv6 en un escenario de pruebas controlado 149 D. K Terán Arévalo, D. V. Fernández García, F. J Terán Cuarán 15. Vulnerability Analysis Oriented to Business Logic of Web Applications. A Case Study 157 William-Rogelio Marchand-Niño, Claudia Terrones Murga 16. Análisis y Monitorización por Agrupamiento de Contenido Multimedia en Redes SDN 165 Jesús Antonio Puente Fernández and Luis Javier García Villalba, Member IEEE 17. Encryption with TLS Protocol version 1.2 and Web Sites Performance. A Case Study 172 William-Rogelio Marchan, Edgar Etson Rueda Liberato Tendencias de la educación en seguridad 18. Laboratory for Vulnerability Analysis and CIS Controls on Layer 2 Switches 181 William-Rogelio Marchand-Niño, José Martin Santillan Ruiz 19. Estrategias para la implementación y adopción de componentes curriculares de ciberseguridad en programas de grado y posgrado 191 F.A. Corredor, D. C. Franco, J. E. Martínez 5 Prefacio El x Congreso Iberoamericano de Seguridad Informática - cibsi 2020 se celebró del 22 al 24 de enero de 2020, en el antiguo Claustro en la Universidad Rosario, en la ciudad de Bogotá (Colombia). Fue organizado por el Departamento de Matemáticas Aplicadas y Ciencias de la Computación (macc) de la Universidad del Rosario y criptored, con el apoyo de Internet Society – Colombia Chapter y Bizagi. El objetivo principal del cibsi fue promover y desarrollar el área de la Seguridad de la Información, generando un ámbito permanente de aprendizaje e intercambio de experiencias alrededor de esta disciplina, abordando temas y aspectos de actualidad que son la principal preocupación de quienes se desempeñan en el sector. Se recibieron 37 artículos (full papers) y fue aceptado para presentarse en el congreso su 43%, es decir, 16 artículos. Todo ellos giraron en torno a las siguientes categorías: • big-data e Inteligencia Artificial aplicada a la Seguridad • Análisis Forense aplicado a Sistemas Multimedia • Tendencias en Seguridad • Análisis de Amenazas y Vulnerabilidades • Gestión de la Seguridad y Análisis de Riesgos • Seguridad en Redes • Tendencias de la Educación en Seguridad. Los editores 6 Big data e inteligencia artificial aplicada a la seguridad Definiendo Métricas para la Gestión Dinámica del riesgo, mediante la metodología MARISMA Luis E. Sánchez, Antonio Santos-Olmo, Julio Moreno, Manuel Serrano, David G. Rosado, Eduardo Fernández-Medina Resumen – En una sociedad en que los sistemas de Análisis y Para proteger estos sistemas recurrimos a la gestión de la Gestión del riesgo son cada vez más necesarios para la correcta seguridad, que según [6] puede definirse como un sistema de Gestión de la Seguridad de las compañías, surge la problemática gestión usado para establecer y mantener un entorno seguro de de cómo hacer que estos sistemas pueden evolucionar y aprender de una forma natural, contando con la mayor información la información. El objetivo principal de un SGSI (Sistema de posible. Esta evolución del riesgo tiene que estar asociada con los Gestión de Seguridad de la Información) es afrontar la puesta eventos que ocurren dentro de la compañía, tanto los que pueden en práctica y el mantenimiento de los procesos y ser automatizados como los que deben gestionarse de forma procedimientos necesarios para manejar la seguridad de las manual, pero también debe poder asociarse con los riesgos tecnologías de la información. Estas acciones incluyen la externos que cambian con el tiempo. En este artículo identificación de las necesidades de seguridad de la presentamos algunas de las métricas que se han definido dentro de la metodología MARISMA (Methodology for the Analysis of información y la puesta en práctica de estrategias para Risks on Information System, using Meta-Pattern and satisfacer estas necesidades, medir los resultados y mejorar las Adaptability), con el objetivo de conseguir que los análisis de estrategias de protección. riesgos sean capaces de evolucionar de forma dinámica teniendo La definición de un SGSI es una tarea ardua y compleja en cuenta elementos internos y externos, incluso los asociados con que requiere un proceso previo de definición en la compañía riesgos de terceras compañías. donde se quiere establecer. Una de las fases más importantes para la implantación de un SGSI es la de Análisis y gestión de Palabras clave — Cibersecurity, Information Systems Security riesgos, que para algunos investigadores es una de las fases Management, ISRA, Information Security Risk Analysis, ISMS, más críticas [7]. Risk Analysis. Todas las organizaciones que utilizan tecnologías de la información tienen problemas con la seguridad de su sistema I. INTRODUCCIÓN de información. El primer paso en el proceso de protección de Hoy en día, los elementos digitales o las infraestructuras un sistema de información es la identificación y clasificación (computadoras, redes, contenidos, etc.) son elementos cada de los recursos o activos de información que necesitan vez más complejos y dependientes de las TI, que están en el protección, porque son vulnerables a las amenazas, y para centro de nuestras vidas y constituyen los pilares esenciales de realizar este paso necesitamos contar con sistemas de análisis nuestras infraestructuras de comunicación, económicas, y gestión de riesgos adecuados [8]. Diferentes investigadores sociales e institucionales [1]. La seguridad y la mitigación de destacan que la gestión de riesgos es un proceso esencial en amenazas dentro de esos sistemas se ha convertido cualquier modelo de gestión empresarial [9, 10], y que la implícitamente en una parte fundamental para el ciudadano información es un activo valioso que se espera que esté (para preservar su privacidad), para la empresa (para proteger protegido. los activos y transacciones digitales) y para los estados (para Un análisis de riesgos es un proceso sistemático para proteger sus infraestructuras críticas y asegurar la continuidad estimar la magnitud de los riesgos a los que está expuesta una del gobierno y servicios gubernamentales, etc.) [2, 3]. organización, para saber qué decisión tomar ante una posible Esta seguridad es cada vez más importante en entornos eventualidad [11]. Para ello, se seleccionan e implementan como el sector salud, las PYMES, las Infraestructuras Criticas, salvaguardas para poder conocer, prevenir, impedir, reducir o las Industrias asociadas con la Industria 4.0, o en los propios controlar los riesgos identificados. Esto es lo que se entiende ciudadanos con la aparición de conceptos como el IoT y los como gestión de riesgos. sistemas ciberfisicos [4, 5]. De forma más técnica, el análisis de riesgos permite determinar cómo es, cuánto vale y cómo de protegidos se L. E. Sánchez, Grupo de Investigación GSyA, Universidad de Castilla-la encuentran los activos. En coordinación con los objetivos, Mancha, Ciudad Real, España, Luisenrique@sanchezcrespo.org estrategia y política de la organización, las actividades de A. Santos-Olmo, Departamento I+D+i, Sicaman Nuevas Tecnologías y Marisma Shield, Tomelloso (Ciudad Real), España, Asolmo@sicaman-nt.com gestión de riesgos permiten elaborar un plan de seguridad que, Julio Moreno, Grupo de Investigación GSyA, Universidad de Castilla-la implantado y operado, satisfaga los objetivos propuestos con Mancha, Ciudad Real, España, Julio.moreno@uclm.es el nivel de riesgo que acepta la dirección. Manuel A. Serrano, Grupo de Investigación Alarcos, Universidad de Castilla-la Mancha, Ciudad Real, España, Manuel.serrano@uclm.es. Actualmente se están realizando muchas investigaciones D.G. Rosado, Grupo de Investigación GSyA, Universidad de Castilla-la sobre análisis de riesgos, y muchas de ellas intentan comparar Mancha, Ciudad Real, España, David.Grosado@uclm.es los métodos clásicos para ver cómo se podrían alinear [12-18]. E. Fernandez-Medina, Grupo de Investigación GSyA, Universidad de Otros investigadores han realizado también algunos análisis Castilla-la Mancha, Ciudad Real, España, Eduardo.FdezMedina@uclm.es comparativos de los principales estándares de riesgos con el https://doi.org/10.12804/si9789587844337.01 8 objetivo de mejorar algunos de sus aspectos [19, 20]. II. METODOLOGÍA MARISMA Uno de los principales puntos que destacan las En este apartado explicaremos las bases sobre las que se metodologías existentes, es la necesidad de poder contar con sustenta la metodología de MARISMA, y para ello se sistemas de riesgos que sean capaces de evolucionar y mostrará una visión general de los procesos que conforman la aprender de la experiencia. Así, Dehkhoda [21] analiza la metodología. posibilidad de unir métodos tradicionales de análisis de riesgos como IRAM2 con los análisis CBA (Cost-Benefit Analysis), ya que entiende que los unos no pueden funcionar MARISMAGenerador de Análisis de Riesgos de sin los otros. Wangen [22] plantea la necesidad de contar con [BAJO COSTE][DINAMICOS][ASOCIATIVOS Y JERARQUICOS], métricas que puedan ser valoradas en entornos profesionales. basado en Según Pandey [23], cualquier activo de información, cuando [PATRONES][REUTILIZABLES][ADAPTABLES][ASOCIATIVOS] está conectado al mundo exterior, es vulnerable a los ataques y Conceptos estos ataques deben ser identificados lo antes posible. López [24] se centra en el Riesgo Dinámico y destaca que la aplicación de procesos de Análisis y Gestión de Riesgos en el ámbito de los Sistemas de Información es una práctica común GPRA GARM DRM que permite la planificación en un momento puntual de tiempo de las acciones preventivas frente al riesgo a corto, medio o largo plazo, pero con un considerable potencial actualmente desaprovechado para facilitar la toma de decisiones en tiempo real frente a eventos o incidentes de seguridad. Este trabajo hace un recorrido por las principales corrientes que buscan sacar partido a este potencial, englobadas principalmente bajo Figura - 1. Visión general de los procesos de la metodología el concepto de Análisis de Riesgos Dinámico. Otros investigadores no sólo destacan la necesidad de contar con sistemas dinámicos, sino también con sistemas que La metodología MARISMA está constituida por tres sean capaces de adaptarse a los entornos cambiantes. De esta Procesos (ver Figura 1), que a su vez se dividen en forma, Saripalli [25] plantea la necesidad de modernizar los actividades, tareas y sub-tareas: modelos de riesgos para que se puedan adaptar a entornos • Proceso 1 – Generación de Patrones para el Análisis como el Cloud Computing [25], y Li y Sicari [26, 27] de Riesgos (GPRA): Se establece una estructura de proponen la necesidad de avanzar en el análisis de riesgos para relaciones entre los diferentes elementos involucrados IoT, tanto desde el punto de vista de modernizar los modelos en el análisis de riesgos y los controles necesarios para existentes como de la necesidad de añadir sistemas gestionar la seguridad. Estas relaciones se establecen inteligentes de valoración del riesgo, tales como las redes mediante el conocimiento adquirido en las diferentes neuronales. implantaciones, que es almacenado en una estructura Después de analizar estas propuestas, vemos que es denominada patrón para ser reutilizado con necesario poder contar con sistemas y mecanismos que nos posterioridad, reduciendo los costes de generación de permitan generar sistemas de gestión de riesgos que tengan la este proceso. capacidad de aprender y evolucionar de forma constante, • Proceso 2 – Generación del Análisis y Gestión del mediante el análisis y la inclusión de todas las variables de su Riesgo (GARM): Mediante la selección del patrón más entorno. No sólo las variables internas, sino también las adecuado y la identificación de un pequeño conjunto variables externas, y en este aspecto es importante incluir los de los principales activos se obtiene un detallado mapa ataques que sufren otras empresas de su entorno y tipología. de la situación actual (análisis del riesgo) y un plan de recomendaciones de cómo mejorarlo (gestión del Para cumplir con todos estos aspectos, es necesario riesgo). afrontar el desarrollo de una estructura de procesos que • Proceso 3 – Mantenimiento Dinámico del Análisis de permita relacionar todos estos elementos y un conjunto de Riesgos (DRM): Mediante la utilización de las métricas que les dé soporte. matrices generadas, las cuáles interconectan los El resto del artículo se estructura de la siguiente forma: En diferentes artefactos, el sistema irá recalculando el la Sección 2 se analizarán los procesos principales que análisis de riesgos según se produzcan incidentes de conforman la metodología MARISMA, y cómo estos seguridad, fallen las métricas definidas o los auditores elementos se relacionan entre sí para transmitir la información detecten “no conformidades” en los controles. y el conocimiento generado. En la Sección 3, se presentarán el conjunto de métricas e indicadores iniciales que han sido En la Figura 2 se puede ver los tres procesos que desarrollados para cumplir con los objetivos de la componen la metodología MARISMA, y cómo intercambian investigación, explicando cada uno de los cinco bloques en información entre ellos para hacer evolucionar el sistema. A que se dividen. Finalmente, en la última sección describiremos continuación explicaremos de forma resumida cada uno de los las principales conclusiones obtenidas. 9 elementos que la conforman, tomando como punto de partida (individuos) y de los propios patrones (especie), haciendo que la “Generación de un evento” en el tercero de los procesos, el sistema siempre evolucione con los cambios. que es el elemento que provoca la “reacción Estos tres procesos se dividirán en actividades y tareas, evolutiva/adaptativa” en los demás: generando artefactos y relaciones entre ellas. La construcción • Paso 1 – La generación de un evento en el proceso de estos tres procesos, busca solucionar de forma total/parcial DRM provoca que la instancia de Análisis de Riesgos los problemas identificados durante la investigación. asociada al evento, generada mediante el proceso GARM, evolucione cambiando aspectos como el nivel III. MÉTRICAS PARA EL AR EN MARISMA de cobertura de un control, o la probabilidad de ocurrencia de una amenaza. En este apartado se expondrá el conjunto de indicadores, reglas de negocio y métricas que han sido desarrolladas para • Paso 2 - La generación de un evento en el proceso DRM provoca cambios en el patrón asociado a la poder dotar de dinamismo a la metodología MARISMA, instancia que se creó mediante el proceso GPRA, El objetivo último perseguido en esta fase es ser capaces permitiéndole reajustar las relaciones entre sus de localizar y desarrollar indicadores y métricas que nos elementos. permitan calcular de forma semi-automática los valores • Paso 3 - La generación de un evento en el proceso asociados al nivel de riesgo, reduciendo el nivel de DRM provoca cambios en el patrón asociado a la incertidumbre en la elaboración del análisis de riesgos. instancia que se creó mediante el proceso GPRA, Dentro del conjunto de métricas iniciales asociadas con la permitiéndole reajustar elementos asociados al riesgo metodología MARISMA podemos distinguir cinco bloques: externo temporal, ayudando a crear un escudo de • Métricas asociadas al Patrón: Son el conjunto de seguridad global entre las compañías que usan ese métricas que permitirán establecer relaciones de patrón. dependencia entre de los diferentes elementos del • Paso 4 – Los cambios en el patrón provocados en el patrón (Ej: las dependencias entre los controles, las Paso 2 hacen que los patrones asociados por ley de amenazas y los activos). herencia en las que se basa la metodología, también • Métricas asociadas al Análisis de Riesgos: Son el evolucionen, transmitiendo el conocimiento adquirido. conjunto de métricas que utilizaremos para reajustar • Paso 5 – Los cambios/evolución de todos los patrones, los valores asociados al Análisis de Riesgo y para se transmiten a todas las instancias para ayudarles a realizar el cálculo del riesgo. mejorar y evolucionar. • Métricas asociadas al Escudo de Seguridad Global (Global Security Shield – GSS): Son el conjunto de métricas que nos permitirán crear una visión global 4 Generación conocimiento: del riesgo de cada elemento en un instante de tiempo La evolución de un patrón se puede heredar 5 Generación conocimiento: dado, de forma asociativa entre todas las instancias a sus ascendientes Permiten evolucionar al AR y descendientes - Alertas Tempranas - relacionadas. HERENCIA Transmite ENTRE PATRONES su EVOLUCIÓN • Métricas asociadas con la Sondas: Son métricas PATRONES asociadas con sondas (herramientas externas) que GPRA permiten el seguimiento automatizado de vulnerabilidades asociadas con controles. Instancia • Métricas asociadas a la valoración de los Activos: Son métricas que nos permitirán calcular, de la forma ANÁLISIS DE RIESGOS más objetiva posible, el valor que tiene un activo de GARM información para una compañía. Tiene A continuación analizaremos las métricas de cada uno de EVENTOS SEGURIDAD estos bloques. DRM 1 Generación conocimiento: Permiten adaptar al AR A. Métricas asociadas al Patrón. ADAPTACIÓN Los patrones en Marisma, se basan en tres elementos 2 Generación conocimiento: Permiten evolucionar al Patrón principales (Controles, Activos y Amenazas) y existen EVOLUCIÓN PATRÓN relaciones entre ellos, tanto consigo mismos (Amenaza x 3 Generación conocimiento: Amenaza), como entre elementos de diferentes naturaleza Permite conocimiento temporal GENERACIÓN DE (Control x Amenaza). Las métricas asociadas con el patrón ESCUDO GLOBAL tienen por objetivo determinar los grados de vinculación entre Figura - 2. Flujo de Generación de Conocimiento en MARISMA los elementos del patrón. Así por ejemplo, las dependencias entre Controles x Controles reflejaran una estadística de las Este ciclo permite, mediante la utilización de estos tres dependencias asociadas a los eventos ocurridos por las procesos, una constante evolución de las instancias instancias relacionadas con ese patrón. 10 Se definen inicialmente tres métricas para este tipo de ▪ PIBTEC = Al ocurrir una amenaza relaciones: en un evento, para cada control • Asociadas con los Controles: involucrado: o Porcentaje de Inter-dependencias entre  Si existe la relación => Valor controles - Percentage of Inter-dependencies Actual + 1% (hasta un max de Between Controls (PIBC): Define la relación 100%). que existe entre dos controles.  Si no existe la relación => Valor ▪ PIBC = [nº eventos en que aparecen Actual = 1%. ambos controles]*100/[nº eventos]  Para aquellos controles que están • Asociadas con los Tipos de Activos: relacionados con la amenaza en la o Porcentaje de Inter-dependencias entre tipos matriz pero no en el evento. Valor de activos - Percentage of Inter-dependencies Actual – 1%. Between Types of Assets (PIBTA): Define la • Métricas asociadas con los Tipos de Activos, relación que existe entre dos tipos de activos. Amenazas y Dimensiones: ▪ PIBTA = [nº eventos en que o Valor del Porcentaje de Degradación de la aparecen ambos tipos de Dimensión de un Activo - Value of the activos]*100/[nº eventos] Degradation Percentage of the Dimension of • Asociadas con las Amenazas: an Asset (VDPDA). o Porcentaje de Inter-dependencias entre ▪ VDPDA = Valor medio del rango amenazas - Percentage of inter-dependencies del evento. between threats (PIBT): Define la relación que existe entre dos amenazas. ▪ PIBT = [nº eventos que en aparecen B. Métricas asociadas al Análisis de Riesgos. ambas amenazas]*100/[nº eventos] Una instancia de un análisis de riesgos debe tener dos objetivos principales: Las dependencias entre matrices permitirán conocer mucho • Capacidad de calcular el riesgo. mejor la dependencia entre este tipo de elementos y ser la base • Capacidad de adaptación del riesgo y sus elementos para el desarrollo de un sistema experto que recomiende ante cambios. elementos complementarios a un usuario al rellenar un evento Para calcular el riesgo, existen diferentes fórmulas que (Ej: Si el nivel de dependencia entre dos tipos de controles es se pueden utilizar, aunque inicialmente la metodología del 75%, y en un evento añadimos uno de ellos, el sistema MARISMA ha configurado la siguiente: podrá indicar al usuario si está seguro de que el otro control no • Nivel Riesgo Actual = ([Valor Activo] x [Max ha estado involucrado también en el evento de seguridad). (Impacto Dimensiones)]) * [Probabilidad de El segundo conjunto de métricas asociadas con esta parte ocurrencia] * [Vulnerabilidad], calculándose la estará orientada las relaciones inter-objetos, es decir entre vulnerabilidad a partir de la ausencia del nivel de objetos diferentes: cobertura de los controles. El nivel de riesgo se mueve • Métricas asociadas con las Amenazas y Controles: en un rango de [1-500]. o Porcentaje de Inter-dependencias entre una El Nivel de Riesgo Actual se transformará a una amenaza y un control - Percentage of Inter- Escala de Riesgo de 10 niveles, en base a una escala Dependencies Between a Threat and a logarítmica, que se calcula aplicando la fórmula Control (PIDBTC): Define la relación que indicada en la Ecuación 1. existe entre una amenaza y un control. Esta 𝑥𝑥 métrica es no modificable y sólo se mostrará 𝑦𝑦 = 𝑎𝑎 10 sus resultados a nivel informativo. 500 = 𝑎𝑎 𝑙𝑙𝑙𝑙𝑙𝑙 500 = 10 𝑙𝑙𝑙𝑙𝑙𝑙 𝑎𝑎 ▪ PIDBTC = [Nº de Amenazas en un evento que han activado ese 𝑙𝑙𝑙𝑙𝑙𝑙500 Control]*100/[nº de veces que esa 𝑙𝑙𝑙𝑙𝑙𝑙 𝑎𝑎 = 10 = 0,26989700 amenaza ha ocurrido en un evento]. 0,26989 o Porcentaje de Inter-dependencias entre una 𝑎𝑎 = 10 = 1,8616455 amenaza y un control por evento - 𝑥𝑥 log 𝑦𝑦 Percentage of Inter-dependencies between a 𝑦𝑦 = 𝑎𝑎 → 𝑥𝑥 = log 1,86164 threat and an event control (PIBTEC): Ecuación 1. Cálculo de niveles para riesgo. 11 Los resultados de aplicar la Ecuación 1 sobre una o NIST SP 800-30 = [Riesgo (Amenaza, escala de riesgo máximo de 500 se puede ver de forma Activo) = Probabilidad (Amenaza) * numérica y grafica en la Figura 3. Vulnerabilidad (Amenaza, Activo) * Impacto (Amenaza, Activo)] • CORAS (Construct a platform for Risk Analysis of Security Critical Systems) [34]: o CORAS = [Riesgo (Amenaza, ActivoCritico) = Impacto (Amenaza, ActivoCritico) * Vulnerabilidad (ActivoCritico)] En otros casos, estamos investigando cómo añadir algunas variables diferenciadas de las metodologías, como las “necesidades” en el caso de EBIOS, las “ExpectativaPedidaAnual” de ISAMM, o el concepto de “Incidente” propuesto por IT-Grundschutz y por AS/NZS 4360, que podría encajar en el concepto de “Evento” propuesto por MARISMA: • EBIOS (Expression of Needs and Identification of Security Objectives) [35]: o EBIOS = [Riesgo (amenaza, activo, necesidades) = Impacto (amenaza, necesidades) * Vulnerabilidad (amenaza, Figura - 3. Escala logarítmica para el cálculo de niveles de riesgo. activo)] Este es sólo un ejemplo de métrica que nos puede • ISAMM (Information Security Assessment and permitir calcular el riesgo. Existen otras métricas que Monitoring Method) [36]: podríamos llegar a aplicar, por lo que se ha buscado que la o ISAMM = [Riesgo (Amenaza, Activo) = metodología MARISMA extraiga los valores de los niveles de ExpectativaPerdidaAnual (Amenaza, Activo) controles, vulnerabilidades, valoración de activos y amenazas, = Probabilidad (Amenaza, Activo) * con el objetivo de poder hacer extensivas sus métricas, de PromedioPérdida (Amenaza, Activo)] forma que dé cabida a las métricas recomendadas por otros estándares, como: • IT-Grundschutz: (IT Baseline Protection Manual) / • CRAMM (Central computer and Telecommunication BSI Standard 100-[2-3]) [37]: Agency Risk Analysis and Management Method) [28, o IT-Grundschutz = [Riesgo (Incidente, Activo) 29]: = Probabilidad (Incidente) * Consecuencias o CRAMM = [Riesgo (Amenaza, Activo) = (Incidente, Activo)] Probabilidad (Amenaza) * Vulnerabilidad • AS/NZS 4360 [38] & ISO31000:2018 [39]: (Amenaza, Activo) * Impacto (Amenaza, o AS/NZS 4360 = [Riesgo (Incidente, Activo) = Activo)] Probabilidad (Incidente) * Consecuencias • MEHARI (Méthode Harmonise´e d’Analyse de (Incidente, Activo)] Risques—Harmonised Risk Analysis Method) [30, 31]: Por otro lado, una vez que tenemos calculado el nivel de MEHARI = [Riesgo (Amenaza, Activo) = riesgo es importante tener la capacidad de aprender de los o eventos, y desarrollar métricas que nos permitan re-alinear el Probabilidad (Amenaza) * Vulnerabilidad valor subjetivo de los elementos iniciales para ajustarlos a la (Amenaza, Activo) * Impacto (Amenaza, realidad. Activo)] Las métricas que forman parte de este apartado son: • OCTAVE (The Operationally Critical Threat, Asset, • Métricas asociadas al Valor de Amenaza – and Vulnerability Evaluation) [32]: Probabilidad de Ocurrencia: o OCTAVE = [Riesgo (Amenaza, o Valor Actual Recomendado para la ActivoCritico) = Impacto (Amenaza, Probabilidad de Ocurrencia de la Amenaza - ActivoCritico) * Vulnerabilidad Recommended Actual Value for the (ActivoCritico)] Probability of Occurrence of the Threat • NIST SP 800-30 (Risk Management Guide for (RAVPOT): Mediante un evento de seguridad Information Technology Systems) [33]: podemos determinar si el valor actual de la 12 probabilidad de ocurrencia de una amenaza Temporary and External Risk associated to es correcto, o debería re-alinearse. the Control (ATERAC). Para ello lo primero que haremos será ▪ ATERAC = Nº de Eventos que ha considerar establecer rangos de valor para esa incluido el control por ud Tiempo variable (Ej: en el caso de MARISMA será (Rangos) x Gravedad del Evento “1 día” la unidad base). De esta forma, si (leve o grave). consideramos que la probabilidad de o Nivel Medio de Implementación del Control - ocurrencia de una amenaza es “Alta si ocurre varias veces al mes” y “Muy Alta si ocurre Average Level of Implementation of the varias veces al día”, e inicialmente la Control (ALIC). tenemos configurada como “Alta”, y tenemos ▪ ALIC= Nivel de cobertura media de notificados varios eventos relacionados con los controles por ud Tiempo. esa amenaza en un día, el sistema podrá • Activos: recomendar el cambio de valor. o Media del Riesgo Temporal y Externo ▪ RAVPOT = Ante un Evento => asociado al Tipo de Activo - Average of Recalcular la probabilidad de Temporary and External Risk associated with ocurrencia en jornadas y the Type of Asset (ATERATA). compararla con los niveles definidos ▪ ATERATA = Nº de Eventos que han en los rangos incluido el Tipo de Activo por ud  Si el Rango es diferente al Tiempo (Rangos) x Gravedad del actual sugerir un cambio Evento (leve o grave). de nivel. o Valor medio de los Tipos de Activos –  Sino finalizar Average value of the Types of Assets (AVTA). ▪ AVTA = Valor medio de los T.Activo El conjunto de métricas presentado en este apartado es un por ud Tiempo. conjunto inicial que se irá complementando con el tiempo • Amenazas: según siga evolucionando la metodología. o Media del Riesgo Temporal y Externo asociado a la Amenaza - Average of C. Métricas asociadas al GSS. Temporary and External Risk associated with El Escudo de Seguridad Global (GSS) es un concepto que the Threat (ATERAT) pretende unificar el poder de agregación de las redes ▪ ATERAT = Nº de Eventos que han colaborativas para informar a las instancias del riesgo incluido la Amenaza por ud Tiempo temporal en cada momento sobre diferentes elementos. (Rangos) x Gravedad del Evento Dicho de otra forma, pretendemos que un evento de (leve o grave). seguridad que impacte sobre una compañía, pueda ser utilizado para que otras compañías que utilizan ese mismo o Media de la Probabilidad de ocurrencia de patrón aumenten sus niveles de protección, generando un la Amenaza - Average Probability of escudo de seguridad entre todas las compañías. occurrence of the threat (APOT). Para ello, inicialmente se tienen que definir una serie de ▪ APOT = Valor medio de la dimensiones temporales y geográficas sobre las que Probabilidad de Ocurrencia de la calcularemos los datos agregados de las diferentes instancias. Amenaza por ud Tiempo (Rangos). Inicialmente se han determinado los siguientes valores: o Media de la Degradación del Valor Asociado • Rangos Temporales: MuyCorto = Diario, Corto = a la Amenaza - Average Degradation of Semanal, Medio = Mensual, Largo = Trimestral, Value Associated with the Threat (ADVAT) MuyLargo=Anual. ▪ ADVAT = Valor medio del % de • Rangos Geograficos: Continente, País, Región. Degradación por ud Tiempo (Rangos). También se han definido un conjunto de métricas que estarán asociadas con cada uno de los principales elementos Cada evento de seguridad provocará una serie de cambios del Análisis de Riesgos: dinámicos tanto en su propio Análisis de Riesgos, como • Control: asociados al patrón del que fue generado. Este proceso se o Media del Riesgo Temporal y Externo inicia, con la actualización de los valores asociados con su asociado al Control - Average of the patrón, y éste a la vez provocará en cascada la actualización de todas sus dependencias. El valor cambiará la visión de cada 13 una de las tablas y se transmitirá a todas las instancias Exposures) y de la métrica CVSS (Common involucradas. Vulnerability Score System) que determina el nivel de gravedad de la vulnerabilidad, de tal forma que se D. Métricas asociadas a Sondas. penalizará más o menos el nivel de cobertura del Finalmente, se ha considera que es de gran interés poder control dependiendo del valor de CVSS. Finalmente, asociar los patrones, y en concreto elementos como los integraremos un extractor de tecnología como “Controles”, con herramientas externas que complementen a BuiltWith que permitirá que, dada una página web o los “Eventos Manuales” (Incidentes de seguridad reflejados un software en la nube, automáticamente extraerá las por los usuarios del Sistema de Información), mediante tecnologías utilizadas para su desarrollo y las revisiones automatizadas de vulnerabilidades en activos. versiones de éstas. Para ello se está trabajando en métricas que permitan Estas herramientas no siempre nos permitirán automatizar establecer esas relaciones de forma automatizada, permitiendo el 100% del análisis de vulnerabilidades, pero reducen de el alineamiento entre estándares (Ej: ISO27001) y los sistemas forma considerable el trabajo necesario para controlar la clásicos de análisis de vulnerabilidades (Ej: Vulnerabilidades aparición de nuevas vulnerabilidades vinculadas a los activos BBDD CVE). software, y permiten de forma automática cambiar el nivel de Por ejemplo, imaginemos que deseamos generar la riesgo asociado a los activos de información, permitiendo capacidad de que un activo de tipo “Software” (SW, según el tomar decisiones sobre cómo afrontar este nuevo riesgo de una catálogo de MAGERIT) incluido dentro del alcance de nuestro forma ágil. análisis de riesgos, para un patrón basado en la ISO27001, adquiera la capacidad de monitorizar periódicamente si dicho activo está seguro o no con respecto a un conjunto de nuevas eMARISMA vulnerabilidades. Sobre Esquema ISO27001:2013 y MAGERIT v3.0 Actualmente las empresas, incluso las grandes, resuelven este problema de una forma “artesanal”. De esta forma, suelen PATRÓNISO27001 indicar manualmente a un tercero (Ej: CNPIC) las tecnologías utilizadas en un software de valor para ellos, y este tercero de confianza les reporta mensualmente informe en el que indica CONTROL si han aparecido nuevas vulnerabilidades relacionadas con A.12.2.1Controles contra el dicho software. Una vez revisada, se debe buscar el nivel de Software Malicioso riesgo de cada vulnerabilidad y determinar si les puede impactar o no. Dicho proceso está asimismo totalmente TIPO DE ACTIVO[SW] Software aislado del Análisis de riesgos, por lo que aunque existe un [prp] – Desarrollo Propio cambio en el riesgo asociado a dicho activo, no se traslada al informe de riesgos. De igual forma, el riesgo estará activo AMENZAS durante una ventana de tiempo que puede llegar incluso al mes [A] AtaquesIntencionados de duración, algo que no es aceptable en la mayor parte de los casos. El planteamiento de la metodología MARISMA parte de la Interface creación de un “motor de sondas” que permita conectar los Sonda Artefacto elementos base del patrón, con los elementos externos Sonda para nivel de asociados a las sondas. Por ejemplo, en la Figura 4 podemos vulnerabilidades software ver cómo: CVE • Por un lado, tomando de referencia el Patrón para https:// Extractor Tecnologías www.cvedetails.com/ https://builtwith.com/ Gestión de la Seguridad bajo la normativa de la CVSS ISO27001 podemos relacionar un Tipo de Activo del catálogo de MAGERIT (que sería el [SW] – Software) Figura - 4. Ejemplo de sonda con la familia de amenazas [A] – Ataques Intencionados, y se podría considerar que afectaría al nivel de cumplimiento del control “A.12.2.1 – E. Métricas asociadas a la Valoración de Activos. Controles contra el software malicioso”, disminuyendo el nivel de cobertura de este control Uno de los grandes problemas cuando intentamos valorar el riesgo asociado a los activos de información de una ante la aparición de nuevas vulnerabilidades en activos compañía es ser capaces de encontrar mecanismos para software. calcular el valor monetario de estos de la forma más objetiva y • Por otro lado, la sonda se nutre de la BBDD de precisa posible, dado que este valor es de vital importancia vulnerabilidades CVE (Common Vulnerabilities and para estimar las perdidas potenciales debidas a impactos de 14 seguridad sobre dichos activos. Este es uno de los tipos de activos más difíciles de Dentro de los mecanismos de valoración de activos cuantificar dentro de una compañía, y requiere de un podemos destacar el método propuesto por Thomas A. Stewart estudio profundo de investigación que queda fuera del [40] que, en su artículo "Trying to grasp the intangible", alcance de este artículo, por lo que nos limitaremos a propone una metodología ideada por la empresa plantar algunas fórmulas sencillas de valoración: norteamericana NCI y orientada a medir el valor de los "activos intangibles" de una empresa, que incluirían no sólo la o Formula1: La utilizaremos para valorar los parte de activos TIC (software, claves criptográficas, etc.), ficheros y los datos de BBDD de valor en la sino también otros activos de valor (know-how, valor de la compañía, entendiendo que estos hayan sido marca, patentes, conocimiento de los mercados, etc.). De esta obtenidos de forma de legal y, por lo tanto, forma, el método ofrece una orientación sobre cómo medir el sean declarables por la misma. El cálculo se valor de los activos en información de una organización. puede realizar teniendo en cuenta el % de El método propuesto está formado por siete partes: beneficio asociado a esa BBDD (estimado 1. Paso 1 - Se toma el promedio durante los tres por el departamento contable de la últimos años del beneficio antes de impuestos. compañía), el número de registros de esa 2. A partir del balance de la empresa se toma el BBDD y aplicando un factor de amortización promedio, en el mismo período, del valor de los del 10% según la antigüedad de los datos, ya activos tangibles. que cuanto más antiguos sean los datos 3. Se dividen los beneficios del punto 1 por el valor mayor riesgo existe de que hayan perdido de los activos tangibles del punto 2, y se pasa a %, valor de confidencialidad o de generación de obteniéndose así el rendimiento sobre activos conocimiento. (ROA). ▪ Valor Activo = [% 4. Para el mismo período, se calcula el promedio BeneficioAsociadoBBDD] * del ROA para las empresas del sector de la [DepreciaciónAsociadaPorRegistro] compañía considerada. Si el valor del ROA de una empresa es inferior al ROA promedio del sector, o Formula2: Asociada a código fuente el método deja de aplicarse. desarrollado internamente. Trataremos de dar 5. Se calcula lo que debería haber ganado la empresa un precio a un software desarrollado (beneficios antes de impuestos) si hubiera tenido internamente asociándolo al número de horas un ROA como el promedio del sector. Esta que se han invertido, por el coste hora, cantidad es el "exceso" de beneficio que ha tenido teniendo en cuenta que un 20% del esfuerzo respecto a las empresas del sector, y que no se anual se amortiza por depreciación debe (si se ha seguido el razonamiento del tecnológica. Igualmente, debemos ejercer un método) a los activos tangibles. factor correctivo según el porcentaje del 6. Se deducen los impuestos, para determinar el activo asociado a los beneficios de la "exceso" de beneficios después de impuestos. compañía (Ej: Un software que se ha 7. Finalmente, se calcula cuánto debería tener la desarrollado en tres años con un coste hora empresa en capital para que generara esta cantidad de 25€, y un inversión en horas cada año de como réditos. Eso nos permitirá obtener un valor [100,50,80], tendrá un valor de 3.680 € el global de los activos intangibles de la compañía. tercer año, y si está asociado al 20% del beneficio de la compañía tendrá un valor Aunque el método tiene sus ventajas presenta algunas final de 4.416 €). desventajas, como que sólo permite obtener una estimación de ▪ Valor Activo = [Nº Horas Invertidas un valor global de los activos intangibles de la empresa, pero no su valor individualizado, y por otro lado es difícil de Desarrollo] * [Coste Hora] * [% aplicar en PYMES. Aun así, consideramos que puede ser de DepreciaciónTecnologica] * [% interés su aplicación en ciertos casos. AsociadoBeneficios] Por otro lado, es importante tener en cuenta qué tipos de activos vamos a tener dentro de la compañía, y cómo se podría Existen otras fórmulas que podemos llegar a valorar cada uno de ellos. Para realizar una primera implementar para este tipo de activos (Ej: aproximación a la valoración de los activos utilizaremos el [Valor Sector] * [Nº Registros Activo], catálogo de activos de MAGERIT [11]: [Valor Global de Intangibles de la compañía] • [D] Datos / Información: Los datos son el corazón – [Valor del Resto de Activos Intangibles que permite a una organización prestar sus servicios. menos datos]), que podrían obtenerse a partir de preguntas del tipo “¿Sector al que 15 pertenece la compañía?”, “¿Número de o Formula1: Podemos calcular su valor por registros del activo? (Ej: proveedores, principios contables: Coste * Amortización. clientes, …)”, etc. • [P] Personal: En este epígrafe aparecen las personas Otras características que se podrían relacionadas con los sistemas de información. En este valorar para realizar estos cálculos son: i) caso el coste se puede calcular teniendo en cuenta el Calidad de los datos; ii) Si se tienen registrados y documentados legalmente KnowHow de esa persona asociado al beneficio de la (LOPD); iii) Número de consultas por mes compañía, y con un máximo de antigüedad de 10 años, realizadas; iv) % de la facturación de la dado que los conocimientos superiores a 10 años rara compañía asociado con ellos; v) Número de vez son útiles en la tecnología. empleados que lo utilizan; vi) Número de o Formula1: En este caso, el coste se puede horas que se usan esos ficheros al año; vii) calcular teniendo en cuenta el KnowHow de Antigüedad media de los datos; viii) esa persona asociado al beneficio de la Naturaleza del dato (Público, privado, compañía, y con un máximo de antigüedad confidencial). de 10 años, y multiplicado por el salario • [K] Claves criptográficas: La criptografía se emplea medio del perfil que tendría que ser para proteger el secreto o autenticar a las partes. reemplazado. Podemos considerar que el valor de una clave está ▪ Valor Activo = vinculada al valor de la información que protege, o de [SalarioMedioPerfil] * [% los beneficios asociados a la misma. BeneficioAsociadoRRHH] * o Formula1: Valor asociado a la información [FactorCorrectorNumeroAños] que protege. Este conjunto de métricas debe ser tomado como una base • [S] Servicios: Función que satisface una necesidad de que ira siendo cumplimentada en posteriores investigaciones, los usuarios (del servicio). El valor de un servicio está según se vaya disponiendo de más casos de uso para su directamente asociado al % Beneficios que genera en validación. la compañía, y se puede regir por principios contables. o Formula1: % Beneficios asociados al IV. CONCLUSIONES. servicio. En este artículo se ha analizado el conjunto de métricas e • [SW] Software - Aplicaciones informáticas: El valor indicadores que se ha desarrollado como parte de la de un software desarrollado por terceros, o con metodología MARISMA para dotar de capacidad de licencia comercial, se puede regir por principios dinamismo y aprendizaje a los análisis de riesgos. contables, y en el caso de un código desarrollado Se han introducido conceptos como el riesgo asociativo internamente por la formula desarrollada en el entre compañías, que permite que los eventos de seguridad de una compañía puedan ser utilizados por otras compañías para apartado “[D] – Datos”. aumentar su nivel de protección. • [HW] Equipamiento informático (hardware): Dícese El conjunto de métricas presentado en el artículo ha sido de los medios materiales, físicos, destinados a soportar implementado dentro de la herramienta eMARISMA que da directa o indirectamente los servicios que presta la soporte a la metodología MARISMA, y está siendo validado organización, siendo pues depositarios temporales o en casos reales dentro del entorno de la “Gestión de la permanentes de los datos, soporte de ejecución de las Seguridad” utilizando estándares como la ISO27001 y aplicaciones informáticas o responsables del Magerit, así como la Ley 8/2011 de Infraestructuras Criticas. procesado o la transmisión de datos. Como líneas futuras se está complementando el conjunto de o Formula1: Podemos calcular su valor por métricas, añadiendo nuevas métricas que puedan generar principios contables: Coste * Amortización. inteligencia en el sistema, y se está desarrollando una versión [COM] Redes de comunicaciones: Incluyen tanto de la herramienta que permitirá de forma gratuita que los • usuarios puedan utilizar las métricas para valorarlas y generar instalaciones dedicadas como servicios de una base de conocimiento común, que permita aumentar el comunicaciones contratados a terceros; pero siempre nivel de protección de cada una de las compañías de forma centrándose en que son medios de transporte que individual, pero utilizando el conocimiento colectivo de todas. llevan datos de un sitio a otro. Podemos concluir, por lo tanto, que ahora mismo es muy o Formula1: Podemos calcular su valor por importante poder disponer de sistemas de análisis de riesgos principios contables: Coste * Amortización. dinámicos y que permitan compartir riesgos y colaborar entre • [L] Instalaciones: En este epígrafe entran los lugares diferentes empresas, y que las métricas presentadas en este donde se hospedan los sistemas de información y artículo como parte de la metodología MARISMA son una primera aproximación para conseguir ese objetivo. comunicaciones. 16 AGRADECIMIENTOS [14] Jeannot, F., Méthodologies d’évaluation et gestion de risques en sécurité. Montréal, Canada, Mai 2018, R518, v1.0, 2018. Esta investigación ha sido co-financiada por los proyectos [15] Benavides Sepúlveda, A.M. and C.A. Blandón Jaramillo, Modelo de GENESIS - Security Government of Big Data and Cyber sistema de gestión de seguridad de la información basado en la Physics Systems ((SBPLY/17/180501/000202) financiado por norma NTC ISO/IEC 27001 para instituciones públicas de educación básica de la comuna Universidad de la ciudad de el “JCCM- Consejería de Educación, Cultura y Deportes, y Pereira Alejandra. 2017. Fondos FEDER”, del proyecto ECLIPSE – Enhancing Data [16] Bornman, W.G., Information security risk management: a holistic Quality and Security for Improving Business Processes and framework, 2004, University of Johannesburg. [17] Refsdal, A., B. Solhaug, and K. Stølen, Cyber-risk management, in Strategic Decisions in Cyber Physical Systems (RTI2018- Cyber-Risk Management2015, Springer. p. 33-47. 094283-B-C31) financiado por la ”Ministerio Economía, [18] Zudin, R., Analysis of information risk management methods. University Industria y Competitividad y fondos FEDER”, y ha contado of Jyväskylä, 2014. [19] Carrillo Sánchez, J.P., Guía y análisis de gestión de riesgos en la con el apoyo de las empresas Marisma Shield S.L adquisición e implantación de equipamiento y servicios de (www.emarisma.com) y Sicaman Nuevas Tecnologías tecnologías de información y comunicaciones para proyectos de (www.sicaman-nt.com). alcance nacional, 2012, Quito: EPN, 2012. [20] Pacheco Pozo, D.C., Propuesta de un plan de contingencia de TI para la empresa LOGICIEL, 2016, Quito, 2016. REFERENCIAS [21] Dehkhoda, D., Combining IRAM2 with Cost-BenefitAnalysis for Risk Management: Creating a hybrid method with traditional and economic aspects, 2018: Department of Computer Science, [1] Huerta, M., et al. Design of a building security system in a university Electrical and Space Engineering, Luleå University of Technology. campus using RFID technology. in 2017 IEEE 37th Central [22] Wangen, G. An initial insight into information security risk assessment America and Panama Convention (CONCAPAN XXXVII). 2017. practices. in 2016 Federated Conference on Computer Science and IEEE. Information Systems (FedCSIS). 2016. IEEE. [2] Le Grand, G. and E. Adar. White cyber knight–a Risk Assessment tool [23] Pandey, S. and K. Mustafa, Risk Assessment Framework (RAF). for network resilience evaluation. in the proceedings of the International Journal of Advanced Research in Computer Science, International Workshop on Complex Network and Infrastructure 2010. 1(3). Protection (CNIP’06), Rome. 2006. [24] López, D., O. Pastor, and L.J.G. Villalba, Concepto y Enfoques sobre el [3] Vivas, T., A. Zambrano, and M. Huerta. Mechanisms of security based Análisis y la Gestión Dinámica del Riesgo en Sistemas de on digital certificates applied in a telemedicine network. in 2008 Información. Actas de la XII Reunión Espanola de Criptologıa y 30th Annual International Conference of the IEEE Engineering in Seguridad de la Información (RECSI 2012), Donostia-San Medicine and Biology Society. 2008. IEEE. Sebastián, Espana, 2012. [4] Huerta, M., et al. Implementation of a open source security software [25] Saripalli, P. and B. Walters. Quirc: A quantitative impact and risk platform in a telemedicine network. in Proceedings of the 9th assessment framework for cloud security. in 2010 IEEE 3rd WSEAS international conference on Advances in e-activities, international conference on cloud computing. 2010. Ieee. information security and privacy. 2010. World Scientific and [26] Li, S., et al., An improved information security risk assessments method Engineering Academy and Society (WSEAS). for cyber-physical-social computing and networking. IEEE Access, [5] Pirrone, J. and M. Huerta. Security Mechanism for Medical Record 2018. 6: p. 10311-10319. Exchange Using Hippocratic Protocol. in World Congress on [27] Sicari, S., et al., A risk assessment methodology for the Internet of Medical Physics and Biomedical Engineering 2018. 2019. Things. Computer Communications, 2018. 129: p. 67-79. Springer. [28] CRAMM. Siemens Enterprise Communications Ltd. “CRAMM toolkit”. [6] Eloff, J. and M. Eloff, Information Security Management - A New 2009; Available from: http://www.cramm.com/. Paradigm. Annual research conference of the South African [29] CESG, S.S.a., CRAMM User Guide, 2005: Security Service and CESG institute of computer scientists and information technologists on (UK Government). Enablement through technology SAICSIT´03, 2003: p. 130-136. [30] MEHARI, MEHARI. Risk analysis and treatment Guide., C.d.l.S.d.l.I. [7] Steve, E., An Introduction to information systems risk management. Français, Editor 2010. SANS Institute InfoSec Reading Room. Available on-line at [31] MEHARI, MEHARI. Overview., C.d.l.S.d.l.I. Français, Editor 2019. http://www. sans. [32] OCTAVE. CERT – Software Engineering Institute, Carnegie Mellon. org/reading_room/whitepapers/auditing/introduction-information- 2009; Available from: http://www.cert.org/octave/. system-risk-management_1204. Accessed March, 2006. 16: p. [33] NIST_SP_800-30_Rev.1, NIST SP 800-30 Rev. 1. Guide for Conducting 2011. Risk Assessments., N.I.o.S.a.T. (NIST), Editor 2012, Sep 2012. [8] Bača, M. and F. Varaždin, The risk assessment of information system [34] Bjørn, A. CORAS, A Platform for Risk Analysis on Security Critical security. Fakultet organizacije i informatike, Sveučilište u Systems–Model-based Risk Analysis Targeting Security. 2002. Zagrebu.< dostupno na http://cuc. carnet. EWICS Symposium. hr/cuc2004/program/radovi/a5_baca/a5_full. pdf>,[očitano 07.10. [35] de la Défense Nationale, S.G., EBIOS-Expression des Besoins et 2010], 2004. Identification des Objectifs de Sécurité, Méthode de Gestion des [9] Restrepo, L.O. and F.J.V. Duque, Gestión de riesgos en eTOM. Un risques, 2010. análisis comparativo con los estándares de riesgo corporativo. [36] Telindus, ISAMM - Information Security Assessment & Monitoring Revista Logos, Ciencia & Tecnología, 2017. 9(1): p. 85-99. Method., 2002. [10] Ortiz Restrepo, L., V. Duque, and F. Javier, Gestión de riesgos en [37] BSI_S100-2, BSI-Standard 100-2. IT-Grundschutz Methodology., eTOM. Un análisis comparativo con los estándares de riesgo F.O.f.I.S. Germany., Editor 2008. corporativo. Revista Logos Ciencia & Tecnología, 2017. 9(1): p. [38] AS/NZS_4360:2004, Standards Australia and Standards New Zealand, 85-99. in Risk Management2004, Standards Association Melburne Info [11] Magerit_V3, Methodology for Information Systems Risk Analysis and Center: Sydney, NSW. Management., in Ministerio de Hacienda y Administraciones [39] ISO_31000:2018, ISO 31000:2018. Risk Management - Guidelines, Públicas2012: Spain. 2018, ISO/TC 262 Risk management: International Organization [12] Wangen, G., Information security risk assessment: a method for Standardization. p. 16. comparison. Computer, 2017. 50(4): p. 52-61. [40] Stewart, T.A., Trying to grasp the intangible. Fortune, October, 1995. [13] Fakrane, C. and B. Regragui. Interactions and Comparison of It Risk 2(1995): p. 91-93. Analysis Methods. in 2018 4th International Conference on Cloud Computing Technologies and Applications (Cloudtech). 2018. IEEE. 17 Luis Enrique Sánchez es Doctor y Máster en Informática y David G. Rosado tiene un Máster y es doctor en Informática es profesor asociado de la Universidad de Castilla-La Mancha por la Universidad de Málaga y por la Universidad de Castilla- (Ciudad Real, España), Master en Auditoría de Sistemas de La Mancha, respectivamente. Es profesor titular en la Escuela Información por la Universidad Politécnica de Madrid, y Superior de Informática de la Universidad de Castilla-La Auditor Certificado de Sistemas de Información por ISACA. Mancha en Ciudad Real. Su actividad investigadora se centra Es Director de los departamentos de Servicios Profesionales y en seguridad de sistemas de información, Cloud Computing y de I+D de la empresa Sicaman Nuevas Tecnologías S.L. Sus Big Data. Sobre estos temas, él ha publicado numerosos actividades de investigación son sistemas de seguridad de artículos en conderencias de ámbito nacional e internacional, gestión, métricas de seguridad, minería de datos, limpieza de también es editor y coeditor de varios libros. Es autor de datos e inteligencia de negocios. Participa en el grupo de varias publicaciones en revistas nacionales e internacionales investigación GSyA del departamento de sistemas de (Information Software Technology, System Architecture, información y tecnologías de la Universidad de Castilla-La Network and Computer Applications, etc.). Él es miembro del Mancha, en Ciudad Real (España). Su correo electrónico es comité de programa de numerosas conferencias y workshops luisenrique@sanchezcrespo.org. nacionales e internacionales. Es miembro del grupo de investigación GSyA del departamento de sistemas de Antonio Santos-Olmo es Licenciado en Informática y es información y tecnologías de la Universidad de Castilla-La profesor asociado de la Escuela Superior de Informática de la Mancha. Su correo electrónico es david.grosado@uclm.es. Universidad de Castilla-La Mancha en Ciudad Real (España), Master en Auditoría de Sistemas de Información por la Eduardo Fernández-Medina es Máster y doctor en Universidad Politécnica de Madrid, y Auditor Certificado de Informática por la Universidad de Castilla-La Mancha. Es Sistemas de Información por ISACA. Es Director de los profesor catedrático en la Escuela Superior de Informática de departamentos de Software Factory de la empresa Sicaman la Universidad de Castilla-La Mancha en Ciudad Real Nuevas Tecnologías S.L. Sus actividades de investigación son (España). Su actividad investigadora se centra en el campo de sistemas de seguridad de gestión, métricas de seguridad, la seguridad de sistemas de información, en particular en minería de datos, limpieza de datos e inteligencia de negocio. seguridad en Big Data, Cloud Computing y sistemas Participa en el grupo de investigación GSyA del ciberfísicos. En estas temáticas, él es coeditor de varios libros Departamento de de sistemas de información y tecnologías de y capítulos de libros, y ha publicado numerosos artículos en la Universidad de Castilla-La Mancha, en Ciudad Real conferencias nacionales e internacionales (BPM, UML, ER, (España). Su correo electrónico es asolmo@sicaman-nt.com. ESORICS, TRUSTBUS, etc.). Es autor de más de cincuenta publicaciones en revistas internacionales (Decision Support Julio Moreno es Máster y estudiante de doctorado en Systems, Information Systems, ACM Sigmod Record, Informática por la Universidad de Castilla-La Mancha. Su Information Software Technology, Computer & Security, investigación se centra en la seguridad y privacidad de los Computer Standards and Interfaces, etc.). Él lidera el grupo de datos, así como en la creación de un marco de gobierno para investigación GSyA del departamento de sistemas de Big Data. Es miembro del grupo de investigación GSyA del información y tecnologías de la Universidad de Castilla-La departamento de sistemas de información y tecnologías de la Mancha y pertenece a varias asociaciones profesionales y de Universidad de Castilla-La Mancha. Su correo electrónico es investigación (ATI, AEC, AENOR, etc.). Su correo julio.moreno@uclm.es. electrónico es eduardo.fdezmedina@uclm.es. Manuel A. Serrano es Máster y doctor en Informática por la Universidad de Castilla-La Mancha. Es profesor titular en la Escuela Superior de Informática de la Universidad de Castilla- La Mancha en Ciudad Real. Su investigación se centra en la calidad de sofotware de los datos, la medición de software y la calidad y medición de almacenes de datos y Big Data. Su correo electrónico es manuel.serrano@uclm.es. 18 Inteligencia Artificial aplicada al Análisis Forense Digital: Una revisión preliminar J. J. Cano, J. D. Miranda y S. Pinzón Resumen—The digital forensic analysis seeks the application que favorezcan en términos de efectividad y velocidad a la of scientific and statistical techniques to identify, collect, preserve resolución de los diferentes casos forenses. and present the relevant digital evidence that allows the hypothesis to be affirmed or rejected against a possible criminal act. The Sin embargo, a través de los años la intervención humana ha current methods of digital forensic analysis, although effective for sido en algunos casos insuficiente para el análisis oportuno de the visual analysis of the material evidence, do not allow to execute in an automated way and for large volumes of data, correlation un ataque y su consiguiente respuesta. Estos ataques son studies on the obtained files, validation of metadata and encabezados por atacantes habilidosos que emplean identification of anomalies in files of text, graphics or audiovisual. herramientas cada vez más sigilosas y perfeccionadas para esta It is for this reason that artificial intelligence techniques have been labor [1], tales como agentes inteligentes, gusanos o virus proposed for data processing, identifying patterns and trends that informáticos, que son analizados por personal humano que allow noticing aspects that are not visually perceptible. This paper desconoce su comportamiento y que busca de forma superficial discusses the role that artificial intelligence can play in digital rastros de una dinámica no conocida subyacente. forensic analysis, proposing a review of the literature, in order to Adicionalmente, existen otros desafíos, tal como lo documenta illustrate the areas of computer forensics in which artificial [2], que hacen que el análisis forense digital sea complejo, intelligence techniques have been used to date. This, to identify a new work niche in this area, hoping that the ideas in this document tedioso y en ocasiones infructuoso: can represent promising directions for the development of more efficient and effective computer forensic tools. • La complejidad del problema y la heterogeneidad de los datos en su adquisición. Palabras clave — Forensic Computing, Forensic Analysis, • El volumen excesivo de datos procedentes de múltiples Artificial Intelligence, Vector Support Machines, Artificial Neural fuentes y la falta de técnicas estandarizadas para Networks, Autonomous Systems, Intelligent Agents. procesarlos. • La falta de técnicas que encuentren la correlación en la I. INTRODUCCIÓN información contenida en la evidencia digital. Debido al rápido crecimiento en la aplicación de tecnologías • La falta de estandarización en las zonas horarias y los digitales en diferentes entornos de la sociedad, son cada vez registros de tiempo de los eventos encontrados. más los casos de ciberdelincuencia y mayor la cantidad de información que se logra extraer como rastro de un acto de Estos factores hacen que se requiera la aplicación de delincuencia digital. extensas etapas adicionales de preprocesamiento de los datos, se aumente el tiempo de respuesta y no se termine de efectuar En complemento, los ataques informáticos se han vuelto un proceso eficiente de análisis forense, dejando al atacante en más sofisticados, no solo por la experticia de los atacantes, sino ocasiones dentro del sistema, lo que aumenta los riesgos para la por las herramientas que usan estos para acometer las acciones empresa, los costos en reparaciones y la recuperación de los no autorizadas. En consecuencia, se hace necesario el uso de daños informáticos. instrumentos que asistan al personal especializado para el estudio de los elementos materiales probatorios recopilados Un reporte del Ponemon Institute [3] revela que, a 2014, se frente a la ocurrencia de un evento de carácter informático y ha aumentado el costo del cibercrimen en más del 9% con respecto a años anteriores, y el tiempo para resolver un ataque a incrementado a 45 días, lo que representa un alza de 40% respecto a las mediciones de los años previos. Esto significa que las técnicas actuales utilizadas para el análisis forense digital no J. J. Cano, Facultad de Ingeniería de Sistemas e Informática, Universidad son suficientes para el análisis oportuno y concluyente de los Pontificia Bolivariana de Bucaramanga. Colombia. jjcano@yahoo.com. eventos informáticos que se presentan. J. D. Miranda, Facultad de Electrónica e Ingeniería de Sistemas e Informática, Universidad Pontificia Bolivariana de Bucaramanga. Colombia. juliandariomiranda@gmail.com. Corresponding author. Es por esta razón que es propicio el uso adicional de agentes S. Pinzón. Facultad de Ingeniería de Sistemas e Informática, Universidad semiautónomos inteligentes que puedan aportar en la eficacia Pontificia Bolivariana de Bucaramanga. Colombia. del análisis forense y en la toma de decisiones, con base en la spinzonsarmiento@gmail.com. experiencia. Esto puede hacerse mediante la implementación de métodos de Inteligencia Artificial (AI) como las Máquinas de https://doi.org/10.12804/si9789587844337.02 19 Soportes Vectoriales (SVM), Redes Neuronales (NN), Agentes Son muchos los campos en los que se aplica AI, entre los Inteligentes y Aprendizaje de Máquina (ML), entre otros, cuales destacan la lingüística computacional, la medicina, la aplicados a los sistemas que asisten al personal especializado robótica, los videojuegos, la domótica, la automatización y la en la detección, prevención y mitigación del cibercrimen [4]. seguridad informática; buscando resolver problemas relacionados con la búsqueda de nuevas heurísticas, la En el campo del análisis forense automatizado se utilizan representación del conocimiento, la planeación de estrategias, métodos de AI con el objetivo de automatizar los diferentes el procesamiento del lenguaje, la percepción de los patrones y procesos y análisis que se realizan en los dispositivos, teniendo el análisis forense. En este último contexto, la AI ha puesto en cuenta un amplio volumen de datos. Además, estos datos son especial atención en el aprendizaje de máquina, tal como lo inocuos por sí mismos, ya que provienen de diferentes fuentes y muestra la Fig. 1, una ramificación de la AI en la que se busca para ser útiles debe eliminarse la alta correlación existente, con el fin de descartar los que son intrascendentes o similares entre el desarrollo de técnicas estadísticas que le permiten a la sí, y ejecutar un análisis pertinente de la dinámica no visible de máquina mejorar la ejecución de las tareas con la experiencia. estos. Tal como lo documenta Laurance Merkle [5], las herramientas existentes en el mercado que realizan análisis estadísticos, análisis de trafico de red y análisis de sesiones, entre otras, lo hacen de forma superficial y mediante el estudio de umbrales, razón por la cual resultan insuficientes para procedimientos de análisis forense multinomial (múltiples variables de entrada). El objetivo de este artículo es presentar los resultados de un breve estudio del estado del arte de referentes de interés en el Fig. 1. Relación entre la inteligencia artificial, el aprendizaje de campo de la implementación de técnicas de inteligencia máquina y el aprendizaje profundo. Elaboración propia. artificial, aprendizaje automático, máquinas de soportes vectoriales y sistemas expertos, puestos a disposición del Dentro del aprendizaje de máquina existen desarrollos análisis forense digital, de tal forma que, se refuerce la algorítmicos específicos que permiten que el software se identificación de patrones y componentes que no son entrene a sí mismo para llevar a cabo tareas como el habla y el visualmente perceptibles, se correlacionen eventos para reconocimiento de patrones, mediante la exposición a gran encontrar una secuencia no evidente y se puedan tomar cantidad de datos, en lo que se conoce como el aprendizaje decisiones oportunas frente a los eventos informáticos. A profundo. continuación, se detalla la fundamentación teórica que enmarca el contexto de esta investigación, seguida de la metodología De esta forma, para resolver problemas mediante métodos propuesta para la búsqueda de información, los resultados computacionales, se requiere de secuencias de instrucciones obtenidos y la discusión de estos. que transformen un conjunto de variables de entrada conocidas, en un grupo de variables de salida deseadas. Para procesos en los cuales no se conoce su comportamiento en su totalidad, se II. FUNDAMENTACIÓN TEÓRICA construye una aproximación. Ésta puede no explicar la totalidad Esta sección se divide en cinco temáticas de estudio, de los eventos consultados, pero permite la detección de consideradas relevantes para el desarrollo de la investigación: patrones que sirven como indicios para su identificación y inteligencia artificial, aprendizaje automático, máquinas de clasificación. Este es el nicho del Aprendizaje Automático, los soportes vectoriales, redes neuronales artificiales, y sistemas sistemas expertos y agentes inteligentes. expertos y agentes inteligentes. B. Aprendizaje Automático A. Inteligencia Artificial En general, el aprendizaje automático es el proceso de La Inteligencia Artificial (AI) está definida como la programación de una unidad computacional para optimizar los capacidad de un sistema para interpretar correctamente datos criterios de rendimiento, haciendo uso de muestras recolectadas externos, para aprender de dichos datos y emplear esos de experiencias pasadas [8]. Un modelo de aprendizaje puede conocimientos para lograr tareas y metas concretas a través de ser supervisado o no supervisado. En el aprendizaje la adaptación dinámica y flexible [6]. Según [7], una máquina supervisado se orientan las predicciones del algoritmo mediante es considerada como inteligente cuando se trata de un agente un conjunto de categorías o etiquetas. Los algoritmos de dinámico que percibe su entorno y lleva a cabo acciones que clasificación y regresión son ejemplos de aprendizaje maximicen sus posibilidades de éxito en algún objetivo o tarea. supervisado. En la clasificación se intenta hacer una predicción En otras palabras, la AI involucra un agente dinámico flexible de la categoría a la que corresponde una observación mientras que aprenda de las observaciones con el fin de presentar una que, en regresión, se intenta hacer una predicción de un valor respuesta cada vez más acertada y acorde con el aprendizaje. numérico. 2 20 Por otro lado, en el aprendizaje no supervisado no existen de funciones matemáticas para transformar los datos de entrada categorías adjuntas a los datos de entrada. Los algoritmos de en la forma deseada. En ese sentido, un hiperplano óptimo es Clustering, estimación de densidad y reducción de aquel que deja el margen máximo entre las dos clases de salida, dimensionalidad son ejemplos de aprendizaje no supervisado. siendo el margen la distancia entre el hiperplano y el dato más En Clustering se intenta agrupar datos con características cercano de cualquiera de los conjuntos. similares, mientras que en estimación de densidad se pretende encontrar valores estadísticos que describan al conjunto de Las máquinas SVM tiene un buen comportamiento para datos. En cuanto a la reducción de dimensionalidad, se busca conjuntos de datos pequeños, pero al aumentar la cantidad de reducir la cantidad de características de los datos para reducir datos es más difícil encontrar una posición del hiperplano que el costo computacional de su procesamiento y posibilitar su divida adecuadamente las dos clases de datos, además del representación más fácilmente [9]. incremento de carga computacional y aumento de la complejidad en el aprendizaje conforme aumenta el número de Para que el modelo aprenda de los datos se ejecuta un muestras [12]. proceso inicial de entrenamiento que se realiza de forma iterativa. Cuando el modelo de aprendizaje ha sido expuesto a D. Redes Neuronales Artificiales (ANN) todo el conjunto de entrenamiento, se dice que ha pasado un epoch [10]. Existen tres conjuntos de datos con los que se Las redes neuronales artificiales (ANN: Artificial Neural ejecutan las fases de entrenamiento, validación y prueba: el Networks) se plantean como una alternativa computacional training set es el conjunto de datos usados como referencias para la toma de decisiones dentro del dominio del Aprendizaje para seleccionar los pesos asociados a las unidades de Automático. Esta técnica busca emular la capacidad de procesamiento del modelo de aprendizaje y crear las aprendizaje natural de los seres vivos, la cual es atribuida al conexiones entre las mismas; el validation set corresponde al sistema neuronal de su cerebro. conjunto de datos usados durante el proceso de entrenamiento para contrastar el desempeño por cada ciclo de aprendizaje, La unidad básica de procesamiento de una red neuronal clasificando datos desconocidos; y el test set es el conjunto de artificial es la neurona. Las redes neuronales funcionan datos desconocidos para el modelo de aprendizaje, con los que mediante la interacción de conjuntos de neuronas con se prueba el desempeño. características diferentes. Dichas características son explicadas a continuación: C. Máquinas de Soportes Vectoriales (SVM) − Función de propagación: cada neurona tiene una serie de Las máquinas de soportes vectoriales (SVM) son una entradas provenientes de otras neuronas. Estas señales de familia de algoritmos de aprendizaje automático de tipo entrada son atenuadas o amplificadas por un factor de peso supervisado que generalmente se emplea en procesos de y son operadas en conjunto por una función de propagación clasificación y regresión de dos conjuntos de datos. Estos que es comúnmente una suma ponderada. algoritmos han sido aplicados ampliamente en áreas como el reconocimiento de escritura, la detección de rostros, − Función de activación: es la función de umbral que categorización de texto, entre otras. El método combina el determina la acción de una neurona, dependiendo del valor aprendizaje estadístico y la optimización convexa, combinando de entrada proveniente de la función de propagación [8]. una máquina de soporte vectorial para clasificación y una para regresión. Contiene una base de conocimiento o ejemplos de − Función de salida: es la función encargada de calcular el entrenamiento que generalmente pertenecen a una de dos valor de salida de la neurona para ser transferido como categorías, siendo esta una clasificación de tipo binaria [11]. entrada a otras neuronas [13]. El nombre se deriva del conjunto de puntos de datos o La topología de una red neuronal está ligada con el vectores de soporte que contienen la información. Una SVM es algoritmo de aprendizaje usado para entrenar la red. Los básicamente una máquina de aprendizaje lineal diseñada para factores que definen la topología de la red son las capas y la resolver problemas de clasificación usando el principio de naturaleza de las conexiones entre las neuronas. En una red separación de clases. El objetivo es encontrar un hiperplano, un neuronal, una capa es un conjunto de nodos (pueden ser plano en un espacio multidimensional de separación lineal que neuronas o fuentes de datos) con características similares, separe dos clases de interés. El hiperplano se ubica entre clases subdivididas es en capas de entrada, capas ocultas y capas de para cumplir dos condiciones: que todos los vectores de datos salida. Las conexiones entre las neuronas y las capas pueden ser que pertenezcan a una misma clase se ubiquen del mismo lado unidireccionales (feedforward) o recurrentes (con al menos un del hiperplano y maximizar la distancia entre los vectores de lazo de realimentación o feedback). datos más cercanos en ambas clases [11]. La capacidad de aprendizaje mediante un proceso de La función del SVM es la de encontrar la mejor línea, plano entrenamiento y la aplicación de la experiencia adquirida en o hiperplano que divida el grupo de datos en dos clases, este proceso le otorga a las ANN la capacidad de responder utilizando un kernel (núcleo) que se compone de un conjunto apropiadamente a situaciones a las que no había sido expuesta 3 21 [14]. Los sistemas de aprendizaje cambian sus características inteligencia artificial, siendo seleccionados 11 que para poder adaptarse al problema que se está afrontando y documentaban puntualmente la información requerida: técnicas conseguir la generalización de la comprensión del problema. implementadas preliminarmente, tamaño de las observaciones Las ANN pueden aprender mediante el desarrollo de nuevas de entrenamiento, validación y prueba de la técnica, y conexiones, del cambio de la ponderación de sus conexiones, la desempeño del modelo implementado. En la siguiente sección creación de nuevas neuronas y el cambio los valores de umbral se detallan los resultados del análisis de referentes ejecutado. en la función de activación, entre otros. IV. RESULTADOS DEL ANÁLISIS E. Sistemas expertos y agentes inteligentes Un breve estudio del estado del arte fue ejecutado con el fin Los sistemas inteligentes consisten en softwares de respuesta de identificar las diversas aplicaciones de la Inteligencia a preguntas en un determinado dominio, emulando la capacidad Artificial al análisis forense digital, haciendo especial énfasis en de toma de decisiones de un experto humano. Son utilizados el uso de técnicas de Aprendizaje Automático, entre las que se generalmente para apoyar la decisión de un experto en encuentran las Máquinas de Soportes Vectoriales y las Redes diferentes áreas del conocimiento. El sistema contiene una base Neuronales Artificiales, y el uso de sistemas expertos y agentes de conocimientos sobre un dominio específico y se conecta con inteligentes. un motor de inferencia para la derivación de las respuestas En la Tabla I se ha detallado el estado del arte relevante para basadas en este conocimiento [15]. la investigación. De esta tabla se puede observar que se han desarrollado diversos trabajos en el ámbito del análisis forense Los agentes inteligentes son componentes de software que digital que incluyen: la detección de alteraciones a imágenes por poseen características de comprensión de un lenguaje, medios digitales, la identificación de atributos y características capacidad para tomar decisiones y actuar según corresponda, físicas y químicas de objetos y la determinación del contenido usualmente usados para la defensa contra ataques frecuentes. de una imagen forense para su análisis automatizado, todos Junto con un sistema de redes neuronales, estos agentes pueden enmarcados en el uso de técnicas de aprendizaje automático e conformar un método de detección eficaz [16]. inteligencia artificial. A continuación, se detallan los trabajos relevantes para la investigación por temática. III. METODOLOGÍA A. Máquinas de Soportes Vectoriales El análisis del estado del arte concerniente con la aplicación de inteligencia artificial en el análisis forense digital se hizo Algunos expertos han aplicado técnicas de aprendizaje mediante consultas a la base de datos de Scopus de Elsevier, automático en informática forense, en particular máquinas de utilizando la siguiente sentencia de búsqueda: soportes vectoriales (SVM), que se aplican generalmente al reconocimiento de escritura, detección de rostros, TITLE-ABS-KEY ("Digital Forensics" AND "Forensic Analysis" procesamiento del lenguaje natural y visión artificial. Las SVM AND ("intelligent agent" OR "Support Vector Machines" OR pertenecen a una clase de algoritmos de Machine Learning "Artificial Neural Networks")) AND (LIMIT-TO (SUBJAREA, denominados métodos kernel que se usan continuamente en la "COMP") OR LIMIT-TO (SUBJAREA, "ENGI")) detección de intrusiones, debido a su alta velocidad de aprendizaje y escalabilidad. A continuación, se detalla el En esta consulta se hizo una búsqueda todos aquellos proceso y resultados de autores que han implementado estas documentos que contuvieran las frases “Forense Digital” y técnicas para ejecutar un análisis forense, enmarcado en distintas “Análisis Forense”, y cualquiera de las técnicas de inteligencia áreas de estudio y con diversos objetivos. artificial: “Redes Neuronales Artificiales”, “Máquinas de Soportes Vectoriales” o “Agentes Inteligentes”. La búsqueda se S. Mukkamala y A. Sung [17] estudiaron en 2003 la implementación de SVM para el análisis forense de redes de enmarca en las ciencias de la computación y la ingeniería, con datos, sobre una base de datos de 494,021 eventos procedentes el fin de obtener aplicaciones de la inteligencia artificial dentro del ataque de DARPA en 1999, considerando cuatro tipos de de la computación, tal que muestre resultados preliminares ataques: análisis de vulnerabilidades invasivo, denegación de algorítmicos y de desempeño de modelos de aprendizaje. La servicios (DOS), acceso no autorizado con privilegios de súper consulta se hizo para documentos publicados a partir del año usuario (U2Su) y acceso no autorizado desde máquina remota 2000 en adelante, excluyendo patentes o cualquier documento (R2L). El desempeño del clasificador por SVM logra una no publicado. precisión ligeramente superior al 99% para las cuatro clases de ataques evaluadas. La temática analizada en esta investigación es de carácter Por otro lado, A. Mikkilineni, et. al. [18] en 2005, novedoso y se encuentra poca literatura disponible y un número implementaron una clasificación multiclase utilizando SVM, limitado de artículos que detallen los modelos, propuestas y para la identificación de impresoras a partir de documentos resultados preliminares de desarrollo e implementación. impresos, considerando el tamaño de letra, el tipo de fuente, el Inicialmente fueron encontrados 161 documentos que tipo de papel y la edad de la impresión. Se consideraron 5,000 involucraban la temática de forense digital, de los cuales 17 datos de entrenamiento y prueba con 10 clases de impresoras de hacían énfasis en el análisis forense y el uso de técnicas de 4 22 TABLA I. ESTADO DEL ARTE DE INTERÉS DEL USO DE TÉCNICAS DE INTELIGENCIA ARTIFICIAL EN ANÁLISIS FORENSE. Método Ref Objetivo Dataset de observaciones Desempeño Análisis forense de redes de datos considerando cuatro tipos de ataques: [17] análisis de vulnerabilidades invasivo, denegación de servicios (DOS), acceso Entrenamiento (50%): 247,010 99.5% de no autorizado con privilegios de súper usuario (U2Su) y acceso no autorizado Prueba (50%): 247,010 desde máquina remota (R2L). Total dataset: 494,021 precisión [18] Identificación de impresoras a partir de documentos impresos, considerando Entrenamiento (50%): 5,000 84% al 93% el tamaño de letra, el tipo de fuente, el tipo de papel y la edad de la impresión. Prueba (50%): 5,000 de precisión Máquinas de Total dataset: 10,000 Soportes [19] Determinación del tipo de archivos contenidos en el material probatorio de Entrenamiento (90%): 3,240 Prueba (10%): 360 81% al 98% Vectoriales una investigación. Total dataset: 3,600 de precisión [20] Desarrollo de un modelo de aprendizaje para la identificación de Entrenamiento (25%): 1,250 99.35% de modificaciones de filtrado y re-muestreo en imágenes digitales. Prueba (75%): 3,250 Total dataset: 5,000 precisión [21] Desarrollo de un modelo para la clasificación de bloques de archivos con Entrenamiento (20%): 50,400 85% al 95% formatos conocidos. Prueba (80%): 201,600 Total dataset: 252,000 de precisión Identificación de clases de vidrio con base en atributos químicos (índice de [23] refracción, cantidad de sodio, magnesio, aluminio, silicio, potasio, calcio, Entrenamiento (80%): 192 73% al 85% bario, hierro y tipo de vidrio) de muestras encontradas en las escenas donde Prueba (20%): 38 ocurrieron los eventos criminales. Total dataset: 240 de precisión Identificación de atributos espaciales en imágenes con esteganografía LSB Entrenamiento (70%): 7,000 [24] con cinco densidades de contenido embebido (payload): 0.1, 0.2, 0.3, 0.4 y Prueba (30%): 3,000 84% al 86% 0.5 bpp (bits por píxel). Total dataset: 10,000 de precisión Redes Neuronales [25] Desarrollo de un modelo para la detección de posible manipulación de Entrenamiento (80%): 160,000 95% de Artificiales imágenes digitales a color. Prueba (20%): 40,000 Total dataset: 200,000 precisión Entrenamiento (65%): 284,000 [26] Análisis forense de imágenes JPEG para notar transformaciones espaciales. Prueba (35%): 150,000 84% al 99% Total dataset: 434,000 de precisión [27] Desarrollo de un algoritmo para la detección y localización de falsificaciones Entrenamiento (80%): 100,000 95% de de imágenes mediante funciones de remuestreo y aprendizaje profundo. Prueba (20%): 25,000 Total dataset: 125,000 precisión Sistemas expertos y Desarrollo de una propuesta de software MADIK para la investigación digital multi agente que permita suplir la De 69% a agentes [28] dificultad que tiene un experto de determinar de forma rápida qué evidencia es relevante cuando se analiza un 74% de inteligentes crimen. cubrimiento salida para la clasificación, obteniendo un desempeño en la color por cada operación de modificación, divididas en 25% clasificación de entre el 84% y el 93% de precisión. para entrenamiento y 75% para pruebas del modelo. El Con el fin de determinar el tipo de archivos contenidos en el desempeño del clasificador multiclase fue medido en precisión material probatorio de una investigación, Q. Li y A. Ong [19] en y alcanzó el 99.35%. 2010 clasificaron los fragmentos de archivos utilizando SVM, De forma complementaria, Sportiello y Zanero [21] analizando cinco clases de salida: archivos JPEG (800 desarrollaron un modelo de SVM que, mediante descriptores ejemplos), archivos MP3 (800 ejemplos), archivos PDF (800 frecuenciales, permite clasificar los bloques de archivos que han ejemplos), archivos DLL (800 ejemplos) y archivos binarios sido separados o malformados, haciendo énfasis en los formatos: ejecutables de Windows (400 ejemplos). La distribución entre bmp, doc, exe, gif, jpg, mp3, odt, pdf y ppt. Esto, a partir de una entrenamiento y prueba fue del 90% y 10%, respectivamente, base de datos heterogénea de archivos en estos formatos que obteniendo un desempeño del clasificador medido en precisión fueron seccionados en bloques de 512 bytes para un total de en el intervalo de 81% a 98%. 252,000 bloques que fueron analizados para el entrenamiento Identificar modificaciones ocultas en imágenes o develar (20% de las observaciones) y la prueba (80% de las alteraciones en el formato de los archivos son otros campos observaciones) del modelo. El desempeño final del mismo trabajados en el análisis forense digital, pues puede existir medido en precisión alcanza un máximo de 95% con un mínimo contenido embebido no visible en las imágenes que pueda ser de de clasificación de 85%. utilidad, o los archivos pueden estar particionados para evitar mostrar su contenido al abrirlos, haciendo que parezcan B. Redes Neuronales Artificiales dañados. Una segunda técnica utilizada son las redes neuronales En este primer campo, Cai, et. al. [20] desarrollaron un artificiales, consisten en una colección de elementos que están modelo de SVM que permite identificar si una imagen ha sido interconectados y se transforman en un conjunto de salidas alterada por medios digitales, incluyendo operaciones como deseadas. La red neuronal realiza un análisis de la información submuestreo, compresión, filtrado de mediana y filtrado de y proporciona una estimación de probabilidad que coincide con media. Esto, a partir de una base de datos de 1,000 imágenes a los datos para los cuales ha sido entrenada para reconocer. La 5 23 red neuronal va obteniendo eficacia al irse entrenando el sistema entrenamiento, el 70% del dataset original fue tenido en cuenta, con la entrada y la salida del problema deseado. A partir de ese con un tamaño de batch de 128 (cantidad de ejemplos por entrenamiento se obtienen mejores resultados y la configuración subconjunto de entrenamiento) y 30 epochs de entrenamiento de la red se refina conforme pasa el tiempo [17]. (cantidad de iteraciones por unidad de entrenamiento). La R. Mohammad [22] ha demostrado que es posible identificar validación del algoritmo fue ejecutada con el 30% del dataset y si el sistema operativo ha sufrido modificaciones no autorizadas la prueba con 150,000 imágenes independientes del conjunto de a partir de la implementación de un modelo de red neuronal. entrenamiento y validación. El desempeño del clasificador está entre el 84% y 99% de precisión. A. Tallón-Ballesteros y J. Riquelme [23] en 2014, por otro lado, han aplicado métodos de clasificación multiclase usando J. Bunk et. al. [27] en 2017, desarrollaron un algoritmo para redes bayesianas, árboles de decisión y redes neuronales la detección y localización de falsificaciones de imágenes artificiales, para la identificación de clases de vidrio con base en mediante funciones de remuestreo y aprendizaje profundo, atributos químicos (índice de refracción, cantidad de sodio, usando redes neuronales LSTM, una tipología de redes magnesio, aluminio, silicio, potasio, calcio, bario, hierro y tipo neuronales especializada en almacenar memoria de corto y largo de vidrio) de muestras encontradas en las escenas donde plazo en cada iteración de entrenamiento, haciendo que sea más ocurrieron los eventos criminales, a partir de una base de datos rápido el aprendizaje con una base de conocimiento existente. del USA Forensic Science Service con 240 observaciones. Los Para esto, tuvieron en cuenta un dataset de 100,000 ejemplos de algoritmos implementados fueron validados haciendo uso de las bases de datos de UCID y RAISE, y para la prueba la base validaciones cruzadas de 4 folds, es decir, subdividiendo el de datos de NIST Nimble 2016 con tres clases de modificaciones conjunto de datos de prueba en cuatro subconjuntos en las imágenes: copiado y clonado, remoción y sobreposición. homogéneos y ejecutando las pruebas pertinentes sobre los Los autores obtienen un 95% de precisión con el modelo de datos. Los autores obtienen un desempeño en el mejor LSTM ANN en la detección de falsificaciones. clasificador (el de redes neuronales) de entre 73% y 75%. C. Sistemas expertos y agentes inteligentes Qian, et. al. [24] en 2016, desarrollaron un modelo de Una propuesta de software presentada en el escenario aprendizaje basado en Redes Neuronales Convolucionales internacional es la de MADIK, un Toolkit para la investigación (CNN) para la identificación de atributos espaciales en imágenes digital multi agente (de sus siglas en inglés Multi-Agent Digital con esteganografía LSB, a partir de imágenes procedentes de la Investigation ToolKit) elaborado por B. Hoelz, et. al. [28] en base de datos BOSSbase (Break Our Steganography System) 2008. Esta es una apuesta que se ha sido desarrollada con el fin v1.01, una base de datos de imágenes a escala de grises diseñada de suplir la dificultad que tiene un experto de determinar de para ejecutar pruebas de estegoanálisis. Esta base de datos forma rápida qué evidencia es relevante cuando se analiza un contiene 10,000 imágenes portadoras y con esteganografía con crimen. Ante la falta de herramientas que colaboren en el una distribución del 50% y con resolución espacial de 512x512. preanálisis de las evidencias y su correlación, nace este marco El 70% de este conjunto de datos fue asignado para de trabajo basado en un conjunto de herramientas usando un entrenamiento del modelo, el 10% para validación y el 20% para sistema de multi agente. Es implementado usando JADE, marco pruebas. Se tuvieron en cuenta cinco densidades de contenido de trabajo basado en lenguaje Java muy común en el desarrollo embebido (payload): 0.1, 0.2, 0.3, 0.4 y 0.5 bpp (bits por píxel). de sistemas multi agente. El clasificador logró un desempeño medido en precisión de entre el 84% y 86%. La arquitectura definida (ver Fig. 2) se divide en roles distribuidos en cuatro niveles de agentes. Se definen agentes D. Kim y H. Lee [25] en 2017 han utilizado un enfoque de autónomos especializados cada uno con distintos objetivos, que redes neuronales convolucionales, un tipo especializado de pueden colaborar con el trabajo de otros agentes en un único redes neuronales que permite aprender de una mayor cantidad espacio denominado Blackboard. Un sistema multi agente de información, almacenando conocimiento de los permite un uso de los recursos más eficiente y a los agentes entrenamientos. Esta característica les permite a los autores desarrollar un modelo para la detección de posible manipulación operar de forma autónoma en diferentes máquinas y entornos. de imágenes digitales a color. El modelo fue entrenado con La arquitectura de cuatro capas incluye un nivel operativo ejemplos gráficos procedentes de una base de datos donde encontramos a los agentes especializados, y unos niveles estandarizada con dimensión espacial 256x256, que contienen superiores en donde se encuentran los agentes de gestión, cuatro tipos de ruido, procesando las imágenes con filtros de encargados de las decisiones estratégicas y tácticas. Estos mediana y Gaussianos. El modelo fue entrenado con 160,000 últimos están encargados a su vez de la distribución y imágenes (80% del dataset) y probado con 40,000 imágenes coordinación de las tareas que ejecutarán los agentes (20% del dataset), consiguiendo un desempeño del detector de especializados de la capa operacional. La comunicación es 95% de precisión. jerárquica, ya que los agentes especializados se comunican solo De forma similar, N. Bonettini [26] en 2017 ha usado un con el gerente operacional, el gerente operacional con el gerente enfoque de redes neuronales convolucionales para el análisis táctico y el gerente táctico con el gerente estratégico. forense de imágenes JPEG, teniendo en cuenta una base de datos La plataforma se puede distribuir entre máquinas diferentes RAISE de imágenes RAW de 284,000 ejemplos que fue y la configuración se realiza desde una interfaz GUI remota. transformada en imágenes a escala de grises que fueron Dentro de las opciones principales que permite la configuración comprimidas, con resoluciones espaciales variadas equitativamente desde 64x64 hasta 256x256. Para el 6 24 están las de definir tiempos donde se ejecutan procesos y mover El reconocimiento de patrones es un campo particularmente a los agentes de una máquina a otra. utilizado en el análisis forense digital de elementos materiales probatorios, pues permite identificar grupos de datos y dinámicas no visibles. Es ampliamente utilizado en informática forense para el reconocimiento de patrones en imágenes, tal como se ha precisado, en el que una sección de software realiza la identificación de componentes espaciales y frecuenciales de una imagen [34] [35]. Otra forma de reconocimiento de patrones se aplica en mensajes de correo electrónico para encontrar aquellos con SPAM o que utilicen phishing [36] [37]. También se puede utilizar para reconocimiento de patrones de audio en pistas o sectores de disco [38]. Un tercer campo de la AI que se puede aprovechar en el ámbito forense es la minería de datos y descubrimiento de conocimiento en bases de datos. Aunque ambos conceptos son diferentes, se usan para referirse al mismo procedimiento de recolección de grandes cantidades de datos [31]. V. DISCUSIÓN Las técnicas actuales de análisis forense digital están Fig. 2. Arquitectura MADIK. Tomado de: [28]. basadas en la identificación de variaciones de variables En el nivel operativo se encuentra la mayor cantidad de individuales que permiten una identificación de posibles agentes desplegados, entre los que se encuentran: actividades irregulares mediante métodos manuales y visuales. Sin embargo, el exceso en el volumen de datos que deben ser − HashSetAgent: calcula el hash MD5 de un archivo y lo analizados, los patrones que no son identificables al aplicar compara con su base de conocimiento. técnicas manuales y visuales, y las diversas dinámicas de texto, − FilePathAgent: mantiene en su base de conocimiento gráficas y audiovisuales que deben ser analizadas, hacen que la carpetas que son usadas habitualmente por aplicaciones que complejidad temporal y espacial de los algoritmos crezca, pueden ser de interés para la investigación. aumentando el tiempo requerido para ejecutar el análisis − FileSignatureAgent: analiza el encabezado del archivo para forense y limitando las capacidades computacionales en la determinar su extensión. Usado para determinar si el búsqueda de información concluyente. Para esto se han atacante cambia la extensión de los archivos. desarrollado técnicas de inteligencia artificial que permiten − TimelineAgent: Examina fecha de creación, de acceso y entrenar un modelo que identifique de forma correlacionada e modificación de los archivos. integrada la actividad irregular de múltiples variables, archivos y medios de forma simultánea, entreviendo patrones en Después de varios experimentos realizados con las dinámicas ocultas que no son visualmente apreciables. herramientas en múltiples casos, los autores pueden determinar buenos resultados al compararlos con las herramientas El uso de técnicas de inteligencia artificial se encuentra en disponibles evaluadas. En comparación con el trabajo realizado constante expansión en la actualidad, debido a su eficiencia por un humano experto, los autores observaron un menor factor para afrontar problemas complejos en diferentes áreas de de reducción para el sistema de múltiples agentes, aunque en estudio, sumado a que las herramientas computacionales términos del tiempo requerido observaron una reducción de modernas permiten una implementación viable de esta técnica. tiempo hasta por seis veces, considerando el mismo contenido En el campo del análisis forense digital, tal como se evidenció examinado por parte humana y parte artificial. El factor de en los resultados del análisis, las técnicas de inteligencia cobertura alcanzó el 80%, una buena cifra, según los autores, artificial permitieron un entrenamiento de modelos de que se puede mejorar con bases de conocimientos robustas y aprendizaje a partir de la experiencia y la identificación de con el uso de más agentes especializados. patrones en los posibles vectores de ataque y alteración de la información, evidenciando las siguientes ventajas: D. Otras aplicaciones • Capacidad de realizar tareas con base en criterios La Inteligencia Artificial ha sido usada en otros campos en adquiridos a partir de un entrenamiento. los que se puede extrapolar un estudio forense, como lo son: el • Abstracción de una representación de la información y reconocimiento de patrones en línea [29] [30], el descubrimiento organización de acuerdo con esta. de conocimiento [31], la computación forense sobre Internet de las Cosas (IoT) [32], la correlación de eventos almacenados en • Tolerancia a fallos y composición modular de las técnicas los elementos materiales probatorios [33], entre otras de aprendizaje que permiten que los servicios, a pesar de aplicaciones. sufrir daños parciales, tengan capacidades que se puedan conservar. 7 25 • Las operaciones y cálculos pueden hacerse en paralelo y dinámicas ocultas no visibles mediante la implementación de tiempo real, lo que permite la identificación en línea de métodos manuales. patrones en vectores de ataque. En este sentido, este breve estudio establece un punto de referencia para habilitar nuevas perspectivas del uso de la Por otro lado, se evidencia que la inteligencia artificial es inteligencia artificial en el análisis forense digital, que permitan aplicable a múltiples contextos dentro del análisis forense orientar investigaciones posteriores y propuestas novedosas de digital, lo que permite reforzar esta disciplina. Desde la aplicaciones emergentes, que atendiendo las ventajas y identificación de aspectos físicos mediante el procesamiento de limitaciones de las disciplinas de aprendizaje automático y los imágenes de las escenas, hasta la detección de alteraciones en agentes inteligentes revisadas, puedan facilitar la convergencia archivos y datos. Esto demuestra que la inteligencia artificial es entre los métodos manuales y las posibilidades que plantean las un área flexible y heterogénea en técnicas que se pueden aplicar estrategias automáticas revisadas. a variados contextos, que está en constante evolución y que ha colaborado con la solución de algunos inconvenientes que se AGRADECIMIENTOS presentan a la hora de realizar tareas humanas. Esta investigación estuvo soportada por la Universidad Sin embargo, aunque las técnicas de inteligencia artificial Pontificia Bolivariana de Bucaramanga. Gracias al Maestro presentadas resultan eficientes para el análisis y correlación de Diego Javier Parada, Coordinador del Programa de grandes volúmenes de datos, siguen presentando una tasa de Especialización en Seguridad Informática, por el apoyo y falsos positivos y falsos negativos alta y su implementación colaboración en el desarrollo de esta investigación. implica un alto consumo de recursos computacionales. Adicionalmente, se trata de técnicas basadas en la experiencia, REFERENCIAS razón por la cual ataques de días cero o vectores de ataque no previstos pueden no ser detectados correctamente al analizar los [1] M. López Delgado, Análisis Forense Digital, España: CriptoRed, datos recabados. Por lo tanto, debe hacerse un esfuerzo adicional 2007. por seguir implementando la inteligencia artificial de forma [2] S. Raghavan, «Digital forensic research: Current state of the art,» integrada con el análisis manual y visual de los datos, pues la CSI Transactions, pp. 91-114, 2013. base de conocimientos es fundamental para un mejor desempeño [3] M. J. Rivas Sández, «A Review of Technical Problems when de los modelos de detección implementados. Conducting an Investigation in Cloud-Based Environments,» Aunque este estudio presenta reflexiones sobre la arXiv, p. 16, 2014. problemática planteada, existen algunas limitaciones a destacar: [4] H. Ç. a. M. A. S. Dilek, «Applications of Artificial Intelligence poca literatura que documente el desarrollo y resultados Techniques to combating Cyber Crimes: a review,» International Journal of Artificial Intelligence & Applications preliminares de pruebas de aplicación de la inteligencia artificial (IJAIA), vol. 6, pp. 21-23, 2015. en el ámbito forense digital. Así mismo, se incluyeron técnicas [5] específicas usadas para la solución de problemáticas enmarcadas L. D. Merkle, «Automated Network Forensics,» pp. 1929-1931, 2008. en el análisis forense digital, obviando el uso de otras técnicas como los modelos de Markov, estadísticas Bayesianas y [6] . A. Kaplan y M. Haenlein, «Siri, Siri in my Hand, who's the Fairest in the Land? On the Interpretations,» Illustrations and modelos de redes neuronales más robustos, entre otros. El Implications of Artificial Intelligence, Business Horizons, vol. análisis del desarrollo e implementación de técnicas de 62, nº 1, pp. 15-25, 2019. inteligencia artificial se hace de forma limitada, sin entrar en [7] D. Poole, Computational Intelligence: A Logical Approach, detalle en áreas específicas del análisis forense digital, como el Nueva York: Oxford University Press, 2018. almacenamiento en la nube, operaciones transaccionales y [8] bancarias, o procesos cuánticos criptográficos, entre otros. N. Nilsson, Introduction to Machine Learning, Standford, California: Department of Computer Science, Standford University, 2005. VI. CONCLUSIONES [9] P. Harrington, Machine Learning in Action, United States of America: Manning publications Co,, 2012, p. 382. En este documento se detallan las características y [10] D. Kriesel, A Brief Introduction to Neural Networks, Bonn, propiedades de los modelos de inteligencia artificial que son Germany: Dkriesel, 2005, p. 244. aplicados al análisis forense digital. Se presenta una breve revisión de la literatura para ilustrar en qué áreas del análisis [11] A. Mammone, M. Turchi y N. Cristianini, «Support Vector forense digital se ha utilizado recientemente la inteligencia Machines,» vol. 1, pp. 283-288, 2009. artificial, proporcionando una visión de las múltiples disciplinas [12] A. Navia Vazquez y E. Parrado Hernandez, «Support vector de trabajo del aprendizaje automático, las máquinas de soportes machine interpretation,» Neurocomputing, pp. 1754-1759, 2006. vectoriales y las redes neuronales artificiales, así como los [13] D. Matich, Redes Neuronales: Conceptos Básicos y agentes inteligentes. Aplicaciones, Rosario: Universidad Tecnológica Nacional, 2001, p. 55. Muchos son los retos que aún debe resolverse con el uso de técnicas automatizadas que permitan la identificación de patrones nacientes, ataques e información extraíble de 8 26 [14] C. A. Ruiz y M. S. Basualdo, Redes Neuronales: conceptos [30] D. Saez Trigueros, L. Meng y M. Hartnett, «Face Recognition: básicos y aplicaciones, Rosario: Universidad Tecnológica From Traditional to Deep Learning Methods,» Cornell Nacional, Facultad Regional Rosario, 2001, p. 55. University Press, p. 13, 2018. [15] C. S. Krishnamoorthy y S. Rajeev, Artificial Intelligence and [31] F. Mitchell, «THE USE OF ARTIFICIAL INTELLIGENCE IN Expert Systems for Engineers, Boca Ratón, Florida: CRC Press, DIGITAL FORENSICS: AN INTRODUCTION,» Digital 2000, p. 190. Evidence and Electronic Signature Law Review, vol. 7, pp. 35- [16] L. C. Jain, Z. Chen y N. Ichalkaranje, Intelligent Agents and 41, 2010. Their Applications, New York: Physica-Verlag, Springer, 2002. [32] F. Spencer, «Digital Forensics with Artificial Intelligence [17] S. M. a. A. H. Sung, «Identifying Significant Features for Internet of Things,» p. 6, 2018. Network Forensic Analysis Using Artificial Intelligent [33] B. Hoelz, R. Geeverghese y C. G. Ralha, «Artificial intelligence Techniques,» International Journal of Digital Evidence, vol. 1, applied to computer forensics,» Proceedings of the 2009 ACM nº 4, 2003. Symposium on Applied Computing (SAC), p. 6, 2009. [18] A. Mikkilineni, O. Arslan, P.-J. Chiang, R. Kumontoy, J. [34] J. Li, S. You y A. Robles-Kelly, «A Frequency Domain Neural Allebach, G. Chiu y E. Delp, Purdue University, p. 4, 2005. Network for Fast Image Super-resolution,» International Joint [19] Q. Li y A. Ong, «A Novel Support Vector Machine Approach to Conference on Neural Networks, p. 9, 2017. High Entropy Data Fragment Classification,» Proceedings of the [35] F. Petroski Such, S. Sah, M. Dominguez, S. Pillai, C. Zhang, A. South African Information Security Multi-Conference, p. 10, Michael, N. Cahill y R. Ptucha, «Robust Spatial Filtering with 2010. Graph Convolutional Neural Networks,» IEEE Journal of [20] K. Cai, X. Lu, J. Song y X. Wang, «Blind Image Tampering Selected Topics in Signal Processing, p. 14, 2017. Identification Based on Histogram Features,» de Third [36] L. Özgür, T. Gungor y F. Gurgen, «Spam Mail Detection Using International Conference on Multimedia Information Artificial Neural Network and Bayesian Filter,» Intelligent Data Networking and Security, Shanghai, China, 2011. Engineering and Automated Learning - IDEAL, 5th [21] L. Sportiello y S. Zanero, «File Block Classification by Support International Conference, p. 6, 2004. Vector Machines,» de Sixth International Conference on [37] S. Sekhar Roy y M. Viswanatham, «Classifying Spam Emails Availability, Reliability, and Security, Milan, Italy, 2011. Using Artificial Intelligent Techniques,» International Journal [22] R. Mohammad, «A Neural Network-based Digital Forensics of Advanced Computer Technology (IJACT), p. 5, 2016. Classification,» IEEE/ACS 15th International Conference on [38] K. Al Smadi, H. A. Al Issa, I. Trrad y T. Al Smadi, «Artificial Computer Systems and Applications (AICCSA), p. 7, 2018. Intelligence for Speech Recognition Based on Neural [23] A. Tallón-Ballesteros y J. Riquelme, «Data Mining Methods Networks,» Journal of Signal and Information Processing, p. 7, Applied to a Digital Forensics Task for Supervised Machine 2006. Learning,» Computational Intelligence in Digital Forensics: Forensic Investigation and Applications, vol. 555, pp. 413-428. Jeimy J. Cano. Egresado del Programa de Ingeniería y Maestría en Sistemas [24] Y. Qian, J. Dong, W. Wang y T. Tan, «Learning and Transferring y Computación de la Universidad de Los Andes. Doctor en Filosofía de la Representations for Image Steganalysis using Convolutional Administración de Negocios, de Newport University en California, Estados Unidos. Certificado como Examinador Certificado de Fraude - en inglés CFE. Neural Network,» de 2016 IEEE International Conference on Es profesor e investigador a nivel nacional y latinoamericano en temas de Image Processing (ICIP), Phoenix, AZ, USA, 2016. seguridad informática, computación forense y sistemas de información. [25] D.-H. Kim y H.-Y. Lee, «Image Manipulation Detection using Actualmente, es director de la revista SISTEMAS, de la Asociación Convolutional Neural Network,» International Journal of Colombiana de Ingenieros de Sistemas (ACIS). Applied Engineering Research, vol. 12, nº 21, pp. 11640-11646, Julián D. Miranda. Ingeniero Electrónico (2016), Ingeniero de Sistemas e 2017. Informática (2018) y Especialista en Seguridad Informática (2019) de la [26] N. Bonettini, «JPEG-based Forensics through Convolutional Universidad Pontificia Bolivariana de Bucaramanga, Colombia. Cuenta con Neural Networks,» Milano, 2017. experiencia en el desarrollo de proyectos de investigación con metodologías Ágiles, aplicando aprendizaje automático y procesamiento digital de [27] J. Bunk, J. Bappy, T. Mohammed, L. Nataraj, A. Flenner, B. imágenes y señales, enfocadas hacia la Inteligencia Artificial y las ciencias de Manjunath, S. Chandrasekaran, A. Roy-Chowdhury y L. datos. Actualmente, es docente de pregrado y posgrado en las áreas de Peterson, «Detection and Localization of Image Forgeries using computación, sistemas operativos, criptografía, esteganografía y ciencia de Resampling Features and Deep Learning,» de CVPR Workshop datos. on Media Forensics, University of Maryland, 2017. Sergio A. Pinzón. Ingeniero de Telecomunicaciones (2013) de la Universidad [28] B. Hoelz, C. Ralha, R. Geeverghese y H. Junior, «A Cooperative Santo Tomas de Aquino de Bucaramanga, Colombia. Cuenta con experiencia Multi-Agent Approach to Computer Forensics,» IEEE en Arquitectura de redes móviles, redes cableadas de fibra óptica y cableado International Conference on Web Intelligence and Intelligent UTP, configuración de dispositivos de comunicaciones y seguridad Agent Technology, pp. 1-7, 2008. perimetral, con intereses en temas de Machine Learning aplicado a la [29] S. Qatawneh, S. Ipson, R. Qahwaji y H. Ugail, «3D face seguridad de la información, automatización de dispositivos de red y Ethical recognition based on machine learning,» Eighth IASTED Hacking. International Conference on Visualization, Imaging and Image Processing (VIIP 2008), pp. 362-366, 2008. 9 27 MARISMA-BiDa: Gestión y Control del riesgo en Big Data. Caso de Estudio David G. Rosado, Julio Moreno, Luis E. Sánchez, Antonio Santos-Olmo, Manuel A. Serrano, Eduardo Fernández-Medina sus características clave, aunque la mayoría de las definiciones Resumen— En la actualidad, se genera una gran cantidad de de Big Data se refieren a las tres Vs [4]. La primera V es para información debido a la amplia hiperconectividad y sensorización Volumen (el uso de grandes cantidades de datos), la segunda del mundo que nos rodea. Esta información es considerada como V es para Variety (el uso de diversas fuentes de datos que se uno de los activos más importantes para las empresas en todos los almacenan en estructuras diversas o incluso de forma no campos. El continuo crecimiento en la importancia y el volumen de datos ha creado un nuevo problema: no puede ser manejado estructurada) y la tercera significa Velocidad, o la velocidad por las técnicas de análisis tradicionales. Este problema se del procesamiento de datos (los datos son a menudo en tiempo resolvió, por lo tanto, mediante la creación de un nuevo real). A lo largo del tiempo, varios autores han añadieron Vs paradigma: Big Data. Sin embargo, Big Data originó nuevos adicionales a este trío, como Veracity [5], Variabilidad [6], problemas relacionados no sólo con el volumen o la variedad de [7], Valor [8], [9] y Virtual [10], [11]. los datos, sino también con la seguridad y privacidad de los datos. La aplicación de Big Data ofrece beneficios significativos Al adoptar nuevas soluciones tecnológicas como Big Data, todos para los individuos y la sociedad, pero también plantea serias los riesgos deben ser identificados y gestionados. En este artículo preocupaciones sobre varios riesgos de seguridad de la se presenta un caso de estudio de la aplicación de una técnica de análisis y gestión de riesgos para entornos Big Data, guiada por información como la seguridad de los datos, el gobierno y la una metodología de gestión de la seguridad (MARISMA) y privacidad [12]. Uno de los principales problemas en el uso de soportada por un entorno tecnológico en la nube (eMARISMA). los sistemas Big Data es la seguridad. Los sistemas Big Data La propuesta, denominada MARISMA-BiDa es un patrón son complejos y heterogéneos, y la seguridad de todo el específico para Big Data que contiene los elementos necesarios sistema debe ser abordada de manera integral. Además, la para facilitar la aplicación de la metodología de análisis y gestión integración de diferentes tecnologías introduce nuevas de riesgos MARISMA en un entorno específico y siguiendo los principales estándares y recomendaciones internacionales cuestiones de seguridad que deben abordarse adecuadamente relacionados con Big Data (ISO/IEC, NIST, ENISA). [1]. Big Data no fue diseñado con la seguridad en mente. Con estas montañas de datos, que informan a las empresas sobre Palabras clave—Big Data, Análisis y Gestión de riesgos, las decisiones críticas de los clientes, los hábitos y otros Seguridad innumerables detalles, surge la necesidad urgente de mantener esta valiosa información segura y protegida. Al fin y al cabo, se trata de información delicada, y con gran parte de ella I. INTRODUCCIÓN existe un mayor riesgo de infracciones [13]. U N número creciente de dispositivos, sensores y personas Los problemas de seguridad y privacidad se ven están conectados a la red global y esto cambia magnificados por la velocidad, el volumen y la variedad de los drásticamente la capacidad de generar, comunicar, grandes datos, como las infraestructuras de nube a gran escala, compartir y acceder a los datos [1]. Los datos son esenciales la diversidad de fuentes y formatos de datos, la naturaleza de para el desarrollo de sus actividades cotidianas, así como para la transmisión de la adquisición de datos y la migración entre ayudar a la dirección de las empresas a alcanzar sus objetivos nubes de gran volumen. El uso de infraestructuras de nube a y a tomar las mejores decisiones a partir de la información que gran escala, con una diversidad de plataformas de software, se extrae de ellas [2]. Los desarrollos tecnológicos y nuevas distribuidas en grandes redes de ordenadores, también aplicaciones continúan alimentando el debate sobre lo que aumenta la superficie de ataque de todo el sistema. Por tanto, define a Big Data y lo distingue de las anteriores formas de es muy importante contar con una serie de guías, metodologías análisis de datos [3]. No existe un consenso real en cuanto a y mecanismos para implementar de forma adecuada no solo el entorno Big Data, sino también su seguridad. Pero no solo eso, David G. Rosado, Julio Moreno, Luis E. Sánchez y Eduardo Fernández- Medina, Grupo de Investigación GSyA, Universidad de Castilla-la Mancha, además, es ampliamente considerado que todo entorno global Ciudad Real, España, david.grosado@uclm.es, julio.moreno@uclm.es, de gestión de seguridad de la información en la empresa, debe luisenrique@sanchezcrespo.org, eduardo.fdezmedina@uclm.es. estar centrado en los riesgos [14]–[16]. Por lo que los riesgos Antonio Santos-Olmo, Departamento I+D+i, Sicaman Nuevas Tecnologías y Marisma Shield, Tomelloso (Ciudad Real), España, asolmo@sicaman- de seguridad en Big Data, deben ser analizados y gestionados nt.com. de manera adecuada, junto a los riesgos de otros tipos de Manuel A. Serrano, Grupo de Investigación Alarcos, Universidad de activos de información [17]. Castilla-la Mancha, Ciudad Real, España, Manuel.serrano@uclm.es. Por otro lado, la mayoría de las organizaciones de hoy en https://doi.org/10.12804/si9789587844337.03 28 día que utilizan tecnologías de la información tienen de riesgos y se explica la metodología de análisis y gestión de problemas con la seguridad de su sistema de información, y riesgos utilizada. Además, se describe el meta-patrón definido diferentes investigadores destacan que la gestión del riesgo es y la herramienta de soporte utilizada. La sección III se define un proceso esencial en cualquier modelo de gestión el patrón MARISMA-BiDa usando el meta-patrón para el empresarial [18], y que la información es un activo valioso contexto de Big Data definiendo los elementos específicos en que se espera que esté protegido [19]. estos entornos. En la sección IV se presenta un caso de estudio Un análisis de riesgos es un proceso sistemático para de registros médicos utilizando el patrón MARISMA-BiDa estimar la magnitud de los riesgos a los que está expuesta una mostrando los resultados obtenidos y su implementación en la organización, para saber qué decisión tomar ante una posible herramienta de soporte. Finalmente, la sección V muestra las eventualidad [20]. Para ello, se seleccionan e implementan conclusiones de nuestra investigación. salvaguardas para poder conocer, prevenir, impedir, reducir o controlar los riesgos identificados. Esto es lo que se entiende II. MARCO DE TRABAJO MARISMA como gestión de riesgos. En los últimos años se han detectado una serie de De forma más técnica, el análisis de riesgos permite deficiencias en las principales propuestas de procesos y determinar cómo es, cuánto vale y cómo de protegidos se métodos de gestión de riesgos. Entre los principales problemas encuentran los activos. En coordinación con los objetivos, identificados en los métodos de Gestión de Riesgos, hay estrategia y política de la organización, las actividades de algunos que se pueden destacar: i) Alto costo y complejidad, gestión de riesgos permiten elaborar un plan de seguridad que, ya que se realiza el análisis de riesgos, ii) Su falta de implantado y operado, satisfaga los objetivos propuestos con orientación hacia las pequeñas y medianas empresas el nivel de riesgo que acepta la dirección. (PYMES); iii) Los resultados de los conocimientos de gestión Actualmente se están realizando muchas investigaciones de riesgos de proyectos anteriores no suelen considerarse más sobre análisis de riesgos, y muchas de ellas intentan comparar fáciles para ejecutar nuevos procesos de gestión de riesgos, y los métodos clásicos para ver cómo se podrían alinear [21]– iv) Los análisis de riesgos son casi siempre estáticos. En [27]. Otros investigadores han realizado también algunos consecuencia, estas cuestiones ponían en tela de juicio su análisis comparativos de los principales estándares de riesgos eficacia y ponían en peligro su valor para las organizaciones. con el objetivo de mejorar algunos de sus aspectos [28], o Para resolver estos problemas, se desarrolló una trabajos que relacionan los planes de contingencia con el metodología llamada MARISMA, así como una herramienta análisis de riesgos [29]. Durante el estudio, se identificaron de apoyo a dicha metodología (herramienta eMARISMA1). ciertas deficiencias como pueden ser dificultades para su Esta metodología se centra en la reducción de los costes del aplicación en la práctica, no cuentan con herramientas proceso de gestión de riesgos y en la simplicidad de su adecuadas para su procesamiento (o en caso de existir, éstas aplicación; el modelo desarrollado permite el mayor nivel no son muy usables), están pensadas para ser aplicadas en posible de automatización y reutilización con la mínima grandes compañías, no son sensibles al contexto, sin contar cantidad de información, recogida en un tiempo muy reducido con capacidades de adaptación para entornos especiales, que [34]. requieran un especial tratamiento de sus riesgos, y su falta de En las siguientes subsecciones se muestran los detalles dinamismo y asociatividad de sus riesgos. Parte de estas sobre esta metodología y esta herramienta. deficiencias se afrontaron mediante el desarrollo de una metodología denominada MARISMA (Methodology for the A. Modelo Conceptual de Gestión de Riesgos Analysis of Risks on Information System, using Meta-Pattern Las organizaciones, independientemente de su tamaño, and Adaptability) que utilizan el concepto de meta-patrón para deben ser conscientes de la importancia de los riesgos de TI y crear una estructura capaz de soportar los elementos asociados de cómo deben gestionarse. La ISO 31000 [35] define la con un análisis de riesgos y sus relaciones, con el objetivo de gestión de riesgos como un proceso organizacional que debe crear estructuras evolutivas, dinámicas y capaces de adaptarse implicar la aplicación sistemática de políticas, procedimientos a las nuevas tecnologías [30], [31]. y prácticas a las actividades de comunicación y consultoría, Dentro de estas nuevas tecnologías ha tomado especial estableciendo el contexto y evaluando, tratando, monitoreando importancia la necesidad de poder analizar los riesgos de y revisando el riesgo. seguridad dentro de los entornos de Big-Data, y por tanto se Todas estas actividades deben ser controladas por los ha considerado relevante, afrontar el desarrollo de un nuevo actores internos y externos del proceso de gestión de riesgos patrón soportado sobre la metodología MARISMA, que [35], [36]. La Fig. 1. resume este proceso incluyendo todas las permita realizar análisis de riesgos TIC en entornos de Big- actividades y sus relaciones. Data, validándolo en un caso de estudio relacionado con el sector sanitario, donde los datos que se manejan son muy sensibles y el nivel de seguridad que se requiere es muy alto [32], [33]. El resto de este artículo está estructurado de la siguiente manera: La sección II presenta el marco de trabajo MARISMA donde se define el modelo conceptual de gestión 1 www.emarisma.com 29 automatizar el proceso de análisis de riesgos a través de la herramienta eMARISMA. Este modelo conceptual sirve para establecer las relaciones entre todos los conceptos, y es posible almacenar toda la información que se genera en cualquier proceso de análisis de riesgos. Como se muestra en la Fig. 1, el contexto de la organización es crucial para definir adecuadamente sus activos. Estos son los elementos más importantes de la gestión de riesgos y son esenciales para protegerlos. Conociendo los activos involucrados en la organización, se pueden identificar varias vulnerabilidades asociadas con ellos. Estas vulnerabilidades pueden ser mitigadas con el apoyo de controles de seguridad. Sin embargo, para abordar adecuadamente estas vulnerabilidades, es aconsejable abstraer los activos en un concepto más general, a saber, los tipos de activos. Los diferentes tipos de activos pueden estar en riesgo debido a amenazas específicas (clasificadas por categorías o tipos de Fig. 1 Proceso de Gestión de Riesgos basado en ISO 31000 amenazas), pero este riesgo no compromete a activos particulares en su totalidad, sino que lo hace en diferentes Siguiendo el proceso de gestión de riesgos anteriormente dimensiones (es decir, confidencialidad, integridad, etc.). expuesto, y teniendo en cuenta todas las actividades, se ha Estas dimensiones dependen del contexto y se definen en la considerado el desarrollo de MARISMA, ya que se trata de un subsección 4.3. Es imperativo no olvidar la importancia de los marco que da soporte a todo el proceso de gestión de riesgos, requisitos de seguridad en la identificación y definición de los centrándose principalmente en la actividad de tratamiento de diferentes controles que tratan de mitigar las amenazas riesgos. Se propone un modelo conceptual de gestión de identificadas. El modelo definido se muestra en la Fig. 2 y se riesgos en la Fig. 2, que representa los conceptos esenciales ha implementado en el marco de MARISMA. que deben ser capturados -en forma de información- para Security Requirement Context 1..1 1..* identifies 1..* Type of Asset Asset 1..* satisfies 1..* has Dimension Vulnerability 1..* 1..* exploits 1..* 1..* 1..* Control 0..* 1..* Threat Type of Threat1..* mitigates 1..* mitigates Fig. 2. Modelo conceptual de Gestión de Riesgos 30 B. Metodología MARISMA C. Meta-Patrón MARISMA Dado que la gestión de riesgos puede considerarse como Fig. 3. Visión general de los procesos en MARISMA parte de la gestión de la seguridad, MARISMA intenta asociar Como se definió en [17], el meta-patrón MARISMA está las actividades de ambos procesos. Para lograr este objetivo se formado por los elementos comunes y sus relaciones que define el siguiente proceso en la Fig. 3. El éxito del proceso se cualquier análisis de riesgos debe tener, con el objetivo de basa en la reutilización de patrones, que son estructuras de reutilizar el conocimiento y la experiencia adquirida por los conocimiento con características comunes para un contexto consultores al ejecutar el proceso de análisis de riesgos. Así se específico, por ejemplo, un patrón de riesgo para Big Data, un pudo identificar que todos los análisis de riesgos tenían patrón de riesgo para sistemas críticos, o un patrón de riesgo controles, activos de información y amenazas, y que estos para servicios web, etc. elementos estaban interrelacionados, como se muestra en El proceso tiene tres puntos de vista: El punto de vista del nuestro modelo conceptual de la Fig. 2. Cliente define todas las iteraciones y el trabajo que el cliente Por tanto, para diferenciar entre un patrón y un meta-patrón debe realizar durante la identificación y análisis de los riesgos en nuestro marco de trabajo MARISMA, un patrón contiene, del sistema (identificación de activos, amenazas, controles, por lo tanto, los elementos necesarios para llevar a cabo un incluyendo probabilidad e impacto, etc.). Esto se apoya en la proceso de análisis y gestión de riesgos en un contexto herramienta eMARISMA que ayuda al cliente a calcular el específico. Un patrón se basa en un meta-patrón más general nivel de riesgo y su evaluación para la toma de decisiones. El que contiene todos los elementos necesarios y sus relaciones punto de vista de eMARISMA se encarga de gestionar para un análisis de riesgos sin tener en cuenta el contexto automáticamente toda la información proporcionada por el específico de cada organización o empresa. La organización o cliente a través de patrones de conocimiento, gestionar todos empresa es la encargada de crear el patrón específico que los eventos de seguridad que pueden ocurrir en el sistema, y mejor se adapte al contexto (punto de vista del experto en la hacer recomendaciones sobre la mejor forma de tratarlos. El Fig. 3), instanciando el meta-patrón y tomando los elementos tercer punto de vista es el del Experto, cuya única misión en el que considere necesarios para llevar a cabo el análisis de proceso es generar un nuevo patrón inexistente que contenga riesgos de su empresa u organización. Este meta-patrón se las características comunes de un entorno empresarial similar, muestra en la Fig. 4 y ha sido implementado en la herramienta como un entorno Big Data. eMARISMA. A continuación, el sistema está preparado para gestionar el La definición de cada uno de los elementos que forman el evento de seguridad que debe ser comunicado por el cliente. meta-patrón ha sido descrito en detalle en [17], y se ha Estos eventos de seguridad generan conocimiento para adaptar definido siguiendo nuestro modelo conceptual (mostrado en la los niveles asociados a los elementos de la gestión de riesgos, ) que define todos los conceptos para realizar una gestión de haciendo que el riesgo sea recalculado dinámicamente, y riesgos. De esta forma, el meta-patrón contiene los elementos también adaptando los elementos asociados al patrón necesarios para representar los conceptos esenciales y sus seleccionado permitiendo su evolución. relaciones en un análisis de riesgos. 31 riesgo y los eventos de seguridad. También dispone de una Aspects of information security for the zona de visualización y cuadro de mando. En el caso de Physical and management of business continuity estudio podemos ver las capturas de pantalla de la environmental security Security of Eavesdropping, Unintentional damage communications Interception or Hijackingherramienta. Las principales funciones de la herramienta Asset management eMARISMA son: Compliance Organizational • Visualizar los diferentes patrones existentes y utilizarlos Access control Type of Threats Domains como base para crear otros patrones (por ejemplo, Security of operations Cryptography Big DataNefarious activities or patrones sectoriales). abuse Legal Acquisition, development, and Relationship with • Obtener un mapa detallado de la situación actual maintenance of information systems suppliers (identificación de riesgos) y un plan de recomendaciones sobre cómo mejorarla (evaluación de riesgos). Data analytics algorithms • El sistema realiza automáticamente una evaluación de and procedures Big Data riesgos y calcula el plan de tratamiento de riesgos más Analytics Software adecuado para que la empresa alcance un nivel de riesgo Analytical results Hardware (physical and dentro de los límites definidos de una forma óptima. Data provider virtual) • La herramienta representa un cuadro de mando con los Individuals Data consumer Computing Fig. 4 Meta-patrón en MARISMA niveles de seguridad que la empresa tiene en todo and roles Infrastructure Infrastructure models momento, para que el riesgo de la empresa pueda ser Operational roles Storage Infrastructure Los elementos que aparecen definidos en la Fig. 4 tienen monitorizado en tiempo real. models una relación directa con el modelo conceptual de la de la Metadata siguiente forma: Type of Assets Infrastructure Security Volume VeracityIII. PATRÓN MARISMA-BIDA Structured data • Dominio y Objetivo de Control: Estos elementos se Big Data Security of Data definen a partir del concepto de Context de nuestro La versatilidad de la metodología MARISMA permite el Semi-structured and Management VelocityUnstructured data Data Variability modelo conceptual. desarrollo de un marco de gestión de seguridad especializado Integrity and reactive DimensionsStreaming data Security and security • Control: En nuestro modelo conceptual hemos definido el en el contexto de Big Data. Para ello, se definiría un patrón Variety Value concepto de Control. especializado (llamado MARISMA-BiDa). Este es un marco Volatile data privacy tecniques Data Privacy • Tipos de Activos y Dimensiones: En el modelo genérico que puede aplicarse a cualquier ecosistema de Big Fig. 5 Elementos que forman parte del patrón MARISMA-BiDa conceptual, hay tres conceptos como Asset, Types of Asset Data. y Dimension que los representan. Como hemos comentado anteriormente, el meta-patrón definido es genérico y válido para cualquier contexto, y debe La Fig. 5 muestra todos los elementos que forman parte del Por ejemplo, un tipo de amenaza es la ”interceptación de • Tipos de Amenazas y Amenazas: Estos conceptos están ser el experto el que cree un patrón dependiente del contexto patrón de forma gráfica. Así se pueden ver el conjunto de información” de la “escucha clandestina”, donde puede definidos en nuestro modelo conceptual como Threat y basado en este meta-patrón e instanciarlo con los conceptos dominios, los tipos de activos categorizados por grupos de producirse la interceptación de información en las Types of Threat. específicos relacionados con la empresa. Así, por ejemplo, activos, los tipos de amenazas y las dimensiones a tener en comunicaciones entre aplicaciones Big Data, y donde los • La relación Control-Aamenaza: Con este elemento para un contexto de Big Data, el experto debe crear un patrón cuenta en el patrón para Big Data. Los detalles de cada uno de protocolos de comunicación son raramente seguros entre este podemos gestionar el concepto de Vulnerability para con dominios, objetivos y controles específicos, un conjunto estos elementos y subelementos se pueden obtener en [17]. tipo de aplicaciones (sin el uso de TLS y SSL). Se considera nuestro modelo conceptual. de amenazas para Big Data, así como los activos más comunes Para la definición de las diferentes amenazas que se pueden que este tipo de amenaza afecta en mayor medida a las • La relación Tipos de Activos - Amenaza - Dimensión: en este tipo de entornos y sus dimensiones (por ejemplo, identificar en este tipo de sistemas, se ha definido una matriz dimensiones “Veracidad” y “Valor”. Consideramos que Este elemento representa la relación entre Types of Asset, Volumen y Velocidad). El cliente utilizará este nuevo patrón e en la que se integran tanto los diferentes tipos de amenazas afecta a la dimensión de la "veracidad" porque al interceptar la Threat y Dimension de nuestro modelo conceptual. instanciará estos elementos con nombres específicos, por como las diferentes dimensiones de Big Data. Si una amenaza información en la red (por ejemplo, ha sido modificada) no es Estos elementos son necesarios y suficientes para iniciar el ejemplo, MongoBD como activo, robo de identidad como no encaja en ninguna de las celdas de la matriz, se puede posible estar seguro de que esa información sea exacta, lo que proceso de análisis de riesgos y pueden definir el resto de las amenaza, etc. concluir que no es una amenaza típica de un entorno Big Data. puede llevar a tomar una decisión equivocada. También afecta relaciones de nuestro modelo conceptual como puede ser Todos estos elementos instanciados han sido definidos en La Tabla 1 muestra un ejemplo de cómo se pueden a la dimensión "valor" porque si alguien ha sido capaz de "mitiga" entre los conceptos de Control y Vulnerabilidad, y la un trabajo previo [17] donde por la parte de los dominios, identificar las diferentes amenazas para los entornos de Big interceptar la comunicación, puede haber revelado la relación "tiene" entre Activo y Vulnerabilidad. El concepto de objetivos y controles se ha tomado como base la normativa Data relacionadas con una o varias dimensiones. Esta relación información oculta de los datos y, en consecuencia, el valor se "Vulnerabilidad" se obtendrá a través de las relaciones ISO/IEC 27000; para las dimensiones se han considerado las se ha definido mediante la realización de un amplio estudio pierde. Este tipo de estudio y razonamiento para cada uno de existentes del meta-patrón conociendo la falta de controles y diferentes Vs típicas de los sistemas Big Data [37]–[39]; para tanto de las amenazas como de las dimensiones sin perder de los tipos de amenazas y amenazas definidas para nuestro amenazas por parte del elemento relación control-amenaza. especificar los diferentes tipos de activos se han considerado vista el contexto y los activos más afectados como patrón MARISMA-BiDa ha sido realizado, cuyos resultados D. Herramienta eMARISMA principalmente la arquitectura de referencia para Big Data consecuencia de la materialización de estas amenazas. Con la se muestran en la Tabla 1. realizada por la organización NIST [40] junto con ENISA [41] experiencia del equipo de investigación en estos temas, junto Este patrón así definido servirá para ser instanciado en un Para apoyar la metodología MARISMA, se desarrolló una y Cloud Security Alliance (CSA) [42]; para definir los con la colaboración de expertos en seguridad y con la ayuda nuevo proceso de análisis de riesgos con la herramienta herramienta llamada eMARISMA como SaaS y utilizando tecnología Java, que soporta todos los procesos de la diferentes tipos de amenazas que pueden afectar a un entorno de los informes de ENISA, ha sido posible completar eMARISMA en un entorno Big Data como es el caso de Big Data se han seguido las recomendaciones dadas por la satisfactoriamente esta relación. estudio que se presenta a continuación. metodología, con bajo coste de mantenimiento, dinámico y monitorización en tiempo real. Agencia de Seguridad de las Redes y de la Información de la eMARISMA dispone de diferentes zonas donde el usuario Unión Europea (ENISA) [43]. puede gestionar toda la información relacionada con la gestión de riesgos, la visualización y creación de patrones, la generación de relaciones entre conceptos, y el cálculo del 32 Aspects of information security for the Physical and management of business continuity environmental security Security of Eavesdropping, Unintentional damage Asset management communications Interception or Hijacking Compliance Organizational Access control Type of Threats Domains Security of operations Cryptography Big DataNefarious activities or Acquisition, development, and Relationship with abuse Legal maintenance of information systems suppliers Data analytics algorithms and procedures Big Data Analytics Software Analytical results Hardware (physical and Data provider virtual) Individuals Data consumer Computing and roles Infrastructure Infrastructure models Operational roles Storage Infrastructure models Metadata Type of Assets Infrastructure Security Volume Veracity Structured data Big Data Semi-structured and Security of Data Velocity Unstructured data Management Data Variability Integrity and reactive Dimensions Streaming data Security and security Variety Value Volatile data privacy tecniques Data Privacy Fig. 5 Elementos que forman parte del patrón MARISMA-BiDa La Fig. 5 muestra todos los elementos que forman parte del Por ejemplo, un tipo de amenaza es la ”interceptación de patrón de forma gráfica. Así se pueden ver el conjunto de información” de la “escucha clandestina”, donde puede dominios, los tipos de activos categorizados por grupos de producirse la interceptación de información en las activos, los tipos de amenazas y las dimensiones a tener en comunicaciones entre aplicaciones Big Data, y donde los cuenta en el patrón para Big Data. Los detalles de cada uno de protocolos de comunicación son raramente seguros entre este estos elementos y subelementos se pueden obtener en [17]. tipo de aplicaciones (sin el uso de TLS y SSL). Se considera Para la definición de las diferentes amenazas que se pueden que este tipo de amenaza afecta en mayor medida a las identificar en este tipo de sistemas, se ha definido una matriz dimensiones “Veracidad” y “Valor”. Consideramos que en la que se integran tanto los diferentes tipos de amenazas afecta a la dimensión de la "veracidad" porque al interceptar la como las diferentes dimensiones de Big Data. Si una amenaza información en la red (por ejemplo, ha sido modificada) no es no encaja en ninguna de las celdas de la matriz, se puede posible estar seguro de que esa información sea exacta, lo que concluir que no es una amenaza típica de un entorno Big Data. puede llevar a tomar una decisión equivocada. También afecta La Tabla 1 muestra un ejemplo de cómo se pueden a la dimensión "valor" porque si alguien ha sido capaz de identificar las diferentes amenazas para los entornos de Big interceptar la comunicación, puede haber revelado la Data relacionadas con una o varias dimensiones. Esta relación información oculta de los datos y, en consecuencia, el valor se se ha definido mediante la realización de un amplio estudio pierde. Este tipo de estudio y razonamiento para cada uno de tanto de las amenazas como de las dimensiones sin perder de los tipos de amenazas y amenazas definidas para nuestro vista el contexto y los activos más afectados como patrón MARISMA-BiDa ha sido realizado, cuyos resultados consecuencia de la materialización de estas amenazas. Con la se muestran en la Tabla 1. experiencia del equipo de investigación en estos temas, junto Este patrón así definido servirá para ser instanciado en un con la colaboración de expertos en seguridad y con la ayuda nuevo proceso de análisis de riesgos con la herramienta de los informes de ENISA, ha sido posible completar eMARISMA en un entorno Big Data como es el caso de satisfactoriamente esta relación. estudio que se presenta a continuación. 33 Unintentional damage Eavesdropping Nefarious Legal Organizational día. Una vez que los activos para nuestro caso de estudio han Volume Configuration error Abuse of Information Violation of laws or Skill shortage • Variedad (DIM3): una amplia variedad de conjuntos de sido identificados y añadidos a la herramienta eMARISMA, se Destruction of records Manipulation of hardware and legislation datos clínicos de múltiples fuentes: notas del proveedor de realiza automáticamente la evaluación de riesgos utilizando software texto libre; informes de laboratorios y servicios de todas las relaciones y matrices definidas en nuestro patrón urgencias; estudios de química, cardiología o MARISMA-BiDa. La herramienta relaciona entonces el activo Variety Destruction of records Misuse of audit tools Skill shortage hematología; estudios de bancos de sangre y toxicología, definido en nuestro caso con las amenazas y dimensiones Inadequate design etc. afectadas. También muestra el resultado del riesgo actual para Velocity Inadequate design Network DoS/DDoS Skill shortage • Veracidad (DIM4): los datos de cada fuente clínica se este conjunto de activos y vincula los objetivos con los Erroneous use Reconnaissance Malicious code recopilan comúnmente utilizando diferentes métodos y controles necesarios para proteger este conjunto de activos. Replay of messages Remote activity representaciones, lo que produce una heterogeneidad Para el conjunto de amenazas identificadas en el patrón Manipulation of hardware and MARISMA-BiDa, la herramienta eMARISMA toma valores software sustancial. Esto conduce a errores y sesgos sistemáticos Misuse of audit tools que requieren métodos robustos para crear la por defecto basados en la experiencia de análisis de riesgo Brute force interoperabilidad semántica. previo, así como para la probabilidad de ocurrencia y el Generation and use of rogue • Variabilidad (DIM5): los datos de los sistemas clínicos porcentaje de degradación, los cuales pueden ser modificados certificates evolucionan con el tiempo porque el espacio conceptual de acuerdo a nuestros criterios, experiencia y entorno del Variability Unintentional change of data Skill shortage clínico y biológico está en constante evolución. Los sistema a evaluar. Inadequate design nuevos descubrimientos científicos conducen a nuevas Veracity Leaks of data via Web Intercepting Code injection Failure to meet Skill shortage entidades de la enfermedad, nuevas modalidades de MARISMA-BiDa PATTERN PATTERN INSTANTIATED applications compromising Social Engineering contractual diagnóstico y nuevos enfoques de manejo de la Asset group Asset Type Assets of Case use Infrastructure Software Operating Systems, Server Loss of sensitive information emissions Abuse of authorizations requirements enfermedad. Software Loss of information in the War driving Receive of unsolicited E-mail Unauthorized use • Valor (DIM6): Métodos de recuperación de información Hardware Servers, Network, Media cloud Interfering radiation Identity theft of IPR protected para identificar características clínicas relevantes, es (physical/virtual) and storage devices Damage caused by a third Man-in-the-middle Hoax resources decir, modelos de decisión utilizados para identificar una Computing Batch party Interception of Compromising confidential Infrastructure variedad de fenotipos clínicos como la diabetes, la Using information from an information information models unreliable source Generation and use of rogue insuficiencia cardíaca congestiva y el cáncer de páncreas. Storage Database management Infrastructure systems (Teradata, certificates models PostgreSQL, MongoDB) Unauthorized activities Data Structured data Identification record data, Value Information leakage Man-in-the-middle Malicious code Judiciary decisions Skill shortage Databases Loss of devices, storage media Interception of Abuse of Information Abuse of personal Semi-structured Files and documents and documents information Failed of business process data and Multimedia Unintentional change of data Targeted attacks Unstructured Damages resulting from Manipulation of information data penetration testing Misuse of information Big Data Data analytics Metrics definitions, Analytics algorithms and Models definitions, Data Inadequate design Unauthorized installation of procedures preparation procedures software/Manipulation of Analytical results Graphic results & Algorithms Visualizations Security and Infrastructure Security policies Affected • Data • Data • Infrastructure • Data • Individual privacy Security Assets • Infrastructure • Data s and techniques Security of Data Security of Data Storage • Big Data analytics • Big Data analytics Roles Management and Logs • Security and privacy Integrity and End Point validation and techniques reactive security filtering Tabla 1. Matriz de Identificación de “Tipos de Activos – Amenazas - Dimensiones” para entornos Big Data. Data Privacy Privacy for Data mining and analytics, Access texto libre y discreto no estándar mediante la selección de Control IV. CASO DE ESTUDIO: DATOS HISTORIA CLÍNICA Individuals Data provider Healthcare providers características, la recuperación de información y los modelos ELECTRÓNICA and roles (physicians, nurses, public de toma de decisiones de aprendizaje automático. Aprovechar health officials) NIST define diferentes casos de uso para un amplio los datos del fenotipo clínico para apoyar la selección de Data consumer Biomedical informatics conjunto de dominios de aplicación, y uno de ellos ha sido cohortes, la investigación de resultados clínicos y el apoyo a research scientists, Health seleccionado por su interesante aplicación en el patrón Fig. 6 Dimensions defined on the eMARISMA tool services researchers la toma de decisiones clínicas” (Caso de Uso 16 de [44]). MARISMA-BiDa a un caso particular en un entorno Big Data. Tabla 2. Activos involucrados en el caso de estudio para los tipos de Este caso de estudio influye en todas las dimensiones activos definidos en el patrón MARISMA-BiDa El caso de estudio seleccionado se refiere a los datos de definidas por el patrón MARISMA-BiDa (como se muestra en registros médicos electrónicos cuyo objetivo es “Utilizar la Fig. 6), por ejemplo: Los pasos del proceso MARISMA comienzan con la La herramienta eMARISMA, con los datos introducidos en métodos avanzados para normalizar la identificación de • Volumen (DIM1): más de 12 millones de pacientes, más identificación de los activos involucrados en el sistema del el patrón, inicializa todos los valores a valores por defecto, pacientes, proveedores, instalaciones y conceptos clínicos de 4.000 millones de observaciones clínicas y más de 20 tipo de activos definidos por el patrón MARISMA-BiDa. Este que pueden cambiar con el tiempo a medida que se producen dentro y entre organizaciones de atención de la salud TB de datos brutos. conjunto de activos involucrados se muestra en la Tabla 2, y eventos de seguridad, ya que, como se menciona en la sección separadas para mejorar los modelos de definición y • Velocidad (DIM2): entre 500.000 y 1,5 millones de en la Fig. 7 se muestran los activos añadidos a la herramienta II.B, la evaluación de riesgos puede recalcularse a medida que extracción de fenotipos clínicos a partir de datos clínicos de nuevas transacciones clínicas en tiempo real añadidas al eMARISMA. se producen eventos de seguridad, como un ataque específico 34 día. Una vez que los activos para nuestro caso de estudio han • Variedad (DIM3): una amplia variedad de conjuntos de sido identificados y añadidos a la herramienta eMARISMA, se datos clínicos de múltiples fuentes: notas del proveedor de realiza automáticamente la evaluación de riesgos utilizando texto libre; informes de laboratorios y servicios de todas las relaciones y matrices definidas en nuestro patrón urgencias; estudios de química, cardiología o MARISMA-BiDa. La herramienta relaciona entonces el activo hematología; estudios de bancos de sangre y toxicología, definido en nuestro caso con las amenazas y dimensiones etc. afectadas. También muestra el resultado del riesgo actual para • Veracidad (DIM4): los datos de cada fuente clínica se este conjunto de activos y vincula los objetivos con los recopilan comúnmente utilizando diferentes métodos y controles necesarios para proteger este conjunto de activos. representaciones, lo que produce una heterogeneidad Para el conjunto de amenazas identificadas en el patrón sustancial. Esto conduce a errores y sesgos sistemáticos MARISMA-BiDa, la herramienta eMARISMA toma valores que requieren métodos robustos para crear la por defecto basados en la experiencia de análisis de riesgo interoperabilidad semántica. previo, así como para la probabilidad de ocurrencia y el • Variabilidad (DIM5): los datos de los sistemas clínicos porcentaje de degradación, los cuales pueden ser modificados evolucionan con el tiempo porque el espacio conceptual de acuerdo a nuestros criterios, experiencia y entorno del clínico y biológico está en constante evolución. Los sistema a evaluar. nuevos descubrimientos científicos conducen a nuevas entidades de la enfermedad, nuevas modalidades de MARISMA-BiDa PATTERN PATTERN INSTANTIATED diagnóstico y nuevos enfoques de manejo de la Asset group Asset Type Assets of Case use Infrastructure Software Operating Systems, Server enfermedad. Software • Valor (DIM6): Métodos de recuperación de información Hardware Servers, Network, Media para identificar características clínicas relevantes, es (physical/virtual) and storage devices decir, modelos de decisión utilizados para identificar una Computing Batch Infrastructure variedad de fenotipos clínicos como la diabetes, la models insuficiencia cardíaca congestiva y el cáncer de páncreas. Storage Database management Infrastructure systems (Teradata, models PostgreSQL, MongoDB) Data Structured data Identification record data, Databases Semi-structured Files and documents and Multimedia Unstructured data Big Data Data analytics Metrics definitions, Analytics algorithms and Models definitions, Data procedures preparation procedures Analytical results Graphic results & Visualizations Security and Infrastructure Security policies privacy Security techniques Security of Data Security of Data Storage Management and Logs Integrity and End Point validation and reactive security filtering Data Privacy Privacy for Data mining and analytics, Access Control Individuals Data provider Healthcare providers and roles (physicians, nurses, public health officials) Data consumer Biomedical informatics research scientists, Health Fig. 6 Dimensions defined on the eMARISMA tool services researchers Tabla 2. Activos involucrados en el caso de estudio para los tipos de activos definidos en el patrón MARISMA-BiDa Los pasos del proceso MARISMA comienzan con la La herramienta eMARISMA, con los datos introducidos en identificación de los activos involucrados en el sistema del el patrón, inicializa todos los valores a valores por defecto, tipo de activos definidos por el patrón MARISMA-BiDa. Este que pueden cambiar con el tiempo a medida que se producen conjunto de activos involucrados se muestra en la Tabla 2, y eventos de seguridad, ya que, como se menciona en la sección en la Fig. 7 se muestran los activos añadidos a la herramienta II.B, la evaluación de riesgos puede recalcularse a medida que eMARISMA. se producen eventos de seguridad, como un ataque específico 35 al sistema. La herramienta muestra los valores por defecto Por ejemplo, como muestra la Fig. 8, la amenaza “daños tanto para la probabilidad de ocurrencia de las amenazas como causados por terceros” puede actualizar la probabilidad de para el porcentaje en que degradan los criterios de riesgo de ocurrencia y el porcentaje de degradación hasta en un 60%. los activos. Como la herramienta es utilizada por usuarios Este porcentaje se obtiene a partir del conocimiento del expertos en seguridad, tienen una idea clara de qué tipos de contexto en el que se encuentra el sistema. En este caso, es de amenazas son las más comunes en su entorno y cómo puede suma importancia considerar que se trata de un contexto en el degradar los activos si la amenaza tiene éxito. De esta manera, que muchas personas están involucradas y desean tener acceso pueden cambiar libremente esos valores por otros más acordes a este tipo de datos sensibles, o incluso empresas externas que con el contexto en el que opera el sistema a discreción de sus se encargan de gestionar y proteger este tipo de datos expertos. Sin embargo, en una primera evaluación no es sensibles. Esto puede causar daños involuntarios debido al mal necesario cambiar ningún valor, ya que la herramienta realiza uso de dichos datos al no seguir ninguna política de seguridad, una evaluación preliminar con los valores por defecto y los o a una mala configuración en la base de datos que los modifica cuando se producen ataques o intentos de ataque. almacena, o simplemente debido a la eliminación accidental de tales datos que causaría un daño significativo con respecto a los datos médicos, incluyendo una violación de la ley, ya que este tipo de datos sensibles no están bien protegidos. Por lo tanto, el usuario experto puede considerar que el porcentaje de degradación es alto (60%) y que la probabilidad de que ocurra es mayor de lo esperado, por ejemplo, 60% también. Estos valores se modifican en la herramienta porque se consideran apropiados para el entorno, y el nivel de riesgo se evalúa con los valores introducidos, considerando todos los elementos definidos para nuestro patrón (activos, dimensiones, controles, etc.). El usuario experto puede modificar o actualizar los valores necesarios debido a las particularidades del escenario Fig. 8. Amenazas con la probabilidad de ocurrencia y el porcentaje de degradación en la herramienta eMARISMA para el caso de estudio. considerado y por el amplio conocimiento del sistema y del entorno. Una vez seleccionados los valores más adecuados para las amenazas, la herramienta eMARISMA aplica la matriz “Tipo de Activos-Amenazas-Dimensiones” para calcular el porcentaje de degradación pero, esta vez, incluyendo las dimensiones afectadas para cada amenaza y tipo de activo definido en el patrón MARISMA-BiDa que se puede ver en la Tabla 3. Como se ha mencionado anteriormente, estos valores pueden ser modificados para cada dimensión de acuerdo a nuestros criterios, experiencia y conocimiento del entorno. La Fig. 9 muestra la matriz con los valores de la herramienta eMARISMA. Finalmente, la Fig. 10 y la Fig. 11 muestran los informes creados por la herramienta. Representa diagramas kiviat y mapa de riesgos para los niveles de seguridad que la organización de salud tiene en cada momento, por lo que puede ser considerado como un tablero de control para monitorear el riesgo de la organización en tiempo real. De esta forma, permite a la alta dirección de la empresa tomar decisiones en función de los resultados obtenidos y de su Fig. 7 Assets for the case use added on the eMARISMA tool apetito de riesgo. Fig. 9. Porcentaje de degradación para las dimensiones afectadas por los activos y amenazas de eMARISMA para nuestro caso de estudio. 36 Fig. 8. Amenazas con la probabilidad de ocurrencia y el porcentaje de degradación en la herramienta eMARISMA para el caso de estudio. Fig. 9. Porcentaje de degradación para las dimensiones afectadas por los activos y amenazas de eMARISMA para nuestro caso de estudio. 37 Fig. 10. Diagramas Kiviat generados por la herramienta eMARISMA para los objetivos y auditoría alcanzados en nuestro caso de estudio. Fig. 11. Cuadro de mando generado por la herramienta eMARISMA para nuestro caso de estudio. 38 [10] P. Zikoupoulos and C. Eaton, Understanding big data: Analytics for V. CONCLUSIONES Y TRABAJO FUTURO Enterprise Class Hadoop and Streaming, vol. 11, no. 1. McGraw-Hill Osborne Media, 2016. Un proceso de evaluación y gestión de riesgos puede [11] R. Akerkar et al., “Understanding and mapping big data,” no. March. dividirse en varias etapas, incluyendo el establecimiento del D1, 2015. [12] S. V. Bharathi, “Prioritizing and Ranking the Big Data Information contexto, la identificación de riesgos, el análisis de riesgos en Security Risk Spectrum,” Glob. J. Flex. Syst. Manag., vol. 18, no. 3, pp. términos de probabilidad e impacto, la evaluación de riesgos 183–201, Sep. 2017. y, finalmente, el tratamiento de riesgos. [13] B. Goswami and P. K. Chandra, “Risk Assessment and Analysis for Big Data,” Int. J. Adv. Res. Comput. Sci. Softw. Eng., vol. 5, no. 11, 2015. Este trabajo muestra cómo se utiliza la metodología [14] A. M. Barrientos and K. A. Areiza, “Integration of a safety management MARISMA (apoyada por la herramienta eMARISMA), para system withan information quality management system.,” Universidad generar un patrón de gestión y análisis de seguridad enfocado EAFIT, 2005. en aspectos de Big Data, que permita una gestión dinámica del [15] R. Fredriksen, M. Kristiansen, B. A. Gran, K. Stølen, T. A. Opperud, and T. Dimitrakos, “The CORAS Framework for a Model-Based Risk riesgo asociado a los elementos de un entorno de Big Data en Management Process,” LNCS 2434, 2002, pp. 94–105. una empresa. [16] G. Disterer, “ISO/IEC 27000, 27001 and 27002 for Information Security Esta propuesta se ha aplicado en un caso de estudio, cuya Management,” J. Inf. Secur., vol. 04, no. 02, pp. 92–100, 2013. [17] J. Moreno, L. E. Sánchez, A. S. Olmo, D. G. Rosad, M. A. Serrano, and aplicación ha permitido afinarla y validarla con esa E. F. Medina, “Marisma-BiDa: Entorno Integrado de Análisis y Gestión experiencia. Estos refinamientos se han centrado de Riesgos en Big Data,” in Actas de las Cuartas Jornadas Nacionales de principalmente en ajustar los principales conceptos del patrón Investigación en Ciberseguridad, 2018, pp. 159–165. [18] L. Ortiz Restrepo, V. Duque, and F. Javier, “Gestión de riesgos en MARISMA-BiDa, reafirmando los conceptos más relevantes eTOM. Un análisis comparativo con los estándares de riesgo de los ya identificados, y encontrando otros basados en la corporativo,” Rev. Logos, Cienc. Tecnol., vol. 9, no. 1, pp. 85–99, 2017. experiencia. Como trabajo futuro, se contempla la evolución [19] L. D. Bodin, L. A. Gordon, and M. P. Loeb, “Information security and risk management,” Commun. ACM, vol. 51, no. 4, pp. 64–68, Apr. de la herramienta eMARISMA como un sistema de 2008. aprendizaje en la nube. Permitirá incorporar los incidentes de [20] MAGERIT, “MAGERIT v.3 : Metodología de Análisis y Gestión de seguridad que afecten a uno de los sistemas, en todos aquellos Riesgos de los Sistemas de Información,” 2012. [21] G. Wangen, “Information Security Risk Assessment: A Method sistemas que estén relacionados o puedan verse afectados. Comparison,” Computer (Long. Beach. Calif)., vol. 50, no. 4, pp. 52–61, Apr. 2017. [22] C. Fakrane and B. Regragui, “INTERACTIONS AND COMPARISON A OF IT RISK ANALYSIS METHODS,” in 2018 4th International GRADECIMIENTOS Conference on Cloud Computing Technologies and Applications Este trabajo ha sido financiado por el proyecto ECLIPSE (Cloudtech), 2018, pp. 1–7. [23] F. Jeannot, “Méthodologies d’évaluation et gestion de risques en (Ministerio de Economía, Industria y Competitividad de sécurité,” Montréal, Canada, Mai 2018, R518, v1.0, 2018. España y el Fondo Europeo de Desarrollo Regional FEDER, [24] A. Benavides, “Modelo de Sistema de Gestión de Seguridad de la RTI2018-094283-B-C31), y el proyecto GENESIS Información Basado en la Norma NTC ISO/IEC 27001 para Instituciones Públicas de Educación Básica de la Comuna Universidad (Consejería de Educación, Cultura y Deportes de la Dirección de la Ciudad de Pereira,” no. 6, pp. 67–72, 2017. General de Universidades, Investigación e Innovación de la [25] Werner George Bornman, “Information Security Risk Management: a Junta de Comunidades de Castilla-La Mancha, España, Holistic Framework,” University of Johannesburg, 2004. [26] A. Refsdal, B. Solhaug, and K. Stølen, “Cyber-risk management,” in SBPLY/17/180501/000202). Agradecemos la ayuda de las Cyber-Risk Management, Springer, 2015, pp. 33–47. compañías Sicaman Nuevas Tecnologías SL (www.sicaman- [27] R. Zudin, “Analysis of information risk management methods,” Univ. nt.com) y Marisma Shield SL (www.emarisma.com), que han Jyväskylä, 2014. facilitado el uso de la herramienta eMARISMA. [28] J. P. Carrillo Sánchez, “Guía y análisis de gestión de riesgos en la adquisición e implantación de equipamiento y servicios de tecnologías de información y comunicaciones para proyectos de alcance nacional,” Quito: EPN, 2012, 2012. R [29] D. C. Pacheco Pozo, “Propuesta de un plan de contigencia de TI para la EFERENCIAS empresa LOGICIEL,” Quito, 2016., 2016. [1] ENISA, “Good Practices and Recommendations on the,” 2015. [30] L. E. Sánchez, a S. O. Parra, D. G. Rosado, and M. Piattini, “Managing [2] K. Armstrong, “Big data: a revolution that will transform how we live, Security and its Maturity in Small and Medium-sized Enterprises,” J. work, and think,” Information, Commun. Soc., vol. 17, no. 10, pp. Univers. Comput. Sci., vol. 15, no. 15, pp. 3038–3058, 2009. 1300–1302, Nov. 2014. [31] A. Santos Olmo Parra, L. E. Sanchez Crespo, E. Alvarez, M. Huerta, and [3] D. Broeders, E. Schrijvers, B. van der Sloot, R. van Brakel, J. de Hoog, E. Fernandez Medina Paton, “Methodology for Dynamic Analysis and and E. Hirsch Ballin, “Big Data and security policies: Towards a Risk Management on ISO27001,” IEEE Lat. Am. Trans., vol. 14, no. 6, framework for regulating the phases of analytics and use of Big Data,” pp. 2897–2911, Jun. 2016. Comput. Law Secur. Rev., vol. 33, no. 3, pp. 309–323, Jun. 2017. [32] J. Pirrone and M. Huerta, “Security Mechanism for Medical Record [4] D. Laney, “3D data management: Controlling data volume, velocity and Exchange Using Hippocratic Protocol,” in IFMBE Proceedings, vol. 68, variety,” META Gr. Res. note, vol. 6, no. 70, p. 1, 2001. no. 1, Springer Verlag, 2019, pp. 401–404. [5] S. Klous, “Sustainable harvesting of the Big Data potential,” Explor. [33] T. Vivas, A. Zambrano, and M. Huerta, “Mechanisms of security based Boundaries Big Data, p. 27, 2016. on digital certificates applied in a telemedicine network,” in 2008 30th [6] B. Hopkins and B. Evelson, “Expand your Digital Horizon with Big Annual International Conference of the IEEE Engineering in Medicine Data,” Forrester, vol. 30, 2011. and Biology Society, 2008, pp. 1817–1820. [7] F. J. Alexander, A. Hoisie, and A. Szalay, “Big Data,” Comput. Sci. [34] A. Santos-Olmo, L. Sánchez, D. Rosado, E. Fernández-Medina, and M. Eng., vol. 13, no. 6, pp. 10–13, Nov. 2011. Piattini, “Applying the Action-Research Method to Develop a [8] J. Dijcks, “Oracle: Big data for the enterprise,” Oracle White Pap., no. Methodology to Reduce the Installation and Maintenance Times of June, p. 16, 2012. Information Security Management Systems,” Futur. Internet, vol. 8, no. [9] E. Dumbill, “Making sense f big data (editorial),” Big Data, vol. 1, no. 1, 3, p. 36, Jul. 2016. 2013. [35] ISO 31000, “ISO 31000:2018 Risk Management,” ISO, 2018. 39 [36] R. Kelemen, M. Biskup, and N. B. Redep, “The conceptual Risk Tecnologías S.L. Sus actividades de investigación son Management Model — A case study of Varazdin County,” in 2016 39th International Convention on Information and Communication sistemas de seguridad de gestión, métricas de seguridad, Technology, Electronics and Microelectronics (MIPRO), 2016, pp. minería de datos, limpieza de datos e inteligencia de negocios. 1539–1545. Participa en el grupo de investigación GSyA del departamento [37] M. A. Khan, M. F. Uddin, and N. Gupta, “Seven V’s of Big Data de sistemas de información y tecnologías de la Universidad de understanding Big Data to extract value,” in Proceedings of the 2014 Zone 1 Conference of the American Society for Engineering Education, Castilla-La Mancha, en Ciudad Real (España). Su correo 2014, pp. 1–5. electrónico es luisenrique@sanchezcrespo.org. [38] Z. Sun, K. Strang, and R. Li, Big Data with Ten Big Characteristics. 2019. Antonio Santos-Olmo es Licenciado en Informática y es [39] M. Chen, S. Mao, and Y. Liu, “Big Data: A Survey,” Mob. Networks Appl., vol. 19, no. 2, pp. 171–209, Apr. 2014. profesor asociado de la Escuela Superior de Informática de la [40] NIST, “NIST Big Data Interoperability Framework: Volume 1, Universidad de Castilla-La Mancha en Ciudad Real (España), Definitions, version 2,” NIST Special Publication 1500-1r1, Jun-2018. Master en Auditoría de Sistemas de Información por la [Online]. Available: Universidad Politécnica de Madrid, y Auditor Certificado de https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500- 4r1.pdf. Sistemas de Información por ISACA. Es Director de los [41] E. Rekleitis, “Big Data Threat Landscape and Good Practice Guide,” departamentos de Software Factory de la empresa Sicaman Eur. Union Agency Netw. Inf. Secur., no. January, 2016. Nuevas Tecnologías S.L. Sus actividades de investigación son [42] P. Murthy, A. Bharadwaj, P. Subrahmanyam, A. Roy, and S. Rajan, sistemas de seguridad de gestión, métricas de seguridad, “Big Data Taxonomy,” Cloud Security Alliance, no. September. Cloud Security Alliance, September, p. 33, 2014. minería de datos, limpieza de datos e inteligencia de negocio. [43] ENISA, “Threat Landscape and Good Practice Guide for Software Participa en el grupo de investigación GSyA del Defined Networks/5G - SDN Threat Landscape,” Jan-2016. . Departamento de de sistemas de información y tecnologías de [44] NIST, “NIST Big Data Interoperability Framework: volume 3, use cases la Universidad de Castilla-La Mancha, en Ciudad Real and general requirements,” NIST Special Publication 1500-3r1, Jun- 2018. [Online]. Available: (España). Su correo electrónico es asolmo@sicaman-nt.com. https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500- 3r1.pdf. Manuel A. Serrano es Máster y doctor en Informática por la Universidad de Castilla-La Mancha. Es profesor titular en la Escuela Superior de Informática de la Universidad de Castilla- David G. Rosado tiene un Máster y es doctor en Informática La Mancha en Ciudad Real. Su investigación se centra en la por la Universidad de Málaga y por la Universidad de Castilla- calidad de sofotware de los datos, la medición de software y la La Mancha, respectivamente. Es profesor titular en la Escuela calidad y medición de almacenes de datos y Big Data. Su Superior de Informática de la Universidad de Castilla-La correo electrónico es manuel.serrano@uclm.es. Mancha en Ciudad Real. Su actividad investigadora se centra en seguridad de sistemas de información, Cloud Computing y Eduardo Fernández-Medina es Máster y doctor en Big Data. Sobre estos temas, él ha publicado numerosos Informática por la Universidad de Castilla-La Mancha. Es artículos en conderencias de ámbito nacional e internacional, profesor catedrático en la Escuela Superior de Informática de también es editor y coeditor de varios libros. Es autor de la Universidad de Castilla-La Mancha en Ciudad Real varias publicaciones en revistas nacionales e internacionales (España). Su actividad investigadora se centra en el campo de (Information Software Technology, System Architecture, la seguridad de sistemas de información, en particular en Network and Computer Applications, etc.). Él es miembro del seguridad en Big Data, Cloud Computing y sistemas comité de programa de numerosas conferencias y workshops ciberfísicos. En estas temáticas, él es coeditor de varios libros nacionales e internacionales. Es miembro del grupo de y capítulos de libros, y ha publicado numerosos artículos en investigación GSyA del departamento de sistemas de conferencias nacionales e internacionales (BPM, UML, ER, información y tecnologías de la Universidad de Castilla-La ESORICS, TRUSTBUS, etc.). Es autor de más de cincuenta Mancha. Su correo electrónico es david.grosado@uclm.es. publicaciones en revistas internacionales (Decision Support Systems, Information Systems, ACM Sigmod Record, Julio Moreno es Máster y estudiante de doctorado en Information Software Technology, Computer & Security, Informática por la Universidad de Castilla-La Mancha. Su Computer Standards and Interfaces, etc.). Él lidera el grupo de investigación se centra en la seguridad y privacidad de los investigación GSyA del departamento de sistemas de datos, así como en la creación de un marco de gobierno para información y tecnologías de la Universidad de Castilla-La Big Data. Es miembro del grupo de investigación GSyA del Mancha y pertenece a varias asociaciones profesionales y de departamento de sistemas de información y tecnologías de la investigación (ATI, AEC, AENOR, etc.). Su correo Universidad de Castilla-La Mancha. Su correo electrónico es electrónico es eduardo.fdezmedina@uclm.es. julio.moreno@uclm.es. Luis Enrique Sánchez es Doctor y Máster en Informática y es profesor ayudante doctor de la Universidad de Castilla-La Mancha (Ciudad Real, España), Master en Auditoría de Sistemas de Información por la Universidad Politécnica de Madrid, y Auditor Certificado de Sistemas de Información por ISACA. Es Director de los departamentos de Servicios Profesionales y de I+D de la empresa Sicaman Nuevas 40 Análisis forense aplicado a sistemas multimedia 1 Detección de Manipulaciones Copy-Move en Ficheros Multimedia mediante la Transformada Discreta del Coseno Esteban Alejandro Armas Vega, Ana Lucila Sandoval Orozco, and Luis Javier Garcı́a Villalba, Member, IEEE Resumen—Las imágenes digitales tienen un papel muy im- área de análisis forense investiga nuevas técnicas de detección portante en la vida cotidiana. La mayorı́a de la población tiene de manipulaciones, para evaluar la integridad de una imagen. una cámara fotográfica de última generación integrada en su dispositivo móvil. El desarrollo tecnológico no sólo facilita la Las imágenes manipuladas llevan existiendo desde hace generación de contenido multimedia, sino también la manipula- muchas décadas y están presentes en muchos sectores (polı́ti- ción intencionada de éste, y es aquı́ donde las técnicas forenses ca, cine, prensa, rama judicial, etc.). de detección de manipulaciones sobre imágenes cobran gran La manipulación de contenido visual no ha sido algo importancia. En este trabajo se propone una técnica forense exclusivo de la era digital actual. A lo largo del tiempo basada en el algoritmo de compresión para detectar alteraciones de tipo copy-move en una imagen, utilizando para ello la la manipulación siempre ha estado presente. Una de las transformada discreta del coseno. Las caracterı́sticas obtenidas primeras imágenes manipuladas de la historia [3], es la del de estos coeficientes permite obtener vectores de transferencia, fotógrafo Hippolyte Bayard, quien creó una imagen falsa suya los cuales se agrupan y mediante el uso de un umbral de suicidándose. Posteriormente, se descubrió que la fotografı́a tolerancia permite determinar si existe o no regiones duplicadas fue hecha por el sentimiento de frustración del autor al perder dentro de la imagen analizada. Los resultados obtenidos de los experimentos llevados acabo en este trabajo demuestran la la oportunidad de convertirse en “el inventor” de la fotografı́a, eficacia del método propuesto. Para la evaluación del método en lugar de Louis Daguerre que patentó el proceso fotográfico. propuesto se realizaron experimentos con bases de datos públicas En el cuadro “El Juicio Final”, el pintor Miguel Ángel cubrió de imágenes falsificadas que son ampliamente utilizadas en la la desnudez de algunas figuras a posteriori por orden del literatura. Papa. En fotografı́a convencional, era posible la manipulación Palabras Clave—Análisis Forense, Copia-pega, Imágenes Di- mediante empalme de los negativos de las fotografı́as, por gitales, Manipulación, Transformada Discreta del Coseno. ejemplo, en la Figura 1 se muestra la manipulación realizada a la famosa foto del dictador soviético Iósif Stalin con su comisario para Asuntos Internos Nikolai Yezhov (Figura 1(a)) I. INTRODUCCI ÓN para eliminarlo de la foto por orden de Stalin tras ser ejecutado El uso de dispositivos móviles ha aumentado considerable- en 1940 (Figura 1(b)). mente convirtiéndose en una herramienta que forma parte de la vida cotidiana de la sociedad actual. En 2017, un informe de Cisco Systems [1] indica que el tráfico de datos móviles se ha multiplicado por 18 en los últimos 5 años y se espera que este tráfico continúe aumentando. Estos datos fueron confirmados en 2018 por Ericsson [2] que estima que para el año 2023 el tráfico de datos móviles se multiplicará por 7 y casi tres cuartos del tráfico de datos móviles del mundo se utilizará para transferencia de ficheros multimedia y redes sociales. (a) Imagen Original (b) Imagen Manipulada Como consecuencia, el proceso de compartir datos de forma Figura 1: Ejemplo de Manipulación en Fotografı́a [4] masiva es fácil y casi inmediato. Las imágenes y vı́deos digitales son, gracias a las redes sociales y a las aplicaciones de mensajerı́a instantánea, uno de los recursos que más tráfico La facilidad para manipular imágenes y vı́deos digitales de datos genera actualmente. se ha incrementado en los últimos tiempos y está al alcance Por otro lado, la continua mejora de las prestaciones de las del usuario convencional mediante programas como Ado- cámaras incorporadas en los dispositivos móviles junto a la be Photoshop, GIMP, Adobe Premiere, etc. Manipulaciones evolución de las herramientas de edición de imágenes hacen como los embellecedores de rostros, cambios de expresión más sencillo manipular una imagen con excelentes resultados. facial, mejora de iluminación de la escena, etc., ya las hace Para enfrentar este tráfico masivo de imágenes manipuladas el de manera automática nuestro dispositivo móvil mediante nuevas herramientas que hacen uso de inteligencia artificial. E. A. Armas Vega, A. L. Sandoval Orozco and L. J. Garcı́a Villalba. Grupo Por tanto, detectar imágenes digitales manipuladas es de gran de Análisis, Seguridad y Sistemas (GASS), Departamento de Ingenierı́a del importancia en muchas áreas y con diferentes objetivos. Una Software e Inteligencia Artificial, Facultad de Informática, Despacho 431, de las áreas en donde la verificación de la legitimidad de una Universidad Complutense de Madrid (UCM), Calle Profesor José Garcı́a Santesmases, 9, Ciudad Universitaria, 28040 Madrid, España. e-mail: esar- imagen es fundamental es en lo judicial, donde las imágenes mas@ucm.es, {asandoval, javiergv}@fdi.ucm.es. o vı́deos pueden suponer evidencia de gran valor para la https://doi.org/10.12804/si9789587844337.04 42 2 resolución de la demanda. Un ejemplo de esto fue el arresto el reconocimiento del área modificada es mucho mas difı́cil de un conductor [5] que conducı́a su automóvil a más de para este tipo de técnicas[8][9]. Un ejemplo de este tipo 200 Km/h y la evidencia utilizada por la fiscalı́a fue el vı́deo de manipulación se muestra en la Figura 2. En la Figura grabado por un peatón, a través del cual se demostró que el manipulada 2(b) se han duplicado los dos animales que imputado circulaba a dicha velocidad. aparecı́an en la Figura 2(a). Sin embargo, para que una imagen pueda ser usada como prueba válida o evidencia en un juicio, se debe asegurar su integridad y demostrar que no ha sido objeto de manipulación. Para llevar a cabo este tipo de autenticación es necesario hacer uso de técnicas robustas de identificación de manipulaciones que puedan garantizar con gran fiabilidad que la imagen es original. Una imagen puede ser manipulada mediante el uso de una variedad de técnicas de manipulación, como copy-move, (a) Imagen original (b) Imagen manipulada empalme, retoque, filtrado, etc. En Julio del año 2017 los investigadores de la revista Figura 2: Ejemplo de Manipulación con la Técnica Copia- Cognitive-Research [6] utilizaron un dataset de 40 escenas, 30 Pega [10] de las cuales fueron sometidas a cinco tipos diferentes de ma- nipulación, incluyendo manipulaciones fı́sicamente plausibles y no plausibles. Se mostraron a 707 participantes con el fin de evaluar la capacidad de las personas para detectar escenas II-B. Empalme manipuladas del mundo real. El estudio encontró que sólo el Esta técnica es similar a la técnica “Copy-Move”, con la 60% de las personas fue capaz de detectar las escenas falsas, diferencia de que el fragmento que se copia no pertenece a la e incluso entonces, sólo un 45% de ellos fueron capaces misma imagen, es decir, la imagen manipulada es el resultado de decir dónde exactamente se encontraba la alteración del de la mezcla de dos o más imágenes. El objetivo de esta contenido. Por todo lo anterior, se deben estudiar y proponer técnica es insertar elementos que no estaban en la escena que técnicas forenses que permitan hacer frente al gran número fue capturada originalmente. Por regla general, el bloque de de imágenes manipuladas que existen hoy en dı́a. imagen “donante” ha podido ser adquirido por otro dispositivo El resto del trabajo está organizado como sigue: La Sección móvil y por tanto sus caracterı́sticas y rastros serán diferentes II detalla las caracterı́sticas de las manipulaciones comúnmen- al resto de la imagen. Es muy usada en fotomontajes donde se te utilizadas. En la Sección III-D se describen las principales combinan dos imágenes dando la sensación de ser una sola. técnicas de detección de imágenes manipuladas, haciendo Detectar el área exacta que se ha falsificado en la imagen, énfasis en las técnicas con enfoque pasivo más relevantes de mediante la técnica de empalme, es de gran complejidad en la literatura. Los detalles de la técnica de detección propuesta comparación con la técnica de manipulación anterior. Esto se en este trabajo se presenta en la Sección IV. En la Sección debe a que no es posible buscar áreas duplicadas ya que la V se analizan los resultados de los experimentos realizados región manipulada proviene de una imagen diferente [11]. y, finalmente, las conclusiones del trabajo se recogen en la En la Figura 3 se muestra un ejemplo de esta técnica. La Sección VI. Figura 3(a) es la imagen donante, el faro es copiado y pegado en la imagen receptora (Figura 3(b)) el resultado del empalme II. MANIPULACIÓN DE IMÁGENES se muestra en la Figura 3(c). Entre los tipos de manipulación de imágenes, destacan los Las técnicas de detección de empalme se centran en hallar siguientes: retoque, Copy – Move, empalme de imágenes y la región de la imagen que contenga estas variaciones de falsificación de huellas digitales [7]. caracterı́sticas y rastros con respecto al resto del contenido de la imagen original. II-A. Copy – Move La manipulación “Copy-Move” tı́picamente se realiza con el II-C. Aplicación de Filtros objetivo de hacer que un objeto “desaparezca” de la imagen Esta técnica de manipulación es de las más utilizadas por original cubriéndolo con un pequeño fragmento copiado de su sencillez. Casi todos los programas de edición de imágenes otra parte de la misma imagen. Este método también se usa digitales incorporan una selección de filtros ya predefinidos para duplicar objetos existentes en la imagen. Como estos para aplicarlos automáticamente sobre la imagen e incluso los bloques copiados provienen de la misma imagen todas sus dispositivos móviles con cámaras integradas pueden aplicar caracterı́sticas serán compatibles con el resto del contenido este tipo de “mejoras” a la imagen al momento de capturar la por lo cual hace muy difı́cil que el ojo humano lo detecte. escena. La aplicación de filtros tiene como objetivo mejorar el Cuando se pega la región copiada se suele acompañar del acabado final de la imagen modificando aspectos como tonos, efecto “blurring” en los bordes del área modificada para saturaciones, brillos, contrastes, etc. No tienen porqué conlle- disminuir las irregularidades entre la región original y la var un cambio “malicioso” en el contenido de la imagen pero modificada. Las técnicas de detección de este tipo de ma- se toma en cuenta porque puede aplicarse cualquiera de estos nipulación se centran en la búsqueda de áreas duplicadas. Sin filtros en combinación con otras técnicas de manipulación de embargo, si la manipulación se combina con otras técnicas imágenes y es muy probable que esto afecte la precisión de de post-procesamiento, como la aplicación de filtros de color, los algoritmos de detección de manipulación en imágenes. En 43 3 como objetivo perfeccionar acabados u ocultar imperfecciones con fines estéticos manteniendo siempre unas caracterı́sticas similares a las de la imagen original. Para ello se copian y pegan regiones de la imagen de la misma área. Los retoques que se realizan suelen estar enfocados a perfeccionar la escena [14]. El acabado de las imágenes varı́a dependiendo del conte- (a) Imagen donante original (b) Imagen receptora original nido y de los fines con los que se realiza la alteración. Las herramientas más utilizadas en este tipo de manipulaciones suelen ser el saneado, perfilado, emborronado, difuminado y realce. Esta técnica de manipulación es muy común en los sectores de la publicidad, cine y comunicación [15]. La Figura 5 muestra un ejemplo de retoque fotográfico en el que la apariencia de la modelo se modificó digitalmente. La Figura 5(a) muestra la imagen original sin retoque y la Figura 5(b) muestra el resultado de retocar la imagen para la portada de la revista Nitro. (c) Imagen manipulada Las portadas y los anuncios de las revistas de moda Figura 3: Ejemplo de Manipulación con la técnica de Empal- generalmente utilizan algún tipo de retoque para ocultar las me [12] imperfecciones y ası́ aumentar los niveles de belleza en las fotografı́as. II-E. Manipulación de la Huella Digital La manipulación de la huella digital de una imagen no está centrado en la parte visual de la imagen si no en la información que ésta contiene [16]. (a) Imagen original (b) Imagen manipulada La huella digital es un rastro que dejan todas las cámaras de los dispositivos móviles sobre la imagen que toman durante Figura 4: Ejemplo de Manipulación mediante la aplicación de el proceso de captura. Cuando se genera una imagen digital un filtro. se introduce este rastro, también llamado ruido. Extraer el ruido de una imagen proporciona una infor- mación valiosa acerca de la fuente (modelo y marca del dispositivo) que generó dicha imagen ya que el tipo de ruido que contiene es intrı́nseco y único al modelo de la cámara que lo generó. El objetivo de manipular la huella digital de una imagen es el de poder modificar su origen. Si se sustituye la huella digital de la imagen por otra, es posible incriminar a otro dispositivo móvil en la escena en cuestión. También es posible eliminar la huella y ası́ anonimizarla. Este tipo de técnica se subdivide en: Anonimización de la imagen, que consiste en eliminar la información del origen de la imagen y, la falsificación de la imagen, que elimina la huella de la cámara que generó la imagen y coloca una huella de otra cámara de un dispositivo diferente. Estas técnicas no implican (a) Imagen original (b) Imagen manipulada la alteración de la imagen en sı́, sino la modificación de la información asociada (huella digital) que proviene del sensor Figura 5: Portada manipulada de la revista Nitro[13] que capturó la imagen. Existen varias fuentes de imperfecciones y ruido introdu- cidas durante el proceso de adquisición de imágenes. Esas la Figura 4 se muestra un ejemplo de esta técnica, donde se ha imperfecciones aparecen principalmente por dos razones; pri- aplicado el filtro predefinido “Sepia” del software de edición mero hay componentes aleatorios como el ruido de lectura GIMP. o el ruido de disparo y segundo debido al ruido del patrón, que es un componente determinista del sensor y permanece II-D. Retoque aproximadamente igual si varias fotos de la misma escena Esta manipulación consiste en aplicar pequeñas modifi- están tomados. Este patrón es útil para detectar la fuente caciones sobre la imagen original sin copiar ningún área de origen de una imagen, ya que cada dispositivo tendrá un del resto de la imagen o tomarla de una diferente. Tiene patrón de ruido especı́fico [16] [17] . 44 4 III. TÉCNICAS DE DETECCIÓN DE MANIPULACIONES para mejorar la precisión al comparar similitudes entre ellos. Existen dos enfoques forenses de detección de imágenes Las posibles áreas duplicadas tendrán unas propiedades de manipuladas: Intrusivo o activo y no intrusivo o pasivo [18]. intensidad similares. Este método es más efectivo frente a Enfoque Activo: Analiza las marcas de agua o señales pérdidas por compresión que los métodos anteriores. que deja un dispositivo al momento de generar una En [23] se propone detectar las regiones duplicadas estu- imagen digital. El mayor inconveniente de este tipo de diando todas las invariantes de desenfoque de una imagen. enfoque es que muchas cámaras no tienen la capacidad Los resultados de éste método fueron correctos pero con la de incorporar este tipo de marcas o firmas, por lo que desventaja de obtener un tiempo de computación demasiado su alcance es limitado. grande (un promedio de 30 minutos para una imagen RGB Enfoque Pasivo: Analiza el contenido y las carac- de tamaño medio). terı́sticas de la imagen digital. A su vez este enfoque En [24] los autores desarrollaron un método que des- puede clasificarse en: métodos basados en aprendizaje y componı́a la imagen en registros de coordenadas polares métodos basados en bloques. y, haciendo uso de la Transformada Wavelet, detectar las regiones copiadas. Se reducı́a ası́ la dimensión de la imagen El enfoque pasivo tiene un alcance más amplio que el de entrada debido a la aplicación de Wavelet. Para encontrar enfoque activo ya que no necesita información previa sobre los bloques similares se realizaba una búsqueda por fuerza las imágenes. A continuación se presentan las propuestas de bruta mapeando cada uno de los bloques con las coordenadas enfoque pasivo más relevantes. La Figura 6 Muestra una polares y la correlación entre ellos como criterio. Otros clasificación de las técnicas de detección de manipulaciones autores en [25] hicieron algo similar pero se basaron en la en imágenes digitales Transformada de Fourier (FFT). En [26] utilizan Transformada Wavelet (WT) para reducir III-A. Detección de Copy-Move la dimensión de la imagen y Descomposición en Valores La detección de falsificaciones “copy-move” son las técni- Singulares (SVD) para generar el vector de caracterı́sticas de cas más utilizadas en el campo forense debido a su simpli- cada región con el fin de buscar las similitudes con mayor cidad y eficacia. La principal evidencia que se explota para eficacia. Las regiones duplicadas eran localizadas por clasifi- detectar este tipo de manipulación es la existencia de dos cación lexicográfica y vecindad detectando todos los bloques, áreas iguales basándose en las propiedades de los bloques en incluso cuando la imagen habı́a sido muy comprimida. los que se divide la imagen. Los métodos descritos hasta ahora no producı́an resultados La primera aproximación que se realizó para identificar óptimos cuando las imágenes sufrı́an cierta transformación áreas copiadas fue realizada en el año 2003, en [19] los autores geométrica. En [27] los autores proponen una nueva metodo- propusieron un método que hacia uso Transformada Discreta logı́a basada en el algoritmo Scale-invariant Feature Trans- del Coseno (DCT) para localizar coincidencias entre bloques form (SIFT) para estimar los parámetros de la transformación de una manera más eficiente que la de realizar una búsqueda geométrica aplicada sobre la imagen (traslación horizontal o por fuerza bruta. vertical, escalados o rotación del ángulo) con alta fiabilidad, En [20] se propone un método que utiliza el Análisis de pudiendo ası́, detectar falsificaciones en imágenes que han Componentes Principales (PCA) para representar una imagen sufrido alguna de estas transformaciones. Los autores de [28] como una representación de bloques superpuestos. Obtuvie- mejoran la robustez de SIFT proponiendo un método basado ron unos resultados más eficientes que los obtenidos en la en el algoritmo Speeded Up Robust Features (SURF). Este técnica anterior debido a que consiguieron reducir el coste método es además capaz de detectar también áreas copiadas computacional al rebajar a la mitad el número de cálculos a las que se le ha aplicado modificaciones en brillo o contraste. requeridos para procesar los bloques con PCA. Aún ası́, el coste computacional seguirı́a siendo grande y por ello, en III-B. Detección de Empalme [21] se propone encontrar las coincidencias entre los bloques buscando patrones de intensidad similares. El empalme de imágenes es uno de los esquemas de mani- Los autores de [22] proponen reducir aún más el tamaño de pulación más simples y comúnmente utilizados. La detección los bloques superpuestos en los que se subdivide la imagen de este tipo de manipulación es una tarea fundamental durante la verificación de la integridad de imágenes. Figura 6: Esquema de detecciones de manipulación en imágenes. 45 5 Por lo general, todas las técnicas se basan en las variaciones Los autores de [39] investigaron una técnica basada en el que se encuentran en el patrón de caracterı́sticas del área estudio de la iluminación de los objetos de una imagen. Se pegada respecto del contenido de la imagen original. basan en la consistencia que debe existir en las sombras en El primer método propuesto fue presentado en [29]. En función del grado de iluminación y en las caracterı́sticas de este trabajo se propone una técnica basada en el análisis de la color del valor de dicha sombra. señal de la imagen para detectar las correlaciones no naturales En [40] se evaluó la técnica Error Level Analysis (ELA) que se introducen durante el proceso de falsificación. Obtuvo en imágenes manipuladas con distintos métodos, demostrando buenos resultados cuando la detección se llevaba a cabo sobre una que sólo era efectiva para detectar empalmes. empalmes realizados por personas y no por máquinas. En [41] se propuso un algoritmo basado en el uso de En [30] los autores presentaron un modelo de detección ELA que demostró detectar con éxito la imagen modificada de empalme de imágenes basado en el uso de caracterı́sticas y el punto exacto de la modificación mediante el uso de de magnitud y fase de la propia imagen. Los resultados histogramas. de la precisión de detección fueron de aproximadamente En [42] utilizan la Transformada de Wavelet para filtrar del 70%. Posteriormente, los mismos autores propusieron los resultados de aplicar ELA con el objetivo de resaltar las un método para detectar empalmes abruptos utilizando las alteraciones sobre la imagen. mismas caracterı́sticas. En [43] se propone un método que combina el descriptor de Los autores de [31], por su parte, se apoyaron en la textura Local Binary Patterns (LBP) junto a DCT para detec- transformada de Hilbert-Huang para generar estadı́sticas con tar cambios producidos por las manipulaciones de empalme y el fin de utilizarlas para la clasificación de un modelo de también de copia-pega. En los experimentos se utiliza SVM imagen natural. Este modelo estaba basado en los momentos obteniendo una tasa de acierto entre el 97.50% y el 97.77% caracterı́sticos obtenidos con ayuda de la descomposición de sobre el conjunto de datos “CASIA TIDE v2.0”. Wavelet y ası́ conseguir distinguir las imágenes empalmadas El método de detección de empalme propuesto en [44] de las imágenes auténticas. modela los cambios de manipulación utilizando caracterı́sticas Los autores de [32] propusieron extraer las invariantes estadı́sticas extraı́das de matrices 2D generadas al aplicar la de geometrı́a de los pı́xeles de cada región de una imagen transformada discreta de coseno de bloques de varios tamaños para estimar la Función de Respuesta de la Cámara (CRF) y (Multi-size Block Discrete Cosine Transform (MBDCT)). En estudiar las variaciones entre las distintas zonas de la imagen los experimentos se obtuvo un 91.40% de acierto sobre el para, ası́, detectar las áreas que han sufrido un empalme. conjunto de datos “Columbia” usando SVM. En [33] los autores investigaron las caracterı́sticas estadı́sti- En [45] exploraron el efecto de diferentes modelos de cas de los bloques de una imagen para detectar empalmes. color en la detección de falsificación de empalme. En este Estas caracterı́sticas son extraı́das de matrices 2D, las cuales trabajo, se hace una comparación de los modelos cromáticos son generadas al aplicar al bloque de imágenes de varios frente a los modelos Red-Green-Blue (RGB) y de luminancia tamaños la DCT. Los experimentos tuvieron una precisión utilizados comúnmente. Se emplean cuatro vectores RLRN del 91%. con diferentes direcciones extraı́das de canales de crominan- En [34] se presentó un método de detección basado en cia correlacionados como caracterı́sticas para la detección caracterı́sticas de momento extraı́das de la DCT y en métricas de empalme en imágenes. Finalmente, se usa SVM como de calidad de imagen extraı́das de la propia imagen. Descu- algoritmo clasificador. El conjunto de datos utilizado en los brieron que ambas caracterı́sticas sufrı́an variaciones cuando experimentos son “CASIA TIDE v1.0” y “Columbia” con una una imagen habı́a sufrido un empalme y explotaron dichas precisión de 94.7%. variaciones. Los autores de [35] sugieren un método basado en dividir la imagen por áreas para después extraer las caracterı́sticas de III-C. Detección de Manipulación de Huella Digital densidad de los coeficientes DCT vecinos de cada área. Todas La huella digital de una imagen identifica su origen y garan- las variaciones en las densidades se clasifican mediante un tiza su integridad. Las técnicas para detectarla se encargarán Máquina de Soporte Vectorial (SVM) para identificar si esas pues, de estudiar si dicha huella ha sufrido modificaciones, áreas son diferentes. pues en tal caso, es una evidencia de que la imagen en cuestión En [36] se construye un método de detección de empalmes ha sido manipulada. Las técnicas se basan principalmente en basado en el estudio de las sombras de la imagen. Mediante el estudio de los patrones del ruido del sensor que introduce combinaciones y estimaciones de las zonas de sombra logran cada cámara en las imágenes que genera durante el proceso encontrar bloques empalmados. Los mismos autores en [37] de captura de una fotografı́a. utilizan la teorı́a de la homografı́a plana para localizar la En [46] se propone un método basado en la extracción región manipulada y aparte, desarrollaron un método de de caracterı́sticas del ruido de foto-respuesta no uniforme extracción automático que segmentaba el objeto falso de la (Patrón de Ruido de Respuesta no Uniforme (PRNU)), junto imagen manipulada. con un SVM para su clasificación. Este trabajo se utilizó En [38] los autores proponen un método basado en la com- únicamente en dispositivos móviles y se consiguió mostrar paración de los espacios cromáticos que forman la imagen. Se que este método consigue buenos resultados cuando se tiene utilizan cuatro vectores Run-length Run-number (RLRN) con que clasificar una gran cantidad de cámaras fuente. diferentes direcciones extraı́dos de los canales de crominancia En [47] se propone combinar dos métodos de detección: el que tienen correlación con caracterı́sticas utilizadas en la estudio de las imperfecciones del sensor y las Transformada detección de empalmes. Discreta de Wavelet (DWT). Los resultados confirman que 46 6 estas dos técnicas juntas ayudan a rastrear con precisión el presentado por primera vez por Fridrich [19]. A continuación dispositivo fuente que tomó la imagen, además del modelo y se especifican los parámetros de entrada y los resultados que marca de dicho dispositivo. genera el algoritmo tras su ejecución. En [48] se estudian investigaciones recientes en el campo y Entrada: Imagen a analizar. proponen la mezcla de dos técnicas (imperfecciones del sensor Salida: Imagen con la región duplicada marcada de un y transformadas wavelet) para obtener una mejor identifica- color determinado, de esta forma se puede visualizar ción de fuentes de imágenes generadas con dispositivos móvi- claramente el área sobre el que se ha realizado la copia les. Los resultados muestran que las imperfecciones del sensor y la región exacta donde se ha pegado. y las transformadas wavelet pueden servir conjuntamente El primer paso es convertir la imagen que se desea analizar como buenas caracterı́sticas forenses para ayudar a rastrear a escala de grises. Para ello se extraen los componentes del la cámara fuente de las imágenes producidas por teléfonos canal de luminancia y se representa la imagen con ellos. móviles. Además, este modelo también permite determinar A continuación, se establece un tamaño de bloque B = 8 con gran precisión la marca y el modelo del dispositivo. para dividir la imagen desde la esquina superior izquierda a Como se puede observar la mayorı́a de técnicas emplean la esquina inferior derecha. los patrones de ruido para identificar y extraer el ruido del Los bloques se superponen con un desplazamiento de un sensor. Para poder comprobar si se ha llevado a cabo una pı́xel hasta obtener (M–B + 1)(N–B + 1) bloques super- modificación o eliminación bastarı́a con comparar la huella puestos, siendo M y N las dimensiones de la imagen. El digital de la imagen original y de la imagen manipulada.Sin tamaño de bloque B se ha establecido en 8 para conseguir embargo, nuestra propuesta combina el análisis de los patro- resultados más precisos con un nivel óptimo de ruido. nes de textura locales junto con las caracterı́sticas obtenidas Seguidamente se extraen las caracterı́sticas DCT de cada de aplicar la transformada discreta de Wavelets junto con la uno de los bloques. DCT puede eliminar la redundancia del Coseno a la imagen. entre pı́xeles adyacentes de manera rápida y efectiva, y tiene propiedades de compactación de energı́a [53], por ello es III-D. Detección Manipulación Retoque razonable adoptar los coeficientes DCT como caracterı́sticas En [15] se propuso un algoritmo eficiente diseñado especı́fi- de los bloques de imagen. Una propiedad de DCT es que la camente para predecir la presencia de retoques en imágenes energı́a solo se enfoca en los coeficientes de baja frecuencia, de portadas de revistas. El conjunto de datos de 468 fotos es decir, no todos los elementos son igual de importantes, por (originales y retocadas) se valoraron entre 1 (muy similar) y ello se descartan los coeficientes de alta frecuencia por que 5 (muy diferente) dependiendo de la cantidad de alteración solo introducen ruido y pueden dar lugar a errores en procesos fotográfica. Se calcularon las modificaciones geométricas y posteriores. fotométricas de cada foto original y retocada y, posteriormen- Para llevar a cabo este proceso se establece un valor de te, se extrajeron ocho estadı́sticas de resumen que incorporan truncamiento y se realiza a su vez un escaneado en zigzag. el grado de retoque fotográfico para calcular la correlación El valor de truncamiento k se calcula mediante la ecuación con la valoración de cada foto. Se utilizó el algoritmo de 1 y corresponde a la longitud del vector de caracterı́sticas de Máquina de Soporte Vectorial SVM para determinar el grado un bloque. Para establecerlo se fija un factor de truncamiento de modificación de la imagen. La precisión máxima obtenida ft(0 < ft < 1). [ ] con los experimentos fue de 98,75%. k = ft.B2 (1) El algoritmo propuesto en [49], utiliza una red neuronal para extraer caracterı́sticas y SVM para clasificar las imágenes A su vez se realiza un escaneado en zigzag sobre el bloque en una clase sin retoques o retocada. En los experimentos se de coeficientes DCT como se muestra en la Figura 7. Este utilizó el conjunto de datos “ND-IIITD retouched faces” de tipo de escaneo permite realizar un recorrido ascendente por 325 de caras retocadas y se obtuvo un 87% de acierto. los coeficientes de menor a mayor frecuencia y gracias al En [50] se propone la extracción de las caracterı́sticas de valor k antes mencionado accede solo a los coeficientes más color, forma y textura de tres regiones faciales predefinidas. importantes. La zona verde de la Figura 7 representa el área Se utilizaron los conjuntos de datos YouTube Makeup (YMU) de coeficientes DCT más significativos. y Makeup in the Wild (MIW) [51] para entrenar y predecir, respectivamente, un sistema SVM con núcleo Radial Basis Function (RBF) para clasificarlas. La precisión que se obtuvo fue de un 93%. Posteriormente, en [52] se propuso un algorit- mo más preciso para la detección de maquillaje en los mismos conjuntos de datos utilizando caracterı́sticas de textura y forma. La técnica propuesta extrae un vector de caracterı́sticas que captura las caracterı́sticas de forma y textura de la cara usada como entrada del algoritmo. Se consiguió aumentar la precisión a un 98.5% usando un clasificador SVM. IV. MÉTODO PROPUESTO En esta sección se propone un esquema mejorado de detección de falsificación de copia-pega basado en el esquema Figura 7: Escaneo en zig-zag de coeficientes DCT 47 7 Por último, para reducir las dimensiones y mejorar la 4.1. Si alj = 0 se comprueba si se cumple |ali–alj | < St, eficiencia del proceso de adaptación, los coeficientes DCT en caso afirmativo se incrementa el valor de c en se cuantifican mediante un factor de cuantificación fq y se 1. redondean al entero(m[ ás c]erc[ano ]usand[o la ecuación 2. 4.2. Si a l = 0 se calcula r = al/al]) j i i j y se cambian los a a valores r y r según corresponda:i1 i2 aik min max ai = , , ..., (2) f f f − Si rmax < rl entonces rmax = rlq q q − Si rmin > rl entonces rmin = rl. Este proceso proporciona una secuencia con los coeficientes 4.3. Si rmax–rmin > Tt entonces c se incrementa en 1. de baja frecuencia agrupados y truncados para cada bloque de 6. Finalmente si c < Ct entonces a y ala imagen. i j son similares. Después de comprobar si el vector de fila ai (la coordenada #Bloques = (M −B + 1)(N −B + 1)(f 2t.B ) (3) superior izquierda del bloque de imagen es (x1, y1)) y el Finalmente, se crea una matriz de una sola columna para vector de fila aj (la coordenada superior izquierda del bloqueA guardar cada secuencia en una fila diferente, a la vez que se de imagen es (x2, y2)) son similares, se calculan los vectores añaden las coordenadas e de la esquina superior izquierda de transferencia entre los dos vectores.x y del bloque al final de la secuencia de coeficientes. s = (s1, s2) = (x1 − x2, y1 − y2) (4) El siguiente paso es ordenar lexicográficamente la matriz A con todos los vectores de caracterı́sticas, de esta manera A continuación, se comprueba si la distancia excede de un las filas de caracterı́sticas similares quedarán juntas y ası́ se parámetro Td, con la ecuación 5. Si se cumple, la frecuencia podrá determinar qué bloques de la imagen están relacionados. existente del vector de transferencia se incrementa en 1, en Por lo tanto, se requieren algunos métodos para juzgar si los caso contrario, no se modifica dicha frecuencia. vectores de caracterı́sticas correspondientes de los bloques de √ 2 2 imagen son los mismos. (x1 − x2) +(y1 − y2) > Td (5) Si los componentes correspondientes de los dos vectores Una vez obtenidas las frecuencias para los vectores de de bloques de imagen son casi iguales, los dos bloques transferencia se procede a buscar el vector principal de de imagen pueden considerarse estrechamente relacionados. transferencia cuyas frecuencias exceden un umbral T . Los Posteriormente, estos bloques se estudiarán para determinar fbloques de la imagen correspondientes al vector principal se si uno de ellos o ambos son objetos de manipulación. Para pueden considerar como regiones copiadas y pegadas. Estas juzgar la similitud entre dos bloques se realizan las siguientes regiones se marcan respectivamente en un color que las haga comprobaciones para cada fila de la matriz A: distinguirse del resto de la imagen. La Figura 8 presenta el 1. Cada vector de fila ai = (a1i , a 2 i , ..., a k i ) debe ser diagrama de los procesos más caracterı́sticos del algoritmo. comparado con sus vectores de fila adyacentes aj = (a1j , a 2 j , ..., a k j ). V. EXPERIMENTOS Y RESULTADOS 2. Se define un parámetro Na que corresponde al número de máximo de filas que van a ser comparadas con a , En los experimentos realizados se ha utilizado Python comoi por lo que debe satisfacer (j–i < N ). lenguaje de programación, debido a su gran flexibilidad paraa 3. Se definen los umbrales St y Tt que serán usados más poder realizar el análisis de datos y su alta velocidad en adelante y se inicializa la variable r a un valor gestionar la entrada y salida. Para la evaluación del algoritmomax suficientemente pequeño y la variable r a un valor se ha hecho uso de varios datasets públicos ([12], [54]) paramin suficientemente grande. realizar experimentos con varios formatos y tamaños. La Tabla 4. Se crea un contador c inicializado a 0. I muestra las caracterı́sticas de los datasets utilizados en los 5. Para cada ai y aj dentro del intervalo (1 <= l <= k) experimentos. se comprueba que: Figura 8: Diagrama de flujo del algoritmo de identificación de Copia-Pega propuesto 48 8 Tabla I: Caracterı́sticas de los datasets utilizados Número de Imágenes Datasets Formato Resolución Originales Manipuladas Total CASIA v1.0 [12] JPEG 384x256 800 921 1721 JPEG, 240x160 CASIA v2.0 [12] BMP, 900x600 7491 5123 12614 (a) Imágenes originales JTIFF 1024x768 IFS-TC [54] PNG 424 451 875 3648x2736 Las caracterı́sticas del equipo en el cual se han realizado los experimentos se presentan en la Tabla II. Es un factor impor- tante a tener en cuenta ya que los tiempos de ejecución de las diferentes pruebas varı́an según los recursos computaciones (b) Imágenes manipuladas disponibles. Tabla II: Caracterı́sticas del equipo de experimentación Recursos Caracterı́sticas Sistema operativo Ubuntu 17.04 Memoria 12 GB (c) Resultados con Tf=50 Procesador Intel©R CoreTM i5-6200U CPU @ 2.30GHz x 4 Gráficos Intel©R HD Graphics 520 (Skylake GT2) Tipo de SO 64 bits Disco 64 GB V-A. Experimento 1 (d) Resultados con Tf=100 El primer conjunto de experimentos se basó en comprobar la efectividad del algoritmo propuesto en la Sección IV. Este algoritmo hace uso de diferentes parámetros configu- rables, dependiendo del valor asignado los resultados pueden variar notablemente. En [55] se propone un algoritmo que da excelentes resultados en identificación de manipulaciones copia-pega. Para realizar sus experimentos hacen comparacio- (e) Resultados con Tf=150 nes entre los parámetros usados por otras investigaciones. Los Figura 9: Identificación de la manipulación copia-pega valores que han establecido han servido como referencia para inicializar los parámetros del algoritmo que se ha propuesto en este trabajo. En la siguiente tabla se exponen cada uno de los parámetros utilizados y sus valores correspondientes. alto los resultados finales son más refinados, eliminando las áreas identificadas como manipuladas pero que en realidad Tabla III: Parámetros configurables del algoritmo copia-pega son falsos positivos. En el experimento se ha ajustado el parámetro Tf en tres valores: 50, 100 y 150. En la Figura 9 se Parámetro Nombre Valor asignado muestran 3 imágenes manipuladas de ejemplo. En la Figura ft Factor de truncamiento 0,25 fq Factor de cuantificación 4 9(a) se muestran las imágenes manipuladas, en la Figura 9(b) Na Filas vecinas comparables 3 su respectiva imagen sin manipulación y en la Figura 9(c) la St Umbral S 4 zona manipulada. Tt Umbral T 0,06 En la Figura 10 se muestran los resultados de la detección Ct Umbral de similitud 3 con diferentes valores del parámetro Tf. Como se puede Tf Umbral de frecuencia 50 observar en la figura a mayor valor del parámetro Tf los Td Distancia de los vectores 20 resultados presentan menos ruido, es decir, se eliminan las zonas negras que no forman parte de la manipulación. En la El parámetro que mejora los resultados ha sido el umbral primera imagen la manipulación se identifica con el Tf=50, de frecuencia o Tf. Este parámetro establece el valor con con un valor más alto el algoritmo no encuentra ningún bloque el cual un bloque de la imagen puede considerarse una duplicado que cumpla la frecuencia de aparición establecida manipulación válida. Si un bloque aparece varias veces en por Tf. En cambio puede apreciarse en las otras dos imágenes la imagen como duplicado y dicha frecuencia de aparición que a mayor valor del parámetro Tf se elimina el ruido supera a la establecida por el umbral Tf se considerará que producido por los falsos positivos. Esto se debe a que son forma parte de la manipulación. Estudiar la frecuencia de manipulaciones de gran tamaño en proporción a la imagen por aparición de los bloques es posible gracias a la superposición lo que la frecuencia de aparición de los bloques manipulados con la que se extraen de la imagen. Cuando este parámetro es será muy superior al existir la superposición.Sin embargo, el 49 9 pruebas con este tipo de imágenes, se ajustó el parámetro Tf al valor 150 para disminuir el ruido de puntos negros en los resultados. En la primera prueba se usaron imágenes con muchos detalles de múltiples colores pero a su vez siguen un mismo patrón, esto hace que el área duplicada sea difı́cil de detectar. En la Figura 12 se muestran tres ejemplos de identificación en (a) Imagen original (b) Imagen manipulada este tipo de imágenes. Como se observa, el algoritmo consigue una precisión destacable. Para la segunda prueba se usaron imágenes donde la región duplicada se encontraba en un área del mismo color que otras regiones de la imagen. En este tipo de imágenes también es difı́cil detectar la región duplicada ya que puede confundirse (c) Tf=50 (d) Tf=100 (e) Tf=150 con otra región original que tenga el mismo color. En la Figura 13 se muestran tres ejemplos donde puede apreciar que el Figura 10: Área duplicada con detalles de la imagen real algoritmo presenta un buen funcionamiento ante este tipo de manipulaciones. algoritmo falla con un tipo concreto de manipulaciones. Estas manipulaciones consisten en duplicar determinadas áreas que presentan zonas de la imagen real. Esto se puede observar en el ejemplo de la Figura 11. (a) Imágenes originales (a) Imágenes originales (b) Imágenes modificadas (b) Imágenes modificadas (c) Resultados de la detección Figura 12: Detección de copia-pega en imágenes con áreas del mismo color (c) Resultados de la detección Figura 11: Detección de copia-pega en regiones de texturas similares En esta imagen se ha duplicado el árbol situado en la parte central. Este árbol presenta huecos entre las ramas que han sido editados en la duplicación para que se integre perfectamente con el fondo, es por ello que el algoritmo trata (a) Imagen original (b) Imagen modificada ambos árboles como objetos diferentes y no es capaz de dar un resultado correcto. V-B. Experimento 2 En el segundo experimento se comprobó la precisión del algoritmo de identificación de la región de copia-pega en imágenes de texturas con patrones similares. En este tipo de imágenes la manipulación pasa inadvertida debido a su (c) Imagen de 1280× 854 (d) Imagen de 640× 427 excelente integración con el fondo original. Esto se debe a que se usa un mismo patrón de colores sin áreas que resalten Figura 13: Detección de copia-pega en imágenes escaladas por encima de otras. En este experimento se realizaron dos 50 10 V-C. Experimento 3 escalar una imagen y ası́ mejorar la eficiencia del mismo sin En este experimento se analizó la eficiencia del algoritmo perder calidad en los resultados. Sin embargo, el algoritmo en imágenes de gran tamaño y resolución. Se observó que al presenta dificultades en imágenes cuya área duplicada ha sido escalar una imagen a un tamaño más pequeño la precisión modificada posteriormente con partes de la imagen original. del algoritmo sigue manteniéndose alta sin sufrir cambios significativos. Esta observación permite realizar un escalado AGRADECIMIENTOS de las imágenes grandes antes de que el algoritmo las procese, esto aumenta la eficiencia sin perder calidad en los resultados. This project has received funding from the European En la Figura 13 se muestra un ejemplo de una imagen Union’s Horizon 2020 research and innovation programme manipulada por la técnica copia-pega, en la cual se ha copiado under grant agreement No 700326. This paper has also el pájaro situado encima del césped y se ha pegado sobre la received funding from THEIA (Techniques for Integrity and cabeza de la vaca. El tamaño original de la imagen es de authentication of multimedia files of mobile devices) UCM 1080x854 pı́xeles, también se muestra el resultado obtenido project (FEI-EU-19-04). al escalar la imagen a un tamaño de 640x427 pı́xeles. El tiempo de ejecución que ha tardado el algoritmo en procesar la imagen original ha sido de 160 segundos, en cambio en la imagen escalada ha tardado 48 segundos. Como puede obser- varse se ha detectado la manipulación perfectamente en ambas REFERENCIAS imágenes, por lo que es posible realizar el escalado sin afectar [1] CISCO, “Cisco Visual Networking Index: Global Mobile Data a la precisión del algoritmo y mejorando considerablemente Traffic Forecast Update, 2016–2021,” https://www.cisco.com/c/en/ el tiempo de ejecución. A lo largo de las pruebas realizadas se us/solutions/collateral/service-provider/visual-networking-index-vni/ ha podido comprobar que el algoritmo funciona con cualquier mobile-white-paper-c11-520862.html, February 2017. [2] ERICSSON, “Ericsson Mobility Report,” ERICS- tipo de formato, como Joint Photographic Experts Group SON, Tech. Rep., 06 2018. [Online]. Avai- (JPEG), Portable Network Graphics (PNG), Mapa de Bits lable: \url{https://www.ericsson.com/assets/local/mobility-report/ (BMP), entre otros. También hay que destacar que el tamaño documents/2018/ericsson-mobility-report-june-2018.pdf} de la imagen no influye en la precisión de los resultados, solo [3] M. Sapir, “The impossible photograph: Hippolyte bayard’s self-portraitas a drowned man,” MFS Modern Fiction Studies, vol. 40, no. 3, pp. produce variaciones en el tiempo de procesamiento como se 619–629, 1994. muestra en el Experimento 3. [4] H. Farid, “Creating and Detecting Doctored and Virtual Images: Im- plications to the Child Pornography Prevention Act.” UnDartmouth College, Technical Report, September 2004. VI. CONCLUSIONES [5] E. Mundo, “Detenido por Circular a 200 Kilómetros por Hora tras Subir un Vı́deo a Redes Sociales,” http://www.elmundo.es/madrid/2017/08/ Las imágenes digitales contienen una gran cantidad de 30/59a68f0a468aeb7a658b4607.html, August 2017. información relevante. Debido a esto, son un elemento muy [6] S. J. Nightingale, K. A. Wade, and D. G. Watson, “Can people identify importante en el ámbito legal y se han convertido en evi- original and manipulated photos of real-world scenes?” Cognitiveresearch: principles and implications, vol. 2, no. 1, p. 30, 2017. dencias que aportan gran valor en la resolución de un juicio. [7] M. A. Qureshi and M. Deriche, “A Bibliography of Pixel-Based Para que estas evidencias lleguen a ser válidas se debe poder Blind Image Forgery Detection Techniques,” Signal Processing: Image garantizar su autenticidad e integridad de forma fiable. Existen Communication, vol. 39, pp. 46–74, 2015.[8] M. Boutell and J. Luo, “Beyond pixels: Exploiting camera metadata for numerosas aplicaciones que consiguen editar imágenes con photo classification,” Pattern Recognition, vol. 38, no. 6, pp. 935–946, resultados altamente profesionales y detectar si una imagen 2005. ha sido modificada mediante alguna técnica de manipulación [9] H. Huang, W. Guo, and Y. Zhang, “Detection of copy-move forgeryin digital images using sift algorithm,” in Proceedings of the IEEE es una tarea complicada. Para poder garantizar la integridad de Pacific-Asia Workshop on Computational Intelligence and Industrial una imagen es de mucho interés tener herramientas forenses Application, vol. 2, Wuhan, China, December 2008, pp. 272–276. que puedan detectar estas falsificaciones. En este trabajo [10] I. Fourandsix Technologies, “Photo Tampering Throughout History,” https://www.cisco.com/c/en/us/solutions/collateral/service-provider/ se ha realizado un estudio exhaustivo sobre las técnicas visual-networking-index-vni/mobile-white-paper-c11-520862.html, existentes de detección de manipulaciones haciendo énfasis en December 2017. las técnicas de detección de Copy – Move. Se han estudiado en [11] X. Zhao, S. Wang, S. Li, J. Li, and Q. Yuan, “Image splicing detection based on noncausal markov model,” in Proceedings of the IEEE Inter- profundidad las técnicas que dan los mejores resultados, anali- national Conference on Image Processing, Melbourne, VIC, Australia, zando el proceso que realiza para la detección. Se ha diseñado September 2013, pp. 4462–4466. una técnica para la detección de la región exacta duplicada en [12] J. Dong and W. Wang, “CASIA TIDE v1.0 - v2.0,” http://forensics. idealtest.org/. técnicas Copy – Move. Para evaluar la técnica diseñada en este [13] V. Sun, “Photos: 20 More Stars and Celebrities Before and After trabajo, se han realizado pruebas con un conjunto numeroso de Photoshop,” http://www.vancouversun.com/life/fashion-beauty/Photos+ imágenes de diferentes texturas, dimensiones y formatos. Los more+stars+celebrities+before+after+Photoshop/7841314/story.html, July 2014. resultados muestran que el algoritmo detecta de forma precisa [14] I. T. Young, J. J. Gerbrands, and L. J. Van Vliet, Fundamentals of image las áreas duplicadas en imágenes de texturas similares. De processing. Delft University of Technology Delft, 1998. igual forma, muestra excelentes resultados cuando la imagen [15] E. Kee and H. Farid, “A Perceptual Metric for Photo Retouching,” National Academy of Sciences, vol. 108, no. 50, pp. 19 907–19 912, contiene un alto nivel de detalles similares representados November 2011. por un mismo patrón de color. Este algoritmo presenta un [16] L. J. Garcı́a Villalba, A. L. Sandoval Orozco, J. Rosales Corripio, tiempo de ejecución superior a los demás ya que hace uso and J. Hernández Castro, “A PRNU-based Counter-forensic Method to Manipulate Smartphone Image Source Identification Techniques,” de numerosos cálculos para determinar la zona duplicada. Future Generation Computer Systems, vol. 76, pp. 418–427, November Pero como se ha observado en los experimentos es posible 2017. 51 11 [17] N. Khanna, A. K. Mikkilineni, G. Chiu, J. P. Allebach, and E. Delp, Engineering and Technology (ICSET), 2015 5th IEEE International “Forensic Classification of Imaging Sensor Types,” in Proceedings of Conference on. IEEE, 2015, pp. 23–28. SPIE - The International Society for Optical Engineering, vol. 6505, [41] T. S. Gunawan, S. A. M. Hanafiah, M. Kartiwi, N. Ismail, N. F. Za’bah, no. 65050U, February 2007. and A. N. Nordin, “Development of photo forensics algorithm by de- [18] B. Mahdian and S. Saic, “A Bibliography on Blind Methods for tecting photoshop manipulation using error level analysis,” Indonesian Identifying Image Forgery,” Signal Processing: Image Communication, Journal of Electrical Engineering and Computer Science, vol. 7, no. 1, vol. 25, no. 6, pp. 389–399, July 2010. pp. 131–137, 2017. [19] J. Fridrich, D. Soukal, and J. Lukas, “Detection of Copy Move Forgery [42] D. C. Jeronymo, Y. C. C. Borges, and L. dos Santos Coelho, “Image in Digital Images,” in Proceedings of the Digital Forensic Research forgery detection by semi-automatic wavelet soft-thresholding with Workshop, Binghamton, New York, August 2003, pp. 5–8. error level analysis,” Expert Systems with Applications, vol. 85, pp. [20] A. C Popescu and H. Farid, “Exposing Digital Forgeries by Detecting 348–356, 2017. Duplicated Image Regions,” Department of Computer Science, vol. 646, [43] A. Alahmadi and M. Hussain, “Passive Detection of Image Forgery January 2004. Using DCT and Local Binary Pattern,” Signal, Image and Video [21] A. Langille and M. Gong, “An efficient match-based duplication detec- Processing, vol. 11, no. 1, pp. 81–88, January 2017. tion algorithm,” in Computer and Robot Vision, 2006. The 3rd Canadian [44] Y. Q. Shi, C. Chen, and W. Chen, “A Natural Image Model Approach to Conference on. IEEE, 2006, pp. 64–64. Splicing Detection,” in Proceedings of the 9th workshop on Multimedia [22] W. Luo, J. Huang, and G. Qiu, “Robust detection of region-duplication & security, Dallas, Texas, September 2007, pp. 51–62. forgery in digital image,” in Pattern Recognition, 2006. ICPR 2006. [45] X. Zhao and J. Li, “Detecting Digital Image Splicing in Chroma 18th International Conference on, vol. 4. IEEE, 2006, pp. 746–749. Spaces,” in Digital Watermarking, vol. 6526. Berlin, Heidelberg: [23] A. D. Warbhe, R. V. Dharaskar, and V. M. Thakare, “International Springer Berlin Heidelberg, 2011, pp. 12–22. journal of engineering sciences & research technology block based [46] J. R. Corripio, D. M. Arenas González, A. L. Sandoval Orozco, L. J. image forgery detection techniques.” Garcı́a Villalba, J. Hernandez-Castro, and S. J. Gibson, “Source smartp- [24] A. Myna, M. Venkateshmurthy, and C. Patil, “Detection of region hone identification using sensor pattern noise and wavelet transform,” duplication forgery in digital images using wavelets and log-polar 2013. mapping,” in Conference on Computational Intelligence and Multimedia [47] A. L. Sandoval Orozco, D. M. Arenas González, J. R. Corripio, Applications, 2007. International Conference on, vol. 3. IEEE, 2007, L. G. Villalba, and J. C. Hernandez-Castro, “Source identification for pp. 371–377. mobile devices, based on wavelet transforms combined with sensor [25] Q. Wu, S. Wang, and X. Zhang, “Log-polar based scheme for revealing imperfections,” Computing, vol. 96, no. 9, pp. 829–841, 2014. duplicated regions in digital images,” IEEE Signal Processing Letters, [48] A. L. Sandoval Orozco, D. M. Arenas González, J. Rosales Corripio, vol. 18, no. 10, pp. 559–562, 2011. L. J. Garcı́a Villalba, and J. C. Hernandez-Castro, “Source Identification [26] G. Li, Q. Wu, D. Tu, and S. Sun, “A sorted neighborhood approach for Mobile Devices, Based on Wavelet Transforms Combined with Sen- for detecting duplicated regions in image forgeries based on dwt and sor Imperfections,” Computing, vol. 96, no. 9, pp. 829–841, September svd,” in Multimedia and Expo, 2007 IEEE International Conference on. 2014. IEEE, 2007, pp. 1750–1753. [49] A. Bharati, R. Singh, M. Vatsa, and K. W. Bowyer, “Detecting Facial [27] H. Huang, W. Guo, and Y. Zhang, “Detection of Copy-Move Forgery Retouching Using Supervised Deep Learning,” IEEE Transactions on in Digital Images Using SIFT Algorithm,” in 2008 IEEE Pacific-Asia Information Forensics and Security, vol. 11, no. 9, pp. 1903–1913, Workshop on Computational Intelligence and Industrial Application, September 2016. vol. 2, December 2008, pp. 272–276. [50] C. Chen, A. Dantcheva, and A. Ross, “Automatic Facial Makeup [28] X. Bo, W. Junwen, L. Guangjie, and D. Yuewei, “Image Copy- Detection with Application in Face Recognition,” in Proceedings of Move Forgery Detection Based on SURF,” in In proceedings of the the International Conference on Biometrics (ICB), Madrid, Spain, June International Conference on Multimedia Information Networking and 2013, pp. 1–8. Security, Nanjing, China, November 2010, pp. 889–892. [51] A. Dantcheva, C. Chen, and A. Ross, “Can Facial Cosmetics Affect [29] H. Farid, “Detecting digital forgeries using bispectral analysis,” 1999. the Matching Accuracy of Face Recognition Systems?” in Proceedings [30] T.-T. Ng and S.-F. Chang, “A model for image splicing,” in Proceedings of the IEEE 5th International Conference on Biometrics: Theory, of the International Conference on Image Processing, 2004, vol. 2. Applications and Systems (BTAS). Washington DC, USA: IEEE, IEEE, 2004, pp. 1169–1172. September 2012, pp. 391–398. [31] D. Fu, Y. Q. Shi, and W. Su, “Detection of image splicing based [52] N. Kose, L. Apvrille, and J. L. Dugelay, “Facial Makeup Detection on hilbert-huang transform and moments of characteristic functions Technique Based on Texture and Shape Analysis,” in 2015 11th IEEE with wavelet decomposition,” in International workshop on digital International Conference and Workshops on Automatic Face and Ges- watermarking. Springer, 2006, pp. 177–187. ture Recognition (FG), vol. 1, Ljubljana, Slovenia, May 2015, pp. 1–7. [32] Y.-F. Hsu and S.-F. Chang, “Detecting image splicing using geometry [53] Q. Fu, X. Zhou, C. Wang, and B. Jiang, “Mathematical relation bet- invariants and camera characteristics consistency,” in Multimedia and ween APBT-based and DCT-based JPEG image compression schemes,” Expo, 2006 IEEE International Conference on. IEEE, 2006, pp. 549– Journal of Communications, vol. 11, pp. 84–92, January 2016. 552. [54] I. IFS-TC, “IFS-TC Image Forensics Challenge,” http://ifc.recod.ic. [33] Y. Q. Shi, C. Chen, and W. Chen, “A natural image model approach to unicamp.br/, January 2014. splicing detection,” in Proceedings of the 9th workshop on Multimedia [55] Z. Zhang, D. Wang, C. Wang, and X. Zhou, “Detecting Copy-move & security. ACM, 2007, pp. 51–62. Forgeries in Images Based on DCT and Main Transfer Vectors,” KSII [34] Z. Zhang, J. Kang, and Y. Ren, “An effective algorithm of image Transactions on Internet and Information Systems, vol. 11, pp. 4567– splicing detection,” in Computer Science and Software Engineering, 4587, September 2017. 2008 International Conference on, vol. 1. IEEE, 2008, pp. 1035–1039. [35] Q. Liu and A. H. Sung, “A new approach for jpeg resize and image Esteban Alejandro Armas Vega received his Computer Science degree in splicing detection,” in Proceedings of the First ACM workshop on 2009 at the Polytechnic Institute “José Antonio Echeverrı́a” in Havana (Cuba) Multimedia in forensics. ACM, 2009, pp. 43–48. and a M.Sc. degree in Computer Science in 2016 from the Universidad [36] W. Zhang, X. Cao, J. Zhang, J. Zhu, and P. Wang, “Detecting photograp- Complutense de Madrid (Spain). He is currently a Ph.D. student in the hic composites using shadows,” in Multimedia and Expo, 2009. ICME Department of Software Engineering and Artificial Intelligence of the Faculty 2009. IEEE International Conference on. IEEE, 2009, pp. 1042–1045. of Computer Science and Engineering at the Universidad Complutense de [37] W. Zhang, X. Cao, Y. Qu, Y. Hou, H. Zhao, and C. Zhang, “Detecting Madrid (UCM) and Member of the Complutense Research Group GASS and extracting the photo composites using planar homography and graph (Group of Analysis, Security and Systems, http://gass.ucm.es). His research cut,” IEEE transactions on information forensics and security, vol. 5, interests include computer networks and computer security. no. 3, pp. 544–555, 2010. [38] X. Zhao, J. Li, S. Li, and S. Wang, “Detecting digital image splicing in chroma spaces,” in International Workshop on Digital Watermarking. Ana Lucila Sandoval Orozco was born in Chivolo, Magdalena, Colombia Springer, 2010, pp. 12–22. in 1976. She received a Computer Science Engineering degree from the [39] Q. Liu, X. Cao, C. Deng, and X. Guo, “Identifying image composites Universidad Autónoma del Caribe (Colombia) in 2001. She holds a Speciali- through shadow matte consistency,” IEEE Transactions on Information zation Course in Computer Networks (2006) from the Universidad del Norte Forensics and Security, vol. 6, no. 3, pp. 1111–1122, 2011. (Colombia), and holds a M.Sc. in Research in Computer Science (2009) and [40] N. B. A. Warif, M. Y. I. Idris, A. W. A. Wahab, and R. Salleh, a Ph.D. in Computer Science (2014), both from the Universidad Complutense “An evaluation of error level analysis in image forensics,” in System de Madrid (Spain). She is currently a postdoctoral researcher and member of the Research Group GASS (Group of Analysis, Security and Systems, http://gass.ucm.es) at Universidad Complutense de Madrid (Spain). Her main research interests are coding theory, information security and its applications. 52 12 Luis Javier Garcı́a Villalba received a Telecommunication Engineering His professional experience includes the management of both national and degree from the Universidad de Málaga (Spain) in 1993 and holds a international research projects and both public (Spanish Ministry of R&D, Ph.D. in Computer Science (1999) from the Universidad Politécnica de Spanish Ministry of Defence, Horizon 2020 - European Commission, . . .) and Madrid (Spain). Visiting Scholar at COSIC (Computer Security and Industrial private financing (Hitachi, IBM, Nokia, Safelayer Secure Communications, Cryptography, Department of Electrical Engineering, Faculty of Engineering, TB Solutions Security, . . .). Author or co-author of numerous international Katholieke Universiteit Leuven, Belgium) in 2000 and Visiting Scientist at publications is editor or guest editor of numerous journals such as Entropy IBM Research Division (IBM Almaden Research Center, San Jose, CA, MPDI, Future Generation Computer Systems (FGCS), Future Internet MDPI, USA) in 2001 and 2002, he is currently Associate Professor of the Depart- IEEE Latin America Transactions, IET Communications (IET-COM), IET ment of Software Engineering and Artificial Intelligence at the Universidad Networks (IET-NET), IET Wireless Sensor Systems (IET-WSS), International Complutense de Madrid (UCM) and Head of Complutense Research Group Journal of Ad Hoc and Ubiquitous Computing (IJAHUC), International GASS (Group of Analysis, Security and Systems) which is located in Journal of Multimedia and Ubiquitous Engineering (IJMUE), Journal of the Faculty of Computer Science and Engineering at the UCM Campus. Supercomputing, Sensors MDPI, etc. 53 1 Detección de Post-Procesamiento en Vı́deos Digitales de Dispositivos Móviles mediante el Análisis de la Estructura del Contenedor Multimedia Carlos Quinto Huamán, Daniel Povedano Álvarez, Ana Lucila Sandoval Orozco, and Luis Javier Garcı́a Villalba, Member, IEEE Resumen—Technological innovations have increased the use- 2017. Asimismo, el tráfico de vı́deo IP representará un 82% fulness of mobile devices and a mobile phone is the most useful del tráfico global IP, comparado con el 75% que se alcanzó tool for any daily task since, in addition to providing access to en 2017. a wide variety of digital content (instant messaging applications, social networks, services, tv, and so on), it allows the generation Un reciente estudio de Hootsuite [2] indica que actual- of multimedia content (videos and images) taking advantage of mente un usuario medio de Internet pasa más de 6 horas y the advantages offered by integrated cameras. It is increasingly media en lı́nea cada dı́a, lo que significa que la comunidad common for users of these devices to share these videos on digital del mundo pasará más de 1.200 millones de años different platforms to express themselves, without knowing that utilizando Internet en 2019. También señalan que este año this content is exposed to any manipulation, compromising its authenticity and integrity. Likewise, videos shared on social existe alrededor de 3.484 millones de usuarios activos de networks and through instant messaging applications go through redes sociales, que representa un 9% más que en 2018. De filtering and compression processes to reduce their size, facilitate estos, 3.256 millones acceden a estas a través de los teléfonos their transfer, and optimize storage on their platforms. The result móviles. También indican que la red social Facebook es la más of these transformations leaves a distinctive pattern in the mul- popular con 2.120 millones de usuarios activos mensualmente timedia content of the social network used. This work presents a forensic method to identify the characteristic fingerprints that en todo el mundo, seguida por Youtube con 1.900 millones each social network and instant messaging application leaves in y por WhatsApp con 1.500 millones. En cuanto aplicaciones the MOV and MP4 videos shared across their platforms. This de mensajerı́a instantánea WhatsApp es la preferida por 133 method is based on the extraction and analysis of the structure paı́ses del mundo y Facebook messenger en 75 paı́ses. of multimedia containers, and the use of supervised machine Es evidente que la tecnologı́a provee de múltiples beneficios learning algorithms. a la cotidianidad de la sociedad actual, sin embargo, estos Palabras claves—Container Structure Analysis, Forensics beneficios se pueden convertir en un puente o conexión para Analysis, Multimedia Container, Social Media Detection, Super- vised Classification Techniques. que personas malintencionadas aprovechen los recursos que se encuentran sin la protección debida y realicen algún tipo de fraude o falsificación. Los vı́deos capturados por dispositivos I. INTRODUCCIÓN móviles no están exentos a este tipo de amenazas, porque Los teléfonos móviles se han convertido en una herra- es común compartir este tipo de ficheros por redes sociales, mienta fundamental para las personas, debido que ofrece dispositivos de almacenamiento, incluso por la pérdida del dis- realizar múltiples actividades con un único dispositivo, co- positivo móvil. Por lo anterior, los vı́deos están cada vez más mo acceder a Internet, enviar correos electrónicos, usar la propensos a ser manipulados y ser presentados como pruebas cámara integrada para capturar contenido multimedia, usar digitales en ámbitos procesales para evadir responsabilidades aplicaciones que solucionan operaciones que antes demandaba sobre acciones delictivas como pornografı́a infantil, tráfico de mucho más tiempo (transacciones bancarias, solicitar citas personas, etc. En este sentido, es necesario investigar sobre médicas, compras online, etc). Esto lo convierte en uno de diferentes métodos para verificar la autenticidad e integridad los dispositivos más demandados en los últimos años y se de un vı́deo. En esta investigación, se presenta un método para prevé un crecimiento en los próximos. Según la investigación la detección de post-procesamiento de vı́deos compartidos por de Cisco [1], en 2022, el tráfico IP global alcanzará los 396 las plataformas de redes sociales y aplicaciones de mensajerı́a Exabytes mensuales (4,8 Zettabytes anuales), los usuarios de instantánea basado en el análisis de la estructura del con- Internet aumentarán a 4.800 millones de los 3.400 millones tenedor multimedia combinado con el uso de algoritmos de del 2017 y habrá 28.500 millones de conexiones de disposi- aprendizaje supervisado. tivos personales fijos y móviles de los 18.000 millones del Este trabajo está estructurado en 6 secciones, siendo la primera la presente introducción. En la Sección II se describe C. Quinto Huamán, D. Povedano Álvarez, A. L. Sandoval Orozco and L. J. Garcı́a Villalba. Grupo de Análisis, Seguridad y Sistemas (GASS), brevemente algunos conceptos sobre contenedores multime- Departamento de Ingenierı́a del Software e Inteligencia Artificial, Facul- dia. La Sección III estudia los trabajos relacionados a la tad de Informática, Despacho 431, Universidad Complutense de Madrid identificación de la fuente de vı́deos utilizando la estructura (UCM), Calle Profesor José Garcı́a Santesmases, 9, Ciudad Universitaria, 28040 Madrid, España. e-mail: {cquinto, dpovedano}@ucm.es, {asandoval, de contenedores multimedia. En la Sección IV se presenta javiergv}@fdi.ucm.es. el método propuesto. En la Sección V se describen los https://doi.org/10.12804/si9789587844337.05 54 2 experimentos y resultados. Por último en la Sección VI se átomo con etiqueta y valor como: /moov/mvhd/version, value: presentan las conclusiones del presente trabajo. 0)). Este conjunto de caracterı́sticas se denomina estructura del contenedor multimedia. Cada red social y aplicación II. CONTENEDORES MULTIMEDIA de mensajerı́a instantánea incrusta una estructura propia al momento de compartir los vı́deos; esto se debe a que ejecutan El contenedor multimedia es un formato de archivo que un proceso de re-compresión sobre los vı́deos. contiene varios tipos de datos como el flujo de datos de vı́deo y audio, previamente comprimidos por un determinado códec, metadatos, además de otros elementos como subtı́tulos. III. TRABAJOS RELACIONADOS Para encapsular o envolver estos datos los fabricantes siguen Los últimos años el aprendizaje automático o Machine un formato preestablecido en las especificaciones técnicas Learning (ML) ha contribuido notablemente a la resolución de estándares internacionales. En [3] [4] indican que un de diversos tipos de tareas, como la gestión de riesgos contenedor multimedia está constituido por una pista de vı́deo financieros, detección precoz del cáncer, seguridad de datos, la y una de audio. Ambas pistas son comprimidas por un códec educación, campañas electorales, ciencia forense, etc. Según propietario de cada fabricante. [14] ML es un método de análisis de datos que automatiza En [5] se indica que la compresión del vı́deo se consigue la construcción de modelos analı́ticos y está basado a cua- mediante la eliminación de la redundancia temporal que existe tro tipos de aprendizaje: supervisado, semi-supervisado, no entre los fotogramas que componen una secuencia, de esta supervisado y de refuerzo. forma sólo se obtienen componentes necesarios para una En este contexto, la literatura nos provee trabajos relacio- reproducción fiel de los datos. Existen diferentes estándares nados a la detección de la fuente de vı́deos utilizando técnicas de compresión de vı́deos, pero en la actualidad los más usados de ML, pero en su gran mayorı́a están orientados a explotar por los dispositivos móviles son dos: 1) H264/AVC o MPEG-4 caracterı́sticas tradicionales como el ruido del sensor [15] [16] Parte 10 [6] y 2) H265/HEVC o MPEG-H Parte 2 [7], ambos [17] [18] [19] [20] [21], existiendo pocas investigaciones que desarrollados por el ITU-T International Telecommunication utilizan la estructura de contenedores multimedia para estos Union (ITU) y ISO/IEC International Organization for Stan- fines. dardization (ISO), International Electrotechnical Commission No obstante, este número reducido de trabajos que explo- (IEC). Los tres contenedores multimedia más usados en la tan las estructura de contenedores multimedia con fines de actualidad son: 1) Contenedor MP4 del estándar Moving detección de la fuente, se centran en vı́deos con formatos Picture Experts Group (MPEG)-4 parte 14. 2) Contenedor AVI, siendo muy limitado para contenedores MOV y MP4. 3GP que cumple las especificaciones MPEG-4 parte 14. Los Asimismo, existen investigaciones que analizan la estructura fabricantes cuyo sistema operativo es Android [8], utilizan del contenedor multimedia de un número reducido de redes principalmente los dos primeros contenedores. 3) Contenedor sociales y aplicaciones de mensajerı́a instantánea. MOV del estándar QuickTime, desarrollado por Apple [9]. Este En [18], se realiza un estudio de los tipos caracterı́sticas último contenedor es usado por los dispositivos cuyo sistema que son objeto de análisis forense en dispositivos móviles. El operativo es iOS [10]. No obstante, existen otros contenedores problema fundamental de este enfoque es que los diferentes multimedia como Audio Interleave de Microsoft (AVI) [11] y modelos de las cámaras digitales usan componentes de un Matroska (MKV) [12] que son usados por dispositivos más número reducido de fabricantes y que los algoritmos que usan especı́ficos. En este trabajo se utilizan vı́deos con contene- para la generación de las imágenes y vı́deos también son muy dores multimedia MOV y MP4, debido a su alta presencia similares entre modelos de la misma marca. en los principales fabricantes de dispositivos móviles. Los En [22] se realiza una comparación minuciosa de los contenedores multimedia de vı́deos están estructurados por principales grupos de técnicas de identificación de la fuente de átomos o cajas que sirven de soporte fundamental para el adquisición. Estas se dividen en cinco grupos y están basadas almacenamiento de toda la información necesaria para la en: metadatos, caracterı́sticas de la imagen, defectos de la reproducción del vı́deo [13]. Un átomo contiene una cabecera, matriz Color Filter Array (CFA) e interpolación cromática, seguido de los datos del propio átomo y estos átomos están imperfecciones del sensor y las transformadas wavelet. organizados de forma jerárquica, es decir un átomo puede En [23] los autores implementan una técnica para verificar contener otros átomos y ası́ sucesivamente, pero cuando un la integridad de vı́deos con formato AVI, generados por átomo no contiene otros átomos se le denomina átomo hoja grabadores de datos de eventos (Video Event Data Recorders o leaf atom [6] [9]. La cabecera de un átomo contiene (VEDRS)). Realizaron el análisis de la estructura de 296 generalmente los campos size y type, excepcionalmente el vı́deos originales que posteriormente fueron editados por 5 campo extended size. Adicionalmente los átomos tienen uno programas de edición. Los resultados del análisis demostraron o más etiquetas con sus respectivos valores. El campo type se que los editores cambian notablemente la estructura y los traduce en un entero sin signo de 32 bits, interpretado como un valores de los metadatos con respecto los originales. Cada código American Standard Code for Information Interchange programa de edición incrusta una estructura especı́fica que (ASCII) de cuatro caracteres. El campo size se traduce en ayuda al analista forense a detectar si un vı́deo ha sufrido un entero de 32 bits, interpretado como un código de cuatro algún tipo de manipulación. caracteres. El tamaño real de un átomo no puede ser menor En [24] se realizó un análisis de las estructuras de vı́deos de 8 bytes dado que siempre contienen los campos type y con formato AVI y MP4, agrupados en 19 modelos de cámaras size. En este sentido, el átomo se representa como: /moov/ ; el digitales, 14 modelos de teléfonos móviles y 6 programas átomo que contiene otro átomo hijo como: /moov/mvhd/ ; el de edición. Después de analizar los vı́deos originales los 55 3 autores determinaron que las estructuras de cada tipo de poseen similar nombre. Tercero, se localiza y extrae los contenedor no está estrictamente definida como se especifica átomos hijos conjuntamente con sus etiquetas y valores; este en los estándares. Se encontraron diferencias considerables proceso se repetirá mientras el átomo contenga otros átomos. entre vı́deos generados por dichos dispositivos. Asimismo, los En caso que el átomo extraı́do no es ubicado en la lista de vı́deos AVI después de ser manipulados con los programas átomos previamente implementados, dicho átomo se registra de edición, cambiaron la estructura interna incluyendo los como átomo desconocido. Una vez finalizado el proceso, se valores de los metadatos, caracterı́sticas esenciales para saber almacena la información en un DataFrame. el origen de los vı́deos. En [25], los autores implementaron un método no super- IV-B. Pre-Procesamiento visado para verificar la integridad de vı́deos basado en la di- similitud entre vı́deos originales y editados. Asimismo, desa- Las caracterı́sticas que provienen de la extracción de áto- rrollaron un método para identificar la fuente de adquisición mos están estructuradas en un DataFrame con los siguientes del vı́deo mediante el análisis de los contenedores. Para lograr campos: Path-file-name, que es la ruta del vı́deo seguido por este objetivo utilizaron la librerı́a MP4Parser[26], obteniendo el nombre; Path-origin, es la ruta del vı́deo; Class-label, es la ficheros de lenguaje de marcado extensible (Extensible Mar- identificación de cada red social y aplicación de mensajerı́a; kup Language (XML)) para un posterior análisis, logrando File-name, es el nombre del vı́deo; Marker, es la marca del buenos resultados en sus experimentaciones, sosteniendo que dispositivo móvil; Model, es el modelo del dispositivo móvil; la solución utiliza un mı́nimo de recurso computacional a PathOrder-tag es el conjunto de átomos con su respectivo comparación de otras alternativas. orden relativo, seguido de la etiqueta con su respectivo valor; ValueReading-orders, es el orden absoluto de cada átomo, IV. M P también llamado orden de aparición.ÉTODO ROPUESTO Dado un vı́deo (X), contiene un conjunto de átomos En este trabajo se propone un método forense para la (a1,....an), representado por /ftyp-1/. También, estos identificación de redes sociales y aplicaciones de mensajerı́a átomos pueden contener otros átomos y etiquetas: instantánea en vı́deos con formato MOV y MP4, utilizando a=((a1), w1....(an), wn) representado por /ftyp- como caracterı́stica principal la estructura de los contenedores 1/majorBrands. Asimismo, estas etiquetas tienen valores: multimedia. La metodologı́a y procedimientos que se han /ftyp-1/majorBrands: @mp42. En este sentido, el PathOrder- seguido para evaluar y seleccionar el mejor modelo de ML tag contiene 2 tipos de caracterı́sticas: Secuencia de átomos supervisado se detalla en la Figura 1. (/ftyp-1/) y secuencia de átomos seguido de las etiquetas (/ftyp-1/majorBrands). IV-A. Extracción de Átomos Para el presente trabajo se utiliza solo se utiliza los cam- El proceso de extracción de caracterı́sticas es una parte pos Path-file-name, PathOrder-tag, Class-label, y por ello se fundamental en la aplicación de cualquier técnica de apren- elimina las columnas que no son utilizadas. Seguidamente se dizaje automático. Para este trabajo se ha desarrollado un asigna un identificador a cada clase y se agrupa la estructura algoritmo de extracción de átomos, que se encarga de obtener de cada vı́deo, representado por un vector con N PathOrder- un conjunto de caracterı́sticas (átomos, etiquetas, valores y tag con igual cardinalidad. Esto se lleva a cabo utilizando orden de aparición) de los vı́deos con formato MOV y MP4, la presencia o ausencia de los PathOrder-tag, asignando la para ser analizadas y posteriormente encontrar un patrón que variable binaria 1 en caso de presencia y 0 en caso de permita distinguir una red social y aplicación de mensajerı́a ausencia. Después, se obtiene el conjunto de caracterı́sticas instantánea. La implementación del algoritmo está basado al de entrenamiento Trainfeatures y sus respectivas etiquetas. uso de funciones recursivas. Primero, se obtiene byte inicial Finalmente, se divide el Trainfeatures 2 partes: 80% (Con- del átomo; el tamaño del átomo (4 bytes); y el tipo de junto de entrenamiento) y 20% (Conjunto de test). átomo (4 bytes) que está representado por una cadena de caracteres. Segundo, se extrae el átomo leı́do y se asigna un IV-C. Oversampling y Reducción de Dimensiones orden relativo a cada átomo, con la finalidad de organizar Un problema común en el uso de técnicas de ML es el eficientemente las estructuras y evitar eliminar átomos que desbalanceo entre clases. Figura 1: Pipeline del método propuesto 56 4 Si bien es cierto, la cantidad de vı́deos utilizados para Gaussian Naive Bayes (GNB): clf var smoothing: 1e- cada clase es el mismo, se ha considerado este paso como 08. opcional para evaluar el funcionamiento del modelo bajo éstas KNeighbors (KNN): clf weights: distance, condiciones y ası́ solventar el impacto que tiene sobre la clf n neighbors: 15, clf metric: cosine. decisión final de los clasificadores. Random Forest (RF): clf n estimators: 1200, En este sentido, se hace uso de la técnica muy utilizada clf min samples split: 10, clf min samples leaf: en la literatura denominado Syntethic Minority OverSampling 4, clf max features: sqrt, clf max depth: 10, (SMOTE) [27], que genera o incrementa el número de ins- clf bootstrap: True. tancias de las clases minoritarias de forma sintética [28] [29], Gradient Boosting Classifier (GBC): clf subsample: en este contexto cada instancia es un vector por cada vı́deo 1.0, clf n estimators: 100, clf min samples split: 0.9, con N PathOrder-tag. clf min samples leaf: 0.2090. Otro problema frecuente es contar con caracterı́sticas me- Extreme Gradient Boosting (XGB): clf subsample: 0.6, nos importantes y que no aportan significativamente a la clf min child weight: 5, clf max depth: 4, clf gamma: predicción. A esta problemática se suma un mayor tiempo 2, clf colsample bytree: 0.8. de procesamiento y mayor uso de recursos. Para mitigar esta dificultad, opcionalmente se hace uso de la técnica de IV-E. Testing Análisis de Componentes Principales o Principal Component Analysis (PCA), que ayuda a identificar y eliminar PathOrder- En esta fase se hace uso del conjunto de test, es decir el tag irrelevantes para mejorar el rendimiento computacional y 20% de PathOrder-tag separado en la Sección IV-B, con el entender mejor la evaluación del modelo y sus resultados. objetivo de evaluar la capacidad de clasificación del métodos Cabe señalar, que a ésta técnica se le antepone la técnica utilizados. Asimismo, se valida si los métodos se adecuan a un SMOTE a fin de evitar causar un sobreajuste o Overfitting al entorno real. El resultado de la evaluación será la elección del modelo [30]. modelo que mejor se comporta con el tipo de caracterı́sticas que se provee. Para ello, se utiliza 4 métricas de rendimiento que se presentan en a siguiente sección. IV-D. Training La fase de entrenamiento es fundamental ya que determina IV-F. Métricas de Rendimiento el rendimiento de los algoritmos y de esta forma elegir el me- Como se mencionó en la Sección III, en la actualidad, no jor modelo predictivo para realizar la clasificación. Es común existe investigaciones relacionadas a la clasificación super- utilizar un buen porcentaje de caracterı́sticas, dejando una visada de redes sociales y aplicaciones de mensajerı́a ins- porción para evaluar el rendimiento y capacidad de generalizar tantánea que utilicen la estructura del contenedor multimedia, nuevas caracterı́sticas que no han sido contemplados en la y que sirvan como referencia para elegir las mejores métricas. fase de entrenamiento. En nuestro caso, como se detalló en En este contexto, se consideró utilizar 4 métricas para la la Sección IV-B se destina un 80% de PathOrder-tag para el evaluación del rendimiento de soluciones de identificación entrenamiento (Conjunto de entrenamiento) y un 20% para de la fuente de adquisición en vı́deos (Accuracy, F1-Score- evaluar el modelo (Conjunto de Test). micro, F1-Score-macro, Log Loss) [29]. Considerando que se Una vez definido el porcentaje de los datos de entrena- desea clasificar cada muestra (vector con N variables) con su miento, el siguiente paso es seleccionar los hiper-parámetros respectiva clase, se denomina verdaderos positivos (TP) a las de los modelos de ML y esto depende del cada algoritmo que muestras que se clasificaron como positivos correctamente, se utilizará. Existen varios procedimientos para obtener hiper- verdaderos negativos (TN) a las muestras que se clasificaron parámetros que ofrezcan un buen rendimiento del algoritmo como negativos correctamente, falsos positivos (FP) a la pre- de clasificación [31]. En este trabajo se utilizó la técnica dicción no clasificada en la clase de interés, falsos negativos búsqueda exhaustiva o grid search [28]. Para ello, se construye (FN) a la predicción no clasificada correctamente en la clase los pipelines para cada ensemble classification algorithm: de no interés. Previamente a la evaluación de las métricas Logistic Regression (LR), Support Vector Machine (SVM), propuestas, se evaluó dos métricas de soporte: Recall, que Decision Tree (DT), Linear Discriminant Analysis (LDA), es la tasa de verdaderos positivos, es decir nos indica la Gaussian Naive Bayes (GNB), KNeighbors (KNN), y para capacidad del método para clasificar las muestras en la clase cada Non-ensemble classification algorithm: Random Forest correcta; Precision, nos indica la proporción de muestras que (RF), Gradient Boosting Classifier (GBC), Extreme Gradient nuestro método ha clasificado en una determinada clase. En Boosting (XGB) [29] [32]. El conjunto de hiper-parámetros los siguientes párrafos se describen brevemente las métricas seleccionados para cada uno de los algoritmos propuestos, utilizadas: aplicando la validación cruzada o cross-validation con k=5 se detalla a continuación: Accuracy. Esta métrica es la más simple de calcular y es el porcentaje total de elementos clasificados correcta- Logistic Regression (LR): clf C: 0.1, clf penalty: l2, mente, se define como: clf solver: liblinear. Support Vector Machine (SVM): clf C: 0.1, clf kernel: TP+ TNAccuracy = (1) linear. TP+ TN+ FP+ FN Decision Tree (DT): clf min samples split: 10, F1-Score. Es la media armónica de Precision y Recall. clf min samples leaf: 1, clf max depth: 18. Mientras el valor se acerque más a 1, el rendimiento Linear Discriminant Analysis (LDA): clf solver: svd del sistema de clasificación será más óptimo [33]. En 57 5 este trabajo, ésta métrica se desglosa en 2, de acuerdo contenedores multimedia y, posteriormente, la identificación al tipo de configuración del cálculo de la media: 1) F1- de redes sociales y aplicaciones de mensajerı́a instantánea macro (Average:macro) que calcula la métrica indepen- utilizando el modelo de ML seleccionado. dientemente para cada clase y luego toma el promedio, es decı́r, trata a todas las clases por igual; 2) F1-micro V-A. Descripción del Dataset (Average:micro) agrega las contribuciones de todas las clases para calcular la métrica promedio. En un sistema La preparación del conjunto de datos es un proceso muy de clasificación multiclase, es preferible utilizar esta importante para este trabajo ya que es un factor que determina métrica si se sospecha que puede haber un desequilibrio la calidad de resultados que se desea alcanzar. En la literatura, de clase, es decir puede tener muchos más vı́deos de una existen muy pocos conjuntos de datos de vı́deos generados por clase que de otras clases. La métrica de define como: dispositivos móviles que hayan sido compartidos por redes sociales y aplicaciones de mensajerı́a instantánea. Tener un Precision × Recall F1-Score = 2 ∗ (2) conjunto de datos de vı́deos organizado, robusto, balanceado Precision + Recall y sobre todo actualizado es todo un reto. Por ese motivo, se ha Log-loss. Mide el rendimiento de un modelo de clasi- generado un conjunto de datos heterogéneo y suficientemente ficación donde la entrada de predicción es un valor de grande, para evaluar el método propuesto en escenarios reales probabilidad entre 0 y 1. El objetivo de nuestros modelos y ası́ obtener resultados efectivos. Las Tablas II y III confor- es minimizar este valor. Un modelo perfecto tendrı́a una man el dataset generado para los experimentos. En la Tabla pérdida logarı́tmica de 0, se define como: II se presenta el conjunto de datos que está compuesto por ∑N ∑M 270 vı́deos originales, 10 vı́deos por cada modelo. Los vı́deos1 Log-loss = − y log(p ) (3) fueron capturados con las opciones de las cámaras por defecto N ij ij i=1 j=1 (p. ej. registro de ubicación desactivado). Posteriormente, los vı́deos de la Tabla II fueron compartidos a través de 8 redes Donde: N es el número de muestras o instancias, M sociales (2160 vı́deos resultantes) y 3 aplicaciones de mensa- es el número de etiquetas posibles, yij toma el valor de jerı́a instantánea (810 vı́deos resultantes), haciendo un total de 1 para la clase correcta y 0 para otras clases, yij es la 2970 vı́deos que serán analizados. En la Tabla III se detalla probabilidad asignada para esa clase. las redes sociales y aplicaciones de mensajerı́a instantánea que Después de haber detallado el método propuesto, se realiza se utilizaron con sus respectivas configuraciones de subida y la evaluación de cada uno de los algoritmos seleccionados en descarga de los vı́deos. la Sección IV-D, con la finalidad de seleccionar un modelo robusto y eficiente. En la Tabla I se observa el rendimiento Tabla II: Caracterı́sticas de los vı́deos originales del dataset de los algoritmos para la identificación de redes sociales y aplicaciones de mensajerı́a instantánea utilizando PCA y Marca Modelo Id Modelo S.O. Resolución CodecIpad 2 D01 iOS 9.3.5 1280 x 720p H.264 descartando SMOTE. Se descartó el uso de SMOTE, debido a Ipad Air D02 iOS 11.3 1920 x 1080p H.264 que los resultados obtenidos en experimentaciones previas son Iphone 5 D03 iOS 7.0.4 1920 x 1080p H.264Iphone 5S D04 iOS 9.2 1920 x 1080p H.264 similares a la Tabla I, demostrando que el dataset de vı́deos Apple Iphone 6 D05 iOS 8.4 1920 x 1080p H.264 está balanceado. Iphone 7 D06 iOS 11.2.6 3840 x 2160p H.264Iphone 8 Plus D07 iOS 11.2.5 1920 x 1080p H.265 Iphone X D08 iOS 11.4.1 1920 x 1080p H.264 Tabla I: Evaluación del rendimiento de los modelos candidatos Iphone XS Max D09 iOS 12.1.0 3840 x 2160p H.264 Ascend D10 Android 1280 x 720p H.264 Modelo Accuracy F1-micro F1-macro Log loss Huawei P9 D11 Android 1920 x 1080p H.264 LR 0.975891 0.975891 0.972057 0.063861 P10 D12 Android 1920 x 1080p H.264 RF 0.975891 0.975891 0.972057 0.063479 LG Nexus 5 D13 Android 1920 x 1080p H.264 DT 0.975552 0.975552 0.971684 0.078106 G6 D14 Android 640x480p H.264 SVM 0.975891 0.975891 0.972057 0.074281 Microsofot Lumia 640 LTE D15 Windows Phone 1920 x 1080p H.264 KNN 0.975891 0.975891 0.972057 0.067543 Motorola Moto G2 D16 Android 1280 x 720p H.264LDA 0.927674 0.927674 0.910590 0.760697 Nexus 6 D17 Android 1920 x 1080p H.264 GNB 0.975891 0.975891 0.972057 0.832684 One Plus A0001 D18 Android 1920 x 1080p H.264 GBC 0.707640 0.707640 0.626514 0.656345 Galaxy A6 D19 Android 1920 x 1080p H.264 XGB 0.975891 0.975891 0.972057 0.075127 Galaxy S5 D20 Android 3840 x 2160p H.264 Samsung Galaxy S7 D21 Android 1920 x 1080p H.264Galaxy S9 Plus D22 Android 3840 x 2160p H.265 En general, se observa un rendimiento muy alto de todos Galaxy J5 2016 D23 Android 1920 x 1080p H.264 los algoritmos, excepto GBC, que alcanza un accuracy y F1- Galaxy Tab A D24 Android 1280 x 720p H.264Mi3 D25 Android 1280 x 720p H.264 micro de 0.707640 y F1-macro de 0.626514. No obstante, Xiaomi Redmi Note 5 D26 Android 1920 x 1080p H.264 LDA, GNB y GBC alcanzan valores log-loss cercanos a 1, PocoPhone D27 Android 3840 x 2160p H.264 lo que significa que el rendimiento en la clasificación de estos algoritmos no son tan perfectos. El modelo con mejor rendimiento es RF, alcanzando excelentes resultados en las 4 V-B. Análisis de Contenedores Multimedia métricas. En este sentido, el algoritmo RF, será utilizado en Este análisis se realiza para observar el comportamiento de las experimentaciones del presente trabajo. las redes sociales y aplicaciones de mensajerı́a instantánea a la hora de subir y descargar vı́deos a través de sus plataformas. V. EXPERIMENTOS Y RESULTADOS Asimismo, conocer de manera general cual es la estructura Para evaluar el método propuesto se han realizado dos que inserta cada herramienta a los contenedores multimedia. grupos de experimentos: un análisis de la estructura de En este sentido, se realiza la comparación de la estructura del 58 6 Tabla III: Configuración del proceso de generación del dataset mente. La ruta para obtener el valor de la etiqueta @timeScale de redes sociales y aplicaciones de mensajerı́a instantánea es /ftyp-1/beam-2/moov-3/mvhd-1/@timeScale:44100. El áto- Red Social Versión Proceso de Subida Proceso de Descarga mo moov-3 contiene 2 átomos trak, 1 para la pista de vı́deo, Facebook HD Website Max 4gb, 240min Firefox (Inspect element) 1 para la pı́sta de audio. La estructura del contenedor esta Facebook SD Website Max 4gb, 240min Firefox (Inspect element) Youtube Website Max 128gb,12hrs Youtube studio beta compuesto por 237 caracterı́sticas. Flickr Website Max 1gb Website(save as) En vı́deo de Linkedin, tiene 4 átomos raı́z (ftyp-1, moov-2, Linkedin Website Max 6gb, min 75kb Website(save as) Instagram Website Max 10 min, ratio 9:16 Firefox (Inspect element) free-3, mdat-4). Los valores de las etiquetas @majorBrands y Twitter Website Max 500mb, 2.20 min Twitervideodownloader @compatibleBrand son isom y isomiso2avc1mp41 respectiva- Tumblr Website Max 100mb Firefox (Inspect element) Aplicación Versión Caracterı́sticas mente. La ruta para obtener el valor de la etiqueta @timeScale Facebook Msn 255.0.0.13.113 - es /ftyp-1/moov-2/mvhd-1/@timeScale:1000. El átomo moov- WhatsApp 2.19.20 - Telegram 5.7.1 Max 1.5GB 2 contiene 2 átomos trak, 1 para la pista de vı́deo, 1 para la pı́sta de audio. La estructura del contenedor está compuesto por 258 caracterı́sticas. contenedor de un vı́deo original, generado por un teléfono En vı́deo de Telegram, tiene 3 átomos raı́z (ftyp-1, mdat-2, móvil de marca Apple y modelo Ipad Air, con la estructura moov-3). Los valores de las etiquetas@majorBrands y @com- del mismo vı́deo luego de haber sido compartido a través de patibleBrand son mp42 y mp41mp42isom respectivamente. La Facebook HD, Youtube, WhatsApp, Linkedin, Telegram. Ver ruta para obtener el valor de la etiqueta @timeScale es /ftyp- Figura 2. 1/mdat-2/moov-3/mvhd-1/@timeScale:44100. El átomo moov- En vı́deo original de marca Apple y modelo Ipad Air, tiene 3 contiene 2 átomos trak, 1 para la pista de vı́deo, 1 para la 4 átomos raı́z (ftyp-1, wide-2, mdat-3, moov-4). Los valores pı́sta de audio. La estructura del contenedor está compuesto de las etiquetas @majorBrands y @compatibleBrand son qt por 251 caracterı́sticas. y qt respectivamente. La ruta para obtener el valor de la Cabe señalar que después de analizar los vı́deos de la etiqueta @timeScale es /ftyp-1/wide-2/mdat-3/moov-4/mvhd- red social Flickr, se ha confirmado que la plataforma no 1/@timeScale:600. El átomo moov-4 contiene 4 átomos trak, realiza ningún tipo de re-compresión y tampoco cambia la 1 para la pista de vı́deo, 1 para la pı́sta de audio y 2 estructura del contenedor multimedia, manteniendo las mis- exclusivamente para metadatos. La estructura del contenedor mas caracterı́sticas que el vı́deo original. En resumen, este esta compuesto por 651 caracterı́sticas. análisis ha permitido demostrar demostrar que cada red social En vı́deo de Facebook HD, tiene 4 átomos raı́z (ftyp-1, y aplicación de mensajerı́a instantánea inserta una estructura moov-2, free-3, mdat-4). Los valores de las etiquetas @major- diferente. Estas diferencias se derivan del orden de aparición Brands y @compatibleBrand son isom y isomiso2avc1mp41 de los átomos y valores asignados cada etiquetas. respectivamente. La ruta para obtener el valor de la etiqueta @timeScale es /ftyp-1/moov-2/mvhd-1/@timeScale:1000. El V-C. Identificación de Redes Sociales y Aplicaciones de átomo moov-2 contiene 2 átomos trak, 1 para la pista de Mensajerı́a Instantánea vı́deo, 1 para la pı́sta de audio. La estructura del contenedor En este experimento se utilizaron los 2970 videos com- esta compuesto por 267 caracterı́sticas. partidos en 8 redes sociales y 3 aplicaciones de mensajerı́a En vı́deo de Youtube, tiene 3 átomos raı́z (ftyp-1, moov- instantanea, repartidos en 2376 videos para train y 594 para 2, mdat-3). Los valores de las etiquetas @majorBrands y test. En la Tabla IV se observa que WhatsApp, Facebook HD, @compatibleBrand son mp42 y isommp42 respectivamente. Facebook Msn, Telegram, Youtube, Flickr, Linkedin, Twitter La ruta para obtener el valor de la etiqueta @timeScale y Tumblr se clasifican al 100%. Sin embargo la red social es /ftyp-1/moov-2/mvhd-1/@timeScale:1000. El átomo moov- Facebook SD alcanza un 0.98% de acierto, confundiéndose un 2 contiene 2 átomos trak, 1 para la pista de vı́deo, 1 para la 0.02% con Tumblr. Finalmente, Instagram alcanza un 0.69% pı́sta de audio. La estructura del contenedor está compuesto de acierto, confundiéndose un 0.31% con Facebook Msn. En por 250 caracterı́sticas. la Figura 3, se observa un resumen del factor de impacto de los En vı́deo de WhatsApp, tiene 4 átomos raı́z (ftyp-1, beam-2, PathOrder-tag o caracterı́sticas que tienen sobre el modelo a la moov-3, mdat-4). Los valores de las etiquetas @majorBrands hora de clasificar una clase. Los PathOrder-tag que contienen y @compatibleBrand son mp42 y mp41mp42isom respectiva- el atomo wide-2 tienen mayor impacto para definir que la clase sea Flickr (vı́deos originales). Tabla IV: Matriz de confusión para redes sociales y aplicaciones de mensajerı́a instantánea Social media WhatsApp FacebookHD FacebookSD FacebookMsn Telegram Youtube Flickr Linkedin Instagram Twitter Tumblr WhatsApp 1 - - - - - - - - - - FacebookHD - 1 - - - - - - - - - FacebookSD - - 0.98 - - - - - - - 0.02 FacebookMsn - - - 1 - - - - - - - Telegram - - - - 1 - - - - - - Youtube - - - - - 1 - - - - - Flickr - - - - - - 1 - - - - Linkedin - - - - - - - 1 - - - Instagram - - - 0.31 - - - - 0.69 - - Twitter - - - - - - - - - 1 - Tumblr - - - - - - - - - - 1 59 7 Iphone Ipad Air Facebook HD Youtube ftyp-1 ftyp-1 ftyp-1 @majorBrands: qt @majorBrands: isom @majorBrands: mp42 @minorVersion: 0 @minorVersion: 512 @minorVersion: 0 @compatibleBrand : @compatibleBrand: @compatibleBrand: qt isomiso2avc1mp41 isommp42 wide-2 moov-2 moov-2 mdat-3 mvhd-1 mvhd-1 moov-4 version: 0 version: 0 mvhd-1 @flags: 0 @flags: 0 @version: 0 @reserved: 0 @reserved: 0 @flags: 0 @timeScale: 1000 @timeScale: 1000 @reserved: 0 @posterTime: 0 @posterTime: 0 @timeScale: 600 @currentTime: 0 @currentTime: 0 @posterTime: 0 @nextTrackId: 3 @nextTrackId: 3 @currentTime: 0 @previewTime: 0 @previewTime: 3 @nextTrackId: 5 ... ... @previewTime: 0 trak-1 trak-1 ... tkhd-1 tkhd-1 trak-1 @version: 0 @version: 1 tkhd-1 @flags: 3 @flags: 3 @version: 0 ... ... @flags: 0 trak-2 trak-2 ... free-3 mdat-3 trak-2 ... mdat-4 Total structure = 250 trak-3 ... Total structure = 267 trak-4 ... Total structure = 651 WhatsApp Linkedin Telegram ftyp-1 ftyp-1 ftyp-1 @majorBrands: mp42 @majorBrands: isom @majorBrands: mp42 @minorVersion: 1 @minorVersion: 512 @minorVersion: 1 @compatibleBrand: @compatibleBrand: @compatibleBrand: mp41mp42isom isomiso2avc1mp41 mp41mp42isom beam-2 moov-2 mdat-2 moov-3 mvhd-1 moov-3 mvhd-1 version: 0 mvhd-1 version: 0 @flags: 0 version: 0 @flags: 0 @reserved: 0 @flags: 0 @reserved: 0 @timeScale: 1000 @reserved: 0 @timeScale: 44100 @posterTime: 0 @timeScale: 44100 @posterTime: 0 @currentTime: 0 @posterTime: 0 @currentTime: 0 @nextTrackId: 3 @currentTime: 0 @nextTrackId: 3 @previewTime: 0 @nextTrackId: 3 @previewTime: 0 ... @previewTime: 0 ... trak-1 ... trak-1 tkhd-1 trak-1 tkhd-1 @version: 0 tkhd-1 @version: 0 @flags: 3 @version: 0 @flags: 1 ... @flags: 1 ... trak-2 ... trak-2 free-3 trak-2 mdat-4 mdat-4 Total structure = 251 Total structure = 237 Total structure = 258 Figura 2: Comparación de la estructura de contenedores multimedia 60 8 Los PathOrder-tag que contienen el átomo trak-4 tienen gran impacto para que el modelo clasifique la muestra como WhatsApp. Este experimento nos muestra que el modelo cla- sifica notablemente las redes sociales. No obstante, recordar que la red social Flickr clasifica perfectamente pero realmente esta clasificando vı́deos originales. En la Figura 4, se examina la predicción individual de los puntos de datos (PathOrder-tag) por redes sociales y aplicaciones de mensajerı́a instantánea utilizando el paquete de Python Eli5 [34]. En la Figura 4(a) se examina Facebook Msn, Instagram y Flickr. Se observa que el PathOrder-tag /moov-2/udta-4/meta-1/ilst-2/too-1/data-1/ tiene mayor peso de contribución y es el más influyente para predecir la apli- cación de mensajerı́a Facebook Msn (+0.056) y la red social Instagram (+0.050). No obstante, el conjunto de PathOrder- tag positivos de Facebook Msn, alcanza una probabilidad del 0.753% para que el resultado de la predicción sea ésta aplica- ción, mientras que el conjunto de PathOrder-tag positivos de Instagram, alcanza una probabilidad de 0.244% para que el resultado de predicción se incline a ésta red social. Asimismo, se observa que el conjunto de PathOrder-tag positivos de Flickr logra obtener solo un 0.002% de probabilidad para que la predicción sea ésta red social (vı́deo original). Figura 3: Factor de impacto de PathOrder-tag (a) Facebook Msn, Instagram, Flickr (b) Instagram, Flickr, Facebook Msn) (c) WhatsApp, Flickr, Youtube Figura 4: Predicción individual de puntos de datos en Redes sociales y aplicaciones de mensajerı́a. 61 9 La interpretación de las demás figuras se realiza de forma [3] J. Kaur and N. Sharma, “Survey on the General Concepts of MPEG similar a la anterior. En resumen, una o más clases pue- Moving Picture Experts Group,” Paripex: Indian Journal of Research, den tener el mismo con un cierto grado de vol. 5, no. 2, pp. 252–255, February 2016.PathOrder-tag [4] B. G. Haskell, P. A., and N. A. N., Digital Video: An Introduction to influencia, pero también es importante la probabilidad que MPEG-2 Digital Multimedia Standards. Orlando, FL, USA: Springer alcanza el conjunto de PathOrder-tag positivos, ya que de US, 2007. ambos factores depende una clasificación eficiente de los [5] S. Dhanani and M. Parker, Digital Video Processing for Engineers:A Foundation for Embedded Systems Design. Newton, MA, USA: vı́deos con su respectiva clase (Redes sociales y aplicaciones Newnes, 2012. de mensajerı́a instantánea). [6] I. T. Union, “Advanced Video Coding for Generic Audiovisual Services H.264,” 2016. [Online]. Available: http://www.itu.int/ [7] International Telecommunication Union, “High Efficiency Video VI. CONCLUSIONES Coding,” 2018. [Online]. Available: http://www.itu.int/ [8] Google, “Android-OS,” 2019. [Online]. Available: https://www.android. En este trabajo se presenta un método de detección de com/ post-procesamientos en vı́deos compartidos a través de redes [9] Q. F. Format, “QuickTime File Format Specification,” 2016. [Online]. sociales y aplicaciones de mensajerı́a instantánea que ana- Available: https://developer.apple.com [10] Apple Inc., “iOS,” 2019. [Online]. Available: www.apple.com/es/ios liza los cambios presentes en la estructura de contenedores [11] Microsoft, “AVI RIFF File,” 1992. [Online]. Available: https://docs. multimedia. Para la implementación del método propuesto, microsoft.com/en-us/windows/win32/directshow/avi-riff-file-reference en primer lugar, se generó un conjunto de datos de vı́deos [12] Matroska, “Matroska Specification,” 2002. [Online]. Available: https: //www.matroska.org/technical/specs/index.html y posteriormente fueron compartidos a través de las redes [13] Tengku Mohd T. S. and Halimah Badioze Z. and Hsinchun C. and sociales y aplicaciones de mensajerı́a instantánea más usados Shalini R. U. and Sung Hyon M., “Digital libraries: Technology and en la actualidad. En segundo lugar, se realizó la extracción management of indigenous knowledge for global access,” in Procee- dings of the 6th International Conference on Asian Digital Libraries. del conjunto de caracterı́sticas (PathOrder-tag) del 100% de Springer, Berlin, Heidelberg, December 2003, pp. 76–83. vı́deos con el algoritmo de extracción de átomos. En tercer [14] F. Camastra and A. Vinciarelli, Machine Learning for Audio, Image and lugar, se construyó un modelo de machine learning supervi- Video Analysis. [15] J. Lukas, J. Fridrich, and M. Goljan, “Digital Camera Identification from sado a partir de la evaluación de 4 métricas obtenidas por Sensor Pattern Noise,” IEEE Transactions on Information Forensics and 9 algoritmos de clasificación, siendo Random Forest (RF) el Security, vol. 1, no. 2, pp. 205–214, June 2006. algoritmo que obtuvo el mejor rendimiento. En el análisis de [16] C. Li, “Source Camera Identification Using Enhanced Sensor Pattern Noise,” IEEE Transactions on Information Forensics and Security, los contenedores multimedia se demostró que cada red social vol. 5, no. 2, pp. 280–287, June 2010. y aplicación de mensajerı́a inserta una estructura propia a los [17] Z. J. Geradts, J. Bijhold, M. Kieft, K. Kurosawa, K. Kuroki, and contenedores multimedia, excepto Flick, ya que no realiza N. Saitoh, “Methods for Identification of Images Acquired with Digital Cameras,” in Proceedings on Enabling Technologies for Law Enforce- un proceso de re-compresión sobre vı́deo al momento de ser ment and Security, Boston, Massachusetts, USA, February 2001. compartido por su plataforma. Las diferencias detectadas en [18] Van Lanh, T. and Chong, K. S. and Emmanuel, S. and Kankanhalli, cuanto a número de átomos es considerable (Facebook HD: M. S., “A Survey on Digital Camera Image Forensic Methods,” in Proceedings of the IEEE International Conference on Multimedia and 267, Youtube: 250, WhatsApp: 237, Linkedin: 258, Telegram: Expo, Beijing, July 2007, pp. 16–19. 251), y en cuanto a valores es mucho más evidente. [19] Costa, F. O. and Eckmann, M. and Scheirer, W. J. and Rocha, A., “Open En el experimento de identificación de redes sociales y Set Source Camera Attribution,” in Proceedings of the 25th Conference on Graphics, Patterns and Images, Ouro Preto, Brazil, August 2012, aplicaciones de mensajerı́a instantánea se alcanzó el 100% pp. 71–78. de acierto para todas las clases, excepto Instagram que se [20] Li, J. and Ma, B. and Wang, C., “Extraction of PRNU Noise From confunde un 0.31% con Facebook Msn y Facebook SD se Partly Decoded Video,” Journal of Visual Communication and Image Representation, vol. 57, pp. 183–191, November 2018. confunde un 0.02% con Tumblr. [21] I. Amerini, R. Caldelli, A. Del Castillo, A. Di Fuccia, C. Molinari, En lineas generales, el método propuesto utilizando la and A. P. Rizzo, “Dealing with Video Source Identification in Social estructura de contenedores multimedia es eficiente y robusto Networks,” Signal Processing: Image Communication, vol. 57, pp. 1–7, September 2017. para detectar las redes sociales y aplicaciones de mensajerı́a [22] A. Sandoval Orozco, D. Arenas González, J. Rosales Corripio, instantánea en vı́deos con formato MP4 y MOV. L. Garcı́a Villalba, and J. C. Hernandez-Castro, “Techniques for Source Camera Identification,” in Proceedings of the 6th International Confe- rence on Information Technology, Amman, Jordan, May 2013, pp. 1–9. AGRADECIMIENTOS [23] J. Song, K. Lee, W. Y. Lee, and L. H., “Integrity Verification of This project has received funding from the European Union’s the Ordered Data Structures in Manipulated Video Content,” DigitalInvestigation, vol. 18, no. C, pp. 1–7, Septiembre 2016. Horizon 2020 research and innovation programme under grant [24] Gloe, T. and Fisher, A. and Kirchner, M., “Forensic Analysis of Video agreement No 700326. Website: http://ramses2020.eu. This File Formats,” in Proceedings of the First Annual DFRWS Europe, paper has also received funding from THEIA (Techniques Munster, Germany, May 2014, pp. 68–76.[25] M. Iuliani, D. Shullani, M. Fontani, M. S., and A. Piva, “A video for Integrity and authentication of multimedia files of mobile forensic framework for the unsupervised analysis of mp4-like file devices) UCM project (FEI-EU-19-04). container,” IEEE Transactions on Information Forensics and Security, vol. 14, no. 3, pp. 635–645, March 2018. [26] Annies, S., “MP4 Parser.” [Online]. Available: https://github.com/ sannies/mp4parser [27] S. Maldonado, J. Lopez, and C. Vairetti, “An alternative smote oversam- pling strategy for high-dimensional datasets,” Applied Soft Computing, vol. 76, pp. 380–389, 2019. R [28] D. Freeman and C. Chio, Machine Learning and Security. Boston,EFERENCIAS USA: O’Reilly Media, February 2018. [1] CISCO, “Cisco Visual Networking Index: Forecast and Trends, 2017- [29] KAGGLE, “KAGGLE: Online Community of Data Scientists and –2022 White Paper,” February 2019. Machine Learners.” [Online]. Available: https://www.kaggle.com/ [2] HOOTSUITE, “ Global Digital Reports 2019,” pp. 1–221, February [30] G. Rebala, A. Ravi, and S. Churiwala, An Introduction to Machine 2019. Learning, 1st ed. Switzerland: Springer, January 2019. 62 10 [31] D. Sarkar, R. Bali, and T. Sharma, Practical Machine Learning with Ana Lucila Sandoval Orozco was born in Chivolo, Magdalena, Colombia Python, 2nd ed. Massachusetts, USA: Apress, December 2017. in 1976. She received a Computer Science Engineering degree from the [32] S. Rachka and V. Mirjalili, Python Machine Learning: Machine Lear- Universidad Autónoma del Caribe (Colombia) in 2001. She holds a Speciali- ning and Deep Learning with Python, scikit-learn, and TensorFlow, zation Course in Computer Networks (2006) from the Universidad del Norte 2nd ed. Birmingham, United Kingdom: Packt Publishing, September (Colombia), and holds a M.Sc. in Research in Computer Science (2009) and 2017. a Ph.D. in Computer Science (2014), both from the Universidad Complutense [33] S. Guido and A. C. Muller, Introduction to Machine Learning with de Madrid (Spain). She is currently a postdoctoral researcher and member Python. USA: O’Reilly Media, December 2017. of the Research Group GASS (Group of Analysis, Security and Systems, [34] ELI5, “ELI5 for Python,” 2019. [Online]. Available: https://eli5. http://gass.ucm.es) at Universidad Complutense de Madrid (Spain). Her main readthedocs.io/en/latest/overview.html research interests are coding theory, information security and its applications. Luis Javier Garcı́a Villalba received a Telecommunication Engineering degree from the Universidad de Málaga (Spain) in 1993 and holds a Ph.D. in Computer Science (1999) from the Universidad Politécnica de Madrid (Spain). Visiting Scholar at COSIC (Computer Security and Industrial Carlos Quinto Huamán received his Computer Science degree in 2012 at Cryptography, Department of Electrical Engineering, Faculty of Engineering, Universidad Inca Garcilaso de la Vega in Lima (Perú) and a M.Sc. degree Katholieke Universiteit Leuven, Belgium) in 2000 and Visiting Scientist at in Computer Science in 2016 from the Universidad Complutense de Madrid IBM Research Division (IBM Almaden Research Center, San Jose, CA, (Spain). He is currently a Ph.D. student in the Department of Software En- USA) in 2001 and 2002, he is currently Associate Professor of the Depart- gineering and Artificial Intelligence of the Faculty of Computer Science and ment of Software Engineering and Artificial Intelligence at the Universidad Engineering at the Universidad Complutense de Madrid (UCM) and member Complutense de Madrid (UCM) and Head of Complutense Research Group of the Complutense Research Group GASS (Group of Analysis, Security and GASS (Group of Analysis, Security and Systems) which is located in Systems, http://gass.ucm.es). His research interests are: computer forensics, the Faculty of Computer Science and Engineering at the UCM Campus. cybersecurity, electronic warfare and cyberdefense. His professional experience includes the management of both national and international research projects and both public (Spanish Ministry of R&D, Spanish Ministry of Defence, Horizon 2020 - European Commission, . . .) and private financing (Hitachi, IBM, Nokia, Safelayer Secure Communications, TB Solutions Security, . . .). Author or co-author of numerous international Daniel Povedano Álvarez received his Computer Science Engineering degree publications is editor or guest editor of numerous journals such as Entropy in 2017 at Universidad Complutense of Madrid. He is currently a M.Sc. MPDI, Future Generation Computer Systems (FGCS), Future Internet MDPI, student of Data Science in Universidad Complutense de Madrid and member IEEE Latin America Transactions, IET Communications (IET-COM), IET of the Complutense Research Group GASS (Group of Analysis, Security and Networks (IET-NET), IET Wireless Sensor Systems (IET-WSS), International Systems, http://gass.ucm.es). His research interests are: computer forensics, Journal of Ad Hoc and Ubiquitous Computing (IJAHUC), International data science, cybersecurity, artificial intelligence. Journal of Multimedia and Ubiquitous Engineering (IJMUE), Journal ofSupercomputing, Sensors MDPI, etc. 63 1 Técnica de Detección de Manipulación en Vídeos Digitales Basada en los Algoritmos de Compresión Edgar González Fernández, Ana Lucila Sandoval Orozco, and Luis Javier García Villalba, Member, IEEE Resumen—Las imágenes y vídeos digitales juegan un papel en dispositivos móviles mediante nuevas herramientas que muy importante en la vida cotidiana. A día de hoy, la mayor hacen uso de la inteligencia artificial, como pueden ser los parte de la población es poseedora de cámaras fotográficas embellecedores de rostros, cambios de la expresión facial, de última generación integradas en su dispositivo móvil. El desarrollo tecnológico no sólo facilita la generación de contenido mejora de la iluminación de la escena, etc. multimedia, sino también la manipulación intencionada de éste, y En Julio del año 2017 los investigadores de la revista es aquí donde las técnicas forenses de detección de manipulación sobre imágenes y vídeos cobran gran importancia. En este traba- Cognitive-Research [2] utilizaron un dataset de 40 escenas, 30 jo se proponen dos metodologías forenses basadas en algoritmos de las cuales fueron sometidas a cinco tipos diferentes de ma- de compresión: La primera de ellas trata de detectar la presencia nipulación, incluyendo manipulaciones físicamente plausibles de recompresión en un vídeo digital mediante el análisis de sus y no plausibles. Se mostraron a 707 participantes con el fin macrobloques, característica propia del estándar H.264-MPEG4. de evaluar la capacidad de las personas para detectar escenas Posteriormente, se utiliza la máquina de soporte vectorial para crear el modelo que permita la verificación del número de manipuladas del mundo real. El estudio encontró que sólo el recompresiones de un vídeo. La segunda metodología que se 60% de las personas fue capaz de detectar las escenas falsas, explica en este trabajo tiene por objetivo detectar alteraciones de e incluso entonces, sólo un 45% de ellos fueron capaces tipo ‘empalme’, es decir, regiones que no pertenecen al contenido de decir dónde exactamente se encontraba la alteración del original de una imagen digital, técnica que está basada en la tasa contenido (ver Figura 1). de error que introduce el algoritmo de compresión JPEG cada vez que recomprime una imagen. Palabras claves—Análisis Forense, Clasificación, Compresión, Macrobloques, Manipulación, Máquinas de Vector Soporte, Ví- deos Digitales. I. INTRODUCCIÓN Desde siglos atrás, el ser humano siempre ha utilizado la imagen para plasmar la realidad que le rodeaba, o modificarla, en función del mensaje que se quisiera transmitir. Aunque esta evolución, sin duda, tiene un antes y un después con la creación de la fotografía en el siglo XIX. “La excitación que acompañó a la invención de la foto- grafía fue la sensación de que el hombre por primera vez Figura 1: Resultados del estudio de la revista Cognitive- podía ver el mundo como realmente era”(Collier 1986: 3) Research. [1]. Esta afirmación que hace Collier acerca de la fotografía podría no ajustarse al pie de la letra en la actual era digital. Actualmente existe un significante número de delitos infor- Es por estos motivos que deben desarrollarse técnicas de máticos relacionados con la posesión ilícita, distribución o detección de manipulación en imágenes y vídeos, imprescin- modificación de contenido multimedia. El uso de dispositivos dibles para dicho fin. Se hace necesaria la revisión y mejora móviles para este propósito hace de estos una importante de los métodos de verificación de la autenticidad e integridad fuente de evidencia, hecho por el cual los análisis forenses del contenido de una imagen o vídeo, así como el desarrollo deben ser capaces de autenticar el contenido y examinar si es de nuevos métodos dirigidos a las técnicas que en el futuro original o fue manipulado. puedan plantearse. La facilidad para manipular imágenes y vídeos digitales se El presente trabajo se desarrolla como sigue: En la Sec- ha incrementado vertiginosamente en los últimos tiempos, y ción II se da una breve introducción a las técnicas de mani- está al alcance del usuario convencional mediante programas pulación en vídeos digitales. En la Sección III se presenta el como Adobe Photoshop, GIMP, Adobe Premiere, etc. Inclusi- estado del arte sobre detección de manipulaciones en vídeos. ve, estas manipulaciones son realizadas de manera automática Los algoritmos propuestos así como los conceptos necesarios E. González Fernández, A. L. Sandoval Orozco and L. J. García Villal- para comprenderlos son explicados en la Sección IV. Pos- ba son miembros del Grupo de Análisis, Seguridad y Sistemas (GASS), teriormente, en la Sección V se muestran los experimentos Departamento de Ingeniería del Software e Inteligencia Artificial (DISIA), realizados y los resultados obtenidos. Finalmente, en las Facultad de Informática, Despacho 431, Universidad Complutense de Madrid (UCM), Calle Profesor José García Santesmases, 9, Ciudad Universitaria, Sección VI se recogen las conclusiones y se proponen trabajos 28040 Madrid e-mail: edggonza@ucm.es, {asandoval, javiergv}@fdi.ucm.es. futuros en este campo respectivamente. https://doi.org/10.12804/si9789587844337.06 64 2 II. TÉCNICAS DE MANIPULACIÓN EN VÍDEOS II-A. Inter-Fotograma Un vídeo digital se compone de una secuencia de imáge- nes llamadas fotogramas. Las manipulaciones de tipo inter- fotograma (inter-frame) se centran en la modificación de la correlación temporal entre ellos. Para modificar la correlación temporal del vídeo es posible insertar, duplicar, intercambiar (a) Fotogramas originales (b) Inserción de fotogramas o eliminar cualquiera de los fotogramas que lo conforman (Figura 2). Otra forma de manipular un vídeo inter-fotograma es me- diante el empalme de dos o más vídeos, es decir, interpolando fotogramas de ambos para generar uno nuevo. Además, es posible que los vídeos originales no compartan los mismos fotogramas por segundo (fps), por lo que será necesario (c) Eliminación de fotogramas (d) Duplicación de fotogramas también manipular esta característica para ajustar los fps de Figura 2: Ejemplo de Manipulación Inter-Fotograma. uno al otro. El principal objetivo de esta manipulación es el de eliminar de la escena grabada un evento indeseado. También es posible incriminar en la escena a otros objetos con la adición de un fotograma externo. Si se toma como ejemplo la secuencia de las imágenes de vigilancia de una cámara de tráfico, como las de la Figura 3, es sencillo hacer que el vehículo blanco de la Figura 3d desaparezca de la escena eliminando ese fotograma. En general, el ojo humano no puede detectar diferencias (a) Frame - 1 (b) Frame - 2 entre el vídeo original y el vídeo con manipulación inter- fotograma pero las operaciones de procesamiento de la mani- pulación dejan una huella en la información del contenido. II-B. Intra-Fotograma La manipulación intra-fotograma se centra en la alteración (c) Frame - 3 (d) Frame - 4 de cada fotograma individualmente. Estas manipulaciones pueden clasificarse en: Manipulación a nivel de píxel: La cual consiste en tratar al fotograma como una imagen individual y aplicar técnicas de manipulación en imágenes como las vistas en la sección anterior, por ejemplo, copia-pega o empalmes. Manipulación a nivel de fotograma: Mediante la cual (e) Frame - 5 (f) Frame - 6 se cambia de tamaño o se recortan las extremidades de un fotograma con el objetivo de ocultar cierto contenido Figura 3: Ejemplo de fotogramas de una cámara de vigilancia del vídeo que se ubique en los bordes del fotograma. de la Dirección General de Tráfico (DGT). Por ejemplo marcas de Hora y lugar de grabación. A diferencia del ejemplo expuesto con las técnicas inter- fotograma, si se tiene como objetivo ocultar el paso de un vehículo de la cámara de vigilancia de la Figura 3 con técnicas intra-fotograma, en lugar de eliminar el fotograma en el que aparece, se podría hacer desaparecer con técnicas de copia- pega o incluso se podría re-escalar el fotograma y recortar la zona en la que aparece. III. TRABAJOS PREVIOS La Figura 4 Muestra una clasificación de las técnicas de Figura 4: Esquema de Detecciones de Manipulación en Ví- detección de manipulaciones en vídeos digitales. deos. III-A. Detección de Manipulación Inter-Fotograma posible que, investigando estos rastros, se detecten cambios Los dispositivos introducen un ruido en cada fotograma entre los fotogramas. cuando graban un vídeo. Dado que este ruido sigue un patrón En [3] los autores utilizaron la varianza entre el ruido pro- particular en una secuencia de fotogramas consecutivos, es medio de los fotogramas y uno en particular. Los fotogramas 65 3 con varianzas más altas serían marcados como inserciones. No Para detectar estas falsificaciones, los autores en [4] calcula- se demostró su eficacia sobre vídeos comprimidos, y además, ron coeficientes de correlación espacial y temporal para iden- su eficacia fue probada sobre vídeos auto-grabados y no es tificar y localizar semejanza entre partes separadas del vídeo. suficiente para determinar su aplicabilidad. Este método, obtuvo muy buenos resultados para vídeos con Los autores de [4] propusieron un algoritmo de movimiento compresión MPEG debido a que los artefactos de compresión adaptativo que fue capaz de detectar y localizar falsificaciones son más pronunciados en presencia de movimiento en el en vídeos entrelazados y descentrelazados. Se basaban en la vídeo. detección de las perturbaciones en la correlación para los en- Otra técnica propuesta en [10] y [11] se basó en la hipótesis trelazados y en los disturbios de movimiento entre fotogramas de que los atributos de correlación de sub-bloques de píxeles para los descentrelazados. Este método, no obstante, resultaba intra e inter fotograma están obligados a ser desorganizados ineficaz para vídeos de baja calidad. debido a alteraciones como doble compresión, retoque o En [5] utilizan el concepto del Patrón de Ruido del Sensor remuestreo. Los autores extrajeron los residuos de ruido y (SPN) de la cámara para determinar si todos los fotogramas la cuantificación de características de fotogramas adyacentes del vídeo habían sido grabados con el mismo dispositivo. Los para luego realizar un análisis de correlación usando el resultados obtenidos indicaron que el algoritmo era fiable para análisis de correlación canónico, análisis factorial intermodal, vídeos no comprimidos, pero el rendimiento se deterioraba y análisis semántico latente. Tales perturbaciones ayudaron a para vídeos comprimidos. la técnica para diferenciar las huellas de un vídeo original de Otra propuesta basada en la cámara es presentada en [6], las de uno manipulado. que proporcionó autenticación a nivel de píxel para todos los En [12], se propone detectar alteraciones con la conversión fotogramas del vídeo. Se basaba en las inconsistencias en los del vídeo a una secuencia de fotogramas, seguido de un fotones del ruido de disparo que introduce la cámara durante proceso de emparejamiento de bloques dentro de la región el proceso de adquisición. También lograrían encontrar regio- sospechosa. Al trabajar en una parte del fotograma en lugar nes sospechosas en los fotogramas. de todo el fotograma, la técnica es capaz de mantener un buen Otra forma de manipular un vídeo es mediante un corte equilibrio entre rendimiento y complejidad. temporal, intercalando fotogramas de dos vídeos diferentes. El método de detección y localización de falsificación de Cuando se intercalan dos fotogramas hay que tener en cuenta [13] era similar en funcionalidad a [14] pero de manera que es necesario sincronizar sus velocidades (frame-rate). completamente automática. Es un algoritmo de dos pasos, El método sugerido en [7] se basa en la propiedad de en el que primero se detectan manipulaciones a nivel de interpolación compensada por movimiento ya que deja huellas fotograma y se analiza el vídeo residual que se obtiene al detectables en los fotogramas. Los autores pudieron sugerir restar píxeles que ocupan la misma posición espacial en un sistema que funcionaba para vídeos no comprimidos y fotogramas consecutivos. Entonces, para detectar el contenido ligeramente comprimidos (por ejemplo, H.264, o vídeos de duplicado, los autores ponen en relación los bloques 3D de transmisión de televisión) y lograba resultados prometedores, los fotogramas. Así, la presencia de alta correlación indica la incluso cuando se usaba sólo en un subconjunto de foto- ubicación del contenido idéntico. gramas. Además, el sistema funcionaba bien en ventanas En [15], los autores propusieron un enfoque para detectar y espaciales de pequeño tamaño, lo que permitió que este localizar falsificaciones a nivel de región en vídeos. El méto- detector se usara como una posible herramienta para detectar do detecta irregularidades en la coherencia espacio-temporal ataques de falsificación de copiar y pegar. Sin embargo, el entre fotogramas consecutivos. El vídeo primero se divide en número de cuadros interpolados observados tenía que ser conjuntos de fotogramas y luego se calcula la coherencia entre lo suficientemente grande para que el sistema detectara las cada una de estos conjuntos. Dicho así, los conjuntos con falsificaciones con éxito. coherencia antinaturalmente alta o coherencia anormalmente En [8] se detecta la conversión de velocidad ascendente de baja se clasificarían como fotogramas manipulados. fotogramas basándose en la intensidad de los bordes. Utilizan Una técnica de localización y detección de eliminación de un umbral determinado para distinguir las zonas originales de objetos es la que se nos presenta en [16]. Se utilizó aquí Scale- las convertidas al alza, y en base a ello, estiman la velocidad Invariant Feature Transform (SIFT) junto con la coincidencia teórica de los fotogramas originales. Para un total de 300 k-NN y correlación cruzada ruido-residuo para detectar falsi- secuencias de prueba, consiguieron un promedio de detección ficaciones copia-pega. Aunque la técnica funciona bien para de 95%. la prueba vídeos, esta sufre una degradación significativa a Los autores en [9] desarrollaron un método de detección medida que aumenta la resistencia a la compresión. ciego basado en el análisis a nivel de fotograma de una Otra forma de manipular el contenido del vídeo es amplian- característica llamada “variación media de la textura” (ATV). do un fotograma y después eliminando el evento incrimina- Cada curva ATV generada se procesaba en el vídeo candidato torio recortando la parte externa de éste. Es importante saber como evidencia de la conversión de velocidad ascendente. que cuando se hace un recorte se produce un remuestreo para Esta técnica podría localizar la posición de la interpolación mantener una resolución constante en todos los fotogramas de los fotogramas y ayudar a estimar su velocidad original. del vídeo. En [17] los autores observaron que el remuestreo introduce III-B. Detección de Manipulación Intra-Fotograma ciertas correlaciones estadísticas sobre el contenido dado. Las técnicas de detección de copia-pega proceden buscando Explotaron el SPN como característica forense y analizaron similitudes entre regiones de fotogramas sucesivos o dentro las variaciones en las propiedades de correlación de referencia del mismo fotograma. SPN y el de re-escalado. Este método es bastante firme en 66 4 cualquier tipo de vídeo, pero también resulta excesivamente como indicativo de inserción/eliminación de fotogramas. Los dependiente de una gran cantidad de parámetros y umbrales autores extrajeron características de los GOP, que luego son dependientes del contenido, lo cual requiere un ajuste empí- utilizados por una Máquina de Soporte Vectorial (SVM) para rico extremadamente cuidadoso. determinar la velocidad de bits original del vídeo doblemente comprimido dado, y se observa que el rendimiento de detec- ción de la técnica era relativamente inferior para los vídeos III-C. Detección de Doble Compresión con menor tasa de bits, porque una escala de cuantificación La recompresión o doble compresión es, una consecuencia mayor requiere un proceso de cuantificación más robusto, que inevitable de la falsificación, y su detección podría ayudar a la técnica no estaba preparada para manejar. detectar la presencia manipulaciones. En el mismo año, se pre-planteó una técnica similar en Los primeros pasos en esta dirección se pueden atribuir a [23] aunque con una novedad: su capacidad para detectar los autores de [18]. Su algoritmo se basaba en la suposición vídeos transcodificados, es decir, vídeos que habían sido simple de que cuando se manipulaba un vídeo MPEG, se doblemente comprimidos utilizando dos estándares de com- producían dos compresiones: primero, cuando se creaba el presión diferentes. Los autores observaron además que des- vídeo y, segundo, cuando se volvían a guardar después de pués de que un vídeo MPEG-2 se transformara en vídeo dicha alteración. También explotaron el hecho de que dentro MPEG-4, las trazas de compresión MEPG-2 anteriores, estos de un Grupo de Imágenes (GOP), los fotogramas muestran generan nuevas periodicidades que se observaron claramente una gran correlación entre ellos, de manera que al agregar en los histogramas de los coeficientes DCT reconstruidos. o eliminar un fotograma en un GOP aumenta el error de Los autores presentaron los resultados en forma de curvas estimación de movimiento, lo que también da como resultado de características operativas del receptor y declararon que se picos periódicos detectables. habían obtenido resultados perfectos en caso de bajas tasas En [19], los autores presentaron una técnica para detectar de bits. Estas curvas también demostraron que a medida la cuantización doble, que resultó de la recompresión de un que aumentaba la velocidad de bits de salida objetivo, el vídeo comprimido Moving Picture Experts Group (MPEG) o rendimiento de detección disminuía. También asumió que la de la combinación de vídeos de características diferentes. La transcodificación siempre sugería manipulación. técnica podría detectar una manipulación si los coeficientes Por otra parte, en [24] se propone detectar la codificación Transformada Discreta del Coseno (DCT) de los fotogramas doble incluso si el conjunto de fotogramas principales hubiera del vídeo se sometieron a doble compresión en cualquier sido eliminado. Este método tiene la ventaja adicional de punto. Los resultados empíricos indicaron que la tasa de poder ubicar efectivamente la falsificación, además de resultar detección fue altamente dependiente de la relación de la adecuado también para vídeos codificados H.264, a diferencia primera y la segunda escala de cuantificación. Evidentemente, de [23] que funcionaba solo para vídeos MPEG. La metodo- la técnica fue efectiva siempre que el segundo factor de logía modificada también fue capaz de estimar el número de calidad de compresión fuera más alto que el primero. fotogramas borrados. En [20], las falsificaciones en vídeos codificados en MPEG- Los autores en [25] declararon que las compresiones múlti- 2 se detectaron mediante el examen de la distribución del ples eran un tema poco explorado y que era arriesgado hacer coeficiente DCT. Este algoritmo se basó en la observación suposiciones con respecto a la autenticidad del contenido de que el histograma de coeficientes de DCT cuantificados digital simplemente sobre la base de la presencia de doble de un vídeo que había experimentado una doble compresión compresión. Su afirmación fue respaldada por el simple hecho exhibía un patrón convexo. A diferencia de [19], que dependía de que el contenido digital disponible en Internet, generalmen- en gran medida de las escalas de cuantificación, los autores te, sufre más de una compresión. en este caso sugirieron controlar la tasa de bits de salida, En [26] utilizan las estadísticas de Markov para detectar lo que hizo que este algoritmo se adaptara a las necesidades doble compresión. Se basan en que la cuantización doble con de diferentes tipos de sistemas de codificación de vídeo pero diferentes parámetros inevitablemente introducirá errores de no pudo localizar la falsificación en el vídeo. Tampoco pudo redondeo, dejando artefactos detectables. El proceso aleatorio funcionar bien para vídeos de cámara lenta. de Markov podría capturar dichos artefactos para la detección. El trabajo en [21] también se centró en la detección de En [27] se basan en características estadísticas de los alteraciones basadas en fotogramas al detectar la compresión macrobloques de los P-fotogramas. Proponen detectar la com- doble en vídeos MPEG-2. En lugar de basar el proceso presión doble de MPEG con el mismo QS. La extracción de de detección de agregación/eliminación de trama en las ca- características se produce durante la compresión repetida del racterísticas temporales, los autores sugirieron utilizar las vídeo en el mismo factor de calidad. características de frecuencia. Se observó que cuando se vuelve En [28] analizan la degradación que se produce durante a comprimir un vídeo MPEG después de agregar/eliminar el una recompresión encontrando que la variación de las carac- fotograma, se pierden algunos componentes de alta frecuencia terísticas de un vídeo tienden a estabilizarse tras múltiples en los fotogramas recomprimidos debido a la descincroniza- recompresiones. ción de los GOP y la cuantificación no lineal realizada en el En [29] estudian los efectos de la recompresión en los fo- proceso de codificación. Estas variaciones no solo ayudan a togramas predictivos para generar un vector de características detectar la falsificación sino también a localizarla. con el cual detectar doble compresión a nivel GOP. Otra técnica de detección de falsificación basada en doble Para un vídeo ordinario (descargado de Internet o grabado compresión MPEG es la propuesta en [22], donde las anor- con ciertos dispositivos móviles), la presencia de signos de malidades en los patrones de coeficientes DCT son tratadas doble compresión puede no ser sospechosa pero tampoco 67 5 debe considerarse inocua. Si se supone que un vídeo ha sido Cada fotograma se divide en macrobloques de tamaño inalterado, la doble compresión no debería aparecer en dicho fijo que cubren un área rectangular de 16:16 muestras de vídeo. Por otro lado, si un vídeo dado muestra signos de la componente de brillo y 8:8 muestras de cada uno de doble compresión, indicaría la presencia de algún tipo de los dos componentes de color. Los macrobloques son los modificación no autorizada. componentes básicos para el que se especifica el proceso de Por lo tanto, la presencia de signos de doble compresión decodificación. Todas las muestras de luminancia y croma de serviría como primera, y posiblemente, más importante evi- un macrobloque se predicen espacial y temporalmente. La dencia de alteración en vídeos. señal de vídeo de entrada se divide en macrobloques, cuya asociación se realiza en base a los tipos de fotogramas a los IV. D que pertenecen, y luego se procesa cada macrobloque de cadaETECCIÓN DE DOBLE COMPRESIÓN EN VÍDEOS tipo. Es posible un procesamiento en paralelo eficiente [30]. IV-A. Conceptos Generales En la compresión .H264 se puede seleccionar la predicción Para una correcta comprensión de la explicación del algorit- de los macrobloques de manera individual, en lugar de ser los mo de detección de doble compresión primero es importante mismos para todo el fotograma, como se observa en la Figura conocer las características del formato de vídeo H.264 y de 5): las herramientas FFMPEG y LIBSVM, utilizadas ambas por Fotogramas - I: Todos los macrobloques del fotograma dicho algoritmo. son codificados usando intra-predicción, es decir, no IV-A1. El Formato H.264/MPEG4: Este estándar de codi- utiliza la información codificada de otros fotogramas. ficación fue desarrollado con el objetivo de mejorar la calidad Fotogramas - P: Además de la codificación de intra- de la imagen, mejorar la eficiencia de codificación y mejorar predicción. También se pueden codificar usando inter- la robustez de errores en comparación con normas anteriores predicción con como máximo una señal de predicción de como MPEG-2, H.263, etc... compensación de movimiento por bloque de predicción, El diseño de codificación de este estándar está basado en es decir, su información proviene del fotograma previo. bloques, es decir, cada fotograma codificado se representa Fotogramas - B: Además de los tipos de codificación como una unidad de bloques llamados macrobloques. El disponibles en un fotograma P, algunos macrobloques algoritmo de codificación es el conjunto que se forma al del fotograma B también se pueden codificar utilizando predecir fotogramas por medio de esos macrobloques para la inter-predicción con dos señales de predicción de explotar dependencias estadísticas temporales, y al transfor- compensación de movimiento por bloque de predicción, mar la predicción residual para explotar las dependencias es decir, su información proviene del fotograma previo estadísticas espaciales. y del siguiente. Algunas de las características más destacadas del diseño, y que además permiten una mayor eficacia de codificación, incluyen las siguientes mejoras en la capacidad para predecir los valores del contenido del fotograma que se va a codificar: Por una parte, el tamaño de bloque de compensación de movimiento variable: Este estándar admite más flexibili- Figura 5: Secuencia de predicción de fotograma. dad en la selección de tamaños y formas de los bloques, con un tamaño de bloque mínimo de 4:4. La señal de predicción para cada macrobloque de N×M Por otra, una referencia múltiple para la compensación codificado predictivamente se obtiene desplazando un área de movimiento de un fotograma: Los fotogramas con de la imagen de referencia correspondiente, que se especifica codificación predictiva, llamados P-fotogramas, en es- mediante un vector de movimiento de traslación y un índice tándares anteriores usan sólo el fotograma previo para de referencia de imagen. Los componentes del vector de mo- predecir los valores del fotograma entrante. Este modelo vimiento se codifican de forma diferencial usando predicción extiende la codificación eficiente al permitir que un mediana o direccional de bloques vecinos. Ninguna predicción codificador seleccione, para fines de compensación de del componente del vector de movimiento (o cualquier otra movimiento, entre un mayor número de fotogramas que forma de predicción) tiene lugar a lo largo de los límites del se han decodificado y almacenado en el decodificador. fotograma. En la Figura 6 se muestra un ejemplo de cómo El ojo humano percibe el contenido de una escena en actúa el vector de movimiento en la predicción [30]. términos de información de brillo y color por separado, y con IV-A2. La Herramienta FFMPEG: FFMPEG es una pla- mayor sensibilidad a la de brillo que la de color. El formato taforma de software libre multimedia capaz de decodificar, H.264 separa una representación de color en tres componentes codificar, transcodificar, transmitir, filtrar y reproducir la ma- llamados Y, Cb y Cr. El componente “Y” representa el brillo, yoría de formatos de audio y vídeo. Está desarrollado en mientras que los dos componentes de color “Cb” y “Cr” GNU/Linux pero también compila y ejecuta en la mayoría representan la medida en la que el color se desvía del gris de sistemas operativos, entornos de desarrollo, arquitecturas hacia azul y rojo, respectivamente. Debido a que el sistema y configuraciones. Tiene una licencia GNU LGPL, la cual visual humano es más sensible al brillo que al color, H.264 garantiza una cierta libertad a la hora de compartir y modificar utiliza una estructura de muestreo en la que el componente el software, asegurando que el software es libre para todos sus cromático tiene un cuarto del número de muestras que el usuarios [31]. Es posible utilizar FFMPEG para analizar los componente lumínico. macrobloques y vectores de movimiento de cualquier archivo 68 6 Figura 8: Muestras e hiperplanos. Figura 6: Secuencia de predicción de un fotograma. en el estudio de las características estadísticas del Modo de de vídeo MP4. En la Figura 7 se puede ver un ejemplo Macrobloque (MBM) [27]. de un fotograma con los vectores de movimiento analizados El MBM es una característica que consta del tipo de impresos en forma de flechas [32]. macrobloque y vector de movimiento. Para extraer esta carac- terística, un vídeo es recomprimido repetidamente en la misma escala de calidad para luego calcular el número de MBM diferentes entre dos compresiones secuenciales. Finalmente, estas estadísticas extraídas son utilizadas por la SVM para determinar si el vídeo es original o si ha sido recomprimido. Este método viene inspirado de la convergencia de los coeficientes Joint Photographic Experts Group (JPEG) cuan- do se recomprime una imagen. Ambos métodos para cada recompresión varían en la forma de la Figura 9. Figura 7: Análisis de los vectores de movimiento. IV-A3. La Máquina de Soporte Vectorial: Las SVM son técnicas supervisadas de aprendizaje automático, muy útiles para la resolución de problemas de reconocimiento de patro- nes y para el análisis de regresión. A partir de un conjunto de muestras la SVM construye un modelo que se utiliza para predecir la clase a la que pertenece una nueva muestra. El objetivo de la SVM es encontrar el mejor hiper-plano que divida los datos de todas las muestras del entrenamiento en dos o más clases bien diferenciadas, es decir, determinar el hiper-plano con la máxima distancia con el punto de cada Figura 9: Número de MBM diferentes entre recompresiones. clase que esta más cercano a éste. En la Figura 8 el hiper- plano H2 sería óptimo. A parte de los 3 tipos de fotogramas (I, P, B) que tiene el No obstante, cuando se utiliza SVM surgen dos problemá- estándar MPEG4, también existen 3 tipos de macrobloques: ticas: I-MB: Macrobloques con intra-codificación. • Los universos que se estudian utilizan más de dos P-MB: Macrobloques con inter-codificación. dimensiones y no tienen una representación lineal. Este S-MB: Macrobloques saltados. problema se soluciona con la representación por funcio- Un MBM está compuesto de las dos propiedades de la nes kernel, que proyectan la información a un espacio siguiente manera: de características multidimensional mediante un mapeo [MBM(M) = M ,M ] no lineal. type mv } • Seleccionar los parámetros apropiados del kernel. Hay Mtype ∈ {I −MB,P −MB,S −MB} dos parámetros en la función Función de Base Radial Mmv = {(u, v)|u, vcZ} (RBF) del kernel (C y γ). Para encontrar los mejores parámetros de clasificación de prueba y entrenamiento M es el macrobloque, MTY PE el tipo del macrobloque M, se utiliza el método de optimización de parámetros. y M-MV el vector de movimiento del macrobloque M. Dos macrobloques se consideran que tienen el mismo MBM si y sólo si tienen el mismo M-TYPE y M-MV. Hay que tener IV-B. Algoritmo de Detección de Doble Compresión en en cuenta que cuando el M-TYPE es un I-MB su vector de Vídeos movimiento es {0,0}, es decir, sólo es necesario evaluar los Este algoritmo se utilizará con el fin forense de determinar MBM diferentes de los P-fotogramas y por tanto sólo hay que si un vídeo ha sufrido más de una compresión, evidencia comparar el Vector de Movimiento (VM). primera de que ese vídeo haya podido sufrir cualquier tipo Para una secuencia de compresiones sobre un vídeo, si de manipulación. La detección de recompresiones está basada el macrobloque del mismo fotograma y misma posición de 69 7 la compresión (n) y de la compresión (n + 1) tienen la y destino del vector. Todos los vectores son almacenados en característica MBM igual, se considera que ese macrobloque un archivo de texto para su posterior procesamiento. es estable. De otro modo se considera inestable. Ver Figura Una vez realizado el proceso de extracción de VM, se debe 10. recomprimir el vídeo de entrada con el formato H264-MP4. Esta recompresión tiene que tener la misma escala de calidad que el original, es decir la recompresión se realiza utilizando las mismas características del vídeo de entrada (qs, ancho, alto, rate, etc). El vídeo recomprimido es almacenado para volver a ejecu- tar los pasos anteriores: Extracción de vectores de movimiento y, a partir de ahí, una nueva recompresión. Estas acciones pueden realizarse el número de veces que se quiera según el nivel de precisión de detección que se pretenda alcanzar. Para este caso se han realizado hasta tres recompresiones. Figura 10: MBM estable. Cuando se alcance el número de recompresiones indicado, se va a disponer de tres archivos de texto que contienen los A continuación se explica más detalladamente el algoritmo: vectores de movimiento del vídeo de entrada y de sus recom- presiones posteriores. Con toda esta información se puede Entrada: Vídeo o Vídeos en formato H.264-MP4 proceder a calcular el número promedio de macrobloques Salida: Vector de características extraídas de los vídeos inestables por P-fotograma (C). Para un vídeo dado, este algoritmo devuelve un vector de La siguiente fórmula muestra cómo se realiza ese cálculo: características. En este caso el algoritmo se ha desarrollado 1 ∑ para extraer tres características con el objetivo de que la Cn = I(Mn(i, x, y),Mn+1(i, x, y)) SVM las pueda clasificar hasta la triple compresión. También N i,x,y es posible extraer sólo dos y así discernir sólo entre vídeos N es el número total de P-fotogramas y M muestra el originales y doblemente comprimidos, o incluso, para detectar macrbloque de la recompresión enésima localizado en (x, y) más allá de la triple compresión, aunque, a partir de ésta, del P-fotograma i-ésimo. la tasa de confianza de la máquina de soporte vectorial es I se define como: demasiado bajo. Vector de características: } 1 → MBM(M ) = MBM(M ) Número promedio de macrobloques inestables por P- 1 2 I(M1,M2) fotograma encontrados entre el vídeo de entrada y su 0 → MBM(M1) = MBM(M2) recompresión. Para realizar el cálculo de M(i,x,y), los vectores de mo- Número promedio de macrobloques inestables por P- vimiento contenidos en los ficheros de texto son tratados fotograma encontrados entre el vídeo recomprimido y en forma de matrices N×M dónde N es VM y M el P- su re-recompresión. fotograma al que pertenece con el fin de facilitar la tarea de Número promedio de macrobloques inestables por la comparación. P-fotograma encontrados entre el vídeo de re- Una vez encontrado I, es decir, el número de MBM diferen- recomprimido y su re-re-recompresión. tes de los ficheros de texto correspondientes a la compresión En primer lugar, se evalúa el MBM de los macrobloques. (n) y a la compresión (n + 1), se divide entre el número de Para ello, con apoyo de la herramienta FFMPEG, se extraen P-fotogramas. El resultado se almacena en la posición (n) del los VM de los P-fotogramas. Es importante tener en cuenta vector de características del vídeo en cuestión. que para poder extraer información el vídeo debe estar prime- Cuando el vector de características está completo se forma- ro en un formato crudo (.YUV). Estos vectores de movimiento tea para que la máquina de soporte vectorial lo pueda utilizar contienen la información del fotograma al que pertenecen, la para realizar las tareas de clasificación. El diagrama de flujo posición del macrobloque y la posición del eje X, Y de origen de este algoritmo se muestra en la Figura 11. Figura 11: Diagrama del Algoritmo de Detección de Doble Compresión. 70 8 V. EVALUACIÓN DEL ALGORITMO PROPUESTO En el primer grupo de experimentos tiene como objetivo Para evaluar el algoritmo propuesto se ha utilizado un detectar si un vídeo es original o ha tenido al menos una dataset que contiene vídeos digitales procedentes de distintos recompresión. En este caso, el algoritmo extrae sólo dos modelos de dispositivos móviles con tamaños de resolución características de los vídeos del dataset. Por tanto, se entrena diferentes. Se han seleccionado vídeos en formato .MP4 con la la máquina de soporte vectorial con vídeos originales y vídeos resoluciones más comunes: 720x480, 720x1280, 1920x1080 y recomprimidos, el modelo resultante consta de dos clases para 3840x2160 (4K). La mayor parte de los vídeos seleccionados discernir si el vídeo es original o no. Se ejecutó un experimen- se han utilizado para el entrenamiento de la máquina de to para los vídeos con las diferentes resoluciones del dataset soporte vectorial con el fin de tener una base de conocimiento y adicionalmente se hizo un experimento mezclando todas más amplia. El resto se han utilizado para la predicción. La las resoluciones para evaluar la tolerancia del algoritmo al Tabla I muestra un resumen de las características del dataset tamaño del vídeo. Para cada uno de estos experimentos se han utilizado para el entrenamiento y predicción. tomado los vectores de características escalados y sin escalar. Los resultados obtenidos para cada uno de los experimentos Tabla I: Dataset utilizado en la evaluación con diferentes resoluciones se presentan en la Tabla III. Resolución Formato No. vídeos pruebas No. vídeos analizados 720x480 MP4 20 20 Tabla III: Tasa de acierto para la detección de vídeos origi- 720x1280 MP4 40 35 nales y manipulados con recompresión. 1920x1080 MP4 40 35 4K MP4 20 17 Tipos de Resolución datos 720x480 720x1280 1920x1080 4K MIX Escalados 90% 94,28% 97,14% 100% 91,59% Las características del equipo en el cual se han realizado los No escalados 90% 100% 100% 100% 92,52% experimentos se presentan en la Tabla II. Es un factor impor- tante a tener en cuenta ya que los tiempos de ejecución de las Como se observa en la Tabla III, el algoritmo de detección diferentes pruebas varían según los recursos computaciones propuesto presenta una tasa de acierto superior al 90% disponibles. incluso cuando la resolución es baja (720x480). En todas las resoluciones los resultados son superiores cuando los datos Tabla II: Características del equipo de experimentación del vector de características no son escalados. Incluso en el Recursos Características caso de que el sistema sea entrenado con vídeos de diferentes Sistema operativo Ubuntu 18.04 resoluciones. Memoria 4 GB Procesador Intel©R CoreTM 2 Quad CPU Q8200 @ 2.33GHz x 4 Las Tablas IV y V muestran las matrices de confusión Gráficos NV96 resultantes para cada una de las resoluciones analizadas con Tipo de SO 64 bits Disco 100 GB los vectores de características escalados y sin escalar, respec- tivamente. Para la realización de los experimentos se ha utiliza- Tabla IV: Matriz de confusión por resolución con datos do un componente llamado MPEGflow [33] bajo licencia escalados. Massachusetts Institute of Technology (MIT) que se apoya en FFMPEG para facilitar las tareas de extracción de los Matriz de Confusión Resolución Clases Original Doble Total Aciertovectores de movimiento de los fotogramas de un vídeo y de Comp. Vídeos Prom. almacenamiento en un fichero de texto. 720x480 Original 10 0 10Doble Comp. 2 8 10 90% También se ha utilizado el módulo LIBSVM, un software 720x1280 Original 20 0 20 94,28% integrado que desempeña las funciones de una máquina de Doble Comp. 2 13 15 soporte vectorial, (C-SVC, nu-SVC), regresión (epsilon-SVR, 1920x1080 Original 19 1 20Doble Comp. 0 15 15 97,14% nu-SVR) y estimación de distribución (SVM de una clase) 4K Original 9 0 9 100% compatible con la clasificación de clases múltiples. Doble Comp. 0 8 8Original 44 9 53 A lo largo de esta sección se muestran todos los experi- MIX Doble Comp. 0 54 54 91,59% mentos realizados para evaluar la efectividad del algoritmo de detección de manipulaciones basados en entrenamiento. Con Tabla V: Matriz de confusión por resolución con datos no ellos se pretende comprobar la variación de la precisión al escalados. aplicar el algoritmo sobre distintas resoluciones. Se estudia la capacidad de detectar si el vídeo es original, ha tenido doble Matriz de Confusión Resolución Doble Total Acierto compresión o triple compresión. Clases Original Comp. Vídeos Prom. En primer lugar, se creó la base de conocimiento para 720x480 Original 9 1 10Doble Comp. 1 9 10 90% el entrenamiento de la máquina de soporte vectorial. Los Original 20 0 20 vídeos seleccionados como dataset de entrenamiento para cada 720x1280 Doble Comp. 2 0 15 100% resolución se utilizan como entrada del algoritmo de detección 1920x1080 Original 20 1 20Doble Comp. 0 15 15 100% de recompresiones. Una vez entrenada la máquina con los 4K Original 9 0 9 100% vectores de características generados por el algoritmo, se Doble Comp. 0 8 8Original 46 7 53 puede comenzar la predicción. Esta prueba consiste en extraer MIX Doble Comp. 1 53 54 92,52% las características de los vídeos a testear para que la máquina SVM, una vez entrenada, los clasifique en función de sus En el segundo grupo de experimentos se extrae una ca- recompresiones. racterística más que en los experimentos anteriores con el 71 9 objetivo de determinar si los vídeos analizados han sido Tabla IX: Rendimiento del algoritmo propuesto. recomprimidos más de una vez, y en tal caso, saber sí Compresión ha sido recomprimido una o dos veces adicionales. Como detectada 720x480 720x1280 1920x1080 4K Doble 00:00:07.03s 00:00:24.49s 00:01:16.32s 00:05:44.13s en el caso anterior, para los experimentos se han tomado Triple 00:00:16.23s 00:00:55.11s 00:02:37.32s 00:11:41.02s los vectores de características escalados y sin escalar. Los resultados obtenidos para cada uno de los experimentos con Tabla X: Comparativa con la literatura. diferentes resoluciones se presentan en la Tabla VI. Precisión Características Doble Triple Tabla VI: Tasa de acierto para la detección de vídeos con más Referencias utilizadas Dataset Compresión Compresión de una recompresión. [27] Macrobloques YUV 94,10% – Método Vectores de propuesto Movimiento Propio 95,27 % 75.33%Tipos de Resolución datos 720x480 720x1280 1920x1080 4K MIX Escalados 83,33 % 70% 68% 80% 49,67% No escalados 66,67 % 88% 70% 60% 63,23% VI. CONCLUSIONES Como se observa en la Tabla VI, el algoritmo de detección propuesto presenta la mejor tasa de acierto (88%) cuando El contenido de imágenes y vídeos digitales posee infor- el vídeo tiene una resolución de 720x1280 y los datos no mación que va más allá de la visual. Esta información es escalados. Las Tablas VII y VIII muestran las matrices de gran valor forense, pues su correcta explotación puede de confusión resultantes para cada una de las resoluciones garantizar la autenticidad e integridad del contenido. Debido analizadas con los vectores de características escalados y sin a esto, las imágenes y vídeos digitales son una excepcional escalar, respectivamente. fuente de evidencias a la hora de resolver procesos judiciales. El desarrollo y mejora continua de las nuevas tecnologías Tabla VII: Matriz de confusión por resolución con tres clases propicia que usuarios convencionales sean capaces de alterar con datos escalados. el contenido de imágenes y vídeos con resultados profesio- Matriz de Confusión nales, imperceptibles para el ojo humano. Ello se suma al Res. Clases Original Doble Triple Total Acierto hecho de que la detección de manipulaciones es una tareaVídeos Prom. 10 compleja y también requiere de una mejora continua paraOriginal 0 0 10 720x480 Doble 0 5 5 10 83,33% adaptarse a tal escenario por lo que resulta imprescindible Triple 0 0 10 10 desarrollo de herramientas forenses capaces de detectar estas Original 20 0 0 20 720x1280 Doble 6 9 0 15 70% manipulaciones, cada vez más profesionales y habituales. Triple 1 8 6 15 La línea de investigación que se ha seguido en este trabajo Original 20 0 0 20 1920x1080 Doble 0 0 15 15 68% comienza realizando un estudio de las técnicas existentes de Triple 0 1 14 15 detección de manipulación sobre imágenes y vídeos digitales Original 9 0 0 9 4K Doble 0 6 2 8 80% dedicando más esfuerzo a técnicas de detección de empalme Triple 0 3 5 8 en imágenes y en detección de doble compresión en vídeos. Original 25 2 20 47 MIX Doble 0 0 54 54 49,67% Se ha diseñado e implementado una técnica de detección de Triple 1 1 52 54 manipulaciones basado en el estándar de vídeo H.264/MPEG4 para la detección de recompresiones en vídeos MP4 que Tabla VIII: Matriz de confusión por resolución con tres clases compara los vectores de movimiento de los macrobloques con datos sin escalar. de dos compresiones secuenciales del mismo vídeo para, a continuación, hacer uso de una SVM que clasifique el vídeo. Matriz de Confusión Res. Clases Original Doble Triple Total Acierto Se ha creado un dataset para evaluar la técnica de detecciónVídeos Prom. de recompresiones propuesta y se ha utilizado un dataset Original 10 0 0 10 720x480 Doble 1 5 4 10 66,67% público para comparar los resultados con otras investigaciones Triple 0 5 5 10 relacionadas. La evaluación ha constado de dos experimentos Original 19 1 0 20 720x1280 Doble 0 12 3 15 88% divididos en grupos según la resolución de cada vídeo: Triple 0 2 13 15 Original 20 0 0 20 Detección de vídeo original o doblemente comprimido, 1920x1080 Doble 0 8 7 15 70% el algoritmo ha conseguido una precisión máxima con Triple 0 8 7 15 Original 7 2 0 9 datos escalados del 100% para vídeos de resolución 4K, 4K Doble 0 0 8 8 60% para el resto de resoluciones no baja del 90%. Triple 0 0 8 8 Original 44 3 0 47 Detección de vídeo original, doble compresión, o triple MIX Doble 6 29 19 54 63,23% compresión donde la precisión disminuye ligeramente Triple 7 22 25 54 respecto a la detección de original o doble compresión, La Tabla IX muestra el tiempo de ejecución del algoritmo tiene un promedio de precisión del orden del 80%. No para cada una de las resoluciones. obstante, el mejor resultado lo sigue teniendo una alta La Tabla X muestra una comparativa entre el método resolución. propuesto y la investigación más relacionada en la literatura. Los experimentos se han realizado tanto para datos sin escalar En la tabla se observa que el resultado obtenido con el método como para datos escalados, obteniendo unos resultados muy propuesto para detectar doble compresión es superior al del similares entre ellos. Por tanto no es relevante hacer un trabajo comparado. escalado de los mismos. 72 10 También se han realizado pruebas mezclando todas las re- [11] J. Goodwin and G. Chetty, “Blind video tamper detection based on soluciones obteniendo unos resultados menos precisos que en fusion of source features,” in Digital Image Computing Techniques and aquellas pruebas donde sí se han separando las resoluciones. Applications (DICTA), 2011 International Conference on. IEEE, 2011,pp. 608–613. El rendimiento del algoritmo es directamente proporcional a [12] S. Das, G. Darsan, L. Shreyas, and D. Devan, “Blind detection met- la resolución del vídeo que se quiera procesar y a la cantidad hod for video inpainting forgery,” International Journal of ComputerApplications, vol. 60, no. 11, 2012. de recompresiones que se quieran detectar. [13] P. Bestagini, S. Milani, M. Tagliasacchi, and S. Tubaro, “Local tam- En base a los resultados obtenidos en esta investigación, las pering detection in video sequences,” in Multimedia Signal Processing líneas futuras de investigación que se proponen en el presente (MMSP), 2013 IEEE 15th International Workshop on. IEEE, 2013,pp. 488–493. trabajo son las siguientes: [14] W. Wang and H. Farid, “Exposing digital forgeries in video by detecting Extender el algoritmo de detección de recompresiones duplication,” in Proceedings of the 9th workshop on Multimedia & security. ACM, 2007, pp. 35–42. para utilizarlo con otros códecs de vídeo a parte del [15] C.-S. Lin and J.-J. Tsay, “A passive approach for effective detection H264. and localization of region-level video forgery with spatio-temporal Utilizar técnicas de aprendizaje profundo y aumentar coherence analysis,” Digital Investigation, vol. 11, no. 2, pp. 120–140, 2014. el número de características extraídas para mejorar la [16] R. C. Pandey, S. K. Singh, K. Shukla, and R. Agrawal, “Fast and robust precisión de detección de recompresiones. passive copy-move forgery detection using surf and sift image features,” Optimizar el algoritmo de detección de recompresiones in Industrial and Information Systems (ICIIS), 2014 9th International Conference on. IEEE, 2014, pp. 1–6. para reducir el tiempo de procesado en vídeos de alta [17] D.-K. Hyun, S.-J. Ryu, H.-Y. Lee, and H.-K. Lee, “Detection of upscale- resolución. crop and partial manipulation in surveillance video based on sensor pattern noise,” Sensors, vol. 13, no. 9, pp. 12 605–12 631, 2013. [18] W. Wang and H. Farid, “Exposing digital forgeries in video by detecting AKNOWLEDGMENT double mpeg compression,” in Proceedings of the 8th workshop on This project has received funding from the European Union’s Multimedia and security. ACM, 2006, pp. 37–47. [19] ——, “Exposing digital forgeries in video by detecting double quanti- Horizon 2020 research and innovation programme under grant zation,” in Proceedings of the 11th ACM workshop on Multimedia and agreement No 700326. Website: http://ramses2020.eu. This security. ACM, 2009, pp. 39–48. paper has also received funding from THEIA (Techniques [20] Y. Su and J. Xu, “Detection of double-compression in mpeg-2 videos,” in Intelligent Systems and Applications (ISA), 2010 2nd International for Integrity and authentication of multimedia files of mobile Workshop on. IEEE, 2010, pp. 1–4. devices) UCM project (FEI-EU-19-04). [21] Y. Su, W. Nie, and C. Zhang, “A frame tampering detection algorithm for mpeg videos,” in Information Technology and Artificial Intelligence Conference (ITAIC), 2011 6th IEEE Joint International, vol. 2. IEEE, 2011, pp. 461–464. [22] T. Sun, W. Wang, and X. Jiang, “Exposing video forgeries by detecting mpeg double compression,” in Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on. IEEE, 2012, pp. REFERENCIAS 1389–1392. [23] J. Xu, Y. Su, and X. You, “Detection of video transcoding for digital [1] E. M. Nieto, “The value of photography: Anthropology and image.” forensics,” in Audio, Language and Image Processing (ICALIP), 2012 [2] S. J. Nightingale, K. A. Wade, and D. G. Watson, “Can people identify International Conference on. IEEE, 2012, pp. 160–164. original and manipulated photos of real-world scenes?” Cognitive [24] A. Gironi, M. Fontani, T. Bianchi, A. Piva, and M. Barni, “A video research: principles and implications, vol. 2, no. 1, p. 30, 2017. forensic technique for detecting frame deletion and insertion,” in Acous- [3] A. De, H. Chadha, and S. Gupta, “Detection of forgery in digital video,” tics, Speech and Signal Processing (ICASSP), 2014 IEEE International in The 10th World Multi Conference on Systemics Cybernetics and Conference on. IEEE, 2014, pp. 6226–6230. Informatics, vol. 5, 2006, pp. 229–233. [25] A. W. A. Wahab, M. A. Bagiwa, M. Y. I. Idris, S. Khan, Z. Razak, and [4] W. Wang and H. Farid, “Exposing digital forgeries in interlaced and M. R. K. Ariffin, “Passive video forgery detection techniques: a survey,” deinterlaced video,” IEEE Transactions on Information Forensics and in Information assurance and security (IAS), 2014 10th International Security, vol. 2, no. 3, pp. 438–449, 2007. Conference on. IEEE, 2014, pp. 29–34. [5] N. Mondaini, R. Caldelli, A. Piva, M. Barni, and V. Cappellini, “Detec- [26] X. Jiang, W. Wang, T. Sun, Y. Shi, and S. Wang, “Detection of double tion of malevolent changes in digital video for forensic applications,” compression in mpeg-4 videos based on markov statistics,” vol. 20, pp. in Security, steganography, and watermarking of multimedia contents 447–450, 05 2013. IX, vol. 6505. International Society for Optics and Photonics, 2007, [27] J. Chen, X. Jiang, T. Sun, P. He, and S. Wang, “Detecting double mpeg p. 65050T. compression with the same quantiser scale based on mbm feature,” [6] M. Kobayashi, T. Okabe, and Y. Sato, “Detecting forgery from static- in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE scene video based on inconsistency in noise level functions,” IEEE International Conference on. IEEE, 2016, pp. 2064–2068. Transactions on Information Forensics and Security, vol. 5, no. 4, pp. [28] X. Jiang, P. He, T. Sun, F. Xie, and S. Wang, “Detection of double com- 883–892, 2010. pression with the same coding parameters based on quality degradation [7] P. Bestagini, S. Battaglia, S. Milani, M. Tagliasacchi, and S. Tubaro, mechanism analysis,” IEEE Transactions on Information Forensics and “Detection of temporal interpolation in video sequences,” in Acoustics, Security, vol. 13, no. 1, pp. 170–185, 2018. Speech and Signal Processing (ICASSP), 2013 IEEE International [29] J. A. Aghamaleki and A. Behrad, “Detecting double compressed mpeg Conference on. IEEE, 2013, pp. 3033–3037. videos with the same quantization matrix and synchronized group of [8] Y. Yao, G. Yang, X. Sun, and L. Li, “Detecting video frame-rate up- pictures structure,” Journal of Electronic Imaging, vol. 27, no. 1, p. conversion based on periodic properties of edge-intensity,” Journal of 013031, 2018. Information Security and Applications, vol. 26, pp. 39–50, 2016. [30] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, “Overview [9] M. Xia, G. Yang, L. Li, R. Li, and X. Sun, “Detecting video frame of the h. 264/avc video coding standard,” IEEE Transactions on circuits rate up-conversion based on frame-level analysis of average texture and systems for video technology, vol. 13, no. 7, pp. 560–576, 2003. variation,” Multimedia Tools and Applications, vol. 76, no. 6, pp. 8399– [31] “Ffmpeg,” https://www.ffmpeg.org. 8421, 2017. [32] “Debug/macroblocksandmotionvectors,” https://trac.ffmpeg.org/ [10] G. Chetty, “Blind and passive digital video tamper detection based attachment/wiki/Debug/MacroblocksAndMotionVectors/vismv_pf.png. on multimodal fusion,” in Proc. of the 14th WSEAS International [33] “github: vadimkantorov/mpegflow,” https://github.com/vadimkantorov/ Conference on Communications, 2010, pp. 109–117. mpegflow. 73 11 Edgar González Fernández was born in Mexico City. He received a Degree at Universidad Complutense de Madrid (Spain). Her main research interests in Applied Mathematics from the Universidad Autónoma del Estado de are coding theory, information security and its applications. Hidalgo in 2010, and a Master in Science with Specialization in Mathematics from the Center for Reasearch and Advanced Studies of the National Luis Javier García Villalba received a Telecommunication Engineering Polytechnic Institute (CINVESTAV-IPN). He is currently a Ph.D. student degree from the Universidad de Málaga (Spain) in 1993 and holds a M.Sc. in the Computer Science Department at CINVESTAV-IPN. Currently he in Computer Networks (1996) and a Ph.D. in Computer Science (1999), is Member in the Research Group GASS (Group of Analysis, Security both from the Universidad Politécnica de Madrid (Spain). Visiting Scholar and Systems, http://gass.ucm.es) at the Universidad Complutense de Madrid at COSIC (Computer Security and Industrial Cryptography, Department (UCM). His research interests are Cryptography, Information Security and of Electrical Engineering, Faculty of Engineering, Katholieke Universiteit Data Science. Leuven, Belgium) in 2000 and Visiting Scientist at IBM Research Division (IBM Almaden Research Center, San Jose, CA, USA) in 2001 and 2002, he is Ana Lucila Sandoval Orozco was born in Chivolo, Magdalena, Colom- currently Associate Professor of the Department of Software Engineering and bia in 1976. She received a Computer Science Engineering degree from Artificial Intelligence at the Universidad Complutense de Madrid (UCM) and the Universidad Autónoma del Caribe (Colombia) in 2001. She holds a Head of Complutense Research Group GASS (Group of Analysis, Security Specialization Course in Computer Networks (2006) from the Universidad and Systems) which is located in the School of Computer Science at the del Norte (Colombia), and holds a M.Sc. in Research in Computer Science UCM Campus. His professional experience includes research projects with (2009) and a Ph.D. in Computer Science (2014), both from the Universidad Hitachi, IBM, Nokia and Safelayer Secure Communications. Complutense de Madrid (Spain). She is currently a postdoctoral researcher 74 Tendencias en seguridad IoT Architectures Some of the most representative contributions in this field Methodology to Securitize Smart Toys in House- are the following ones: Likewise it happens with the definition of the term, there is (i) OWASP IoT Project: In 2015 the Open Web Application hold Environments not a standard model or architecture for IoT environments, and Security Project presented a draft about the attack surface the proposals varie depending on the source consulted. areas and security considerations for IoTs [12]. P. González, F. Paniagua, D. Suárez and J. J. Nombela In broad strokes the architecture of an IoT environment can (ii) European Union Agency for Network and Information be represented by three, four or five layers [8], to understand Security (ENISA): In 2017 ENISA published a study titled 1Resumen — This paper examines the present situation audience with a reasonable level of technological the main interactions among all the involved devices: ‘Baseline Security Recommendations for Internet of Things in regarding Smart Toys, the privacy and security concerns that understanding, which is why they could not be implemented (i) Three Layer Architecture: Differentiates between the the context of critical information infrastructures’, which aims they generate for children and their relatives, as well as the by the average users of Smart Toys (children and/or parents). Perception Layer (to identify and collect information), the the to set the scene for IoT security in Europe, providing insight existing solutions that would allow them to improve the security These circumstances lead to a complex situation: the users Network Layer (to transmit data between layers) and the into the security requirements of IoT, mapping critical assets of these devices. On this purpose, it is examined the state of art in Application Layer (defines the applications related to the IoT). and relevant threats, assessing possible attacks and identifying this field, including some recent data breaches concerning Smart of Smart Toys not only ignore the risks they are exposing their families to, but in case of having interest in securitizing their (ii) Four Layers Architecture: Apart from the previous layers, potential good practices and security measures to apply in Toys, and the present available solutions to identify and mitigate IoT environment, they cannot rely on a user-friendly it also considers a Support Layer, which contains the security order to protect IoT systems. It serves as a reference point in their security risks. As a result of not identifying a suitable procedure or reference that helps them to accomplish this implementations. this field and as a foundation for relevant forthcoming initia-methodology that provides a unified approach to analyze and securitize household environments composed by different Smart mission [4]. (iii) Five Layers Architecture: Considers the three first layers, tives and developments [6]. Toys that can easily be implemented by non-technical users, in Thus, this paper analyzes the present situation of Smart named the Perception, Transport and Application layers, and (iii) National Institute of Standards and Technology (NIST): In this paper is proposed a new and tailored methodology. The Toys, the threats that can affect them, and the methodologies two more layers, which are the Processing Layer (middleware February of 2018 the ‘NIST Internal Report’ (NISTIR) presented proposal aims to tackle and solve the identified that could be used as a reference to securitize IoT layer that processes the collected information) and the published a draft for IoT security, that aims to inform and security concerns and present the information in a user-friendly environments. Also, and due to the deficiencies of the existing Business Layer (allows the management of the whole IoT enable policymakers, managers, and standards participants as manner, helping final users to understand and address the system). they seek timely development of and use of cybersecurity security issues of their Smart Toys, even without having a deep methodologies to solve the aforementioned problems, it is proposed a methodology that allows users to identify, Apart from the generic architectures mentioned above, there standards in IoT components, systems, and services. It brings technical knowledge in the field. understand and take decisions about the security settings of are further architecture models that renowned institutions, a good frame to understand the cybersecurity landscape for their Smart Toys. such as Gartner, propose, such as their Reference Model IoT and identify the areas where security standards are Palabras clave — Methodology, Security and Privacy Protection, Risk Management, Internet of Things, Smart Toys. The methodology proposed is also validated, using a real composed by five layers (Process, Function, Information, missing, but it does not provide yet a security framework itself case of a Smart Toy data breach, to verify that it can actually Communication and Device) and three tiers (Edge, Platform [13]. contribute in identifying the risks these toys can expose users and Enterprise) [7]. (iv) Gartner: In 2018, the Gartner Advisory Company re- I. INTRODUCTION to, improving their knowledge and understanding of them. leased the already mentioned paper called ‘Architect IoT Available Security Solutions Using the Gartner Reference Model’ which provides an TH E NUMBER of IoT devices and services which are Moreover, it can also be used as a reference for developing a architecture blueprint that defines what functionality is being used nowadays has been experimenting an security framework that can be used to identify risks and As it has been shown, understanding and analyzing IoT required, where that functionality will operate, and how data exponential growth for the past ten years. A ccording to mitigations of household I oT devices, or even other kind of Gartner’s predictions, it is expected that by 2020 the number environments with similar features. environments can be a challenging task, due to the general and control will flow in an IoT project [7]. The rest of the paper is organized as follows. Section 2 lack of consensous. This is an important handicap when the (v) Microsoft: In 2018 Microsoft Azure published a Security of connected devices will reach the 20 billion [1], and other presents briefly an overview of the IoT architectures and Smart Toys, or IoT in general, are studied from a security Architecture for IoTs that through a Threat Model defines a sources, such as Mozilla, share even more ambitious figures [2]. security. Section 3 analyzes the security gaps for Smart Toys. point of view. path to identify security threats in very diverse contexts [14]. Along with the increase of the number of devices in use Section 4 describes the proposed methodology. Section 5 tests Nowadays, there are several institutions working towards Even though all the abovementioned efforts contribute with and validates the proposed methodology. Section 6 presents improving the security of IoT environments. Concerning very interesting insights into the field of study, there are still there is also an important expansion of the vulnerability some conclusions extracted from the work carried out in this children data privacy there are two main regulations around important security issues that are not addressed or solved by surface for these devices and the number of threats they are paper. the world that are having a great impact in this context: these proposals, leaving children and their relatives totally exposed to. This situation is also concerning to Smart Toys (i) COPPA (Children's Online Privacy Protection Act): In the exposed to data breaches and other security and safety risks of users, which showed on an ESET survey that more than one II. CONTEXT AND STATE OF THE ART United States of America, this regulation defines certain Smart Toys. third of them are very worried about the privacy and security requirements that operators of websites and online services of children using these devices [3]. Definition of Smart Toys must consider when their services are directed to children III. SECURITY ANALYSIS Bearing this in mind, it was conducted a deep research on under 13 or when they are collecting personal information of the existing solutions that could allow users to identify the threats and risks surrounding the Smart Toys they possess, as To understand what a Smart Toy makes reference to, it is them [9]. Security Breaches for Smart Toys (ii) GDPR (General Data Protection Regulation): This well as the security measures that could be implemented to important to first understand what the concept IoT (Internet of mitigate the identified risks. Things) stands for. regulation defines a common data protection frame in Europe, Within the past years, there have been several security imposing great sanctions to data processors and controllers breaches concerning Smart Toys which have compromised the As a result, several security risk methodologies, Even though there is not an official definition of the term frameworks and guidelines were analyzed, but most of them yet, if we consider the definitions provided by reference that do not use are not implementing suitable security Privacy and Security of the children using it, as well as their measures for the data they are processing [10]. own Safety and of the ones surrounding them. The much were hardly adapted to such a specific IoT environment. On institutions such as the IEEE [5], ENISA [6] or Gartner [7], top, most of the identified resources were targeted to an there is certain conseus agreeing that the term IoT comprises a There are also institutions that, even if they do not have a talked-about are the following: wide ecosystem of interconnected services and devices. legal influence over the design or production Smart Toys, are (i) VTech: The company VTech sells toys and gadgets for developing resources such as guides, methodologies or children, including tablets, phones and baby monitors. In P. González, Universidad Internacional de La Rioja, Madrid, Spain, The Smart Toys are just a specific type of IoT that are frameworks to improve the overall security of IoT envi- November 2015, it was announced that a security breach had paulagonzalezdom@gmail.com intended to interact with children and their environment as F. Paniagua, Universidad Carlos III, Madrid, Spain, part of a leisure activity. ronments; some of them have even make some contributions occurred and that it exposed personal information and photos fidel.paniagua@uc3m.es to the specific field of Smart Toys, providing generic of almost 5 million parents and more than 6 million kids due D. Suárez, Universidad Internacional de La Rioja, Madrid, Spain, guidelines showing the basic steps to improve the security of a to bad security practices (weak encryption algorythms or lack diego.suarez@unir.net Smart Toy [11]. However, the overall maturity level of the of them, passwords stored in plain text, vulnerabilities to SQL J. J. Nombela, Universidad Internacional de La Rioja, Madrid, Spain, field, in terms of standardization, is still low. injections, etc) [15]. juanjose.nombela@unir.net Corresponding author: Fidel Paniagua Diez 76 https://doi.org/10.12804/si9789587844337.07 IoT Architectures Some of the most representative contributions in this field are the following ones: Likewise it happens with the definition of the term, there is (i) OWASP IoT Project: In 2015 the Open Web Application not a standard model or architecture for IoT environments, and Security Project presented a draft about the attack surface the proposals varie depending on the source consulted. areas and security considerations for IoTs [12]. In broad strokes the architecture of an IoT environment can (ii) European Union Agency for Network and Information be represented by three, four or five layers [8], to understand Security (ENISA): In 2017 ENISA published a study titled the main interactions among all the involved devices: ‘Baseline Security Recommendations for Internet of Things in (i) Three Layer Architecture: Differentiates between the the context of critical information infrastructures’, which aims Perception Layer (to identify and collect information), the the to set the scene for IoT security in Europe, providing insight Network Layer (to transmit data between layers) and the into the security requirements of IoT, mapping critical assets Application Layer (defines the applications related to the IoT). and relevant threats, assessing possible attacks and identifying (ii) Four Layers Architecture: Apart from the previous layers, potential good practices and security measures to apply in it also considers a Support Layer, which contains the security order to protect IoT systems. It serves as a reference point in implementations. this field and as a foundation for relevant forthcoming initia- (iii) Five Layers Architecture: Considers the three first layers, tives and developments [6]. named the Perception, Transport and Application layers, and (iii) National Institute of Standards and Technology (NIST): In two more layers, which are the Processing Layer (middleware February of 2018 the ‘NIST Internal Report’ (NISTIR) layer that processes the collected information) and the published a draft for IoT security, that aims to inform and Business Layer (allows the management of the whole IoT enable policymakers, managers, and standards participants as system). they seek timely development of and use of cybersecurity Apart from the generic architectures mentioned above, there standards in IoT components, systems, and services. It brings are further architecture models that renowned institutions, a good frame to understand the cybersecurity landscape for such as Gartner, propose, such as their Reference Model IoT and identify the areas where security standards are composed by five layers (Process, Function, Information, missing, but it does not provide yet a security framework itself Communication and Device) and three tiers (Edge, Platform [13]. and Enterprise) [7]. (iv) Gartner: In 2018, the Gartner Advisory Company re- leased the already mentioned paper called ‘Architect IoT Available Security Solutions Using the Gartner Reference Model’ which provides an architecture blueprint that defines what functionality is As it has been shown, understanding and analyzing IoT required, where that functionality will operate, and how data environments can be a challenging task, due to the general and control will flow in an IoT project [7]. lack of consensous. This is an important handicap when the (v) Microsoft: In 2018 Microsoft Azure published a Security Smart Toys, or IoT in general, are studied from a security Architecture for IoTs that through a Threat Model defines a point of view. path to identify security threats in very diverse contexts [14]. Nowadays, there are several institutions working towards Even though all the abovementioned efforts contribute with improving the security of IoT environments. Concerning very interesting insights into the field of study, there are still children data privacy there are two main regulations around important security issues that are not addressed or solved by the world that are having a great impact in this context: these proposals, leaving children and their relatives totally (i) COPPA (Children's Online Privacy Protection Act): In the exposed to data breaches and other security and safety risks of United States of America, this regulation defines certain Smart Toys. requirements that operators of websites and online services must consider when their services are directed to children III. SECURITY ANALYSIS under 13 or when they are collecting personal information of them [9]. Security Breaches for Smart Toys (ii) GDPR (General Data Protection Regulation): This regulation defines a common data protection frame in Europe, Within the past years, there have been several security imposing great sanctions to data processors and controllers breaches concerning Smart Toys which have compromised the that do not use are not implementing suitable security Privacy and Security of the children using it, as well as their measures for the data they are processing [10]. own Safety and of the ones surrounding them. The much There are also institutions that, even if they do not have a talked-about are the following: legal influence over the design or production Smart Toys, are (i) VTech: The company VTech sells toys and gadgets for developing resources such as guides, methodologies or children, including tablets, phones and baby monitors. In frameworks to improve the overall security of IoT envi- November 2015, it was announced that a security breach had ronments; some of them have even make some contributions occurred and that it exposed personal information and photos to the specific field of Smart Toys, providing generic of almost 5 million parents and more than 6 million kids due guidelines showing the basic steps to improve the security of a to bad security practices (weak encryption algorythms or lack Smart Toy [11]. However, the overall maturity level of the of them, passwords stored in plain text, vulnerabilities to SQL field, in terms of standardization, is still low. injections, etc) [15]. 77 (ii) CloudPets: The Smart Toy allowed children to send and (ii) The implementation procedure is not clear: Aligned with (ii) Edge Computing: It refers to a distributed IT architecture, Third Step: Identification of the Technologies Involved receive audio recordings between them and an external app the previous point, even though the regulations and in which user data are collected, stored, exchanged and that can be installed in most of the smartphones and tablets of frameworks help to promote a security culture among Smart processed at the periphery of the network, but still close to the The third step consists in the identification of all the tech- the children’s relatives. At the beginning of 2017 an important Toy manufaturers, they refer to what should be considered but original source of the data. This allows the processing of time- nologies involved in the IoT ecosystem. leakage of 820,000 user accounts was reported, which not how to implement their requirements on products and sensitive data in almost real time, avoiding also the time lapse Considering all the sources mentioned in the research included the personal information, photos and recordings services. and costs derived from Cloud Computing. analysis, but in particular ENISA [6] and Gartner [7], in this mainly of children, but also of their families, mainly on (iii) Language and approach: Most of the available solutions (iii) Edge Gateway: It refers to the physical or virtual node paper is proposed the following classification: account of the data storing and the production website were are oriented to a target audience that can interfere at the first that serves as the connection point between different Edge (i) The main devices should have the the following IoT publicly facing a network segment without any authentication stages of the commercialization of a Smart Toy (suchs as Devices, as well as between the IoT ecosystem and outsider features: or password required, apart from other security manufacterers or intermediates), which most likely will have networks. It provides system interoperability, communication - Tags (to identify the device) misconfigurations [16] [17]. certain technical knowledge. However, when these agents fail and data-processing capabilities, among other features. - Sensors (capacity that allows to collect data) Apart from the above metioned ones, there are some other to provide the pertinent security to their products and ser- (iv) Cloud Computing: It refers to the use of remote services - Communicators (to transfer the data) examples that also show not only the consequences to Smart vices, final users are very vulnerable to security breaches. such as software, platforms or infrastructure, to store, process - Actuators (to take actions depending on the processing of Toy security breaches, but also the risk potential that these Most of them are not aware of the security risks their use can and retrieve data from an off-site location. In the IoT context it the data) devices have, as well as the general perception of customers imply, or, even in the case of being interested, the available is generally used for historical analysis, big data analytics and - Software/Hardware (to be able to perform and support the about them. Some of the following are very representative: sources or information are not addressed in a user-friendly long-term storage. processing operations) (i) Hello Barbie: By the end of 2015, the toy company Mattel language, hindering their ability to interfere in the (v) Cloud Backend: It refers to the server side on a Cloud (ii) Peripherical elements that can interact with the main and the technology company ToyTalk announced the launch management of the IoT security. Computing service where all the processes actually take place. device: of a Smart Barbie called ‘Hello Barbie’. Apart from collecting Apart from these main problems, there are also other ad- As it is shown, the environment comprises not only the - Physical devices (e.g. remote controls) data, the Hello Barbie owed an Artificial Intelligence (AI) and ditional considerations that should not be forgotten, such as physical space where the devices are allocated, but also the - Software elements (e.g. applications) a voice recognition software that allowed the toy to have very the diversity of features and elements that can comprise each area of influence of the communications among devices and - Elements of the IoT network (e.g. routers or gateways) realistic conversations with the children and adapt her Smart Toy or IoT system (different communication protocols, their connections with external parties. On this purpose, it is This identification and classification should be assigned to answers. Many concerns were raised when the company stated software features, etc.), or the wide assortment of vendors, important to list the elements present in the space but also to each of the IoT items composing the IoT environment. that the voice-recordings would be shared with third parties to functions and outcomes for every new toy that is introduced in represent them graphically to better understand their improve the experience of the users, which lead to a public the market. connections and interactions. Fourth Step: Identification of the Functions for each petition with more than 37,000 signatures to drop the toy from Technology the market [18]. IV. METHODOLOGY PROPOSAL Second Step: Identification of the Roles Involved (ii) My Friend Cayla and i-Que Robot: Another two Smart The fourth step consists in the identification of all the func- Toys based on AI called ‘My Friend Cayla’ and ‘i-Que This paper proposes a modular security methodology that The second step consists in the identification of all the roles tions that each of the previously identified technologies Robot’, launched by the company Genesis Toys in can be used in different household environments with dif- that can interact or influence the IoT ecosystem. The role is a possess. collaboration with ToyQuest and Nuance Communications, ferent Smart Toys. The principal focus is to cover the security representation of one or several natural or legal people, that Based on the existing researches in the field, in this paper had a very bad reception from the parents and even federal gaps previously identified and to develop a security share some common particularities. are proposed a group of six main functions that a Smart Toy institutions on their latest release by the end of 2016. The methodology that allows the identification of Smart Toys Considering the kind of actors that can interact with the could perform, regarding to data processing: allegations were based on the poor security features of the doll security risks and mitigations, in a flexible, but still complete Smart Toy environment, in this paper are proposed three main (i) Data Collection: This function is carried out mainly by the and the position of the company about sharing data with third way. categories of roles with similar features: sensors. They can detect changes in a physical or virtual level. parties [19]. It consists on a set of six defined steps which are the (i) Users: Commonly with low cybersecurity knowledge, (ii) Data Storing: The data gathered by the sensors or provided Apart from the present field of study (Smart Toys), there following: access to security solutions and almost no influence on the by other IoT elements can be stored temporarily or are other IoT devices that can interact with these devices or (i) First Step: Delimitation of the Environment technical design and features of the devices permanently at the edge and/or at the cloud. their targeted users, such as Echo devices, which have also (ii) Second Step: Identification of the Roles Involved (ii) Authorized third parties: such as the producers or service (iii) Data Analysis: The data gathered can be manipulated in brought to attention security concerns that should be (iii) Third Step: Identification of the Technologies Involved provides, which commonly prioritize commercial features order to obtain information that can be used by the IoT and addressed. A well know n example is the case of a six years (iv) Fourth Step: Identification of the Functions for each instead of security ones. provide a specific output in a timely manner. Common old kid who buyed a dollhouse just by ordering it to the Echo Technology (iii) Unauthorized third parties: such as intruders or manipulations are the aggregation, organization, device [20]. (v) Fifth Step: Identification of the Security Risks for each unintended natural or legal persons which can interact with the transformation or even deletion of data, to allow a faster and Function Smart Toys. more efficient processing of the data gathered. Gaps in the Existing Security Solutions (vi) Sixth Step: Identification of Mitigations for each Risk This classification is important to understand who can (iv) Data Transmission: The data can be transmitted to Each one of these steps will be explained in detail in the influence the security of the IoT ecosystem, either through the peripherical elements using wired or wireless communication The just-mentioned security breaches have occurred and following sections. improvement of it or through the generation of risky technologies. impacted data subjects despite the previously mentioned situations. (v) Data Display: The data gathered and processed allows the existing security solutions. This happened because of the also First Step: Delimitation of the Environment Therefore, depending on the focus of interest while im- IoT actuators and interfaces to show or display specific mentioned security gaps surrounding these solutions. As a plementing this methodology, it will be more or less inter- behaviors, that can cause a physical and/or a digital impact. summary, can be pointed out the following three main The first step consists in the definition and delimitation of esting to also include certain level of granularity on the (vi) Data Management: This concept comprises the ability of problems: the physical and virtual space that composes the Smart Toy classification, instead of using the three previously-defined influencing data to take decisions over all the previous (i) Lack of agreement on the considerations: The lack of environment. categories of roles for a household environment. The level of functions, as well as about aspects such as the purpose of the consensous concerning all the IoT world generates a lot of Using as a reference the already mentioned architectures granularity can especially be affected depending on who is data processing, the access and security of this data, among doubts about which procedure to follow to identify security and methodology sources, in this paper is proposed a sim- implementing the methodology, and which are the specific other functional decisions. risks and mitigations for Smart Toys. Moreover, some of the plified architecture for a household setting, to contextualize purposed for its implementation. To be able to trace the steps, it is recommended to design a mentioned methodologies are too specific for the the environment where the Smart Toys are located. The main table, a tree diagram, or a similar structure, that allows to link environments they have been designed for, not allowing the elements contained would be the following: each function to each of the identified technology, while it flexibility of implementing them for this specific use case. (i) Edge Devices (Smart Toys): It refers to the virtual and also provides a visual representation of where the most physical elements that integrate the IoT ecosystem. sensitive areas of the IoT can be located. 78 (ii) Edge Computing: It refers to a distributed IT architecture, Third Step: Identification of the Technologies Involved in which user data are collected, stored, exchanged and processed at the periphery of the network, but still close to the The third step consists in the identification of all the tech- original source of the data. This allows the processing of time- nologies involved in the IoT ecosystem. sensitive data in almost real time, avoiding also the time lapse Considering all the sources mentioned in the research and costs derived from Cloud Computing. analysis, but in particular ENISA [6] and Gartner [7], in this (iii) Edge Gateway: It refers to the physical or virtual node paper is proposed the following classification: that serves as the connection point between different Edge (i) The main devices should have the the following IoT Devices, as well as between the IoT ecosystem and outsider features: networks. It provides system interoperability, communication - Tags (to identify the device) and data-processing capabilities, among other features. - Sensors (capacity that allows to collect data) (iv) Cloud Computing: It refers to the use of remote services - Communicators (to transfer the data) such as software, platforms or infrastructure, to store, process - Actuators (to take actions depending on the processing of and retrieve data from an off-site location. In the IoT context it the data) is generally used for historical analysis, big data analytics and - Software/Hardware (to be able to perform and support the long-term storage. processing operations) (v) Cloud Backend: It refers to the server side on a Cloud (ii) Peripherical elements that can interact with the main Computing service where all the processes actually take place. device: As it is shown, the environment comprises not only the - Physical devices (e.g. remote controls) physical space where the devices are allocated, but also the - Software elements (e.g. applications) area of influence of the communications among devices and - Elements of the IoT network (e.g. routers or gateways) their connections with external parties. On this purpose, it is This identification and classification should be assigned to important to list the elements present in the space but also to each of the IoT items composing the IoT environment. represent them graphically to better understand their connections and interactions. Fourth Step: Identification of the Functions for each Technology Second Step: Identification of the Roles Involved The fourth step consists in the identification of all the func- The second step consists in the identification of all the roles tions that each of the previously identified technologies that can interact or influence the IoT ecosystem. The role is a possess. representation of one or several natural or legal people, that Based on the existing researches in the field, in this paper share some common particularities. are proposed a group of six main functions that a Smart Toy Considering the kind of actors that can interact with the could perform, regarding to data processing: Smart Toy environment, in this paper are proposed three main (i) Data Collection: This function is carried out mainly by the categories of roles with similar features: sensors. They can detect changes in a physical or virtual level. (i) Users: Commonly with low cybersecurity knowledge, (ii) Data Storing: The data gathered by the sensors or provided access to security solutions and almost no influence on the by other IoT elements can be stored temporarily or technical design and features of the devices permanently at the edge and/or at the cloud. (ii) Authorized third parties: such as the producers or service (iii) Data Analysis: The data gathered can be manipulated in provides, which commonly prioritize commercial features order to obtain information that can be used by the IoT and instead of security ones. provide a specific output in a timely manner. Common (iii) Unauthorized third parties: such as intruders or manipulations are the aggregation, organization, unintended natural or legal persons which can interact with the transformation or even deletion of data, to allow a faster and Smart Toys. more efficient processing of the data gathered. This classification is important to understand who can (iv) Data Transmission: The data can be transmitted to influence the security of the IoT ecosystem, either through the peripherical elements using wired or wireless communication improvement of it or through the generation of risky technologies. situations. (v) Data Display: The data gathered and processed allows the Therefore, depending on the focus of interest while im- IoT actuators and interfaces to show or display specific plementing this methodology, it will be more or less inter- behaviors, that can cause a physical and/or a digital impact. esting to also include certain level of granularity on the (vi) Data Management: This concept comprises the ability of classification, instead of using the three previously-defined influencing data to take decisions over all the previous categories of roles for a household environment. The level of functions, as well as about aspects such as the purpose of the granularity can especially be affected depending on who is data processing, the access and security of this data, among implementing the methodology, and which are the specific other functional decisions. purposed for its implementation. To be able to trace the steps, it is recommended to design a table, a tree diagram, or a similar structure, that allows to link each function to each of the identified technology, while it also provides a visual representation of where the most sensitive areas of the IoT can be located. 79 AR3 Depending on the data provided, Fifth Step: Identification of the Security Risks for each could be used for profiling Function If someone is located in the TR1 transmission area, can eavesdrop or The fifth step consists in the identification of security risks tamper the data collected or associated to each of the functions previously defined, as well displayed as which of the studied roles can cause each risk. Data If the transmission is not encrypted, Consequently, at this point is necessary not to only identify Transmission TR2 it can be eavesdropped or tampered the set of risks affecting the Smart Toy environment, but also If someone interferes the to correlate each of them with the roles identified in previous connection, can eavesdrop or steps. It is suggested to continue with the representation TR3 tamper the data collected or previously chosen (table, chart, etc.), allowing an easy displayed Data Display correlation between the function of each technology and its correspondent risk. Data Display DR1 Legitimate information is not displayed Regarding to the correlation of each risk with the role DR2 Tampered information is displayed generating it, would be as simple as to include another section If there is no access control or it is (column, brunch, etc.) in the chosen representation, where this MR1 inadequate, unauthorized users can role is indicated following the previous classification. In Table access the device and its features 1 are described the most common correlations: If there is no authentication control MR2 or it is inadequate, unauthorized TABLE 1 users can impersonate legitimate RISK-ROLES CORRELATION ones If there are no lost access ROLE R/R ID ORIGIN procedures, or they are inadequate, PR1 Poor security design of the IoT Data MR3 legitimate users could lose access to Provider architecture Management the services provided PR2 Misuse of data from this party If there are no update measures or UR1 Poor choice of the security MR4 they are inadequate, security User configurations or actions vulnerabilities could not be patched UR2 Misuse of the device or system If the password policies are not MR5 strong enough, unauthorized users As a consequence, unauthorized third parties could intrude can impersonate legitimate ones or affect the IoT systems endangering their confidentiality, If the application has not been integrity or availability and its related roles. MR6 securely developed, data can be In the Table 2 has been developed a high level classification accessed or tampered of security risks that can affect IoT environments. Even though the list provided is not exhaustive, in con- TABLE 2 junction with the rest of identified elements, can provide a RISK-FUNCTIONS CORRELATION clear picture about the origin and impact of the security risks. Moreover, this classification can also be complemented with FUNCTIONS RISK DEFINITION Information Security generic risks, which can be obtained ID from risks or threats catalogues such as the ENISA Threat CR1 The information is not collected or Taxonomy [6]. Data is not accurate Collection CR2 Unauthorized information is Sixth Step: Identification of Mitigations for each Risk collected If the databases are not secured, the The sixth step consists in the identification of mitigations SR1 collected data can be accessed or that can be implemented to reduce or even eliminate the risks Data Storing tampered associated to the functions of each technology that composes SR2 If there is no backup of the the Smart Toys ecosystem, as well as which of the studied information, it can be lost roles can mitigate that risk. If the software is tampered or Consequently, as in the previous step, it is necessary to AR1 misconfigured, the results of the identify the set of mitigations for each identified risk, and to data analysis could not be the correlate it with the role that can implement the suggested Data Analysis intended ones mitigation. Likewise, it is suggested to continue with the If the data provided is not essential previously chosen representation (table, chart, etc.) and AR2 to carry out the main activity of the proceed like it is described on the step 5. device, could be used for illegitimate purposes 80 Regarding to the correlation of each mitigation with the role only the essential generating it, the most common correlations would be the ones information to carry out the described in Table 3: expected service. TM1.1 To monitor all the TABLE 3 connections stablished MITIGATION-ROLES CORRELATION TR1 To activate diode TM1.2 functionalities (only ROLE R/M ID MITIGATION entrance/only release) PM1 Can only be implemented by design and To enable and use secure Provider before the IoT is distributed TM2.1 transmission protocols PM2 Can be implemented remotely and once TR2 To include integrity the IoT is already operating Data TM2.2 solutions, such as hashing UM1 Can alter the security configurations of Transmission or certificates the IoT to mitigate the risk To monitor all the User Cannot mitigate the risk, meaning that it TM3.1 connections stablished UM2 is necessary to decide whether To enable and use secure accepting the risk or rejecting the use of TM3.2 TR3 transmission protocols the IoT TM3.3 To close unused ports To activate diode In the same way that it happened in the previous step, the TM3.4 functionalities (only identification of security mitigations is also too broad to be entrance/only release) tackled in the present project. For this reason, in Table 4 are To include an informing only represented the main identified mitigations for the feature when the previously described risks. Moreover, the technical DR1 DM1 information is displayed, or implementation of each of these mitigations will also depend Data Display it fails to be displayed on the choice of th e implementor and the available resources To include integrity for this purpose. DR2 DM2 solutions, such as hashing or certificates TABLE 4 MM1.1 To include access control RISK-MITIGATIONS CORRELATION MR1 features MM1.2 To use the principle of FUNCTION RISK MIT. MITIGATION Need-to-know ID ID DESCRIPTION To provide solid To include an informing MM2.1 authentication control CM1.1 feature when the features information is properly To use hardened CR1 collected MR2 passwords, codes or Data To include integrity MM2.2 methods of authentication Collection CM1.2 solutions, such as hashing to avoid impersonation or certificates based on easy-to-access To include an information- private data of the user CR2 CM2 restricted configuration, MM3.1 To use hardened lost attending to the principle Data access procedures control of Need-to-know. Management To avoid the use of If the storing service is unreasonable requirements SR1 SM1 outsourced, only use MR3 for access control in non- Data Storing trusted vendors and MM3.2 critical cases, that would solutions lead the user to easily lose SR2 SM2 To define backup solutions or forget the access or infrastructures credentials To require and provide To provide means of AR1 AM1 only the essential MM4.1 update for devices and information to carry out the MR4 services Data expected service. To verify the software Analysis To require and provide MM4.2 keeps updated with the last AR2 AM2 only the essential released versions information to carry out the To guarantee hardened expected service. MR5 MM5.1 password policies AR3 AM3 To require and provide MM5.2 To avoid unsecure 81 practices such as the reuse of passwords or the use of Considering the risks identified by the methodology and data easy to guess or to the ones pointed out by prestigious security professionals such obtain as Troy Hunt [16]or Paul Stone [17], it can be seen that they MM6.1 To guarantee S-SDLC are actually aligned. practices Once the risks have been identified, it is also possible MR6 To only use applications toidentify the security mitigations that would be related to MM6.2 and devices provided by each of the identified risks, as it is shown in Table 6. trusted vendors TABLE 6 The provided list can also be used as a base for future CLOUDPETS RISK MITIGATIONS studies, where it can also be completed and updated accord- ingly to the evolution of the currently studied IoT field. RISKS MIT. IDENTIFIED ROLES ID ID MITIGATION If the storing service is PM1, V. VALIDATION OF THE METHODOLOGY SR1 SM1 outsourced, only use trusted PM2, vendors and solutions UM1 To test if the proposed methodology can successfully To require and provide only PM1, achieve the goal it has been designed for, it is layed out a real AR2 AM2 the essential information to PM2, scenario with the CloudPet Smart Toy. This has been the toy carry out the expected service. UM1 of choice due to the great number of vulnerabilities identified To monitor all the connections UM1 that lead to its previously mentioned data breach [16 [17]. TM1.1 stablished The proposed methodology defines a process step by step TR1 To activate diode PM1, which allows to identify and map the features of the toy with TM1.2 functionalities (only PM2, all the described elements, resu lting in the identification of entrance/only release) UM1 risks for the toy, as well as the roles generating them. The To enable and use secure PM1, output of it is shown in Table 5. TM2.1 TR2 transmission protocols UM1 TM2.2 To include integrity solutions, PM1, TABLE 5 such as hashing or certificates PM2 CLOUDPETS RISKS IDENTIFICATIONS To monitor all the connections TM3.1 stablished UM1 ASSETS TECHN. FUNCTIONS RISKS ROLES To enable and use secure PM1, Sound D. Display DR2 PR1 TM3.2 transmission protocols PM2, Processor UM1 Bluetooth TR1, PR1, TR3 To close unused ports PM2, Main LE D. Transmission TR2, Device TR3 UR2 TM3.3 UM1 PR1, To activate diode PM1, Wi-Fi D. Transmission TR2, TR3 UR1, TM3.4 functionalities (only PM2, UR2 entrance/only release) UM1 D. Analysis AR2 PR1, DR2 DM2 To include integrity solutions, PM1, PR2 such as hashing or certificates PM2 D. Storing SR1 PR1 MM1.1 To include access control PM1, MR, MR1 features PM2 Web App MR4, PR1 MM1.2 To use the principle of Need- PM2 D. Management MR6 to-know MR2 UR2 PR1, MM2.1 To provide solid PM1, MR5 authentication control features PM2 Periph. UR1 To use hardened passwords, Elements MR1, MR4, PR1 MR2 codes or methods of authentication to avoid D. Management MR6 MM2.2 impersonation based on easy- PM1 MR2 UR1 to-access private data of the Mobile MR5 PR1, user App UR1 To provide means of update PM1, PR1, MR4 MM4.1 for devices and services PM2, D. Collection CR2 UR1, UM1 UR2 MR5 MM5.1 To guarantee hardened PM1, D. Display DR2 PR1 password policies PM2 82 To avoid unsecure practices VI. CONCLUSIONS MM5.2 such as the reuse of passwords PM2, or the use of data easy to UM1 Main Contributions guess or to obtain To guarantee S-SDLC PM1, After the present research and development, there could be MM6.1 practices PM2 extracted the following conclusions: MR6 To only use applications and (i) The proposed methodology addresses a current prob- MM6.2 devices provided by trusted PM1, lematic existing in the IoT, and more particularly, Smart Toy vendors UM2 industry, covering the security gaps of other existing security solutions. As a consequence, there can be extracted the following (ii) It gathers all the key aspects that should be considered conclusions: while identifying security risks in Smart Toys environments - The methodology outcomes are aligned with the criterias through an approach enough flexible to consider different and analysis of security experts, what shows that its results are types of Smart Toys, but also enough defined to be accurate reliable. on the results provided. - It provides a clear context, common for any IoT (iii) It also defines a security framework for a specific IoT environment, and an approach enough flexible to be able to be environment that can be used as a base in further studies to adapted to any Smart Toy use case, addressing the lack of develop a scalable or more detailed methodology to securitize agreement gap. other IoT environments. - It provides a well structured step by step procedure, that (iv) Its flexible approach and high level of definition also shows exactly what to consider, but also how to implement it, provide the ability to adapt the implementation of it depending solving the concerns about the unclear implementation on the target audience for its use, which can be particularly procedures. interesting for two groups of people: Smart Toys - The language is simple and easy to understand, even by manufacturers (to decide which features and elements include users with no deep technical knowledge. However, there is an in their devices) and final users (to take informed decisions). important nuance that should be considered regarding this last point: the person implementing the methodology has to know Future lines of work perfectly which are th e technical features and functions of the toy, to identify their risks and if they have already been Along the development of this project and as a conclusion mitigated by the manufacturer or not. for it, there have been identified possible and interesting future If that would not be the case, the subject would have two lines of work which are presented next: options to tackle this issue: consulting the instructions or (i) The possibility of complete and bring to a low-level of manufacturing features of the toy (in its own packaging or on detail the presented development, with the purpose of the internet, for example) until gathering enough information, providing a higher level of accuracy while identifying risks or using a supporting tool that automates the analysis process. and mitigations. On this behalf, a proposal would be to automate the exe- (ii) To develop a commercial solution based on the proposed cution of the methodology, including the elements scan, on a methodology, such as the mentioned gateway, that would device with which the users can interact, such as a gateway. allow users to easily identify the security risks that they are This device, through questions or text options, would guide exposing themselves to in an IoT environment. Such a the process and automatically perform the risk assessment, resource would not only help to prevent or mitigate active showing the users the resulting information and/or mitigations risks for children and their families, but also to spread a for the scanned Smart Toys vulnerabilities. security information culture among the most vulnerable agents In this case, through a user-friendly interface, the device (users). Moreover, this solution could also be presented as a would manage itself the most technical-related steps and business solution that would allow providers of Smart Toys to would allow the users to be informed, interact and decide identify and correct their risk sources before deploying their about the IoT systems in a simple and intuitive manner. This solutions, preventing them from great money losses as a would allow users to manipulate configurations and harden consequence of fines or reputation damages, among others. their Smart Toys, whenever this would be possible. As well, in the cases that scape to the user control, it would at least inform them about the risks they may be taking in a simple language, allowing them to take in-formed decisions about their choices of using or not certain Smart Toys. 83 REFERENCES https://www.theverge.com/2017/1/7/14200210/amazon-alexa-tech-news- anchor-order-dollhouse. [Accessed 26 February 2019]. [1] Gartner, "Leading The IoT," 2017. [Online]. Available: https://www.gartner.com/imagesrv/books/iot/iotEbook_digital.pdf. [Accessed 26 February 2019] Paula González Domínguez (paulagonzalezdom@gmail.com) is a Senior [2] Mozilla, "Internet Health Report 2018," 10 April 2018. [Online]. Consultant at Deloitte. She received a MSc in Cyber Security by the UNIR Available: https://internethealthreport.org/2018/introduction/how- (Universidad Internacional de La Rioja) in 2018, with honors in her Master’s healthy-is-the-internet/. [Accessed 26 February 2019] Thesis. Her work and research are focused on Infrastructure Protection, [3] ESET, "5 ways to protect your internet of things," 3 April 2017. [Online]. Security Risk Assessment, Cybersecurity Strategy and Awareness. Available: https://www.eset.com/us/about/newsroom/corporate- blog/survey-internet-of-stranger-things/. [Accessed 29 February 2019]. [4] "New rules to prevent children's 'smart' toys from being hacked," 21 Fidel Paniagua Diez (fidel.paniagua@uc3m.es) is a researcher in the Evalues November 2018. [Online]. Available: https://www.itv.com/news/2018- Lab (IT Security Evaluation) at Carlos III University of Madrid and is 11-21/new-rules-on-internet-toy-security/. [Accessed 26 February 2019]. pursuing a PhD in computer security. His research interests include access [5] R. Minerva, A. Biru and D. Rotondi, "Towards a definition of the Internet control models and designing, developing, and evaluating secure of Things (IoT)," IEEE, 27 May 2015. [Online]. Available: communication systems. Paniagua Diez’s PhD work is part of the research https://iot.ieee.org/images/files/pdf/IEEE_IoT_Towards_Definition_Inter project SAVIER (Situational Awareness Virtual Environment), supported by net_of_Things_Revision1_27MAY15.pdf. [Accessed 26 February 2019]. Airbus Defense and Space. He received a BSc in computer engineering from Carlos III University of Madrid. He is Certified Ethical Hacker and EC- [6] ENISA, "Baseline Security Recommendations for IoT," 20 November Council Certified Security Analyst. 2017. [Online]. Available: https://www.enisa.europa.eu/publications/baseline-security- Diego Suárez Touceda (diego.suarez@unir.net) is Associate Professor and recommendations-for-iot. Researcher at UNIR (Universidad Internacional de La Rioja) and Key [7] P. DeBeasi, "Architect IoT Using the Gartner Reference Model," 26 April Account Manager and Sr. Cybersecurity Expert at Clover Technologies S.L. 2018. [Online]. [Accessed June 2018]. He is Ph.D. in Information Security, CISM, CISSP, CEH and ECSA. His [8] M. Burhan, R. Asif Rehman, B. Khan and B. S. Kim, "IoT Elements, work and research are focused on Security Architectures, Network Security Layered Architectures and Security Issues: A Comprehensive Survey," Services, Access Control Systems, Cybersecurity, Wearable Devices, P2P PMC, 24 August 2018. [Online]. Available: Systems, IoT, Smart Cities and Cloud Computing. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC61654 53/. [Accessed 26 February 2019]. Juan José Nombela Pérez (juanjose.nombela@unir.net) is academic director [9] Federal Trade Commission, "Children's Online Privacy Protection Rule of the master’s degree on Cyber Security at UNIR (Universidad Internacional ("COPPA")," [Online]. Available: de La Rioja). He received a MSc in Cyber Security from Polytechnic https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform- University of Madrid and he is CISA, CISM and 27001 Lead Auditor. His proceedings/childrens-online-privacy-protection-rule. [Accessed 26 work and research are focused on Biometric Security, Network Security, February 2019]. Mobile Device Security, Identity Management and Security management. [10] Regulation GDPR," European Parliament and the Council, 27 April 2016. [Online]. Available: https://gdpr-info.eu/. [Accessed 26 February 2019]. [11] INCIBE, "INCIBE y la Asociación Española de Fabricantes de Juguetes publican una guía para el uso seguro de los juguetes conectados," INCIBE, 11 December 2018. [Online]. Available: https://www.incibe.es/sala-prensa/notas-prensa/incibe-y-asociacion- espanola-fabricantes-juguetes-publican-guia-el-uso. [Accessed 26 February 2019]. [12] OWASP, "IoT Attack Surface Areas," 29 November 2015. [Online]. Available: https://www.owasp.org/index.php/IoT_Attack_Surface_Areas. [Accessed 26 February 2019]. [13] NISTIR, "Interagency Report on Status of International Cybersecurity Standardization for the Internet of Things (IoT)," February 2018. [Online]. Available: https://csrc.nist.gov/publications/detail/nistir/8200/draft [14] R. Shahan and B. Lamos, "Internet of Things (IoT) security architecture," Microsoft Azure, 10 September 2018. [Online]. Available: https://docs.microsoft.com/en-us/azure/iot-fundamentals/iot-security- architecture. [Accessed 26 February 2019]. [15] Motherboard, "One of the Largest Hacks Yet Exposes Data on Hundreds of Thousands of Kids," 27 November 2015. [Online]. Available: https://motherboard.vice.com/en_us/article/yp3z5v/one-of-the-largest- hacks-yet-exposes-data-on-hundreds-of-thousands-of-kids. [Accessed 26 February [16] T. Hunt, "Data from connected CloudPets teddy bears leaked and ransomed, exposing kids' voice messages," 28 February 2017. [Online]. Available: https://www.troyhunt.com/data-from-connected-cloudpets- teddy-bears-leaked-and-ransomed-exposing-kids-voice-messages/. [17] P. Stone, "Hacking Unicorns with Web Bluetooth," 28 February 2017. [Online]. Available: https://www.contextis.com/blog/hacking-unicorns- web-bluetooth. [18] Change.org, "Drop the "Hello Barbie" Eavesdropping Doll," 2015. [Online]. Available: https://www.change.org/p/mattel-drop-the-hello- barbie-eavesdropping-doll. [Accessed 26 February 2019]. [19] C. Baraniuk, "Call for privacy probes over Cayla doll and i Que toys," 6 December 2016. [Online]. Available: https://www.bbc.com/news/technology 38222472. [Accessed 26 February 2019] [20] A. Liptak, "Amazon’s Alexa started ordering people dollhouses after hearing its name on TV," 7 January 2017. [Online]. Available: 84 1 Análisis de la Estructura del Contenedor de Vı́deos Digitales de Dispositivos Móviles para Identificación de la Fuente de Vı́deos en Escenarios Abiertos Raquel Ramos López, Elena Almaraz Luengo, Ana Lucila Sandoval Orozco, Luis Javier Garcı́a Villalba∗, Member, IEEE Resumen—La ciencia forense se ha servido de la tecnologı́a Para abordar estos problemas, los investigadores han desa- multimedia para analizar, evidenciar e incluso dilucidar res- rrollado algoritmos forenses que verifican la autenticidad y ponsabilidades en los procesos judiciales. El análisis de vı́deos la fuente del contenido digital [2]. Las técnicas forenses digitales adquiere especial relevancia al permitir determinar tanto el origen como la autenticidad de un material y de que identifican información sobre la fuente cuando se genera relacionar a un individuo con un dispositivo, lugar o evento. contenido multimedia (imágenes o vı́deos), se dividen en dos El constante desarrollo de la tecnologı́a hace que, a pesar de grupos: por un lado, aquéllas orientadas a la verificación del que los principios básicos sean inalterables, el análisis de vı́deos origen de un contenido multimedia y aquéllas destinadas a la digitales requiera, en el ámbito forense, de nuevos procedimien- detección de inconsistencias en la fuente dentro del contenido tos y herramientas de enfoque. Por consiguiente, es necesario proporcionar al analista forense técnicas para identificar el multimedia [2], [3]. contenido multimedia. En este trabajo se estudia el problema Existen diversas investigaciones que desarrollan algoritmos de la identificación de la fuente de vı́deos en escenarios abiertos, forenses para determinar la identificación de la fuente de una esto es, aquéllos en los que no se conozca a priori el conjunto imagen aunque los estudios son escasos en el caso de los de cámaras a las que pertenezca el vı́deo a fin de identificar su vı́deos digitales [3]. En [4] se sugiere que estos algoritmos fuente, hecho éste que se produce en casos reales. En particular, se propone un algoritmo de identificación de la fuente de utilizan trazas dejadas por una amplia variedad de compo- adquisición de vı́deos digitales generados por los dispositivos nentes fı́sicos y algorı́tmicos en la tuberı́a de procesamiento móviles usando algoritmos no supervisados basados en el análisis de una cámara. Se han diseñado algoritmos de modelos de de la estructura del contenedor de vı́deo. cámaras forenses que aprovechan las huellas dejadas por la Palabras claves—Análisis de Conglomerados, Análisis Foren- demosaicing (método de los artefactos CFA y Demosaicing), se, Átomos, Contenedor de vı́deo, Estructura del Contenedor, [5], [6], [7], [8], [9] e información del encabezado JPEG [10]. Identificación de fuente La mayor parte del trabajo existente se ha centrado en el uso de huellas dactilares de sensores para identificar el dispositivo I. I fuente especı́fico de un vı́deo, por ejemplo, ver [11], [12],NTRODUCCI ÓN [13], [14], [15] [16]. El análisis forense de dispositivos móviles se ha convertido El análisis de la fuente de adquisición de vı́deo es uno en una de las áreas de investigación más importantes. En de los primeros problemas que han surgido en las técnicas primer lugar, las capacidades de los dispositivos inteligentes de análisis forense. Dentro de la identificación de la fuente han mejorado sustancialmente, siendo más utilizados que los de adquisición existen dos enfoques principales: escenarios portátiles ya que los usuarios los tienen a su alcance en cual- cerrados o escenarios abiertos. Un escenario cerrado es aquél quier momento, registrando constantemente sus actividades y en el que la identificación de la fuente del vı́deo se realiza movimientos proporcionando una visión del comportamiento en un conjunto de cámaras especı́ficas y conocidas. Para este del usuario [1]. enfoque, normalmente se utiliza un conjunto de vı́deos de cada La combinación de teléfonos móviles inteligentes con pla- dispositivo para formar a un clasificador y, posteriormente, se taformas de social media y almacenamiento en la nube ha predice la fuente de adquisición de los vı́deos que se están permitido que el vı́deo se convierta en una importante fuente investigando. de información. Estos vı́deos digitales se pueden realizar en En [17] se presenta un esquema de identificación de fuentes cualquier momento y lugar para diferentes propósitos y distri- de vı́deo digital basado en máquinas de soporte vectorial buir en Internet en un corto perı́odo de tiempo. En ocasiones (SVM) y ruido PRNU. Con un vı́deo de entrada, los foto- su contenido puede estar relacionado con actos ilegales como gramas con cambios de escena más significativos se extraen terrorismo, pornografı́a infantil, espionaje industrial, etc. utilizando el histograma de color. Un total de 81 funciones, que son los componentes Wavelet del sensor, se utilizan para R. Ramos López Securitas Direct (rlopez@securitasdirect.es). R. Ramos López, E. Almaraz Luengo, A. L. Sandoval Orozco and L. J. Garcı́a entrenar al clasificador SVM con vı́deos de entrenamiento. Un Villalba. Grupo de Análisis, Seguridad y Sistemas (GASS), Departamento total de 5 dispositivos diferentes de 5 marcas diferentes fueron de Ingenierı́a del Software e Inteligencia Artificial, Facultad de Informática, utilizados para entrenar al clasificador SVM. Los resultados Despacho 431, Universidad Complutense de Madrid (UCM), Calle Profesor José Garcı́a Santesmases, 9, Ciudad Universitaria, 28040 Madrid, España. obtenidos muestran una tasa de éxito del 87% o del 90%, {raqram01, ealmaraz}@ucm.es, {asandoval, javiergv}@fdi.ucm.es. dependiendo de la resolución del vı́deo. https://doi.org/10.12804/si9789587844337.08 85 2 En un escenario abierto, no se conoce inicialmente el audio y vı́deo y, en algunos casos, también subtı́tulos y otra conjunto de dispositivos a los que pertenecen los vı́deos información adicional. para identificar su fuente de adquisición. El objetivo no es Los contenedores multimedia más utilizados en la actuali- identificar la marca y el modelo de los vı́deos, sino poder dad son: agruparlos en grupos en los que todos sus vı́deos pertenezcan AVI (Audio Video Interleave): contenedor multimedia al mismo dispositivo. Este último enfoque es más realista, estándar de Windows. ya que en muchos casos el analista ignora completamente MP4: contenedor estandarizado para MPEG4 [18]. el conjunto de dispositivos a los que puede pertenecer un FLV (Flash Video): formato utilizado para entregar vı́deo conjunto de vı́deos. Identificar el dispositivo que genera el MPEG a través de Flash Player. contenido digital es muy importante en el contexto de un MKV (Mastroska): contenedor de especificaciones abier- proceso judicial porque puede incriminar o delimitar respon- to orientado a animación. sabilidades a un sospechoso antes de un acto delictivo. Para MOV: formato de contenedor QuickTime de Apple. realizar cualquier tipo de clasificación de vı́deo en escenarios OGG, OGM, OGV: contenedores estándar abiertos. abiertos o cerrados, es necesario obtener ciertas caracterı́sticas que permitan a las técnicas de clasificación realizar su tarea. En la literatura más reciente, se puede encontrar que la Dentro del análisis forense de vı́deo digital, las principales mayorı́a de las investigaciones analizan la estructura interna técnicas de análisis se dividen en 5 grupos: 1) Metadatos, de los contenedores multimedia en el caso del formato AVI, 2) Caracterı́sticas de la imagen, 3) Defectos de la matriz siendo casi inexistente el estudio de los contenedores MP4, CFA, 4) Imperfecciones del sensor y 5) Caracterı́sticas de 3GP y MOV. los contenedores multimedia. Uno de los primeros trabajos donde se realiza un análisis Este trabajo propone una técnica de identificación de la detallado de las estructuras de los vı́deos es [19] donde fuente de adquisición de vı́deos digitales generados por dispo- se analizan en detalle las secuencias de vı́deo AVI y MP4 sitivos móviles mediante el uso de algoritmos no supervisados (MOV, 3GP, MP4) de teléfonos móviles y cámaras digitales. basados en el análisis de la estructura de los contenedores de Uno de los principales resultados que se obtienen es que vı́deo multimedia. Se ha dividido en 5 secciones, la primera los vı́deos de cámaras digitales y teléfonos móviles suelen consistente en esta introducción. En la Sección II se presentan emplear diferentes formatos de contenedores y codecs de las principales técnicas actuales de análisis en este contexto. compresión. Los teléfonos móviles optan por sofisticados El algoritmo propuesto en este trabajo se desarrolla en la algoritmos de compresión (MP4V, H.26x). La mayorı́a de Sección III. En la Sección IV se muestran los resultados las cámaras digitales de nuestro equipo de prueba prefieren numéricos en los que se ha aplicado el algoritmo diseñado. una combinación de contenedores AVI y compresión bási- Finalmente, en la Sección V se presentan las conclusiones ca MPEG. La estructura de los contenedores tipo AVI y extraı́das de este trabajo. MP4 no está estrictamente definida. Observaron diferencias considerables tanto en el orden como en la presencia de segmentos de datos individuales. Los archivos AVI a menudo II. HERRAMIENTAS DE ANÁLISIS FORENSE DE VÍDEO contienen listas de información especı́ficas o trozos de JUNK. Un vı́deo está formado por una secuencia de imágenes Los archivos de tipo MP4 pueden emplear varios átomos no llamadas fotogramas que varı́an con el tiempo dando una estándar y diferentes parametrizaciones de entradas de átomos sensación de movimiento. Debido al gran volumen de in- especı́ficos. La edición de vı́deo sin pérdida deja intactos formación que tiene un vı́deo, éste se codifica y decodifica los ajustes de compresión del flujo de vı́deo original, pero mediante un algoritmo matemático conocido como códec. introduce sus propios artefactos distintivos en la estructura de A su vez, estas tramas ya codificadas se encapsulan junto los archivos de contenedor. Mientras que las peculiaridades con las pistas de audio, metadatos y subtı́tulos en un único del formato de archivo del dispositivo fuente original se archivo conocido como contenedor multimedia. En la Tabla pierden normalmente después de la edición de vı́deo, todas las I se muestran los diferentes elementos que componen un herramientas de software probadas tienen firmas de formato contenedor multimedia. de archivo únicas en todo su conjunto de pruebas. En [20] se introduce un método para el análisis no su- Tabla I ELEMENTOS COMPOSITIVOS DE UN CONTENEDOR MULTIMEDIA. pervisado de contenedores de archivos de vı́deo y sus auto- res presentan dos aplicaciones forenses principales de dicho Formato del contenedor: .avi, .mp4, .mov, .ogg, .flv, .mkv, etc método: la verificación de la integridad del vı́deo (basado en la Video códec Audio códec Captioning Metadatos diferencia entre un contenedor de archivos de referencia y uno descripción de video de consulta) y la identificación y clasificación de la marca del H.264. AAC SAMI MPEG-7 VC-1 WMA SMIL CableLabs dispositivo de origen (basado en el análisis de la estructura Theora Vorbis Hi-Caption TV-ANytime y contenido de los contenedores). Se comprobó la eficacia Dirac 2.1 PCM, etc. CMML EBU de ambas aplicaciones en un conjunto de datos compuesto H.263, etc. DFXP XPM, etc. por 578 vı́deos tomados con smartphones modernos de las 3GPP TS principales marcas y modelos y se llegó a la conclusión MPSub, etc. de que la solución propuesta ofrece un coste computacional extremadamente bajo en comparación con todas las técnicas Los contenedores multimedia o formatos de vı́deo se de- disponibles basadas en el análisis del flujo de vı́deo o la finen como aplicaciones informáticas capaces de almacenar inspección manual de los contenedores de archivos. 86 3 En [21] se investiga el contenido de vı́deo almacenado caracteres (ejemplo: fytp, moov, mdat, etc.). A continuación se en Video Event Data Recorders (VEDRs). En concreto, se verifica la duplicidad de los átomos y la existencia de átomos estudia la estructura de los archivos de vı́deo para cada hijos. Finalmente, se obtiene un diccionario de un conjunto tipo de software de edición de vı́deo que dejarı́a huellas del de átomos y etiquetas (Path-tag) con sus respectivos valores procesamiento del software de edición de vı́deo. Debido a que y órdenes de apariencia. Para un estudio más profundo de los tales trazas son una caracterı́stica inherente a cada paquete átomos, ver [19] y [24]. de software de edición de vı́deo, pueden detectar el software La Tabla II muestra el output que se obtiene tras la de edición de vı́deo especı́fico utilizado para manipular el extracción de los átomos. El primer átomo es “fytp” tal vı́deo, además de si el vı́deo fue, de hecho, manipulado. Para y como se indica en las especificaciones de [19]. Co- evaluar la precisión de su técnica, examinaron 296 archivos mo los átomos se organizan jerárquicamente (ie./moov/), de vı́deo no modificados de Audio Video Interleave (AVI). a su vez tienen átomos hijos (ie./moov/trak) y etiquetas Se realizó este examen utilizando versiones populares de (ie./moov/mvhd/tkhd/flags) que a su vez contienen valores software de edición de vı́deo. Como resultado, se encontró (ie./moov/mvhd/tkhd/version,value:0). que las estructuras de datos AVI en los archivos de vı́deo modificados aparecen consistentemente de acuerdo con cada Tabla II paquete de software de edición de vı́deo. Cada estructura de MUESTRA DE LA INFORMACIÓN EXTRAÍDA DEL CONTENEDOR datos resultante no se ve afectada por la estructura del archivo Path PathOrder Field Value de vı́deo original. ftyp ftyp-1 majorBrand mp42 ftyp ftyp-1 minorVersion 1 III. DESCRIPCIÓN DEL ALGORITMO PROPUESTO ftyp ftyp-1 compatibleBrands mp41mp42isom beam beam-2 byteInitial 28 Este artı́culo presenta una técnica para identificar la fuente beam beam-2 size 42 de adquisición de vı́deo digital generada por los dispositivos moov/trak/tkhd moov-4/trak-2/tkhd-1 version 0 móviles. La técnica se divide en dos tareas: 1) Extracción moov/trak/tkhd moov-4/trak-2/tkhd-1 flags 1 de la información de los átomos contenidos en cada uno moov/trak/tkhd moov-4/trak-2/tkhd-1 trackId 1 de los vı́deos y 2) Agrupación mediante técnicas de análisis moov/trak/tkhd moov-4/trak-2/tkhd-1 trackWidth 48 de conglomerados de cara a la identificación del vı́deo por moov/trak/tkhd moov-4/trak-2/tkhd-1 trackHeight 848 modelo. Para la realización de las tareas se han tenido en cuenta En esta propuesta, para realizar la agrupación de vı́deos se los formatos de contenedores MOV basados en los estándares ha tenido en cuenta que los vı́deos son conjuntos de elementos QuickTime de Apple QuickTime [22], MP4 y 3GP compati- que contienen las siguientes caracterı́sticas: bles con el estándar ISO / IEC 14496 Parte 12 [18]. Se han PathField: Se define como la unión de las etiquetas Path analizado los contenedores que existen tanto en la plataforma y Field separadas por el carácter (’/’). En la Tabla II, el principal de compartición de vı́deo, YouTube, como en una campo PathField the la primera fila corresponde al valor de las principales plataformas de mensajerı́a de WhatsApps (ftyp/majorBrand). porque se encuentran dentro de uno de los conjuntos de datos PathFieldValue: Se define como la unión de las eti- utilizados para este trabajo [23]. quetas Path y Field separadas por ‘/’ y se añade la etiqueta Value separada por ‘=’. En la Tabla II, el III-A. Análisis de la Estructura del Contenedor campo PathFieldValue de la primera fila corresponde a: La estructura elemental de un vı́deo es el átomo. Los ftyp/majorBrand = mp42. metadatos, el vı́deo y el sonido de un vı́deo están dentro PathOrderField: Se define como la unión de las etique- de ellos. Los átomos son de naturaleza jerárquica. Es decir, tas PathOrder y Field separadas por ‘/’. En la Tabla II, un átomo puede contener otros átomos, que pueden contener el campo PathOrderField de la primera fila corresponde otros y ası́ sucesivamente. El tipo de átomo se especifica con: ftyp-1/majorBrand. mediante un número entero sin signo de 32 bits, normalmente PathOrderFieldValue: Es la unión de las etiquetas interpretado como un código ASCII (American Standard Code PathOrder y Field separadas por ‘/’ al que se le añade la for Information Interchange) de cuatro caracteres, general- etiqueta Value separada por ‘=’. En la Tabla II, el campo mente en minúsculas. Debe tenerse en cuenta que no hay PathOrderFieldValue de la primera fila se corresponde ninguna regla respecto a los átomos que deben aparecer y su con: ftyp-1/majorBrand = mp42. orden, sin embargo, la mayorı́a sigue una estructura similar [24]. Este algoritmo se ha utilizado para extraer información de los átomos. Esta solución es capaz de analizar información III-B. Técnicas de Análisis de Conglomerados múltiple de cualquier formato de vı́deo como: Vı́deo MP4 / El análisis de conglomerados es un conjunto de técnicas H.264, MOV y 3GP, para extraer información de los átomos. para agrupar las observaciones por afinidad. Esta es la razón La extracción de átomos consiste en almacenar las etique- por la que esta técnica ha sido tradicionalmente considerada tas, valores, orden de aparición de los átomos y todo tipo como parte de la Estadı́stica Multivariante, aunque actualmen- de información relevante de un vı́deo digital generado por te tiende a ser catalogada como Minerı́a de Datos. En estas un dispositivo móvil. El proceso comienza con la obtención técnicas no se hacen suposiciones sobre el número de grupos del byte inicial del átomo, tamaño y tipo de átomo con una o la estructura del grupo. La agrupación se hace sobre la base longitud máxima de 4 bytes formados como una cadena de de similitudes o distancias (diferencias). 87 4 Cuando los artı́culos (unidades, cajas) están agrupados, Los algoritmos aglomerativos tienen siempre la misma la proximidad es usualmente indicada por algún tipo de de estructura y solamente difieren en la manera en que calculan distancia. la distancia entre grupos. Su estructura se muestra en el Definición 1: La distancia d(P,Q) entre dos puntos P y Algoritmo 1. Q satisface las siguientes propiedades, donde R es otro punto intermedio: Algoritmo 1: Algoritmo aglomerativo 1. d(P,Q) = d(Q,P ). 1 Comenzar con N conglomerados, cada uno conteniendo 2. d(P,Q) > 0; si P = Q. un ı́tem y una matriz de dimensión N ×N de distancias 3. d(P,Q) = 0; si P = Q. (o similitudes) entre items D = (dik); 4. d(P,Q) ≤ d(P,R) + d(R,Q). 2 Seleccionar los dos elementos más cercanos según las La tercera condición de la definición 1 se conoce como distancias actuales en D y formar con ellos una nueva desigualdad triangular. Aquellas medidas que verifican las clase; condiciones 1 y 2 de la definición 1 pero no la tercera, 3 Sustituir los dos elementos utilizados en (2) para definir se conocen como semimétricas. Existen muchos tipos de la clase por un nuevo elemento que represente la clase distancia que se utilizan en el análisis de conglomerados [25]. construida. Las distancias entre este nuevo elemento y el Sean x′ = (x ′1, ..., xp) y y = (y1, ..√., yp). elemento se calculan utilizando uno de los criterios que Distancia Euclı́dea: d(x,y) = (√x− y)′(x− y). se exponen a continuación; Distancia Estadı́stica: − ′ − . 4 Volver al paso (2) y repetir (2) y (3) hasta conseguir unad(x,y) = (x y) A(x y) Generalmente, −1, donde contiene las varian- única clase;A = S S zas y covarianzas muestrales. Sin embargo, sin tener un conocimiento previo de los diferentes grupos, esas Como se mencionó anteriormente, existen diferentes crite- cantidades muestrales no se pueden computar, es por rios para medir distancias. Los más comunes se pueden ver ello que en el análisis de conglomerados se prefiere usar en la Tabla III en la que d(u, v) representa la distancia entre la distancia Euclı́dea. los elementos u y v, dUW y dVW son las distancias entre los M∑étrica de Minkowski: d(x,y) = vecinos más próximos de los conglomerados U y W y V yp | − |m 1/m( i=1 xi yi ) . Para m = 1, d(x,y) mide W respectivamente y |U | y |V | representan el cardinal de U la distancia en manzanas de ciudad (city-block) entre y V respectivamente. dos puntos en dimensión p. Para m = 2, d(x,y) es la El resultado de los métodos aglomerativos y divisivos se distancia Euclı́dea. puede representar en un diagrama bidimensional conocido Otras: Métrica de Canberra, coeficiente de Czekanowski como dendograma que muestra las sucesivas uniones (o divi- (para el caso de variables no negativas). siones) que se han realizado en cada iteración del algoritmo. Por otro lado, cuando los items no se pueden representar Una vez que se obtiene el dendograma, se pueden obtener los de manera adecuada por una medida p-dimensional, cada par diferentes conglomerados. de ı́tem se comparan en base a si tienen o no determinada Otra metodologı́a de análisis de conglomerados en el caracterı́stica. En este caso, se utilizan variables binarias en espacio es la basada en la densidad de aplicaciones con las que 1 indicará la presencia de la caracterı́stica y 0 su ruido, conocida usualmente con sus siglas en inglés DBSCAN ausencia. Esta situación se representa mediante una tabla de (Density-Based Spatial Clustering of Applications with Noi- contingencia. se). Esta metodologı́a fue propuesta por Martin Ester, Hans- Las técnicas de análisis de conglomerados se pueden clasi- Peter Kriegel, Jörg Sander y Xiaowei Xu en 1996 [26]. ficar en dos clases: métodos jerárquicos y no jerárquicos. En Considérese un conjunto de puntos que se desea agrupar este artı́culo se usarán técnicas de clasificación jerárquicas. en un determinado espacio. El algoritmo DBSCAN clasifica Los métodos jerárquicos proceden, bien de una serie de los puntos en tres tipos: puntos núcleo, puntos densamente- fusiones sucesivas, bien de una serie de escisiones sucesivas: alcanzables o ruido. Métodos jerárquicos aglomerativos: parten de los ele- Definición 2: (Puntos núcleo, directamente alcanzable y mentos individuales y los añaden en grupos. ruido) Métodos jerárquicos divisivos: parten de un conjunto Un punto p es un punto núcleo si al menos minPoints formado por todos los elementos y lo van dividiendo puntos están a una distancia de él (incluyendo p), y sucesivamente hasta llegar a alcanzar los elementos esos puntos son directamente alcanzables desde él. No individuales. es posible tener puntos directamente alcanzables desde un punto que no sea un núcleo. Tabla III CRITERIOS MÁS COMUNES DE VINCULACIÓN EN ANÁLISIS JERÁRQUICO DE CONGLOMERADOS Criterio Descripción: la distancia entre dos grupos nuevos es la Fórmula Encadenamiento simple menor de las distancias entre grupos antes de la fusión d(UV ),W = mı́n {dUW , dV W } Encadenamiento completo mayor de las distancias entre los grupos antes de la fusión d(UV ),W = máx {dUW , dV W } Media ponderada semisuma de las distancias entre grupos antes de la fusión d(U,W )+d(V,W )d((U ∪∑V,W ))∑= 2 Promedio no ponderado dist. media entre todos los pares (i, j) con i en un grupo y j en otro 1| || | u∈U v∈V d(u, v)U V 88 5 Un punto q es directamente alcanzable desde p si existe sis, Seguridad y Sistemas (GASS) del departamento una secuencia de puntos p1, . . . , pn donde p1 = p y pn = de Ingenierı́a del Software e Inteligencia Artificial de q, tales que, cada punto pi+1 es directamente alcanzable la Universidad Complutense de Madrid. Esta solución desde pi. es capaz de analizar información múltiple de cualquier Un punto que no sea alcanzable desde cualquier otro vı́deo MP4/H.264, MOV y 3gp, para extraer la informa- punto es considerado ruido. ción de los átomos. Los valores del interior han sido Si p es un punto núcleo, éste forma un conglomerado con convertidos a utf-8 cuando ha sido posible y de lo otros puntos (núcleo o no) que sean alcanzables desde él. contrario permanecen como hexadecimales. Cada conglomerado contiene al menos un punto núcleo. Recopilar los datos: con la información obtenida, consul- Los puntos no núcleos alcanzables pueden pertenecer a un tar la base de datos para descargar los vı́deos necesarios. conglomerado pero actúan como una barrera puesto que no Posterior agrupación de los mismos para obtener un es posible alcanzar más puntos desde estos. Obsérvese que la único cuadro de datos. propiedad de ser alcanzable no es simétrica. Vectorización: agrupación de los datos con el objetivo de Por definición, ningún punto puede ser alcanzable desde un que el uso posterior de los mismos sea más abarcable y punto que no sea núcleo, independientemente de la distancia a facilite la manipulación de los mismos. la que se encuentre, por tanto es necesario definir el concepto Filtrado: mediante pandas, filtrar las columnas corres- de conectividad para especificar la noción de conglomerado pondientes a los átomos y campos no deseados. Este usada en el algoritmo DBSCAN. filtrado es una extensión de la realizada en [20]. Definición 3: Dos puntos p y q están conectados densa- Procedimiento de Análisis de Conglomerados: recuperar mente si existe otro punto o tal que p y q son directamente la matriz de valores binarios del marco de datos que alcanzables desde o. Esta propiedad es simétrica. representa el conjunto de datos. Cada lı́nea contiene El algoritmo DBSCAN utiliza dos parámetros:  (que una observación, un archivo de vı́deo y dimensiones especifica cuán cerca deben estar los puntos entre sı́ para ser de columna. Para agrupar los datos, se proponen dos considerados parte de un mismo conglomerado) yminPoints algoritmos de clasificación jerárquica y OPTICS. Los (que representa el número mı́nimo de puntos para formar una detalles se pueden consultar en el Algoritmo 3. región densa). Los pasos fundamentales de esta metodologı́a se muestran en el Algoritmo 2. Algoritmo 3: Algoritmo propuesto 1 Extracción y almacenamiento de los datos; Algoritmo 2: Algoritmo DBSCAN 2 Recopilación los datos; 1 Para cada punto pi calcular la distancia d(pi, pj), 3 Vectorización; ∀j = i. Encontrar todos los puntos vecinos en un radio 4 Filtrado; de  del punto de partida pi. Cada punto, con un vecino 5 Agrupación: algoritmos de conglomerados jerárquicos y cuya distancia sea mayor o igual que minPoints, está OPTICS; marcado como punto núcleo o punto visitado; 2 Para cada punto núcleo que aún no haya sido asignado a un conglomerado, crear un nuevo conglomerado. Encontrar de manera iterativa todos los puntos IV. EXPERIMENTOS Y RESULTADOS conectados densamente y asignarlos al mismo IV-A. Conjuntos de Datos conglomerado que el punto núcleo; Para llevar a cabo los experimentos se han utilizado los dos 3 Iterar a través de los puntos no visitados restantes en el conjuntos de datos más recientes en la literatura, concreta- conjunto de datos; mente: VISION dataset [23] y ACID dataset [4]. En concreto se han utilizado muestras de ambos conjuntos de datos. La El algoritmo OPTICS (Ordering Points to Identify the información concreta de cada muestra se puede ver en las Clustering Structure) se puede considerar como una gene- Tablas IV y V. ralización del algoritmo DBSCAN en el caso de múltiples rangos, reemplazando el parámetro  por el radio máximo IV-B. Condiciones Experimentales de búsqueda. Fue presentado por Michael Ankerst, Markus Como se comentó anteriormente para el procedimiento M. Breunig, Hans-Peter Kriegel y Jörg Sander en 1999 [27]. de obtención de conglomerados, es necesario definir una La idea principal es similar a la de DBSCAN pero aborda el medida. Sin embargo, en un procedimiento de análisis de problema de detectar conglomerados significativos en datos de conglomerados, es posible incluso trabajar con semimétricas. densidad variable, en concreto, OPTICS calcula un orden de En particular, las medidas utilizadas en nuestro trabajo han los puntos aumentados por información adicional, es decir, sido: Euclı́dea, correlación, Rogers-Tanimoto y métrica de la distancia de alcanzabilidad, que representa la estructura Sokal-Sneath. jerárquica intrı́nseca del conglomerado. A continuación mos- Para la realización de los experimentos se han tenido en traremos la propuesta especı́fica de este trabajo. cuenta ciertas consideraciones. En primer lugar, la etiqueta Extracción y almacenamiento de datos: para extraer la Field no siempre es válida para identificar el origen, ya que información de los átomos se utilizará una solución tiene valores especı́ficos que dependen del propio vı́deo, en escrita en Python y desarrollada por el Grupo de Análi- el caso de las etiquetas relacionadas con la fecha de creación, 89 6 Tabla IV COMPOSICIÓN DE LA MUESTRA DE ACID tación y medida con el mayor coeficiente de silueta será la más probable de ser correctamente separada. Marca Modelo Dispositivo # Vı́deos Definición 4: El Coeficiente de Silueta es una medida de Apple iPhone 8 plus M00 223 la consistencia de los conglomerados. Mide tanto la cohesión Asus Zenfoe 4 Laser M01 239 como la separación de los mismos. Sean C , i = 1, ..., k los Canon VIXIA HF R800 M06 25 i Google Pixel 1 M10 25 conglomerados. Dado i ∈ Ci, sean Pixel 2 M11 25 1 ∑ Huawei Honor 6X Pixel 2 M12 25 a(i) = d(i, j) (1)|C | − 1 Honor Mate SE 2 M13 25 i j∈Ci,j =i Kodak Ektra M15 25 la distancia media entre i y todos los demás puntos de datos LG Q6 M16 25 X Charge M17 25 en el mismo conglomerado, donde d(i, j) es la distancia entre Moto E4 M18 25 i y j en el conglomerado Ci, y G5 plus M19 25 1 ∑ Nikon Coolpix S33 M20 25 b(i) = mı́n d(i, j) (2) Coolpix S3700 M21 25 k= i |Ck| j∈Ck Coolpix S7000 M22 25 Olympus Stylus Tough TG-860 M24 25 la distancia media más pequeña de i a todos los puntos de Samsung Galaxy J7 Pro M27 25 cualquier otro grupo, del cual i no es miembro. El coeficiente Galaxy S5 M29 25 de silueta se define como: Galaxy S7 M30 25  Galaxy Tab A M31 25 1− a(i)/b(i), si a(i) < b(i) s(i) = 0, si a(i) = b(i) (3)Tabla V  C M VISION a(i)/b(i)− 1, si a(i) > b(i)OMPOSICIÓN DE LA UESTRA DE El Coeficiente de Silueta se ha utilizado ampliamente Marca Modelo # Vı́deos en otros trabajos de análisis forense multimedia como por Apple iPad2 16 ejemplo [28], [29] o [30]. Ipad mini 16 iPhone 4 19 En la Tabla VI se muestra el Coeficiente de Silueta máximo iPhone 4S 28 (para cualquier métrica) en cada uno de los conjuntos de datos Asus Zenphone 2 Laser 19 utilizados en la experimentación. Además, las Tablas VII y Huawei Ascend G6-U10 19 VIII muestran el resultado de las 4 mejores métricas que han Honor 5C NEM-L51 19 dado buenos resultados en ambos conjuntos de datos que han P8 GRA-L09 19 sido calculados usando el Coeficiente de Silueta. P9 EVA-L09 19 P9 Lite VNS-L31 19 Tabla VI Lenovo Lenovo P70-A 19 COEFICIENTE DE SILUETA MEDIO MÁXIMO PARA CADA MÉTRICA EN LG D290 19 LOS CONJUNTOS DE DATOS DE LA EXPERIMENTACIÓN Microsoft Lumia 640 LTE 10 Universo Clase Coeficiente de Silueta OnePlus A3000 19 VISION ACID A3003 19 PathField Marca 0.042925 0.532204 Samsung Galaxy S III Mini GT-I8190 16 PathField Dispositivo -0.044301 0.405100 Galaxy S III Mini GT-I8190N 22 PathField Modelo -0.104576 0.405133 Galaxy S3 GT-I9300 19 PathFieldValue Marca 0.490063 0.586225 Galaxy S4 mini GT-I9195 19 PathFieldValue Dispositivo 0.492146 0.653571 Galaxy S5 SM-G900F 19 PathFieldValue Modelo 0.465963 0.653581 Galaxy Tab 3 GT-P5210 37 PathOrderField Marca 0.747372 0.907504 Galaxy Tab A SM-T555 16 PathOrderField Dispositivo 0.666355 0.805020 Galaxy Trend Plus GT-S7580 16 PathOrderField Modelo 0.609535 0.805028 Sony Xperia Z1 Compact D5503 19 PathOrderFieldValue Marca 0.585747 0.814979 Wiko Ridge 4G 11 PathOrderFieldValue Dispositivo 0.538426 0.795484 WhatsApp WhatsApp 644 PathOrderFieldValue Modelo 0.485761 0.795490 Xiaomi Redmi Note 3 19 Youtube Youtube 622 IV-C. Evaluación del Desempeño del procedimiento de la duración, etc. Se han eliminado algunos átomos: modifica- Análisis de Conglomerados tionTime, creationTime, entryCount, sampleCount, freeSpace Existen numerosas medidas de comparación de los resulta- y duration. En segundo lugar, como universo se han definido dos de un procedimiento de análisis de conglomerados [31]. todas las representaciones posibles de las etiquetas de los En este trabajo se hará uso del Índice Rand (RI) o medida de átomos, especı́ficamente las siguientes: PathField, PathField- Rand. Este ı́ndice es un valor perteneciente al intervalo [0, 1] Value, PathOrderField y PathOrderFieldValue. que calcula una medida de similitud entre dos conglomerados Para elegir la mejor representación del conjunto de datos a considerando todos los pares de muestras y contando los pares agrupar y la mejor métrica, las alternativas se han evaluado que se asignan en los mismos o diferentes conglomerados en siguiendo el criterio del Coeficiente de Silueta. La represen- los conglomerados predichos y verdaderos. 90 7 Tabla VII Tabla VIII TOP MÉTRICAS MUESTRA DE VISION TOP MÉTRICAS MUESTRA DE ACID Universo Clase Métrica Resultado Universo Clase Métrica Resultado PathField Marca Euclı́dea 0.0429 PathField Marca Euclı́dea 0.5322 PathField Marca Correlación -0.0029 PathField Marca Correlación 0.5238 PathField Marca Rogers-Tanimoto 0.0047 PathField Marca Rogers-Tanimoto 0.5238 PathField Marca Sokal-Sneath 0.0103 PathField Marca Sokal-Sneath 0.5243 PathField Dispositivo Euclı́dea -0.0443 PathField Dispositivo Euclı́dea 0.4046 PathField Dispositivo Correlación -0.0504 PathField Dispositivo Correlación 0.4048 PathField Dispositivo Rogers-Tanimoto -0.0503 PathField Dispositivo Rogers-Tanimoto 0.4050 PathField Dispositivo Sokal-Sneath -0.0488 PathField Dispositivo Sokal-Sneath 0.4050 PathField Modelo Euclı́dea -0.1045 PathField Modelo Euclı́dea 0.4051 PathField Modelo Correlación -0.1123 PathField Modelo Correlación 0.4048 PathField Modelo Rogers-Tanimoto -0.1127 PathField Modelo Rogers-Tanimoto 0.4050 PathField Modelo Sokal-Sneath -0.1112 PathField Modelo Sokal-Sneath 0.4050 PathFieldValue Marca Euclı́dea 0.3073 PathFieldValue Marca Euclı́dea 0.4127 PathFieldValue Marca Correlación 0.4900 PathFieldValue Marca Correlación 0.5862 PathFieldValue Marca Rogers-Tanimoto 0.4782 PathFieldValue Marca Rogers-Tanimoto 0.5781 PathFieldValue Marca Sokal-Sneath 0.4021 PathFieldValue Marca Sokal-Sneath 0.5349 PathFieldValue Dispositivo Euclı́dea 0.3042 PathFieldValue Dispositivo Euclı́dea 0.4521 PathFieldValue Dispositivo correlation 0.4921 PathFieldValue Dispositivo Correlación 0.6535 PathFieldValue Dispositivo Rogers-Tanimoto 0.4860 PathFieldValue Dispositivo Rogers-Tanimoto 0.6448 PathFieldValue Dispositivo Sokal-Sneath 0.4137 PathFieldValue Dispositivo Sokal-Sneath 0.5999 PathFieldValue Modelo Euclı́dea 0.2919 PathFieldValue Modelo Euclı́dea 0.4521 PathFieldValue Modelo Correlación 0.4659 PathFieldValue Modelo Correlación 0.6535 PathFieldValue Modelo Rogers-Tanimoto 0.4586 PathFieldValue Modelo Rogers-Tanimoto 0.6448 PathFieldValue Modelo Sokal-Sneath 0.3940 PathFieldValue Modelo Sokal-Sneath 0.5999 PathOrderField Marca Euclı́dea 0.7473 PathOrderField Marca Euclı́dea 0.8945 PathOrderField Marca Correlación 0.7253 PathOrderField Marca Correlación 0.8921 PathOrderField Marca Rogers-Tanimoto 0.7211 PathOrderField Marca Rogers-Tanimoto 0.8934 PathOrderField Marca Sokal-Sneath 0.7329 PathOrderField Marca Sokal-Sneath 0.9075 PathOrderField Dispositivo Euclı́dea 0.6663 PathOrderField Dispositivo Euclı́dea 0.8045 PathOrderField Dispositivo Correlación 0.6267 PathOrderField Dispositivo Correlación 0.8050 PathOrderField Dispositivo Rogers-Tanimoto 0.6337 PathOrderField Dispositivo Rogers-Tanimoto 0.8049 PathOrderField Dispositivo Sokal-Sneath 0.6480 PathOrderField Dispositivo Sokal-Sneath 0.8047 PathOrderField Modelo Euclı́dea 0.6095 PathOrderField Modelo Euclı́dea 0.8045 PathOrderField Modelo Correlación 0.5647 PathOrderField Modelo Correlación 0.8050 PathOrderField Modelo Rogers-Tanimoto 0.5705 PathOrderField Modelo Rogers-Tanimoto 0.8049 PathOrderField Modelo Sokal-Sneath 0.5849 PathOrderField Modelo Sokal-Sneath 0.8047 PathOrderFieldValue Marca Euclı́dea 0.3838 PathOrderFieldValue Marca Euclı́dea 0.6659 PathOrderFieldValue Marca Correlación 0.5857 PathOrderFieldValue Marca Correlación 0.8205 PathOrderFieldValue Marca Rogers-Tanimoto 0.5711 PathOrderFieldValue Marca Rogers-Tanimoto 0.8149 PathOrderFieldValue Marca Sokal-Sneath 0.4820 PathOrderFieldValue Marca Sokal-Sneath 0.7622 PathOrderFieldValue Dispositivo Euclı́dea 0.3545 PathOrderFieldValue Dispositivo Euclı́dea 0.6196 PathOrderFieldValue Dispositivo Correlación 0.5379 PathOrderFieldValue Dispositivo Correlación 0.7954 PathOrderFieldValue Dispositivo Rogers-Tanimoto 0.5384 PathOrderFieldValue Dispositivo Rogers-Tanimoto 0.7896 PathOrderFieldValue Dispositivo Sokal-Sneath 0.4673 PathOrderFieldValue Dispositivo Sokal-Sneath 0.7374 PathOrderFieldValue Modelo Euclı́dea 0.3230 PathOrderFieldValue Modelo Euclı́dea 0.6196 PathOrderFieldValue Modelo Correlación 0.4857 PathOrderFieldValue Modelo Correlación 0.7954 PathOrderFieldValue Modelo Rogers-Tanimoto 0.4823 PathOrderFieldValue Modelo Rogers-Tanimoto 0.7896 PathOrderFieldValue Modelo Sokal-Sneath 0.4239 PathOrderFieldValue Modelo Sokal-Sneath 0.7374 Tabla IX IV-D. Resultados del Algoritmo de Conglomerado Jerárqui- CONFIGURACIÓN DEL CONGLOMERADO JERÁRQUICO. co Parámetros Valores Todas las ejecuciones se han completado con las diferentes Universo PathField configuraciones, mostradas en las Tablas VII y VIII, para cada Métrica Euclı́dea uno de los conjuntos de datos utilizados en este trabajo. La Umbral 1.132 Tabla IX muestra el resumen de las condiciones experimen- Criterio Encadenamiento tales que se han utilizado en el algoritmo de conglomerados Encadenamiento Simple jerárquico. IV-D1. Resultados obtenidos para la muestra de VISION: Los resultados del experimento se muestran en la Figura 1 YouTube y WhatsApp se han identificado casi por completo donde se puede ver que el número de conglomerados que han en un conglomerado cada uno. La marca Apple identifica sido identificados, son 17 de los 13 modelos disponibles en el varios conglomerados con un comportamiento diferente al conjunto de datos de VISION. Los vı́deos de las plataformas de las otras marcas. Otros dispositivos de diferentes marcas, 91 8 por el contrario, no muestran ninguna diferencia con esta representación, como el Asus Zenfone, que produce vı́deos exactamente como los de Honor 5c y P8 de Huawei. Siempre es imposible distinguir un vı́deo de Asus de uno de Huawei con esta representación de los datos. Por último, la marca OnePlus también se distingue, como las marcas Sony o Wiko. Las Figuras 1 y 2 muestran el resultado de la agrupación de la muestra según marca y modelo respectivamente. Figura 3. Resultado del Procedimiento de Conglomerados Jerárquico por Marca para la Muestra de ACID. Tabla X CONGLOMERADO JERÁRQUICO AGRUPADOS POR MARCA. Parámetro VISION ACID #Marcas 13 11 #Conglomerados 17 11 RI 0.8839517587 0.8128426754 Homogeneidad 0.9195359995 0.8324380092 Figura 1. Conglomerados Jerárquico por Marca para la Muestra de VISION. Completitud 0.7970734665 0.8923993328 Figura 4. Resultado del Procedimiento de Conglomerados Jerárquico por Modelo para la Muestra de ACID Figura 2. Conglomerados Jerárquico por Modelo para la Muestra de VISION. Tabla XI IV-D2. Resultados Obtenidos para la Muestra de ACID: PROCEDIMIENTO DE CONGLOMERADOS JERÁRQUICO POR MODELO Como se puede ver en la Figura 3 hay 11 conglomerados de PARA LA MUESTRA DE ACID las 11 marcas que pertenecen al conjunto de datos. En este caso, a diferencia de la muestra de VISION, la marca Apple #Modelos 20 #Conglomerados 11 está correctamente clasificada en un solo grupo. Las marcas RI 0.8233019504 LG y Moto no pueden distinguirse con esta representación. Homogeneidad 0.778805082778 En cuanto a las cámaras digitales, se observa que las marcas Completitud 1.0 Canon y Olympus están correctamente clasificadas, pero no ocurre lo mismo con la marca Kodak, que no puede distin- guirse de la marca Samsung. los valores que han proporcionado mejores resultados en las El resumen de estos resultados por marca para las muestras experimentaciones. La Tabla XII muestra el resumen de las de VISION y ACID se muestran en la Tabla X. condiciones experimentales del algoritmo OPTICS. La Figura 4 muestra gráficamente los conglomerados que IV-E1. Resultados para la Muestra de VISION: Como se han generado según Modelo para la muestra de ACID y se puede ver en la Figura 5 el algoritmo ha generado 23 en la Tabla XI muestra los resultados numéricos asociados. conglomerados de las 13 marcas que pertenecen al conjunto de datos de VISION. IV-E. Resultados del Algoritmo OPTICS Al igual que en el caso del procedimiento de conglo- Todas las configuraciones mostradas en las Tablas VII y merados jerárquicos, la marca Apple necesita varios con- VIII se han utilizado para ejecutar OPTICS. En las ejecu- glomerados para identificarse, aunque un aspecto positivo a ciones se han fijado minPoints= 5 y  = 0,01 que son señalar es que en esos conglomerados no hay mezcla de 92 9 Tabla XII CONFIGURACIÓN DEL EXPERIMENTO CON OPTICS QUE PROPORCIONA MEJORES RESULTADOS. Parámetros Valores Universe PathOrderField Metric Roger-Stanimoto Epsilon 0.01 MinPoints 5 Figura 7. Resultado del Algoritmo OPTICS por Marca para la Muestra de ACID. Figura 5. Resultado del Algoritmo OPTICS por Marca para la Muestra de VISION. otra marca en esos conglomerados. Los vı́deos de YouTube o WhatsApp se clasifican principalmente en un conglomerados Figura 8. Resultado del Algoritmo OPTICS por Modelo para la Muestra de por modelo. Por lo tanto, el algoritmo es capaz de agrupar ACID. vı́deos nativos de dispositivos móviles y también vı́deos que Tabla XIII se han descargado de plataformas en lı́nea como YouTube o ALGORITMO OPTICS POR MARCA. WhatsApp. Los resultados de la experimentación por Modelo se pueden ver gráficamente en la Figura 6. Parámetro VISION ACID #Marcas 13 11 #Conglomerados 25 16 RI 0.8930095982 0.8839517587 Homogeneidad 0.9759981843 0.9195359995 Completitud 0.7737539175 0.7970734665 Tabla XIV ALGORITMO OPTICS POR MODELO. Parámetro VISION ACID #Modelos 13 16 #Conglomerados 25 20 RI 0.9210856392 0.9687571912 Homogeneidad 0.8758900022 0.9313286618 Completitud 0.8950395170 1.0 Figura 6. Resultado del Algoritmo OPTICS por Modelo para la Muestra de VISION. IV-E2. Resultados para la Muestra de ACID: En la V. CONCLUSIONES Figura 7 se puede ver que el algoritmo ha originado 16 En este trabajo se ha mostrado cómo la información de conglomerados de las 11 marcas disponibles en el conjunto de los archivos de vı́deo se puede explotar para agrupar vı́deos datos ACID. La clasificación es correcta tanto en los vı́deos por fuente de datos, sin formación previa de un clasificador. originados por dispositivos móviles como en los generados En la literatura actualmente disponible hay una gran escasez por cámaras digitales. Este algoritmo tiene mejores resultados en la investigación de la fuente de adquisición de vı́deo que que el algoritmo jerárquico. utiliza la estructura del contenedor de vı́deo para obtener las Los resultados detallados por Modelo se muestran en la caracterı́sticas. Figura 8 Un punto esencial de la metodologı́a propuesta ha sido la El resultado de la ejecución del Algoritmo OPTICS por correcta adquisición de los datos para su posterior procesado marcas para las muestras de VISION y ACID se pueden ver y tratamiento. Con una buena adquisición preliminar, el trata- en detalle en la Tabla XIII. miento posterior a través del uso de algoritmos de clasificación Los resultados del Algoritmo OPTICS por modelos se se ha visto eficaz a la hora de determinar mediante el uso de pueden ver en la Tabla XIV. técnicas de Minerı́a de Datos la agrupación final de lo mismos. 93 10 La metodologı́a propuesta ha sido validada a través de dos [10] P. Mullan, C. Riess, and F. Freiling, “Forensic Source Identification conjuntos de datos a los que ha sido aplicada con la misma se- Using JPEG Image Headers: The Case of Smartphones,” Digital Inves- lección de parámetros a fin de obtener resultados comparables. tigation, vol. 28, no. Supplement, pp. S68–S76, April 2019.[11] J. Lukáš, J. Fridrich, and M. Goljan, “Determining Digital Image Origin Los conjuntos de datos utilizados se han obtenido mediante Using Sensor Imperfections,” in Proceedings of the Image and Video el muestreo sobre las dos bases de datos más actuales de la Communications and Processing 2005, San Jose, California, USA, literatura. Las bases de datos contienen vı́deos de diversas March 2005, pp. 249–260.[12] ——, “Detecting Digital Image Forgeries Using Sensor Pattern Noise,” tecnologı́as: vı́deos nativos de dispositivos móviles, vı́deos in Proceedings of the SPIE-The International Society for Optical nativos de cámaras digitales y vı́deos que se han descargado Engineering, San Jose, California, USA, February 2006, pp. 362–372. de las plataformas WhatsApp y YouTube de tal manera que [13] M. Chen, J. Fridrich, and M. Goljan, “Digital Imaging Sensor Identifi-cation (Further Study),” in Proceedings of the SPIE Electronic Imaging, se ha intentado obtener muestras suficientemente significativas Security, Steganography, Watermarking of Multimedia Contents IX, para poder llevar a acabo el estudio. February 2007, pp. 1–14. La metodologı́a propuesta es lo suficientemente general [14] T. Filler, J. Fridrich, and M. Goljan, “Using Sensor Pattern Noisefor Camera Model Identification,” in Proceedings of the 15th IEEE como para poder aplicarla y adaptarla a otro tipos de datos International Conference on Image Processing, October 2008, pp. (modificación de la obtención preliminar de los mismos, 1296–1299. modificación de la representación primitiva mediante la com- [15] Y. Hu, B. Yu, and C. Jian, “Source Camera Identification Using LargeComponents of Sensor Pattern Noise,” in Proceedings of the Second binación de otros campos, etc.) , ası́ como aplicar otras International Conference on Computer Science and its Applications, técnicas de clasificación presentes en Análisis Multivariante Jeju Island, Korea, January 2010, pp. 1–5. (técnicas de clasificación no jerárquica, utilización de métodos [16] C.-T. Li, “Source Camera Identification Using Enhanced Sensor PatternNoise,” IEEE Transactions on Information Forensics and Security, basados en modelos estadı́sticos [25], entre otros). Como se ha vol. 5, no. 2, pp. 280–287, June 2010. visto en la los resultados numéricos obtenidos de las muestras, [17] L. J. Garcı́a Villalba, A. L. Sandoval Orozco, R. Ramos López, and los algoritmos de agrupación propuestos han proporcionado J. Hernández Castro, “Identification of Smartphone Brand and Modelvia Forensic Video Analysis,” Expert Systems with Applications, vol. 55, buenos resultados desde el punto de vista de la clasificación, pp. 59–69, August 2016. obteniéndose precisiones superiores al 89%. [18] “ISO/IEC 14496-12:2015: Coding of Audio-Visual Objects-Part 12: ISO base media file format,” https://www.iso.org/standard/68960.html, 2017. AGRADECIMIENTOS [19] T. Gloe, A. Fischer, and M. Kirchner, “Forensic Analysis of Video File Formats,” Digital Investigation, vol. 11, no. Supplement 1, pp. 68–76, This project has received funding from the European May 2014. Union’s Horizon 2020 research and innovation programme [20] M. Iuliani, D. Shullani, M. Fontani, S. Meucci, and A. Piva, “A under grant agreement No 700326. This paper has also Video Forensic Framework for the Unsupervised Analysis of MP4- Like File Container,” Institute of Electrical and Electronics Engineers received funding from THEIA (Techniques for Integrity and Transactions on Information Forensics and Security, vol. 14, no. 3, pp. authentication of multimedia files of mobile devices) UCM 635–645, March 2019. project (FEI-EU-19-04). [21] J. Song, K. Lee, Y. Lee, Wan, and H. Lee, “Integrity Verification of the Ordered data Structures in Manipulated Video Content,” Digital Investigation, vol. 18, pp. 1–7, September 2016. [22] “QuickTime File Format Specification: Overview,” https: //developer.apple.com/library/archive/documentation/QuickTime/ QTFF/QTFFChap1/qtff1.html, September 2016. [23] D. Shullani, M. Fontani, M. Iuliani, O. Alshaya, and A. Piva, “VISION: REFERENCIAS a Video and Image dataset for Source Identification,” EURASIP Journal [1] D. R. Hayes, A Practical Guide to Computer Forensics Investigations. on Information Security, vol. 1, no. 15, pp. 1–16, October 2017. Pearson Education, August 2015. [24] M. Esteban Cobo, “Herramienta para la Extracción Automática de [2] M. C. Stamm, M. Wu, and K. Liu, “Information Forensics: An Overview Metadatos en Vı́deos de Dispositivos Móviles,” Facultad de Informática, of the First Decade,” IEEE Access, vol. 1, pp. 167–200, March 2013. Universidad Complutense de Madrid, Spain, Trabajo de Fin de Grado, [3] P. Bestagini, M. Fontani, S. Milani, M. Barni, A. Piva, M. Tagliasacchi, August 2016. and S. Tubaro, “An Overview on Video Forensics,” in Proceedings of [25] R. A. Johnson and D. W. Wichern, Applied Multivariate Statistical the 20th European Signal Processing Conference, Bucharest, Romania, Analysis, 6th ed. Pearson Education Inc.(US), 2007. August 2012, pp. 1229–1233. [26] M. Ester, H. Kriegel, J. Sander, and X. Xiaowei, “A Density-Based [4] B. Hosler, O. Mayer, B. Bayar, X. Zhao, C. Chen, J. A. Shackleford, Algorithm for Discovering Clusters in Large Spatial Databases with and M. C. Stamm, “A Video Camera Model Identification System Using Noise,” in Proceedings of the Second International Conference on Deep Learning and Fusion,” in Proceedings of the IEEE International Knowledge Discovery and Data Mining, Portland, Oregon, September Conference on Acoustics, Speech and Signal Processing, Brighton, UK, 1996, pp. 226–231. May 2019, pp. 8271–8275. [27] M. Ankerst, M. Breunig, H. P. Kriegel, and J. Sander, “OPTICS: [5] B. Sevinc, H. Sencar, and N. Memon, “Classification of Digital Camera- Ordering Points To Identify the Clustering Structure,” in Proceedings of Models Based on Demosaicing Artifacts,” Digital Investigation, vol. 5, the ACM SIGMOD International Conference on Management of Data, no. 1-2, pp. 49–59, September 2008. New York, USA, June 1999, pp. 49–60. [6] H. Cao and A. C. Kot, “Accurate Detection of Demosaicing Regula- [28] S. Khan and T. Bianchi, “Fast Image Clustering Based on Camera rity for Digital Image Forensics,” IEEE Transactions on Information Fingerprint Ordering,” in Proceedings of the IEEE International Confe- Forensics and Security, vol. 4, no. 4, pp. 899–910, December 2009. rence on Multimedia and Expo, Shanghai, China, July 2019, pp. 766– [7] X. Zhao and M. C. Stamm, “Computationally Efficient Demosaicing 771. Filter Estimation for Forensic Camera Model Identification,” in Pro- [29] L. J. Garcı́a Villalba, A. L. Sandoval Orozco, and J. Rosales Corripio, ceedings of the IEEE International Conference on Image Processing, “Smartphone Image Clustering,” Expert Systems with Applications, Phoenix, Arizona, USA, September 2016, pp. 151–155. vol. 42, no. 4, pp. 1927–1940, March 2015. [8] M. A. Qureshi, C.-H. Deriche, M. Choi, H.-Y. Lee, and H.-K. Lee, [30] F. Marra, G. Poggi, C. Sansone, and L. Verdoliva, “Blind PRNU- “Estimation of Color Modification in Digital Images by CFA Pattern Based Image Clustering for Source Identification,” IEEE Transactions Change,” Forensic Science International, vol. 226, no. 1-3, pp. 94–105, on Information Forensics and Security, vol. 12, no. 9, pp. 2197–2211, March 2013. September 2017. [9] F. M.Peng and D.-L. Zhou, “Discriminating Natural Images and Com- [31] N. X. Vinh, J. Epps, and J. Bailey, “Information Theoretic Measures puter Generated Graphics Based on the Impact of CFA Interpolation for Clusterings Comparison: Variants, Properties, Normalization and on the Correlation of PRNU,” Digital Investigation, vol. 11, no. 2, pp. Correction for Chance,” Journal of Machine Learning Research, vol. 11, 111–119, June 2014. pp. 2837–2854, October 2010. 94 11 Raquel Ramos López received his Computer Science Engineering degree Luis Javier Garcı́a Villalba received a Telecommunication Engineering and a M.S. degree in Computer Science, both from the Universidad Complu- degree from the Universidad de Málaga (Spain) in 1993 and holds a tense of Madrid. She is currently a Ph.D. student of Computer Engineering in Ph.D. in Computer Science (1999) from the Universidad Politécnica de the GASS Group (Group of Analysis, Security and Systems) in Universidad Madrid (Spain). Visiting Scholar at COSIC (Computer Security and In- Complutense de Madrid. Her main research interests are information security dustrial Cryptography, Department of Electrical Engineering, Faculty of and its applications. Engineering, Katholieke Universiteit Leuven, Belgium) in 2000 and Visiting Scientist at IBM Research Division (IBM Almaden Research Center, San Elena Almaraz Luengo received a Mathematics degree from the University Jose, CA, USA) in 2001 and 2002, he is currently Associate Professor Complutense of Madrid in 2005, a Statistical Sciences and Techniques degree of the Department of Software Engineering and Artificial Intelligence at from the University Complutense of Madrid in 2007 and a Bussines and the Universidad Complutense de Madrid (UCM) and Head of Complutense Administration degree from the National Distance Education University in Research Group GASS (Group of Analysis, Security and Systems) which 2015. She is Doctor in Mathematics from the University Complutense of is located in the Faculty of Computer Science and Engineering at the Madrid since 2007 and hold a Master’s Degree in Advanced Mathematics UCM Campus. His professional experience includes the management of with specialization in Statistics and Operations Research, from the National both national and international research projects and both public (Spanish Distance Education University in 2010. She is currently an Assistant Professor Ministry of R&D, Spanish Ministry of Defence, Horizon 2020 - European in the Department of Statistic and Operational Research in the Faculty Commission, . . .) and private financing (Hitachi, IBM, Nokia, Safelayer of Mathematics Sciences of the University Complutense of Madrid. Her Secure Communications, TB Solutions Security, . . .). Author or co-author main interest are statistic techniques, probability, information security and of numerous international publications is editor or guest editor of numerous applications. journals such as Entropy MPDI, Future Generation Computer Systems, FutureInternet MDPI, IEEE Latin America Transactions, IET Communications, IET Networks, IET Wireless Sensor Systems, International Journal of Ad Hoc and Ana Lucila Sandoval Orozco received a Computer Science Engineering Ubiquitous Computing, International Journal of Multimedia and Ubiquitous degree from the Universidad Autónoma del Caribe (Colombia) in 2001. Engineering (IJMUE), Journal of Supercomputing, Sensors MDPI, etc. She holds a Specialization Course in Computer Networks (2006) from the Universidad del Norte (Colombia), and holds a M.Sc. in Research in Computer Science (2009) and a Ph.D. in Computer Science (2014), both from the Universidad Complutense de Madrid (Spain). She is currently a postdoctoral researcher at Universidad Complutense de Madrid (Spain). Her main research interests are coding theory, information security and its applications. 95 Análisis de amenazas y vulnerabilidades Modelo SOCIA. Una reflexión conceptual y práctica desde la perspectiva del adversario Jeimy J. Cano M.1 Resumen— El objetivo de este artículo es presentar una propuesta En consecuencia, contar con prácticas estándares de metodológica denominada SOCIA para modelar al adversario y sus seguridad de la información, si bien permite a las movimientos inesperados a partir de la incertidumbre, que incluyendo organizaciones asegurar un espacio de acción frente a las las reflexiones de los diferentes actores organizacionales, permite elaborar una visión diferente y complementaria para comprender amenazas conocidas, deja poco margen para que puedan mejor los retos y acciones de los atacantes. Para ello, se aplicó el responder o anticipar, las propuestas inciertas de los agresores, instrumento desarrollado por cada uno de los elementos que que por lo general terminan sorprendiendo tanto a los constituyen la propuesta en el departamento de auditoría de una especialistas en seguridad de la información, como a las institución financiera, que organizado en grupos de trabajo diferentes áreas de las empresas [3, 25]. Lo anterior revela las interdisciplinarios, procedió a analizar varios casos de ciberataques limitaciones inherentes de los estándares conocidos, que en el sector bancario. Los resultados del ejercicio permiten construir una visión más elaborada y enriquecida de los riesgos actuales desde implica una revisión en detalle de los nuevos entornos de diferentes perspectivas para realizar simulaciones que desafían los operación de las empresas, mediados por redes sociales [30], mecanismos de seguridad y control actuales, y así poner de para repensar nuevamente dichas prácticas y pensar ahora, en manifiesto posibles puntos ciegos en sus procesos y en la el desarrollo de capacidades distintivas para atender los retos infraestructura tecnológica actual. En consecuencia, la SOCIA, crea de la protección de la información. un lenguaje común para elaborar una comprensión de la dinámica del adversario, no sólo a partir de su capacidad técnica, sino de sus técnicas y estrategias para configurar la acción no autorizada, Dicho lo anterior, se hace necesario reflexionar sobre la aumentando la conciencia de la empresa sobre las capacidades del manera de incluir la figura del adversario en los marcos de agresor y su impacto en la promesa de valor de la empresa. seguridad y control disponibles a la fecha, considerando que éste y sus técnicas son el nuevo reto a comprender, atender y Palabras clave — Adversario, Amenazas emergentes, superar, de tal forma, que no sólo sea la vista del analista Consciencia situacional, Estándares, Confianza tradicional de seguridad de la información, basado en un listado de controles el que atienda las realidades emergentes I. INTRODUCCIÓN del contexto organizacional [26], sino que éste desarrolle una CON el pasar del tiempo, las prácticas de seguridad de la capacidad de análisis, prospectiva y aprendizaje que le permita información han venido evolucionando tratando de caminar en terrenos algunas veces inciertos y en otros, establecer una nueva frontera de protección, que demore al inesperados, para tratar de descifrar las estrategias de los atacante y trate de disuadirlo de sus acciones contrarias frente atacantes y así, proponer acciones alternativas de mitigación o a los activos de información estratégicos de las contención, teniendo presente que en algún momento el organizaciones. En este ejercicio, se han actualizado las agresor va a tener éxito [4]. normas ISO, los marcos de trabajo disponibles en tecnología de información, así como los listados de controles que las De acuerdo con lo expresado previamente, este artículo empresas desarrollan para establecer su línea base de presenta una propuesta conceptual y práctica para modelar el operaciones y sobre la cual, cada cierto tiempo se adelanta su adversario. Su diseño busca complementar los análisis ya validación de efectividad por parte de las áreas de auditoría de existentes de los entornos de las organizaciones, para que tecnología de información [1]. apalancados en una visión sistémica de riesgos (conocidos, latentes, focales y emergentes) [5], se puedan plantear Si bien estas actividades, se han convertido en escenarios de análisis prospectivos, basados en casos “commodities” de la práctica de seguridad de la información, previamente documentados, experiencias propias de la el atacante no ha caído en esa realidad y por el contrario, ha industria o alternativas novedosas que los propios analistas de avanzado en su capacidad de afectación y agresión, en niveles seguridad de la información u otros perfiles que puedan más sofisticados, menos visibles y más efectivos, adoptando sugerir, con lo cual se habilita a la organización para anticipar las nuevas posibilidades tecnológicas y explorado nuevas amenazas emergentes que posiblemente no se hayan vulnerabilidades del entorno [24], fruto de la mayor densidad identificado previamente. digital disponible ahora en un escenario más hiperconectado y tecnológicamente modificado [2, 19]. Por tanto, este documento para dar cuenta de sus reflexiones se organiza de la siguiente manera: en la sección II se presenta _________________________________________________________________ una revisión y análisis de algunas propuestas actuales sobre el Jeimy J. Cano, Profesor Universitario & Consultor Internacional, Bogotá, modelaje de amenazas; en la sección III se introduce el Colombia, jjcano@yahoo.com https://doi.org/10.12804/si9789587844337.09 97 modelo SOCIA como una propuesta conceptual que sugiere 2013. Es una base de conocimientos de acceso global sobre una vista ágil e inclusiva del adversario. En la sección IV se tácticas y técnicas adversarias basadas en observaciones del presenta y explica el uso del modelo en un caso particular mundo real. utilizado en un taller en una entidad financiera, y finalmente en la sección V se plantean algunas conclusiones sobre el A continuación, se detallan cada una de ellas. modelo presentado y su aplicación. A. STRIDE II. MODELANDO LAS AMENAZAS. REVISIÓN DE ALGUNAS STRIDE, es el acrónimo de seis amenazas claves (en inglés) PROPUESTAS VIGENTES que establece este método para modelar las posibles acciones Entender al adversario no es un tema nuevo en seguridad de de los adversarios: spoofing, tampering, repudiation, la información. Es una dinámica que en muchas ocasiones se information disclosure, denial of service y elevation of usa para tratar de advertir alguna violación de un control o privilege, que traducido al español se leería como suplantar, acción adversa de un individuo frente a la protección de un alterar, repudiar, revelar información, denegar el servicio, y activo. En este sentido, los profesionales de seguridad de la elevar privilegios. Esta propuesta puede ser utilizada desde información encuentran en la forma de pensar del atacante, múltiples enfoques: como una forma para pensar como el una vista de aquello que puede salir distinto a lo planeado, y atacante y establecer maneras de vulnerar el sistema; como poder ver cómo es posible superar o afectar la medida de una forma de analizar los elementos del sistema y sus protección previamente instalada y probada en el sistema o vulnerabilidades o como una estrategia para atacar las activo protegido [23]. interacciones que tiene el objeto bajo evaluación con sus otros componentes [7]. Sin perjuicio de lo anterior, y considerando la inestabilidad del entorno de operaciones actual de las organizaciones, se Con este método, los analistas o personas participantes de la han venido desarrollando propuestas alternativas que buscan revisión del sistema bajo evaluación procuran establecer modelar las actividades y tácticas de los atacantes, tratando de aquellas cosas que pueden salir mal con el sistema, los establecer algunos parámetros de análisis detallados, momentos o acciones que se pueden materializar y afectar el generalmente basados en ataques previos documentados, con adecuado funcionamiento del mismo. De igual forma, por el fin de establecer un perfil del agresor que pueda ser cada amenaza enumerada se tiene el principio y/o servicio de visualizado desde las estrategias utilizadas y las acciones seguridad que se requiere asegurar indicado entre paréntesis: técnicas realizadas, para configurar una “firma” del adversario spoofing (autenticación), tampering (integridad), repudiation que ilustre a los analistas cómo es su modo de operación y así (no repudio), information disclosure (confidencialidad), denial advertir, las acciones de mitigación o contención necesarias de of service (disponibilidad) y elevation of privilege forma anticipada [6]. (autorización) [6]. Dentro del listado de propuestas de modelaje de amenazas Adelantar un ejercicio siguiendo lo sugerido por STRIDE, se encuentran las siguientes: [22] permite tener un escenario base de amenazas en los diferentes • STRIDE – Inventado por Loren Kohnfelder y Praerit puntos del sistema objetivo, los cuales son insumo para Garg en 1999 y adoptado por Microsoft en 2002. Ha entender los impactos de su malfuncionamiento, uso evolucionado con el tiempo incluyendo las variantes STRIDE inadecuado o falla, así como para plantear los mecanismos de por elemento y STRIDE por interacción. seguridad y control requeridos para hacerlo más resistente a • P.A.S.T.A (Process for Attack Simulation and Threat los ataques. El método prevé algunos controles para cada uno Analysis) - es un marco de modelado de amenazas centrado en de los principios y servicios de seguridad asociados con las el riesgo desarrollado en 2012 por Tony Uceda Vélez. amenazas. Contiene siete etapas, cada una con múltiples actividades. B. P.A.S.T.A • Attack Trees - Desarrollado por Bruce Schneider en El proceso de simulación de ataques y análisis de amenazas 1999, se aplicó inicialmente como método propio. A la fecha establece siete (7) pasos metodológicos claves para establecer se ha combinado con otros métodos y marcos. el marco de acción frente a situaciones inciertas del sistema o • CyberKill Chain – Desarrollado por la firma Lockheed componente que se analiza: [8] Martin en 2011. Es una metodología aceptada por la industria • Definir los objetivos – Este primer paso incluye detallar para entender cómo un atacante llevará a cabo las actividades los objetivos de negocio que desarrolla el sistema, enumerar necesarias para causar daño a una organización. los requerimientos de seguridad y cumplimiento necesarios y • MITRE ATT&CK (Tácticas, Técnicas y Conocimiento el análisis de impacto en el negocio si este componente o pieza Común de Adversarios) – Desarrollado por el MITRE2 en de software falla. • Definir el alcance técnico – Esta fase demanda establecer 2 La Corporación MITRE fue constituida en 1958 como una compañía los límites técnicos de la solución bajo análisis, con el fin de privada sin fines de lucro para proporcionar orientación técnica y de identificar los recursos tangibles que pueden destinarse a la ingeniería al gobierno federal norteamericano. Fuente: https://www.mitre.org/about/our-history realización de una amenaza determinada. Con esta 98 información se puede tener una mayor claridad en la Adelantar un análisis con esta propuesta metodológica, comprensión de las oportunidades que un atacante puede tener demanda un conocimiento detallado del sistema que se contra los activos de un entorno objetivo. analiza, dado que no se ofrece mayor detalle sobre submetas, • Descomponer el sistema – En este paso el sistema ataques o riesgos que se pueden materializar. Por lo general, analizado se divide en componentes individuales que pueden esta estrategia de modelaje de amenazas se usa en conjunto ser atacados de forma única por un atacante. Este ejercicio con otras, con el fin de poder comprender con detalle la permite a un adversario descomponer el sistema objetivo en interacción del sistema que se analiza y las implicaciones de partes para identificar la mejor forma para atacarlo. seguridad de sus diferentes componentes. • Análisis de amenazas – Esta parte del modelo, considerando la etapa anterior, establecen las razones del por D. Cyberkill Chain qué y cómo se pueden realizar los ataques al sistema. Para ello Esta propuesta de modelaje del adversario consta de siete se desarrollan preguntas orientadoras que ayuden a visualizar pasos en los cuales se analiza tanto la postura del adversario los motivos que hay detrás del ataque al entorno del sistema. como la del defensor. De lo anterior, resulta un ejercicio • Conocimiento de vulnerabilidades – En este punto del complementario para establecer posibles marcos de actuación proceso, considerando la información recabada en los pasos que se pueden resolver bien, desde la implementación o previos, se identifican las fallas de diseño o funcionalidad de actualización de tecnología, pasando por la gestión de los cada uno de los componentes del sistema, ejercicio que procesos de negocio y su seguridad, la revisión de la cultura requiere experiencia técnica y experticia práctica que permita organizacional o incluso, desde la generación de escenarios identificar las vulnerabilidades propias de sistema objetivo y posibles que reten las condiciones vigentes de seguridad y sus relaciones. control de la organización. • Construir el árbol de ataques – El objetivo de esta etapa se centra en determinar la viabilidad de materializar las Las etapas son: [10] vulnerabilidades identificadas en el paso anterior. El éxito de 1. Reconocimiento: exploración intencional del objetivo este paso está en la capacidad del profesional que adelanta las para identificar posibles vulnerabilidades. pruebas de vulneración para demostrar que las debilidades 2. Militarización: el adversario crea código malicioso o identificadas son realmente explotables. condiciones particulares adaptadas a las debilidades de los • Análisis de riesgos e impactos – Esta última fase el objetivos. modelador de amenazas toma los resultados de la fase anterior 3. Entrega: el adversario ubica el código malicioso o y cuantifica los índices de probabilidad de éxito en algunos de configura el escenario en el objetivo. los ataques definidos, con el fin de establecer el nivel de 4. Explotación: se ejecuta el código malicioso o se riesgo de exposición que tiene el sistema, así como los materializa el escenario estudiado según el plan del adversario. impactos en sus objetivos de negocio definidos previamente. 5. Instalación: la condición adversa se enraíza y conecta en el contexto del objetivo. Adelantar un ejercicio de análisis de amenazas y 6. Comando y control: el código malicioso se comunica con vulnerabilidades de un sistema de información o aplicación los sistemas del adversario y se crea una condición de control utilizando P.A.S.T.A, ofrece una visual detallada de sus remoto. interacciones, las implicaciones técnicas y de negocio que son 7. Acción sobre los objetivos: el código malicioso realiza la claves tener en cuenta y los impactos derivados de la posible acción planeada o el escenario desarrolla y materializa los materialización de un evento no deseado. En esta dinámica efectos deseados. deben participar equipos de trabajo de las áreas afectadas y los profesionales de seguridad con el fin de establecer una vista Asumir un enfoque desde el adversario, como la cadena común de los retos que implica el sistema y sus posibles fallas Cyber Kill, permite no solo retar los conocimientos y prácticas de identificadas. estándares generalmente adoptadas en las organizaciones, sino que aumenta su capacidad para entender y responder de C. Attack Trees manera dinámica a las acciones no autorizadas de terceros que Los árboles de ataque son esencialmente diagramas que quieran resquebrajar la confianza de sus clientes en su entorno representan ataques a un sistema en forma de árbol. La raíz del de operaciones y desarrollo de actividad comercial. árbol es el objetivo del ataque, y las hojas son las formas de lograr ese objetivo. Cada meta se representa como un árbol E. MITRE ATT&CK separado. Por lo tanto, el análisis de amenazas del sistema De manera general se puede expresar que la propuesta produce un conjunto de árboles de ataque. Para tener ATT&CK es un modelo de comportamiento que consiste en diferentes opciones de ataque se incorporan nodos “AND” los siguientes componentes básicos: [11] para representar los pasos requeridos para concretar el ataque, • Táctica, que denota objetivos tácticos de los adversarios a y los “OR” para indicar alternativas para conseguir el corto plazo durante un ataque. resultado esperado por el agresor [9]. • Técnicas, donde se describen los medios por los cuales los adversarios logran sus metas tácticas. • Los usos documentados de las técnicas de los 99 adversarios, y otros metadatos relevantes asociados con las Tabla 1. técnicas. Resumen de características y limitaciones de las propuesta para modelar amenazas Este modelo se puede utilizar para: [11] Propuesta Características Limitaciones • Simular al adversario – Establecer escenarios para metodológica probar y verificar las contramedidas instaladas en las STRIDE  Fácil de usar  Demanda alto organizaciones, frente a técnicas concretas de los adversarios y  Focaliza la consumo de estrategia de tiempo y recursos sus posibles impactos. mitigación  Requiere • Aplicar la lógica del adversario – Asumir el papel de un  Uno de los más conocimiento agresor sin utilizar información de amenazas conocidas, con el usados detallado del fin de desarrollar una operación sin ser detectado, para mostrar sistema a modelar el impacto de una operación exitosa y evaluar la capacidad de P.A.S.T.A  Focaliza la  Demandante en los detección y reacción de una organización frente a estos estrategia de detalles del eventos. mitigación sistema que se  Motiva la analiza • Desarrollar analítica de comportamiento - Usarlo como colaboración entre  Exige una herramienta para construir y probar análisis de los participantes documentación comportamiento para detectar actividad potencialmente  Facilita el plan detallada de las maliciosa dentro de un ambiente y establecer acciones priorizado de partes del sistema concretas frente a las mismas. mitigación y sus riesgos • Valorar brechas defensivas – Considerando un modelo Attack trees  Permite ver con  Requiere de adversario concreto centrado en el comportamiento, validar claridad las posibles conocimiento fallas del sistema detallado del las herramientas, el monitoreo y mitigación de brechas en las  Fácil de usar sistema para su medidas defensivas existentes dentro de la empresa de una  Identifica las análisis organización. Las brechas identificadas configuran una forma estrategias de  No ofrece de priorizar las inversiones para la mejora del programa de mitigación orientación sobre seguridad. relevantes riesgos, fallas o • Enriquecer la inteligencia de amenazas – Permite a la problemas a organización entender y documentar los perfiles de los grupos analizar Cyberkill  Permite comprender  Requiere de adversarios desde una perspectiva de comportamiento que es Chain los pasos del conocimiento agnóstica de las herramientas que el grupo pueda utilizar. atacante experto  Establece una vista  Se pueden El uso de cualquiera de estas propuestas para modelar del adversario y sus presentar amenazas y adversarios establece un marco general de acción acciones conflictos de que permite a los analistas de seguridad de la información ir  Habilita a la lenguaje entre más allá de la vista tradicional de controles y abrirse a un organización para especialistas reconocer técnicos de los ejercicio más detallado y relacional, que lo habilita para actividades sistemas bajo comprender mejor los riesgos emergentes en sus entornos maliciosas análisis y las particulares. Las diferencias entre ellas se encuentran en la personas de las aplicación de estas, las cuales demandan esfuerzos áreas de negocio particularmente intensivos en dedicación y recursos, con el fin MITRE  Detalla el  Toma tiempo la de lograr el objetivo deseado. ATT&CK comportamiento del caracterización del atacante perfil requerido  Establece con  Asume un Lo anterior implica que seleccionar alguno de ellos, exige claridad las técnicas conocimiento conocer la agilidad de la solución requerida, sus tiempos de y tácticas que puede técnico requerido despliegue, los diferentes equipos de trabajo involucrados, así usar para comprender como el apetito de riesgo corporativo establecido por la alta  Basado en el patrón del gerencia, con el fin de identificar el enfoque que mejor se conocimiento cierto adversario ajusta a la necesidad de la organización. A manera de resumen de eventos y amenazas podemos detallar en la tabla 1, cada una de estas propuestas materializadas con sus características y limitaciones. Fuente: Elaboración propia. III. MODELO SOCIA. UNA PROPUESTA CONCEPTUAL PARA MODELAR EL ADVERSARIO Los modelos previamente revisados establecen una serie de condiciones y características que por lo general demandan pasos detallados y procedimientos específicos para lograr los 100 objetivos trazados en el modelamiento de las amenazas y de los adversarios. En este sentido, aplicar cualquiera de ellos, exige una planeación detallada, entregables concretos y tiempos definidos para lograr esa visión novedosa y emergente que revele los puntos ciegos en la evaluación de vulnerabilidades y brechas de seguridad. En este entendido, se hace necesario contar con una herramienta liviana, sencilla, efectiva y funcional, que sin pretender desarrollar los alcances que tienen las propuestas analizadas previamente, si ofrezca una forma ágil de lograr un ejercicio base que permita entender el adversario, no como un elemento abierto en un escenario, sino como una realidad evidente y tangible dentro de la dinámica de los procesos, con un mínimo de variables a revisar. Considerando lo anterior, es Figura 1. Modelo SOCIA. Fuente: Elaboración propia posible plantear una reflexión enriquecida con los participantes claves del proceso de negocio y los sistemas de A. Supuestos información que se quieren analizar. Esta primera variable establece las consideraciones básicas de las condiciones y perfil de adversario. En este punto se Siguiendo las reflexiones de Do, Martini y Raymond Choo busca conocer un poco el contexto donde el adversario se [12] relacionadas con el papel del adversario en las mueve, sus conocimientos y recursos disponibles, y para ello, investigaciones aplicadas en seguridad, y las consideraciones 3 se establecen los siguientes tres (3) elementos con sus del Common Sense Security Framework (CSSF), se han preguntas claves: identificado cinco (5) variables claves para desarrollar una • Entorno: Interno/Externo - ¿Dónde puede estar ubicado propuesta metodológica para modelar el atacante denominada el adversario: dentro o fuera? SOCIA. SOCIA es una apuesta conceptual de uso ágil para • Recursos: Accesos/Equipo - ¿Tiene accesos disponibles utilizar en el contexto corporativo, con el fin de crear bien sea físicos o lógicos, y cuenta con el equipo necesario conciencia situacional [13] y reflexiones prospectivas sobre para lograr sus propósitos? posibles adversarios que pueden tener las organizaciones. Para • Conocimiento: Alto/Medio/Bajo - ¿El adversario cuenta lograrlo, se parte de la revisión de situaciones previamente con los conocimientos técnicos y prácticos requeridos para materializadas tanto a nivel nacional como internacional, que concretar sus acciones no autorizadas? permitan una visión sistémica de los retos que plantea un atacante, y la participación de diferentes perfiles de colaboradores en la empresa [14,17]. B. Objetivos Esta segunda variable busca conocer las motivaciones y SOCIA es el acrónimo que vincula cinco variables, a saber: datos que son de interés del adversario. En este momento se Supuestos, Objetivos, Capacidades, Impactos y Aprendizajes indaga sobre qué tipo de datos son realmente de interés por (figura 1). A continuación, se detallan cada una de estas parte del atacante, y ver si es posible su monetización. Es claro variables que configuran una forma de modelar posibles que no siempre el agresor busca un lucro económico, sino que adversarios en el contexto de las organizaciones modernas, sus motivaciones puedes ser políticas o ideológicas. Los considerando la estrategia metodológica del CSSF, de utilizar elementos claves y sus preguntas son: tres (3) elementos claves para contextualizar el tema, así como • Motivación: ¿Por qué? - ¿Cuál es la motivación del sus respectivas preguntas orientadoras. adversario para atacar a la organización? • Activo: ¿Qué tipo de datos? - ¿Qué tipo de datos pueden ser de su interés? • Monetización: ¿Cuánto puede costar? - ¿Esta información se puede monetizar rápidamente en el mercado? C. Capacidades Esta tercera variable revela los patrones de aprendizaje/desaprendizaje que el atacante tiene para producir un daño. En este segmento se evalúa la acción del agresor, cómo se apalanca para concretar sus acciones, y que tipo de afectación ha logrado. Para ello, se detallan a continuación los elementos claves y sus preguntas: 3 Detalles en: https://commonsenseframework.org/ 101 • Acción: Pasiva/Activa - ¿La actuación del adversario será digitales emergentes de una entidad financiera en Colombia, pasiva o activa? realizado con los profesionales del área de la auditoría interna. • Plataforma: Local/Ecosistema - ¿Sus acciones estarán En el desarrollo del taller de aplicación los auditores con apalancadas localmente o con apoyo de un ecosistema diferentes profesiones como Contadores Públicos, Ingenieros público? de Sistemas, Administradores de Empresas, entre otros, se • Afectación: Baja/Media/Alta - ¿El nivel de afectación distribuyeron en tres grupos de trabajo interdisciplinarios con que puede generar es alto, medio o bajo? el fin de estudiar tres (3) casos de ciberataques internacionales. El objetivo fue conceptualizar las posturas de los atacantes y concretar reflexiones prácticas al interior de la D. Impactos dinámica de la entidad y su factibilidad, las cuales socializaron Esta cuarta variable revisa las consecuencias concretas que al final del ejercicio. el adversario puede ocasionar con sus capacidades. Es un ejercicio de mirar hacia el interior de la empresa donde se Para ello, se diseñó un formato de trabajo (ver figura 2), que pueden ocasionar las perturbaciones y pérdidas que afecten la integra las variables del modelo y sus elementos asociados, en organización a nivel del negocio, los procesos y la el que se recogieron, con el apoyo del facilitador del ejercicio, infraestructura. Los elementos claves y sus preguntas las inquietudes y conversaciones que surgieron en cada equipo orientadoras son: de trabajo durante el estudio del caso, cuya información fue • Negocio: Parcial/Total - ¿El negocio puede sufrir proporcionada y complementada mediante búsquedas en internet. afectaciones parciales o totales? • Procesos: Parcial/Total - ¿Los procesos pueden ser afectados de forma parcial o total? • Infraestructura: Parcial/Total - ¿La infraestructura se puede comprometer parcial o totalmente? E. Aprendizajes La quinta y última variable explora las lecciones aprendidas, las acciones de remediación y la actualización de la postura de seguridad que la organización debe incorporar, para ajustar sus mecanismos de defensa y tratar de anticipar nuevos eventos en el futuro. Para ello, se detallan a renglón seguido los elementos claves y sus preguntas: Figura 2. SOCIA. Formato de trabajo. Fuente: Elaboración • Lecciones: Aprendidas/por aprender - Frente a un propia. atacante con estas características, ¿qué lecciones por aprender tenemos? Uno de los casos revisados durante el ejercicio, fue el • ciberataque realizado recientemente al Banco Central de Remediación: Negocio/Proceso/Infraestructura - México – BANXICO, en el cual terceros no identificados y ¿Tenemos claros cómo deben ser los procesos de contención y altamente documentados en el sistema de pagos interbancarios remediación del negocio, el proceso y la infraestructura? – SPEI, lograron desarrollar una acción coordinada con • Postura: Defender/Anticipar - ¿Cómo debe cambiar la diferentes actores para robar dinero de bancos comerciales en postura de seguridad de la organización: defender o anticipar? este país. Estas cinco (5) variables, si bien no buscan ser exhaustivas A manera de ejemplo se presenta a continuación el ni detalladas en su desarrollo, sí facilitan una conversación resultado obtenido por uno de los equipos de trabajo (ver abierta e incluyente desde los diferentes actores de la empresa, figura 3), así como algunas de sus reflexiones realizadas una con el fin de revelar posibles puntos ciegos en su dinámica de vez concluida su presentación sobre el caso, siguiendo los la seguridad y ciberseguridad, a fin de que se posibilite la elementos propios del Modelo SOCIA. generación de una consciencia colectiva sobre los posibles adversarios y la manera como pueden afectarla; y de la misma forma, ver estrategias de defensa y anticipación distintas, que enriquezcan la batería disponible de estrategias de protección de los activos de información críticos de las organizaciones [27]. IV. APLICACIÓN DEL MODELO SOCIA. UNA VISIÓN PRÁCTICA DE SU USO El Modelo SOCIA recientemente se utilizó en un ejercicio académico de revisión y análisis del escenario de amenazas 102 marco de confianza regulado cimentado sobre controles. Bajo este entendido, las empresas han logrado movilizar iniciativas de negocio innovadoras que habilitan a sus clientes, para lanzarse a concretar una interacción cada vez más digital y con menos intervención humana [15, 20]. No obstante lo anterior, la evolución de los adversarios y sus inesperadas formas de concretar sus acciones adversas genera tensiones sobre los estándares de seguridad y control vigentes, creando una zona de incertidumbre donde es ne cesario repensar la manera como se entiende ahora la Figura 3. SOCIA. Resumen del resultado - Caso protección de la información en las empresas [16, 18]. Esto es, BANXICO. Fuente: Elaboración propia habilitar espacios de reflexión basados en los inciertos e inestabilidades del entorno, con la participación de diferentes Luego de presentar este análisis, los diferentes miembros perfiles de personas en las organizaciones, para encontrar del equipo hicieron comentarios y afirmaciones sobre lo puntos de vista diferentes a las certezas y definiciones que revisado que se pueden resumir como sigue: ofrecen las buenas prácticas internacionales.  Es posible que podamos tener un atacante como estos y, por tanto, nos exige un ejercicio de coordinación con los Incluir al adversario como un nuevo elemento dentro de las supervisores del sector, así como con el Banco Central. reflexiones de protección de los activos digitales de las  Es necesario adelantar simulaciones y ejercicios de este empresas, abre una ventana de aprendizaje y desaprendizaje, tipo, para prepararnos, junto con el sector en general, lo que busca crear espacios complementarios de discusión, que cual demanda enriquecer la postura de seguridad y control permitan contrastar las lecturas de los riesgos conocidos actual de la entidad. provistas por los estándares, frente a las posibilidades y  No podemos confiarnos en los mecanismos de seguridad escenarios alternativos que ofrece una propuesta metodológica y control que tenemos instalados en este momento, es necesario crear condiciones adversas dentro de la como SOCIA, donde el agresor, lejos de ser un desconocido plataforma actual, para ver cómo reacciona y qué puntos para el análisis, se convierte en materia de estudio para crear ciegos tenemos a la fecha que son relevantes para asegurar una consciencia situacional sobre posibles puntos ciegos que la operación de la institución. actualmente pueden estar vigentes en la dinámica de la empresa [28]. De otra parte, los equipos interdisciplinarios que se conformaron para desarrollar el ejercicio utilizando SOCIA Vincular al atacante como materia de estudio, no es una reconocieron puntos de vista distintos, creando nuevas invitación ni sugerencia para que las áreas de oportunidades de actividades conjuntas, con estrategias seguridad/ciberseguridad, o auditoría, se conviertan en los complementarias, que superan las aproximaciones mismos verdugos de las organizaciones, sino una manera exclusivamente tecnológicas que se tienen a la fecha para distinta para identificar los pasos de los agresores (bien sean adelantar los planes de auditoría cuando se trata de los temas internos o externos), caminar en la dinámica de su mente y de seguridad y control en la entidad. motivaciones, con el fin de defender y anticipar acciones concretas que apoyen su preparación frente a eventos inciertos Estas reflexiones y otras adicionales, como resultado de los o inesperados, que permanecen latentes en la ejecución de sus otros equipos conformados, establecieron referentes distintos procesos actuales sin signos de manifestación concretos [29]. de la mirada actual de la auditoría, considerando elementos que no estaban vinculados a la fecha en su plan de trabajo. SOCIA como propuesta metodológica se basa en la Adicionalmente, fue un ejercicio para retar sus prácticas dinámica social y de negocio de la organización, que sin entrar actuales basadas en estándares y marcos de trabajo en los detalles tecnológicos del ataque analizado, permite reconocidos, donde se hicieron evidentes las limitaciones conectar diversas vistas de los participantes, creando un inherentes de los mismos respecto de entornos inciertos e lenguaje común para elaborar un entendimiento de la dinámica inestables como los que actualmente tienen las organizaciones del adversario, no desde su habilidad técnica exclusivamente, modernas. sino desde sus técnicas y estrategias para configurar la acción no autorizada, aumentando la sensibilización de las personas V. CONCLUSIONES sobre las capacidades de los agresores y sus impactos en la En el ejercicio cotidiano de proteger y asegurar las promesa de valor de la compañía. organizaciones, las prácticas de seguridad y control guiadas por los estándares conocidos ha sido la norma sobre la cual, En consecuencia, SOCIA establece una forma distinta e tanto las áreas de seguridad/ciberseguridad, como las de incluyente para visualizar y caracterizar los posibles auditoría, han fundado sus diferentes acciones para generar un adversarios que puede tener una empresa y en este ejercicio, 103 comenzar a construir nuevas capacidades de defensa y [15] Accenture (2019). Cyber resilience for industry X.0 in Europe. Agile anticipación, que permita a las organizaciones desarrollar cybersecurity in the age of the Industrial Internet of Things. Recuperado de: https://accntu.re/2TvkQYy escenarios, prototipos y simulaciones [21] que la ubiquen en [16] Campbell, N. (2017). Cyber Security Is A Business Risk, Not Just An una posición menos reactiva frente a las situaciones IT Problem. Forbes. Recuperado de: imprevistas, y la proyecten como una comunidad resiliente, https://www.forbes.com/sites/edelmantechnology/2017/10/11/cyber-security-is-a-business-risk-not-just-an-it-problem/ experimentada en la atención de incidentes, que sabe que el [17] Carlton, M., Levy, J. & Ramim, M. (2019). Mitigating cyber attacks adversario es inteligente y hábil, y que tarde o temprano tendrá through the measurement of non-IT professionals’ cybersecurity éxito. skills. Information & Computer Security, 27(1), 101-121. Doi: 10.1108/ICS-11-2016-0088 [18] Raban, Y. & Hauptman, A. (2018). Foresight of cyber security threat AGRADECIMIENTOS drivers and affecting technologies. Foresight. Doi: 10.1108/FS-02- El autor agradece a los doctores Jesús Vásquez Gómez, 2018-0020 [19] Mossburg, E., Gelinne, J. & Calzada, H. (2017). Beneath the Surface Especialista de Tecnología de Información del Banco Central of a cyberattack. A deeper look at business impact. Deloitte. de México y Gabriela María Saucedo Meza, Docente de la Recuperado de: Universidad Militar Nueva Granada de Colombia, por sus https://www2.deloitte.com/us/en/pages/risk/articles/hidden-business-impact-of-cyberattack.html valiosos y acertados comentarios que permitieron afinar las [20] Weill, P., Apel, T., Woerner, S. & Banner, J. (2019). It Pays to Have reflexiones de este artículo. a Digitally Savvy Board. Sloan Management Review. Recuperado de: https://sloanreview.mit.edu/article/it-pays-to-have-a-digitally-savvy- board/ REFERENCIAS [21] Cano, J. (2018). Repensando los fundamentos de la gestión de [1] Donaldson, S., Siegel, S., Williams, C. & Aslam, A. (2015). riesgos. Una propuesta conceptual desde la incertidumbre y la Enterprise Security. How to build a successful cyberdefense program complejidad. Revista Ibérica de Tecnología y Sistemas de la against advanced threats. New York, USA: Apress Información. E15. Abril. 76-87. [2] Sieber, S. & Zamora, J. (2018). The Cybersecurity Challenge in a [22] Shevchenko, N., Chick, T., O’Riordan, P., Scanlon, T. & Woody, C. High Digital Density World. European Business Review. Recuperado (2018). Threat modeling: a summary of available methods. SEI. de: https://www.europeanbusinessreview.com/the-cybersecurity- Carnegie Mellon University. Recuperado de: challenge-in-a-high-digital-density-world/ https://resources.sei.cmu.edu/asset_files/WhitePaper/2018_019_001_ [3] Cano, J. (2019). Analyst and Adversary. Deconstructing the 524597.pdf “Imaginary” of Security and Cybersecurity Professionals. ISACA [23] Woods, D., Dekker, S., Cook, R., Johannesen, L. & Sarter, N. (2010). Journal. 4. 48-53. Behind human error. Second Edition. Farnham, Surrey. England: [4] Tounsi, W. & Rais, H. (2017). A survey on technical threat Ashgate Publishing Limited intelligence in the age of sophisticated cyber attacks. Computers & [24] Kumar, T., Porambage, P., Ahmad, I., Liyanage, M., Harjula, E. & Security, 72. 212-233. doi:10.1016/j.cose.2017.09.001. Ylianttila, M. (2018). Securing Gadget-Free Digital Services. IEEE [5] Cano, J. (2017). The AREM Window: A Strategy to Anticipate Risk Computer. 66-77. Doi: 10.1109/MC.2018.2876017 and Threats to Enterprise Cyber Security. ISACA Journal. 5. [25] EY (2018). Is cybersecurity more than protection?. EY Global [6] Shostack, A. (2014). Threat Modeling: Designing for Security. Information Security survey 2018-19. Reporte. Recuperado de: Indianapolis, IN. USA: John Wiley & Sons. https://www.ey.com/Publication/vwLUAssets/ey-global-information- [7] Khan, R., McLaughlin, K., Laverty, D., & Sezer, S. (2018). STRIDE- security-survey-2018-19/$FILE/ey-global-information-security- based Threat Modeling for Cyber-Physical Systems. In 2017 IEEE survey-2018-19.pdf PES: Innovative Smart Grid Technologies Conference Europe [26] Higueras, J. (2017). La gestión de la ciberseguridad como estrategia: (ISGT-Europe): Proceedings IEEE. doi: el peligro de la vulnerabilidad y cómo mitigarla. Harvard Deusto. 12- 10.1109/ISGTEurope.2017.8260283 19. [8] UcedaVélez, T. & Morana, M. (2015). Risk Centric Threat [27] Sabillón, R. & Cano, J. (2019). Auditorías en Ciberseguridad: Un Modeling: Process for Attack Simulation and Threat Analysis. modelo de aplicación general para empresas y naciones. Revista Hoboken, NJ. USA: John Wiley & Sons. Ibérica de Sistemas y Tecnologías de Información. 32. 33-48. [9] Schneier, B. (1999). Attack trees. Modeling security threats. Dr. [28] Roberts, S. & Brown, R. (2017). Intelligence-Driven Incident Dobb's Journal. December. Recuperado de: Response. Outwitting the Adversary. Sebastopol, CA. USA: O’Really https://www.schneier.com/academic/archives/1999/12/attack_trees.ht [29] Ahmad, Z., Ong, T., Liew, T. & Norhashim, M. (2019). Security ml monitoring and information security assurance behaviour among [10] Hutchins, E., Cloppert. M. & Amin, R. (2011). Intelligence-Driven employees: An empirical analysis. Information & Computer Security. Computer Network Defense Informed by Analysis of Adversary Doi: 10.1108/ICS-10-2017-0073 Campaigns and Intrusion Kill Chains. White Paper. Lockheed [30] Thakur, K., Tseng, J. & Hayajneh, T. (2019). Cyber Security in Martin. Recuperado de: Social Media: Challenges and the Way Forward. IEEE IT https://www.lockheedmartin.com/content/dam/lockheed- Professional. 21(2). 41-49. Doi: 10.1109/MITP.2018.2881373. martin/rms/documents/cyber/LM-White-Paper-Intel-Driven- Defense.pdf Jeimy J. Cano M. Ingeniero y Magíster en Ingeniería de Sistemas y [11] Strom, B., Applebaum, A., Miller, D., Nickels, K., Pennington, A. & Computación por la Universidad de los Andes. Especialista en Thomas, C. (2018). MITRE ATT&CK™: Design and Philosophy. Derecho Disciplinario por la Universidad Externado de Colombia. MITRE Product. Recuperado de: Ph.D in Business Administration por Newport University, CA. USA https://www.mitre.org/publications/technical-papers/mitre-attack- design-and-philosophy y Ph.D en Educación por la Universidad Santo Tomás en Colombia. [12] Do, Q., Martini, B., & Raymond Choo, K. K. (2018). The Role of the Profesor universitario a nivel de pregrado, especialización, maestría y Adversary Model in Applied Security Research. Computers & doctorado en Colombia y varios países de Latinoamérica en temas Security. 81, 156-181. doi:10.1016/j.cose.2018.12.002 como computación forense, evidencia digital, gobierno y gestión de [13] Franke, U. & Brynielsson, J. (2014). Cyber situational awareness – a la seguridad de la información, gerencia de sistemas de información, systematic review of the literature, Computers & Security. 46. 18-31. criminalidad informática, auditoría de TI, ciberseguridad y protección doi: 10.1016/j.cose.2014.06.008. de datos personales desde 1996 a la fecha. ORCID: [14] Cano, J. (2019). Ciberriesgo. Aprendizaje de un riesgo sistémico, https://orcid.org/0000-0001-6883-3461 emergente y disruptivo. Revista SISTEMAS. Asociación Colombiana de Ingenieros de Sistemas. 63-73. Doi: 10.29236/sistemas.n151a5 104 Amenazas Cibernéticas a la Seguridad y Defensa Nacional. Reflexiones y perspectivas en Colombia M. E. Realpe1 y J. Cano2 1Resumen— Las amenazas cibernéticas impuestas por las plataformas tecnológicas que soportan los servicios esenciales tecnologías disruptivas en las Fuerzas de la Ley del Estado, sugieren brindados a la población debilite o impida la gobernabilidad una peligrosa tendencia hacia la Seguridad y Defensa Nacional. Para de un país, imposibilite la prestación de servicios esenciales mitigar los riesgos en este campo, se requiere una estrategia integral para contrarrestar, si es necesario, la resistencia a los ataques ocasionando sufrimiento y, en otros casos, la muerte e incluso disruptivos y destructivos. En efecto, este documento presenta un desequilibre la economía; hechos que en conjunto pueden análisis general de la situación actual en el campo de la Ciberdefensa desestabilizar la Seguridad y Defensa Nacional. En en Colombia, donde se identifican las ciberamenazas latentes y consecuencia, es necesario considerar el ciberespacio como un emergentes mediante el instrumento denominado Ventana AREM, nuevo escenario de confrontación bélica, que combinado con enfrentando siete (7) tecnologías disruptivas analizadas por los los dominios de tierra, mar, aire y espacio constituirán una investigadores del MIT a corto plazo, con el fin de proponer una estrategia militar de Ciberdefensa que permita responder a las capacidad y superioridad relevante de cualquier Estado o ciberamenazas con una visión integral, sistémica y prospectiva. Nación. Palabras clave — Ciberdefensa, Tecnologías disruptivas, Con respecto a la evolución y el crecimiento tecnológico, es Ciberamenazas, Estrategia. apropiado decir que éstos toman cada vez menos tiempo por lo que, para hablar del futuro del ciberespacio, este documento I. INTRODUCCIÓN establece como referencia el año 2022, considerando base el estudio realizado por Instituto Tecnológico de Massachussets A CONVERGENCIA de tecnologías digitales, físicas y (MIT) [23] y las reflexiones de Klaus Schwab (2018), en su Lbiológicas marcan el advenimiento y despliegue de la libro “La cuarta revolución industrial”, donde se pronostica Cuarta Revolución Industrial o Revolución Digital, que “las innovaciones tecnológicas más importantes están a generando un cambio veloz y a gran escala en los sistemas punto de generar un cambio trascendental en todo el mundo y informáticos que actualmente se conocen [23]. Este escenario esto es inevitable” [22]. En este sentido, este artículo plantea genera un espacio propicio para la incubación de amenazas una estrategia de defensa cibernética a corto plazo para cibernéticas, que pueden poner en riesgo la prosperidad Colombia, de tal manera que, pueda ser adoptada para obtener económica y social de un país, así como su Seguridad y victorias tempranas y contar con una ventana estratégica de Defensa Nacional. acciones preventivas. Dichas amenazas cibernéticas son múltiples y muy variadas, En consecuencia, la Estrategia Militar de Ciberdefensa para mutan sus vectores de operación en cuestión de segundos, y se las Fuerzas Militares de Colombia que se plantea de cara a las soportan en la masificación de las tecnologías disruptivas. amenazas cibernéticas latentes y emergentes que imponen las Aunado a este comportamiento, los perpetradores de ataques tecnologías disruptivas, parte de un análisis de capacidades (o adversarios) no descansan en su intento por buscar nuevas y existentes en las instituciones responsables de la Ciberdefensa mejores formas de explotación para lograr sus objetivos de Nacional de las Fuerzas Militares, a nivel de doctrina, manera más fácil y eficiente, creando un escenario complejo y organización, material, personal e infraestructura u otras dinámico que debe ser afrontado por las Fuerzas de Ley, de la variables que permitan determinar la situación actual y así, forma más adecuada, tanto para anticipar como evitar que se proyectar un estado deseado. De igual forma, se realiza la produzca una afectación a la Seguridad Nacional. Se debe identificación y estudio de las amenazas cibernéticas latentes y agregar que, como lo afirma el autor Schwab Klaus, la emergentes que imponen las tecnologías disruptivas a la revolución digital en su esencia, “No cambia lo que hacemos, Ciberdefensa Nacional en Colombia basado en el instrumento sino que cambia lo que somos” [22], lo que marca un inicio llamado la “Ventana de AREM” [13]. para repensar y evolucionar el concepto de la Defensa Nacional al nuevo entorno operacional llamado ciberespacio, Finalmente, con los resultados obtenidos se presenta un con el fin de comprender la dinámica de las vulnerabilidades y esquema general de una propuesta militar para desarrollar los retos ante la nueva revolución digital. En este nuevo capacidades cibernéticas en las Fuerzas Militares, dominio, es posible que un ataque cibernético realizado a las fundamentada en el modelo de planeamiento por capacidades DOMPILEM (Doctrina, Organización, Material, Personal, 1. M. E. Realpe. Escuela Superior de Guerra, Colombia. Infraestructura, Liderazgo, Entrenamiento, Mantenimiento), Milena.realpe@esdegue.edu.co que permitan configurar unas capacidades que permitan el 2. J. Cano. Académico y profesor universitario, Colombia. jjcano@yahoo.com despliegue operativo necesario para responder ante las nuevas amenazas cibernéticas. Por razones de confidencialidad, Seguridad y Defensa Nacional, este artículo solo presenta un https://doi.org/10.12804/si9789587844337.10 105 esquema general de fortalecimiento cibernético y algunos Cibernéticas a nivel estratégico en el ciberespacio. Para tal fin, contenidos necesarios para su comprensión. dicho Comando mantiene relaciones de coordinación con las Unidades Cibernéticas de las Fuerzas, con el propósito de II. CONSIDERACIONES DE LA CIBERDEFENSA consolidar esfuerzos e integrar capacidades para las NACIONAL Operaciones de Ciberseguridad y Ciberdefensa [18]. En el Ejército Nacional se creó el Grupo de Apoyo de Hoy en día, la tecnología y el internet hacen parte integral Comunicaciones y Ciberdefensa, en la Armada Nacional, se en el desarrollo económico, político y social de Colombia y creó la Dirección Cibernética Naval, en la Fuerza Aérea por ende de su Seguridad y Defensa Nacional. Es por esto, que Colombiana se creó la Dirección Cibernética Aérea; así la Ciberdefensa Nacional, debe ser asumida con un enfoque mismo de manera coordinada, conjunta y combinada realizan sistémico y multidimensional que requiere un trabajo conjunto operaciones para la Defensa y Seguridad Nacional. y coordinado con los diferentes sectores e instituciones del país para dar cumplimiento a los objetivos e intereses del Adicionalmente, estas Unidades Militares lideran trabajos Estado. interinstitucionales en materia de Infraestructuras Críticas Cibernéticas, con el propósito de avanzar en el desarrollo de En este sentido, sus Fuerzas Militares, requieren abordar el Políticas y Planes de Protección y Ciberseguridad para sus ciberespacio como un ámbito estratégico, operativo y táctico, activos estratégicos nacionales. Como resultado, se han para organizar, entrenar y equipar a sus hombres, con el fin de logrado establecer lazos de confianza y amistad entre los aplicar medidas de prevención, disuasión, contención, diferentes sectores del país que permitieron conformar redes protección y reacción, que permitan fortalecer las capacidades de colaboración para compartir información de amenazas y de Ciberdefensa, para enfrentar las amenazas o ataques alertas tempranas como medida preventiva para evitar la cibernéticos que puedan afectar la infraestructura crítica materialización de amenazas o ataques sobre las cibernética del país y poner en riesgo la seguridad nacional, la infraestructuras cibernéticas del país. Sin embargo, pese a los defensa de la soberanía y el orden constitucional del Estado, esfuerzos realizados, se evidencia la carencia de unas políticas así como causar daños masivos, debilitar la economía, y/o y directrices integrales, positivas y comunes que describan y dañar la moral pública y la confianza. detallen las oportunidades y desafíos en el quinto dominio de la guerra, el ciberespacio, para empoderar a cada sector en Para tal fin, el Ministro de Defensa Nacional de Colombia materia cibernética, estableciendo objetivos estratégicos y del año 2012, aprobó la creación y activación del Comando líneas de acción claras que permitan configurar un control Conjunto Cibernético-CCOCI [21] con la función principal de institucional en materia cibernética para conseguir los ejercer la Ciberdefensa de la Nación y conducir operaciones objetivos nacionales. militares cibernéticas a nivel estratégico, para ser garantes de la Seguridad y Defensa de la Nación en el ciberespacio. De III. AMENAZAS CIBERNÉTICAS DE CARA A LAS igual forma, se ordenó la creación de estructuras TECNOLOGÍAS DISRUPTIVAS organizacionales al interior de cada Fuerza denominadas Unidades Cibernéticas, así: una en el Ejército Nacional, otra La actualidad tecnológica exige un mundo de sistemas en la Armada Nacional y una tercera en la Fuerza Aérea complejos e interconectados que traen como consecuencia el Colombiana, con las cuales el CCOCI ejecutará y coordinará crecimiento de las amenazas cibernéticas a ritmos actividades de Ciberseguridad y operaciones de Ciberdefensa exponenciales y a velocidades desconcertantes. En este del país. contexto, la Ciberdefensa toma un papel preponderante que involucra diversos actores, dándole el eje fundamental a las En la actualidad, Colombia cuenta con una estructura Fuerzas Militares, para proponer una visión que asegure la organizacional en materia de Ciberdefensa en los niveles defensa cibernética nacional, así como la resiliencia y estratégico, operacional y táctico. De acuerdo con la primera continuidad de las Infraestructuras Críticas Cibernéticas, en edición del Manual de Ciberdefensa Conjunta del CCOCI [4], el quinto dominio de la guerra: el ciberespacio [5]. Por su la estructura organizacional de Ciberdefensa se encuentra bajo parte, la convergencia tecnológica, la densidad digital, los la responsabilidad del Comando General de las Fuerzas productos y servicios digitalmente modificados, entre otros, Militares (COGFM) a través del Comando Conjunto han incrementado los niveles de riesgo cibernético nacional. Cibernético (CCOCI) que depende de la Subjefatura de Estado En este contexto, se revela que estamos frente a una serie de Mayor Conjunto Operacional (SEMCO) y de las Unidades retos que exigen altos niveles de dependencia tecnológica, Cibernéticas del Ejército Nacional, la Armada Nacional y la que despliega un escenario de oportunidades, pero también Fuerza Aérea Colombiana, de aquí en adelante las Fuerzas. complejo y desafiante de cara al crecimiento exponencial de las amenazas y vulnerabilidades cibernéticas a la En efecto, el CCOCI fue activado en octubre de 2012 como Ciberdefensa Nacional [12]. ente rector para realizar el direccionamiento, planeación, coordinación, integración, ejecución y sincronización de En este sentido, Colombia está adoptando tecnologías de Operaciones Cibernéticas. Dicho Comando, tiene la misión de información y tecnologías de operación para optimizar el ejercer la Ciberdefensa y conducir Operaciones Militares desarrollo de sus procesos productivos, económicos, 106 sociales, políticos e incluso de Seguridad y Defensa Machine Learning desde esta perspectiva se determina Nacional. Dichos procesos se encuentran frente a un inofensiva y favorable, sin embargo, el futuro parece muy escenario de cambios disruptivos, en los cuales se hace distinto cuando se analiza desde la Seguridad y Defensa necesario adaptarse y prepararse para anticipar y evitar (en Nacional. Es por esto, que se hace necesario cuestionar la medida de lo posible) daños de alto impacto en las ¿Qué ocurriría si esta tecnología se despliega para llevar a Infraestructuras Críticas Cibernéticas del país, que afecten cabo ataques cibernéticos contra las infraestructuras críticas directamente la prestación de los servicios básicos a la nacionales? población y, por consiguiente, comprometan la prosperidad económica y social de la Nación. Es una realidad que un Nanotechnology (Nanotecnología): gran número de fuerzas de disrupción e innovación están marcando el futuro inmediato, pero también dan lugar al Es una ciencia de la ingeniería que está diseñando y surgimiento de nuevas amenazas y ataques en el fabricando circuitos y dispositivos extraordinariamente ciberespacio que podrían llegar a afectar infraestructuras pequeños que se construyen a nivel molecular de materia, cibernéticas provocando incluso daños físicos. Por lo tanto, típicamente de 1 a 100 nanómetros. Las combinaciones de los perpetradores de ataques no descansan en su intento por nanomateriales pueden marcar el comienzo de una nueva era buscar nuevas y mejores formas de explotación para lograr que nos proporciona computadoras y otros dispositivos con sus objetivos de manera más fácil, eficiente y anónima. un poder de procesamiento hasta ahora inalcanzable. Con la nanotecnología, todo tipo de medios y materiales que no han Para iniciar a hablar de tecnologías disruptivas es tenido capacidades de procesamiento y entrega de necesario empezar por definirlas: “Las tecnologías información pueden convertirse en nuevos portales de disruptivas son “tecnologías cuya aplicación rompe con los comercio y comunicación. Los materiales de nanoingeniería patrones que existía hasta el momento”, apunta Carlos adoptarán nuevas propiedades físicas que son muy Martín, profesor del Master of Science in IT Strategic diferentes y más útiles que las propiedades físicas de sus Management de la UPF Barcelona School of Management. estados naturales. Esta tecnología, también se desarrolla en Por su parte, Clayton M. Christensen, profesor de Harvard el límite de lo desconocido, y como tal se sujeta a la Business School, acuñó el término “tecnología disruptiva”. Seguridad y Defensa al umbral de la incertidumbre. Al En su libro de 1997, The Innovator's Dilemma, Christensen, manipular los materiales a esta escala, los riesgos pueden separa la nueva tecnología en dos categorías: sostenida y ser impredecibles e imperceptibles a los sentidos, disruptiva. La tecnología sostenida se basa en mejoras incrementando los grados de complejidad en lo que refiere a incrementales a una tecnología ya establecida. La tecnología afectaciones éticas, legales, ambientales y de salud entre disruptiva carece de refinamiento, a menudo tiene otras para Colombia. problemas de rendimiento porque es nueva, atrae a un público limitado y puede que aún no tenga una aplicación Robótica práctica probada (tal fue el caso de la "máquina de habla eléctrica" de Alexander Graham Bell, que ahora llamamos el La robótica no es una tecnología nueva en sí mismo, pero teléfono). en la última década, la robótica ha sufrido una transformación radical impulsada por tres características: Dicho de otra manera, el concepto de “Tecnologías [23] Disruptivas”, implica, entre otras cosas una revolución  Precisión: La capacidad de realizar tareas extremadamente tecnológica, un cambio en la manera de hacer las cosas. Un exactas. estudio realizado por el Instituto tecnológico de  Agilidad: La capacidad de realizar una variedad de tareas Massachusetss (MIT), define siete tecnologías que de forma rápida y fácil. cambiarán el mundo, las cuales serán objeto de estudio del  Inteligencia: La capacidad de adquirir y aplicar nuevos presente documento: [23], así: conocimientos y habilidades. Machine Learning (aprendizaje automático) Los robots son cada vez más utilizados en todos los sectores, en un sin número de tareas en educación, De acuerdo con el estudio realizado por el MIT, existen 3 agricultura, salud, comercio, industria, turismo e incluso en enfoques diferentes: a) Perspectiva de la computadora, la Seguridad y Defensa. Su rápida evolución pronto hará programas que "aprenden", b) Una perspectiva relacional, que la colaboración entre seres humanos y máquinas sea una abarca reconocimiento de patrones basado en computadora, realidad cotidiana que incremente la eficiencia, precisión y modelado estadístico y análisis para la toma de decisiones, y velocidad y reduzca los riesgos de tareas peligrosas c) Perspectiva holística, combina algoritmos informáticos, minimizando los costos. Las personas que abogan por el patrones estadísticos e inteligencia artificial. desarrollo y despliegue de los sistemas de armamento Adicionalmente, hay tres principios tecnológicos que, autónomos normalmente resaltan varias ventajas militares. cuando se agrupan, desbloquean los aspectos clave de cada En primer lugar, los sistemas de armamento autónomos perspectiva: computación en la nube, grandes datos y actúan como multiplicadores de Fuerza. Es decir, se necesita analítica e inteligencia artificial. Cuando se analiza el un menor número de soldados para cumplir una misión dada 107 y se incrementa la eficacia de cada soldado. En segundo dispositivo requiere una conexión a Internet. Estas son redes lugar, los defensores adscriben la expansión del campo de inteligentes de dispositivos inalámbricos que se pueden batalla a los sistemas de armamento autónomos, que permite formar, dispersar y reformar según el comando del usuario. que el combate alcance áreas que previamente eran Las WMN se crean de abajo hacia arriba mediante inaccesibles. En tercer lugar, los sistemas de armamento conexiones entre dispositivos, sus capacidades de auto autónomos pueden reducir el número de bajas al quitar a los formación y auto curación aseguran una comunicación combatientes humanos de las misiones peligrosas [18]. robusta y confiable en cualquier lugar a bajo costo y sin Cuando se analiza esta tecnología desde el polo opuesto a la infraestructura fija. Las WMN amplían la informática beneficiosa es atinado pensar que las afectaciones para la generalizada integrada en el IoT (Internet of Things – Seguridad y Defensa de una Nación podrían ser Internet de las Cosas) haciéndolo más dinámico. Esta demoledoras. ¿En quién podría recaer la responsabilidad tecnología ofrece múltiples beneficios, entre los más cuando se despliegan los sistemas de armas que generan significativos están: la innovación y menor costo, al tiempo daños a la población, o cuando un sistema sea capaz de que los contras se consolidan en que no existe sistemas de asumir su propio control? regulación para controlar este tipo de tecnología y con ello se integran un sin número de delitos cibernéticos. Impresión en tres dimensiones: Pervasive Computing (Computación Omnipresente Consiste en crear un objeto físico mediante la impresión capa por capa de un modelo o un dibujo en 3D. Con el También conocida como computación ubicua, la cual tiempo las impresoras 3D superarán los obstáculos de brinda información, medios, contexto y poder de velocidad, costo y tamaño y su uso será más generalizado. procesamiento, sin importar la ubicación. Esta clase de Esta tecnología ofrece ventajas y también varias tecnologías se caracteriza por amplias redes de desventajas, relacionadas a la creación propia de productos microprocesadores conectados o incrustados en objetos de forma automatizada mediante impresoras 3D. Entre las cotidianos, los datos se integran y se intercambian en las ventajas están la flexibilidad y prototipado rápido, redes públicas. La computación omnipresente es la reducción de costos, personalización, nueva industria, así tecnología que impulsa Internet de las cosas (IoT), pero es como aplicaciones múltiples aún por descubrir. Para más preciso pensar en ella como el motor de todo el analizar las desventajas es preciso acoger una óptica desde internet. Las capacidades de información, intercambio y la orilla de los malintencionados, donde existe la posibilidad colaboración de estas redes no se limitan a ningún de crear objetos tales como armas de fuego, drogas o dispositivo o ubicación fija; se distribuyen por todo el elementos de alta peligrosidad que deja entrever el peligro mundo. Además, el factor de forma de la informática de llegar a una proliferación de elementos y una dominante puede ser móvil, usable o implantable. El IoT falsificación sin límites de elementos que puedan ser usados como toda tecnología disruptiva, conlleva una serie de en contra de las Fuerzas de Ley. ventajas y de desventajas. Entre los riesgos más significativos que aporta esta tecnología a la Seguridad Biotecnología Nacional están: la falta de compatibilidad, la complejidad que representan y la falta de privacidad y seguridad, Es el uso de sistemas vivos y organismos para desarrollar considerando que existe la posibilidad de que el software o fabricar productos. En la actualidad, los avances en pueda ser vulnerado y los datos personales mal empleados. tecnología digital, ingeniería genética, informática, tecnología celular y ciencias químicas están ampliando En consecuencia, cada una de estas tecnologías marcarán un enormemente los límites de la biotecnología. La noción de cambio profundo y sistémico en la sociedad, facilitarán los la ingeniería de las células vivas y el surgimiento de la procesos y harán más eficiente la vida de los colombianos. Sin industria de las ciencias de la vida cambiará radicalmente embargo, también traerán consigo novedosas amenazas y los límites de la atención médica, la agricultura y los peligrosos ataques de tipo cibernético que pondrán en riesgo a productos químicos. La biotecnología apunta a ser una de la Nación. las áreas de mayor importancia en la sociedad, particularmente en el siglo XXI. Pese a las ventajas que IV. LA VENTANA DE AREM Y EL ANÁLISIS DE LAS aporta esta tecnología a la humanidad, también trae consigo AMENAZAS CIBERNÉTICAS una serie de riesgos, principalmente en el medio ambiente y en la salud como la modificación de la estructura del En esta sección, se analizaron las amenazas cibernéticas genoma humano, clonación y la manipulación del material haciendo uso del instrumento denominado “Ventana de genético de nuestra especie entre otros. AREM” [2], dado que, a diferencia de los marcos tradicionales de riesgos que se basan en riesgos y amenazas Wireless mesh networks (Redes Inalámbricas) conocidas, ofrece una visión más amplia de éstos y las vulnerabilidades cibernéticas, con el fin de avanzar hacia una Las redes de malla inalámbricas (WMN) son circuitos ad gestión y gobierno de los riesgos empresariales basado más en hoc de conectividad inalámbrica en los que solo un las posibilidades, que en las probabilidades. 108 TABLA I A pesar de que el autor plantea en su instrumento cuatro AMENAZAS LATENTES Y EMERGENTES tipos de amenazas o riesgos así: Conocidos, focalizados, Amenaza Latente Amenaza Emergente latentes y emergentes, para el caso que nos ocupa en el Ciberguerra Guerra Autónoma presente estudio se limitará al análisis de las amenazas y riegos latentes y emergentes que presentan las tecnologías LAWS Lethal Autonomous Ciberarmas de destrucción disruptivas para Colombia a corto plazo, a fin de plantear una Weapons (Robots Militares, masiva estrategia militar que permita dar respuesta y ser efectiva de embarcaciones de superficie cara a un análisis prospectivo a corto y mediano plazo. y submarinas, drones autónomos, sistemas satelitales autónomos) Sistemas Autónomos Riesgos Latentes La Ciberguerra: es sin duda, el extremo más grave del espectro de los problemas de seguridad planteados en el ciberespacio donde los actores son los Estados. La ciberguerra puede permitir a los actores lograr sus objetivos políticos y estratégicos en menos tiempo, con mínimos riesgos y a bajo costo. La guerra cibernética o ciberconflicto se configura en la actualidad, como una posibilidad de intervención político- Figura 1. La Ventana de AREM [13]. estratégica más eficiente, en la que habrá más posibilidades de que los daños provocados sean menores en comparación con En primer lugar, partiendo de las definiciones de amenaza las armas convencionales. Además de eso, será también más latente (el analista se ha enterado que tal amenaza existe y no difícil de identificar/controlar el origen de los ataques. Por sabe si la organización tiene alguna estrategia de mitigación) y tantas ventajas, las actividades que se suceden en el amenaza emergente (el analista nunca había escuchado de tal ciberespacio atraen el interés de los Estados, con el objetivo amenaza) [13], para aplicar este instrumento un analista de de utilizarlas como instrumentos de política exterior. El riesgos recolectó y analizó durante un tiempo (generalmente conflicto sigue siendo una extensión de la voluntad política y un año), material suficiente de tendencias visibles y ahora tiene un nuevo dominio en el que sus formas pueden emergentes sobre nuevas y posibles amenazas o vectores de participar. Colombia, no se encuentra ajena a esta amenaza. ataque, las cuales se valoraron y priorizaron de acuerdo con su nivel de impacto en la organización, novedad del ataque y Las armas letales autónomas: (LAWS, por sus siglas en capacidad de respuesta actual de las Unidades de inglés, Lethal Autonomous Weapons). La ONU define como Ciberdefensa. Con base en este resultado, se estableció una arma autónoma una herramienta capaz de “localizar, lista de posibles amenazas y riesgos cibernéticos contrastadas seleccionar y eliminar objetivos humanos sin intervención con cada una de las siete tecnologías disruptivas mencionadas humana”. Estas, son el resultado de la aplicar la inteligencia en la sección anterior, a fin de identificar las posibles artificial a la búsqueda de soluciones en el ámbito del amenazas que podrían afectar la Seguridad y Defensa enfrentamiento militar; del combate. Las verdaderas armas Nacional en un futuro inmediato, las cuales fueron valoradas autónomas letales o LAW, se enfrentarán al enemigo sin por los investigadores asistidos con la Ventana de AREM. órdenes humanas y decidirán qué hacer para evitar los Posteriormente se priorizaron basado en su impacto y obstáculos que pretendan impedir la ejecución de su misión. compilaron los diferentes análisis, identificando las mayores Por ejemplo, un pequeño tanque podría patrullar las calles de coincidencias en las ubicaciones en los diferentes cuadrantes, una ciudad y actuar sin un piloto que decidiera por él. Estas para luego afinarse con el conocimiento del autor, en las opciones aun no existen, pero ya han desatado una gran realidades concretas del país y sus niveles de aseguramiento polémica y un debate internacional. Hay LAW marinas o actuales. acuáticas (embarcaciones de superficie y submarinas), aéreas (drones autónomos que seleccionan por sí mismos los El resultado, es una vista sistémica de los riesgos claves a objetivos) y terrestres (algunos incluso con forma humana). tener en cuenta (dos cuadrantes), enriquecida con la vista de El riesgo radica cuando sea la máquina mediante los investigadores y los analistas de riesgos y amenazas en el procedimientos autónomos la que elija los objetivos a abatir. contexto de la Ciberdefensa Nacional, donde se obtuvo los resultados definidos en la tabla I: Sistemas Autónomos: Un reconocido científico y académico de la Universidad de California, llamado Stuart Russell, explica que los sistemas autónomos a su juicio es el problema actual de la inteligencia artificial. Ahora presente en un sinnúmero de dispositivos que podrían ser manipulados 109 para infiltrar sistemas informáticos de otros Estados, empresas usado para denotar colectivamente todos los componentes del o industrias nacionales críticos para la sociedad sin Ejército, Armada y Fuerza Aérea [4]. intervención humana. La posible existencia de robots, capaces de disparar las 24 horas del día de manera indiscriminada: es Se resalta entonces, que a pesar de que la moderna uno de los escenarios que han dejado de pertenecer tecnología ha revolucionado la mayor parte de las dimensiones exclusivamente a las películas y series de ciencia ficción y se materiales de la guerra desde el siglo XIX, la lógica de los ha convertido en una preocupación recurrente de organismos conflictos permanece básicamente inalterable. Esto explica internacionales como la ONU o la Convención de Ciertas porque obras como “De la Guerra” de Carl Von Clausewitz Armas Convencionales. En los próximos años cada arma [16] y “El Arte de la Guerra” de Sun Tzu [25] permanecen tendrá la capacidad de decidir autónomamente a quién matar: como relevantes marcos conceptuales para el estudio de la uno de los grandes dilemas éticos de la inteligencia artificial política y la estrategia incluso en nuestros días. Por lo tanto, a aplicada a la guerra. [9] pesar de que la Estrategia Militar es una disciplina en Riesgos Emergentes: constante evolución, la estrategia propuesta no puede ni debe ignorar las enseñanzas de los clásicos y debe contemplar los La Guerra Autónoma, es el uso de la inteligencia principios de la guerra a los que se acogen las Fuerzas artificial en la guerra. Dicho de otra forma, una guerra Militares de Colombia, los cuales se encuentran enunciados en autónoma acaba por transformarse en una guerra de recursos el Manual Fundamental de Referencia del Ejército MFRE 3-0 donde el humano no interfiere directamente. Simplemente es enfocadas para su empleo en el ámbito conjunto. La aplicación la interacción de Sistemas Autónomos entre sí, en este orden de estos principios clásicos en la conducción de Operaciones de ideas se hace necesario establecer pautas para la Conjuntas se define y amplía en el Manual de Operaciones innovación, que impidan emprender un viaje tecnológico sin Conjuntas. Adicionalmente se considera el modelo de guerra retorno. tradicional, donde los Estados-Nación luchan entre sí por razones tan variadas como la gama completa de sus intereses Las Ciberarmas de Destrucción Masiva, si bien nacionales. actualmente solo nueve Estados (supuestamente) poseen armas nucleares, las armas cibernéticas pueden ser obtenidas, Las Operaciones Militares en la guerra tradicional desarrolladas o utilizadas por cualquier estado o actor no normalmente se centran en las Fuerzas Militares de un estatal; son relativamente baratos, seguros y fáciles de operar. adversario para influir finalmente en el Gobierno de éste. Con Esto tiene dos consecuencias. Primero, las armas cibernéticas el caso cada vez más raro de guerra formalmente declarada, la pueden convertirse en un nuevo tipo de Arma de Destrucción guerra tradicional típicamente involucra operaciones militares en Masa, o tal vez sería mejor llamarlas Armas de Destrucción Fuerza-a-Fuerza, en las cuales los adversarios emplean una Masiva. Es de esperar que dentro de unos años, gracias a la variedad de fuerzas convencionales y fuerzas de operaciones rápida y continua digitalización del mundo, los ciberataques especiales entre sí en todos los dominios físicos (incluyendo el puedan dañar a sociedades enteras. Es posible que las armas ciberespacio). Un dominio es el territorio sobre el cual se cibernéticas no puedan causar el mismo nivel de destrucción impone o se ejerce el control (terrestre, marítimo, aéreo, mortal que las armas nucleares, pero pueden ser muy eficaces. espacial y el ciberespacio) [7]. Bajo este enfoque, y con base Piense en un sabotaje combinado y serio de la energía y los en los niveles de la guerra2, se definió y clarificó la relación suministros de agua, así como en las comunicaciones [28]. entre los objetivos nacionales, el enfoque operacional y las tareas tácticas, considerando que no hay demarcaciones o Finalmente, y con base en los resultados obtenidos se límites definidos entre estos niveles, pero que ayudan a los propone contar con una Estrategia Militar basada en objetivos comandantes a diseñar y sincronizar operaciones, asignar que consideran como fundamento el desarrollo de capacidades recursos y tareas al comando apropiado. En otras palabras, el y la aplicación de medidas de contención y mitigación, los propósito estratégico, operacional o táctico del empleo cuales sirvieron de base para la formulación de los objetivos depende de la naturaleza del objetivo, la misión o la tarea [17]. estratégicos de la Estrategia propuesta. Es por esto, que la Estrategia de Ciberdefensa propuesta se V. FORTALECIMIENTO DE LA CIBERDEFENSA centra en la construcción y fortalecimiento de capacidades NACIONAL para el desarrollo de Operaciones Cibernéticas para operar en un dominio donde se disputa el acceso al ciberespacio o La Estrategia Militar de Ciberdefensa asegura un enfoque donde podría ser imperativo afectar el acceso a las conjunto, integral y sistémico que permita integrar los comunicaciones contra cualquier adversario que intenta hacer diferentes frentes y aristas relacionadas con la Ciberseguridad daño a los intereses nacionales en tiempos de paz, crisis o y Ciberdefensa Nacional para mejorar la eficacia operacional conflicto para impedir los ataques y hacer las defensa del país, en el ciberespacio, proporcionando principios fundamentales dando cumplimiento a las funciones asignadas al CCOCI que guíen el empleo de las Unidades de las Fuerzas Militares de Colombia (FF.MM.) hacia un objetivo común. Es necesario aclarar que las Fuerzas Militares de Colombia es el término 2 Niveles de la Guerra: a) Estratégico nacional, b) Teatro estratégico, c) Operacional y d) Táctico 110 mediante el CONPES 3701 “Lineamientos de Política para Liderazgo y educación: cómo preparar a los comandantes en Ciberseguridad y Ciberdefensa del año 2011[10]. cada uno de los escalones para conducir el combate a través del desarrollo profesional. Mediante esta estrategia se propone planificar, desarrollar y Entrenamiento: cómo debe ser la preparación para el combate utilizar las capacidades cibernéticas de las Fuerzas Militares desde la formación básica hasta la formación individual de de manera efectiva, y asegurar que las Operaciones en el especialistas y el entrenamiento en los diferentes escalones. ciberespacio se produzcan de manera consistente con los Mantenimiento: actividades que se requieren para el valores que promueve Colombia dentro de los límites que sostenimiento de la capacidad en el tiempo. establece a la Fuerzas Militares, la legalidad y legitimidad a nivel nacional como internacional. En pocas palabras, se Con el propósito de identificar con claridad los proporcionará dirección, coherencia y lineamientos con un componentes necesarios para alcanzar los objetivos enfoque integral para el desarrollo de capacidades militares en estratégicos propuestos y con esto garantizar el cumplimiento el ciberespacio en los próximos años. Para este fin se de la Estrategia Militar de Ciberdefensa, se hizo necesario plantearon cinco (5) objetivos estratégicos, así: realizar un análisis DOFA (Debilidades, Oportunidades, Fortalezas, amenazas) que permitiera tener una visión global Objetivo Estratégico 1 (OE1): Fortalecer el pie de Fuerza de la situación real de las Unidades de Ciberdefensa de las requerido para dar respuesta a las amenazas cibernéticas. Fuerzas Militares y consecuentemente con los resultados Objetivo Estratégico 2 (OE2): Defender las Infraestructuras obtenidos definir las necesidades para cada uno de los Críticas Cibernéticas Nacionales de la actividad cibernética componentes. Posteriormente, y con base en los maliciosa. requerimientos más significativos analizados en cada matriz, Objetivo Estratégico 3 (OE3): Desarrollar capacidades se definió la matriz principal que refleja los componentes más cibernéticas para mejorar las ventajas militares en Colombia. significativos en cada uno de los objetivos estratégicos, así: Objetivo Estratégico 4 (OE4): Conformar Ligas de Ciberdefensa con los sectores público y privado. TABLA II Objetivo Estratégico 5 (OE5): generar Alianzas Estratégicas RESUMEN ANALISIS OBJETIVOS VS DOMPILEM a nivel nacional e internacional. Estos objetivos estratégicos se analizaron contrastados con los componentes de capacidad abreviados en la sigla DOMPILEM (que será detallada más adelante). Estos componentes son aquellos aspectos que deben observarse en el planeamiento por capacidades, tanto en las soluciones materiales como en las no materiales, ante los requerimientos de la Fuerza para afrontar los retos presentes y futuros. Esta sigla también es empleada en la OTAN con una “I” adicional al final para indicar interoperabilidad, o con una “P” para incluir aquellas políticas gubernamentales o institucionales que afectan la capacidad [7]. Esta tabla, refleja los elementos clave que permitirán que las Unidades de Ciberdefensa de las Fuerzas Militares, La doctrina es generalmente el primer aspecto, ya que a fortalezcan el desarrollo de capacidades para desarrollar menudo es el más fácil y rápido de actualizar y puede afectar operaciones militares cibernéticas efectivas para fortalecer la drásticamente el desarrollo de las operaciones. En algunos seguridad y defensa del país en el ciberespacio. casos, el impacto de los cambios en los otros componentes no puede realizarse plenamente sin alterar de manera significativa VI. CONCLUSIONES la doctrina. Además, la doctrina también puede servir como base para la evolución en las otras categorías DOMPILEM, El ciberespacio es, por naturaleza, no es un espacio seguro y con el fin de establecer los planes y tareas necesarias para protegido, y, por tanto, es vulnerable a las amenazas o ataques alcanzar las metas: [7] cibernéticos latentes o emergentes, lo que puede resultar en pérdidas significativas para los sectores económico, político, Doctrina: cómo se combate. social y/o constituir una seria amenaza para la defensa Organización: cómo es el diseño de la fuerza. nacional o los intereses nacionales, por lo tanto el desarrollo Material: elementos necesarios para equipar las fuerzas con el de capacidades en el ciberespacio se constituye en una fin de que puedan operar de manera efectiva. prioridad para la Seguridad y Defensa de Colombia, que cada Personal: recurso humano necesario para combatir en la vez más, es dependiente de la tecnología, al tiempo que el guerra, enfrentar contingencias o participar en operaciones de despliegue de operaciones militares en el ciberespacio es una paz. necesidad para el avance de los modelos de defensa actuales. Instalaciones: bienes inmuebles. 111 Para tener éxito y resultados verificables en las misiones https://www.isaca.org/Journal/archives/2017/Volume- cibernéticas que aseguren la Seguridad y Defensa Nacional, se 5/Pages/the-arem-window-spanish.aspx hace necesario que las Fuerzas Militares realicen operaciones [14] Cano, J. (2018) Ciberdefensa Empresarial: Un marco conjuntas entre las diferentes Fuerzas, coordinadas con la conceptual y práctico en un entorno digitalmente inestable. Policía Nacional, interinstitucionales con organizaciones tanto En García, P., Barragán, R. & Fuentes, N. M. (2018) Actas del sector público como privado y combinado con las naciones XV Reunión Española de Criptología y Seguridad de la amigas, trabajando de la mano con los organismos Información. 96-101. ISBN: 978-84-09-02463-6. binacionales y multilaterales, apoyados siempre que se Recuperado de: requiera por las Ligas de Ciberdefensa. https://www.researchgate.net/publication/328191823_Cibe rdefensa_empresarial_Un_marco_conceptual_y_practico_ La propuesta de la Estrategia Militar de Ciberdefensa es una en_un_entorno_digitalmente_inestable From: respuesta efectiva a los riesgos y amenazas a los que se ve https://www.researchgate.net/publication/328191823. enfrentada la Seguridad y Defensa del país de cara a las [15] Aguilar, J. (2017). Industria 4.0: la cuarta revolución tecnologías disruptivas, con ello, se planteó un modelo industrial. (S.A. MARCOMBO, Ed.). Marcombo. sistémico basado en objetivos estratégicos analizados en cada Retrieved from https://www.casadellibro.com/libro- uno de los componentes del Modelo DOMPILEN. Con esto industria-40-la-cuarta-revolucion- fue preciso delimitar y definir prospectivamente hacia donde industrial/9788426725684/5991036 deben ir las Fuerzas Militares a fin de desarrollar capacidades [16] Clausewitz, K. (2010). De la Guerra, 239. Recuperado de militares para el desarrollo de Operaciones Cibernéticas, http://www.biblioteca.org.ar/libros/153741.pdf soportadas en un marco legal y constitucional. [17] MFC1.0 (2018). Manual Fundamental Conjunto 1.0 Manual Reservado Comando General Fuerzas Militares. REFERENCIAS [18] MCC (2016). Manual Ciberdefensa Conjunto Fuerzas Militares. Manual Reservado. [1] Accenture. (2015). Guiding digital transformation, 16. [19] Marchant, Allenby, Arkin, Barrett, Borenstein, Gaudet, , [2] William C. (s.f.). Impact of Alleged Russian Cyber Attacks. … Meara, (2011). Science and Technology Law. Tomado de [20] Netherlands Ministry of Defence. (2012). The https://nsarchive2.gwu.edu/NSAEBB/NSAEBB424/docs/ Netherlands - The defence cyber strategy, 20. Recuperado Cyber-027.pdf de http://www.defensie.nl [3] Clarke, J. and K. R. (2011). Guerra en la Red (1 edición). [21] Resolución Ministerial No. 7436 de 2012. Ministerio de [4] COGFM. (2018). Manual Fundamental Conjunto MFC Defensa de Colombia Documento Reservado. 1.0. [22] Klaus S. (2018). The Fourth Industrial Revolution, by [5] DoD. (2018). National Cyber USA, (September). Klaus Schwab | World Economic Forum. Recuperado [6] DoD Bulgaria. (2010). White paper on Defence and the marzo 11, 2018, de https://www.weforum.org/about/the- armed forces of the Republic of Bulgaria, 71. fourth-industrial-revolution-by-klaus-schwab [7] EJC. (2017). Manual Fundamental Doctrina. (Centro de [23] Segars, A. H. (2018). Seven Technologies Remaking the Doctrina del Ejército - CEDOE, Ed.) (Vol. 1). Bogotá: World. MIT Sloan Management Review, (March). Imprenta Militar del Ejército Restricciones. Tomado de [24] Strategy Department Defence. (2014). Cyber Security www.cedoe.mil.co Strategy for Defence, 1–18. Recuperado de [8] Vergara GD, E. (2017). Operaciones militares https://ccdcoe.org/sites/default/files/strategy/Belgian cibernéticas. Buenos Aires. Defence Cyber Security Strategy.pdf [9] Guerrero, J. (n.d.). Armas autónomas, la amenaza [25] Sun Tzu. (2003). El Arte de la Guerra. Retrieved from fantasma. Recuperado June 17, 2019, de http://www.biblioteca.org.ar/libros/656228.pdf https://www.muyinteresante.es/revista-muy/noticias- [26] The Department of Defense DoD of the United States of muy/articulo/armas-autonomas-la-amenaza-fantasma- America. (2015). Strategic Cyber Defense. 461487840117 [27] The Department of Defense DoD of the United States of [10] Gobierno Colombia (2017). CONPES 3701, 91. America (2018). Strategic Cyber Defense. [2] Achtert, E. Recuperado de et al. Global Correlation Clustering Based on the Hough https://colaboracion.dnp.gov.co/CDT/Conpes/Económicos/ Transform. Statistical Analysis and Data Mining. vol 1(3), 3701.pdf. Gobierno de Colombia. pp. 111-127. 2008 [11] J, R. (2013). Political Guidance for Cyber Defence [28] Van Der Meer, S. (2016). Cyber Warfare and Nuclear Portugal, 31976–31979. Weapons: Game-changing Consequences?, (Dic), 36–38. [12] Cano, J. (2018). IT-Insecurity: Pronósticos de seguridad Recuperado de de la información 2018. Recuperado Feb 1, 2018, de http://www.techworld.com/news/security/cambridge- http://insecurityit.blogspot.com.co/2017/10/pronosticos- researchers. de-seguridad-de-la.html [13] Cano, J. (2017) La ventana de AREM. Una estrategia para anticipar los riesgos y amenazas en ciberseguridad empresarial. ISACA Journal. 5. Recuperado de: 112 Milena Elizabeth Realpe Diaz Oficial del Ejército Nacional, de profesión Ingeniera de Sistemas con énfasis en Telecomunicaciones, especialista en Seguridad de Redes de Computadores, en Seguridad Física y de la Informática, así como en Seguridad de la Información. Es Magister en Seguridad de la Información por la Universidad de los Andes y actualmente estudiante de la Maestría en Ciberseguridad y Ciberdefensa de la Escuela Superior de Guerra en Colombia. Jeimy José Cano Martinez Ph.D, CFE. Profesor universitario a nivel pregrado, especialización, maestría y doctorado en Colombia y varios países de Latinoamérica en temas como computación forense, evidencia digital, gobierno y gestión de la seguridad de la información, gerencia de sistemas de información, criminalidad informática, auditoría de TI, ciberseguridad y protección de datos personales desde 1996 a la fecha. 113 Gestión de la seguridad y análisis de riesgos Realizando una Revisión Sistemática de Metodologías ISRA orientadas a la Seguridad TIC. Periodo 2014-2019 L. E. Sánchez, A. Santos-Olmo, V. Figueroa, D.G. Rosado, E. Fernandez-Medina Resumen – La sociedad de la información depende cada vez más estas necesidades, medir los resultados y mejorar las estrategias de los Sistemas de Gestión y Análisis del Riesgo al que se de protección. encuentran sometidos sus principales activos de información. La definición de un SGSI es una tarea ardua y compleja que Poder disponer de estos sistemas es crítico para una correcta protección de los Sistemas de Información de las compañías. Sin requiere un proceso previo de definición en la compañía donde embargo, hoy en día desconocemos la situación de las se quiere establecer. Una de las fases más importantes para la metodologías, modelos y estándares de riesgo TIC, así como las implantación de un SGSI es la de Análisis y gestión del riesgo, carencias que tienen los mismos. De esta forma, las empresas no que para algunos investigadores es una de las fases más críticas saben cómo seleccionar el modelo de Análisis de Riesgos TIC más [7]. adecuado para su compañía. En este artículo, presentamos los Todas las organizaciones que utilizan tecnologías de la resultados obtenidos tras aplicar el método de investigación “Revisión Sistemática de la Literatura” de las propuestas información tienen problemas con la seguridad de su sistema de científicas orientadas a las llamadas Metodologías ISRA información. El primer paso en el proceso de protección de un (Information Security Risk Analysis) publicadas en los últimos 5 sistema de información es la identificación y clasificación de años. los recursos o activos de información que necesitan protección, porque son vulnerables a las amenazas, y para realizar este paso Palabras clave — Cibersecurity, Information Systems Security necesitamos contar con sistemas de análisis y gestión de riesgos Management, ISRA, Information Security Risk Analysis, ISMS, adecuados [8]. Diferentes investigadores destacan que la Risk Analysis. gestión del riesgo es un proceso esencial en cualquier modelo de gestión empresarial [9, 10], y que la información es un activo I. INTRODUCCIÓN valioso que se espera que esté protegido [11]. Hoy en día, los elementos digitales o las infraestructuras Un análisis de riesgos es un proceso sistemático para (computadoras, redes, contenidos, etc.), son elementos cada vez estimar la magnitud de los riesgos a los que está expuesta una más complejos y dependientes de las TI que están en el centro organización, para saber qué decisión tomar ante una posible de nuestras vidas y constituyen los pilares esenciales de eventualidad [12]. Para ello, se seleccionan e implementan nuestras infraestructuras de comunicación, económicas, salvaguardas para poder conocer, prevenir, impedir, reducir o sociales e institucionales. La seguridad y la mitigación de controlar los riesgos identificados. Esto es lo que se entiende amenazas dentro de esos sistemas se han convertido como gestión de riesgos. implícitamente en una parte fundamental para el ciudadano De forma más técnica, el análisis de riesgos permite (para preservar su privacidad), para la empresa (para proteger determinar cómo es, cuánto vale y cómo de protegidos se los activos y transacciones digitales) y para los estados (para encuentran los activos. En coordinación con los objetivos, proteger sus infraestructuras críticas y asegurar la continuidad estrategia y política de la organización, las actividades de del gobierno y servicios gubernamentales, etc.) [1-3], y en gestión de riesgos permiten elaborar un plan de seguridad que, especial en ciertos sectores como el de la salud [4], o el de la implantado y operado, satisfaga los objetivos propuestos con el educación [5]. nivel de riesgo que acepta la dirección. Para proteger estos sistemas recurrimos a la gestión de la Actualmente se están realizando muchas investigaciones seguridad, que según [6] puede definirse como un sistema de sobre análisis de riesgos, y muchas de ellas intentan comparar gestión usado para establecer y mantener un entorno seguro de los métodos clásicos para ver cómo se podrían alinear [13-19]. la información. El objetivo principal de un SGSI (Sistema de Otros investigadores han realizado también algunos análisis Gestión de Seguridad de la Información) es afrontar la puesta comparativos de los principales estándares de riesgos con el en práctica y el mantenimiento de los procesos y objetivo de mejorar algunos de sus aspectos -entre ellos procedimientos necesarios para manejar la seguridad de las podemos destacar [20], o trabajos que relacionan los planes de tecnologías de la información. Estas acciones incluyen la contingencia con el análisis de riesgos [21]. Uno de los puntos identificación de las necesidades de seguridad de la de divergencia entre las metodologías se trata de cómo información y la puesta en práctica de estrategias para satisfacer cuantificar todos estos elementos que forman parte del análisis L. E. Sánchez, Grupo de Investigación GSyA, Universidad de Castilla-la D.G. Rosado, Grupo de Investigación GSyA, Universidad de Castilla-la Mancha, Ciudad Real, España, Luisenrique@sanchezcrespo.org Mancha, Ciudad Real, España, David.Grosado@uclm.es A. Santos-Olmo, Departamento I+D+i, Sicaman Nuevas Tecnologías y E. Fernandez-Medina, Grupo de Investigación GSyA, Universidad de Marisma Shield, Tomelloso (Ciudad Real), España, Asolmo@sicaman-nt.com Castilla-la Mancha, Ciudad Real, España, Eduardo.FdezMedina@uclm.es V. Figueroa, OPTIC – Gobierno de la Provincia, Neuquen, Argentina, vfigueroa@neuquen.gov.ar https://doi.org/10.12804/si9789587844337.11 115 de riesgos. A continuación destacamos algunas problemáticas • Según Wangen [29], gran parte del debate en torno a la identificadas por otros investigadores: gestión de riesgos en seguridad de la información • Según Alcántara [22], uno de los problemas que se (InfoSec) ha sido a nivel académico, donde la cuestión presentan es que los riesgos de los activos de de cómo los profesionales ven los problemas información tienen una naturaleza compleja. La gestión predominantes es un elemento esencial que a menudo del riesgo de la seguridad de la información se aborda se deja sin explorar. Por lo tanto, este artículo mediante diferentes enfoques. Existe una importante representa una visión inicial de cómo los profesionales carencia sobre cómo implementar sistemas que de riesgos de InfoSec ven el campo de evaluación de gestionen esto riesgos. riesgos de Información (ISRA). El estudio presenta los • Para Shamala [23], la seguridad de la información se ha resultados de un estudio de 46 participantes donde han convertido en un elemento esencial para que las reunido datos sobre problemas conocidos en ISRA. organizaciones de todo el mundo eliminen los posibles También destacan que la teoría de los “cisnes negros” riesgos en sus sistemas de información mediante la (eventos catastróficos poco probables) no suele ser evaluación de riesgos de seguridad de la información tenida en cuenta dentro de estos sistemas. Por último (ISRA). Sin embargo, la existencia de numerosos tipos los investigadores determinan que los métodos actuales diferentes de métodos de evaluación de riesgos, no son suficientes para resolver los problemas y que son estándares, pautas y especificaciones disponibles hace necesarios nuevos métodos más avanzados. que las organizaciones afronten de forma desalentadora • Para Haythorn [30], la realización de una evaluación de la tarea de determinar el método más adecuado para riesgos es un paso esencial para las organizaciones a fin satisfacer sus necesidades. de garantizar que existan controles adecuados para • Ford [24] destaca que, en base a su experiencia como proteger los activos que son críticos para las funciones consultor experto en la materia, la mayoría de las comerciales. La evaluación de riesgos puede ser una industrias que visita desconocen cómo abordar el tema tarea muy compleja, que requiere múltiples de la Gestión de riesgos de IT, y la mayoría recurren a metodologías y recursos para realizar análisis realizar un análisis de riesgos obligadas por cuantitativos y cualitativos basados en evidencia fáctica regulaciones como la SOX, HIPAA, etc., y no por el y opinión subjetiva. En última instancia, la valor diferencial que este tipo de sistemas le puede organización tiene la responsabilidad del análisis generar. preciso y las medidas de control. La necesidad de una • Según Derakhshandeh [25], la seguridad se está evaluación de riesgos precisa ha creado múltiples convirtiendo cada vez más en un foco crítico en los marcos de referencia que las organizaciones pueden sistemas de información. Con más redes, movilidad y utilizar para cubrir sus necesidades. Es responsabilidad teletrabajo, existe una mayor necesidad de una de los profesionales de seguridad de la información evaluación de los riesgos técnicos y de seguridad. dentro de la organización analizar múltiples marcos y • Dehkhoda [26] analiza la posibilidad de unir métodos utilizar los métodos que sean ideales para cada caso. tradicionales de análisis de riesgos como IRAM2 con • Según Pandey [31], cualquier activo de información, los análisis CBA (Cost-Benefit Analysis), ya que cuando está conectado al mundo exterior, es vulnerable entiende que los unos no pueden funcionar sin los otros. a los ataques. Los ataques son causados principalmente • Duricu [27], se centra en la necesidad que marca la por amenazas que tienen el potencial de explotar nueva legislación europea de privacidad de datos vulnerabilidades. Cualquier tipo de daño a estos activos (GDPR) de realizar un análisis de riesgos y la necesidad causa riesgos y es uno de los factores más importantes de crear un nuevo modelo, dado que los modelos para la organización. El riesgo de ataques maliciosos a tradicionales (OCTAVE Allegro, ISO, NIST) no se la seguridad del software ha aumentado adaptan a la casuística de esta nueva legislación. considerablemente y es muy necesario evitarlo. La • Para Shamala [28], la seguridad de la información se ha máxima "antes es mejor" se ha convertido en el orden convertido en un punto crítico para las organizaciones del día. Por lo tanto, este estudio se realizó en vista de de todo el mundo, ya que realizan negocios en un la importancia de la evaluación de riesgos en la fase de entorno interconectado y rico en información. Por lo requisitos de SDLC (Software Development Life tanto, las organizaciones desean eliminar los posibles Cycle). riesgos en sus organizaciones mediante la evaluación • Rea-Guaman [32] destaca que, en ciberseguridad, la de riesgos de seguridad de la información (ISRA). Los identificación de riesgos es una parte fundamental ISRA les permite identificar y priorizar los activos de porque esta actividad no es exclusiva de la información y garantizar que se utilicen mecanismos de ciberseguridad y es difícil saber cuáles son los riesgos control efectivos para los activos de información de alta en esta área concreta. Este estudio tiene como objetivo prioridad, pero los métodos actuales de ISRA tienen identificar si existen taxonomías de riesgo en limitaciones críticas ya que adoptan simplemente una ciberseguridad. perspectiva técnica. Los métodos ISRA disponibles • López [33] se centra en el Riesgo Dinámico y destaca actualmente funcionan en una vista limitada de los que la aplicación de procesos de Análisis y Gestión de activos de información, y por tanto es necesario Riesgos en el ámbito de los Sistemas de Información es desarrollar nuevas taxonomías de activos para ellos. una práctica común que permite la planificación en un 116 momento puntual de tiempo de las acciones preventivas concentrándose en buscar la proporción óptima entre frente al riesgo a corto, medio o largo plazo, pero con las amenazas y los costes de la protección de los un considerable potencial actualmente desaprovechado sistemas de TI. En un desarrollo tan dinámico de las para facilitar la toma de decisiones en tiempo real frente Tecnologías de la Información, el tiempo necesario a eventos o incidentes de seguridad. Este trabajo hace para una reacción apropiada ante el riesgo se acorta de un recorrido por las principales corrientes que buscan forma determinante. La falta de una preparación sacar partido a este potencial, englobadas adecuada puede llevar a la empresa al colapso, por lo principalmente bajo el concepto de Análisis de Riesgos que la reacción adecuada al riesgo constituye la Dinámico. posibilidad de supervivencia y desarrollo de la empresa. • Para Ganin [34], los evaluadores y gerentes de riesgos El problema de la gestión de riesgos de TI es un enfrentan muchos desafíos difíciles relacionados con problema muy complejo. Una de las etapas más los nuevos sistemas cibernéticos. Entre estos desafíos importantes de este proceso es el análisis de riesgos, se encuentran la naturaleza en constante cambio de los utilizado para la optimización y la minimización de las sistemas cibernéticos causado por los avances técnicos, pérdidas relacionadas con el riesgo. su distribución a través de los dominios físicos, de • Saripalli [39] plantea la necesidad de modernizar los información y sociocognitivos, y las complejas modelos de riesgos para que se puedan adaptar a estructuras de red que a menudo incluyen miles de entornos como el Cloud Computing [39] nodos. • Por último Li y Sicari [40, 41], proponen la necesidad • Según Smojver [35], numerosos métodos existentes de de avanzar en el análisis de riesgos para IoT, tanto gestión de riesgos de seguridad de la información desde el punto de vista de modernizar los modelos (ISRM) difieren mucho en su enfoque, complejidad de existentes como la necesidad de añadir sistemas uso, nivel de detalle y aplicabilidad a organizaciones de inteligentes de valoración del riesgo, tales como las diferentes tamaños y modelos de negocio. La selección redes neuronales. de un método que se ajuste a los requisitos de una Toda esta información y cómo se lleva a cabo el proceso organización puede ser un proceso complejo e intensivo está recogido en lo que se denominan metodologías de análisis en recursos, con una posibilidad significativa de decisión subóptima. de riesgos. Aunque es cierto que existe un gran número de Beckers [36] destaca la importancia de constatar que los metodologías para este tema, se puede decir que la mayoría • estándares de seguridad y de gestión de riesgos puede tienen puntos en común. Según [12] las metodologías de ser un desafío, en parte porque las descripciones de lo análisis de riesgos tienen como punto de partida identificar que se debe realizar suelen ser genéricas y deben ser formalmente los elementos a proteger o aquellos que tienen un perfeccionadas por expertos en seguridad. Eliminar esta valor para la organización, lo que se llamarán activos. ambigüedad requiere mucho tiempo para los expertos Después de analizar estas propuestas, vemos que es de en seguridad, ya que tienen que interpretar todas las interés el llevar a cabo una revisión sistemática (RS) de la tareas requeridas en el estándar por su cuenta. literatura existente en relación con las Metodologías y • Para Shedden [37] existen muchas metodologías para Estándares de Análisis de riesgos que se están utilizando evaluar los riesgos de seguridad asociados con fugas no actualmente, su estado y evolución histórica, con el objetivo de autorizadas, modificación e interrupción de entender su situación actual. información en una organización determinada. Como se trata de una revisión sistemática, se sintetiza el Argumentan que la orientación tradicional de estas trabajo existente de forma que sea coherente [42-44]. En metodologías, hacia la identificación y evaluación de contraste con el proceso habitual de una revisión de la literatura, los activos de información técnica, oscurece los riesgos que se lleva a cabo de manera no sistemática cada vez que clave asociados con el cultivo y despliegue del alguien acomete una parte particular de una investigación, una conocimiento organizacional. Basándose en la RS se desarrolla, como el término denota, de una manera formal literatura de gestión del conocimiento, el estudio y sistemática [45]. Esto significa que el proceso de sugiere mecanismos para incorporar estas investigación de una revisión de tipo sistemático sigue una consideraciones basadas en el conocimiento en el secuencia de pasos metodológicos muy bien definida y estricta, alcance de las metodologías de riesgo de seguridad de conforme a un protocolo desarrollado apriorísticamente. Ésta se la información. lleva a cabo en torno a un tema central, que representa el núcleo • Según Rot [38], el riesgo relacionado con la aplicación de la investigación, y que se expresa mediante el uso de una de las tecnologías de la información en los negocios crece junto con el aumento de la correlación pregunta específica, previamente definida, centrado y empresarial con sus clientes, socios comerciales y estructurada. Los pasos metodológicos, las estrategias para operaciones subcontratadas. El progreso tecnológico recuperar la evidencia y el enfoque en la cuestión se definen genera dependencias que evocan el crecimiento de la explícitamente, de manera que otros profesionales pueden diversidad, la complejidad, la falta de descripción y la reproducir el mismo protocolo y también pueden juzgar la cantidad de factores de riesgo. En inversiones idoneidad de los estándares elegidos para el caso en cuestión. insuficientes en seguridad de la información, el tema de Esta revisión sistemática se va a llevar a cabo mediante el la gestión de riesgos de TI se vuelve más importante, uso de las directrices para las revisiones sistemáticas propuestas 117 por Kitchenham [42-44], que se han mostrado apropiadas para comparación de las mismas. La población a analizar se investigaciones de ingeniería del software. Usaremos también compone de las publicaciones presentes en los repositorios de un modelo de protocolo de revisión desarrollado por Biolchini las fuentes de datos seleccionadas que estén relacionadas con el et al. [45], que facilita la planificación y ejecución de las objetivo de esta revisión. revisiones sistemáticas en la ingeniería del software. Los resultados esperados de esta revisión son conocer las El resto del artículo se estructura de la siguiente forma: En propuestas existentes en cuanto a análisis de riesgos generales, la Sección 2 definiremos la pregunta de investigación. En la para posteriormente analizarlas y conocer qué comparten y en Sección 3 se explica el método de revisión, que se basa en el qué difieren, además de identificar necesidades de protocolo de investigación, y es aquí donde se definirá la investigación. Las principales áreas de aplicación que se verán estrategia de búsqueda y la selección de estudios. En la Sección beneficiadas por los resultados de esta revisión sistemática son 4 definiremos los datos a extraer y que se presentarán en el las relacionadas con la Seguridad de la Información, en especial resumen de los estudios relevantes. En Sección 5 presentaremos la Gestión de la Seguridad (concretamente los análisis de los resultados de la revisión y un análisis de los mismos. riesgos), así como los expertos en seguridad. A tal fin, se Finalmente, en la última sección describiremos las principales proveerá un marco comparativo que permita posicionar conclusiones obtenidas. adecuadamente las nuevas actividades de investigación en análisis de riesgos. II. PLANIFICACIÓN DE LA REVISIÓN En este apartado, se define la pregunta de investigación de III. MÉTODO DE LA REVISIÓN forma que se focalice el área de interés del trabajo y queden El método de revisión se basa en el protocolo de definidos tanto el problema a tratar como sus principales investigación. En esta etapa definimos la estrategia de características. búsqueda, qué fuentes se utilizarán para identificar los estudios primarios, si hubo algunas restricciones, cuáles son los criterios A. Objeto de la pregunta. de inclusión y exclusión, qué criterios se utilizarán para evaluar la calidad de los estudios primarios y cómo se extraerán y En esta revisión sistemática se pretende localizar trabajos sintetizarán los datos de los estudios. centrados en el desarrollo de modelos y metodologías de análisis de riesgos de carácter general, con el objetivo de entender su estado actual y cuáles son los que se están A. Selección de fuentes. utilizando actualmente. El objetivo de esta fase es seleccionar las fuentes que se usarán para realizar la ejecución de la búsqueda de estudios B. Premisa de la Revisión Sistemática. primarios. El criterio para la selección de las fuentes de búsqueda será Podemos definir la pregunta de investigación de este la posibilidad de consultar los documentos en Internet o en la trabajo, por tanto, de la siguiente forma: biblioteca digital de la Universidad de Castilla-La Mancha, que cuenta con libros electrónicos así como con acceso a las bibliotecas digitales de ACM, IEEE, Science@-Direct o ¿Qué Metodologías y Estándares existen actualmente Elsevier, entre otros; la inclusión motores de búsqueda que relacionados con el Análisis de Riesgos y en qué estado se permitan consultas avanzadas y búsqueda por palabras clave; encuentran? además, editoriales, libros, revistas y conferencias recomendadas por expertos en la materia. La búsqueda de estudios primarios se llevará a cabo Las palabras y conceptos relacionados que se utilizaron para utilizando motores de búsqueda en web, bases de datos formular esta pregunta y que fueron utilizados durante la electrónicas y búsquedas manuales, tales como búsquedas en ejecución de la revisión son las siguientes: una revista/conferencia/libro/publicación específica o en publicaciones de investigación recomendadas por expertos en la materia. Finalmente, las principales fuentes de lista de fuentes inicial “Information Security Risk Assessment”, ISRA obtenida sobre la cual se ejecutará la revisión sistemática es la “Information Security Risk Management”, ISRM siguiente: ACM digital library, IEEE digital library, Risk management: Risk assessment methodology Science@Direct, Google Scholar, SREIS symposium, ESORICS symposium, REFSQ conference, IEEE International Requirements Engineering Conference, ICSE conference, COMPSAC conference, DEXA conference, WOSIS workshop, En el contexto de la revisión sistemática planificada se van ICCSA conference, Requirements Engineering Journal, a observar las propuestas existentes sobre modelos y Computer Standards & Interfaces Journal, Computers & metodologías de análisis de riesgos generales, extrayendo las Security. más importantes y procediendo a un posterior análisis y 118 B. Selección de estudios. aplican a todos los artículos obtenidos a fin de verificar si los Una vez que se han sido definidas las fuentes, es necesario estudios se ajustan a los criterios de inclusión y exclusión. Los describir el proceso y el criterio que vamos a seguir en la estudios obtenidos, que corresponden exactamente con todos ejecución de la revisión para la selección y evaluación de los los criterios de inclusión y exclusión definidos previamente, se estudios. detallan en la siguiente sección. En primer lugar, se combinaron las palabras clave seleccionadas con conectores AND y OR para obtener la cadena de búsqueda, como se muestra a continuación: IV. EXTRACCIÓN DE LA INFORMACIÓN. La información extraída de los estudios debe contener las técnicas, métodos, procesos, medidas, estrategias o cualquier methodology OR standard OR guidelines tipo de iniciativa para la adaptación del análisis, gestión o AND evaluación de riesgos a nivel general. “Information Security Risk Assessment” OR ISRA Los formularios de información definidos para esta revisión AND sistemática contienen la identificación del estudio, la “Information Security Risk Management” OR ISRM metodología o modelo del estudio, los resultados del estudio, AND los problemas del estudio y nuestras impresiones generales al “risk analysis” OR “risk management” OR “risk respecto. assessment" Algunos de los artículos obtenidos han sido descartados por no ofrecer información relevante, o estar sesgados hacia algunos sectores, aun así consideramos interesantes hacer El procedimiento para la selección de estudios empleado mención sobre ellos: comienza con la adaptación de la cadena de búsqueda al motor • Svatá, V. and M. Fleischmann, “IS/IT Risk de búsqueda de la fuente y la ejecución de la consulta, limitando Management in banking industry” [46]: En esta la búsqueda a trabajos publicados en los últimos 5 años (2014 – investigación el autor analiza la relación de algunos 2019). Los criterios de inclusión y exclusión deberían basarse estándares de riesgos con la norma Bancaria de Basilea en la Pregunta de investigación. El criterio de inclusión actúa II para alinearlos en su aplicación al sector financiero. sobre los resultados obtenidos al ejecutar la búsqueda sobre la • Mayer, N., P. Heymans, and R. Matulevicius. “Design fuente, permitiéndonos realizar una primera selección de of a Modelling Language for Information System documentos que serán considerados en el contexto de la Security Risk Management”. [47]: En esta revisión como candidatos a convertirse en estudios primarios. investigación el autor plantea la necesidad de diseñar Como criterio de inclusión se realiza principalmente un análisis un lenguaje formal para el análisis y gestión de riesgos sobre el título, las palabras claves y el abstract de cada de información. documento, de forma que podemos ver en una primera instancia A continuación se ofrece una breve reseña de cada uno de cómo están relacionadas estas palabras y porqué ha sido los estudios seleccionados mostrados en la sección anterior, de seleccionado el estudio. Con este criterio se localizan y acuerdo con la información extraída obtenida a través de los eliminan la mayor parte de los resultados obtenidos que no formularios de información. realizan aportaciones sobre análisis de riesgos en el campo de los Sistemas de Información. 1.1. García, F.Y.H. and L.M.L. “Moreta. Maturity Model for El criterio de exclusión actúa sobre el subconjunto de the Risk Analysis of Information Assets based on estudios relevantes obtenidos y nos permite obtener el conjunto Methodologies MAGERIT, OCTAVE y MEHARI; focused on de estudios primarios. En esta fase nos centramos Shipping Companies” [48]. principalmente en la lectura y análisis del abstract del En la Investigación [48, 49] se propone un nuevo modelo de documento y sus conclusiones, teniendo en algunos casos que madurez para el Análisis de Riesgos de los Activos de profundizar en el mismo y realizar una lectura más detallada Información, derivado de las Metodologías MAGERIT, sobre otras partes del documento, de cara a ver en más detalle OCTAVE y MEHARI y una orientación sectorial, en concreto de qué trata cada estudio, ver la relación real que presenta con a empresas del sector marítimo. los objetivos buscados y, si es verdaderamente relevante para la La Investigación propone un modelo de mapa de control revisión, seleccionarlo como estudio primario. compuesto por 11 categorías a evaluar (A. Política de Riesgo, B. Responsabilidad, C. Compromiso de la Alta Dirección; D. C. Ejecución de la selección. Comunicación y Formación; E. Determinación y Valoración de En este punto, se ejecuta la búsqueda en cada una de las los Activos de Información; F. Identificación y estimación de Amenazas; G. Estimación de Impacto; H. Evaluación del fuentes seleccionadas con el fin de obtener una lista inicial de Riesgo; I. Respuesta a los Riesgos; J. Actividades de Control y los estudios para la posterior evaluación aplicando todos los K. Mejora Continua del Análisis de Riesgo) y 5 Niveles de criterios y procedimientos especificados. Madurez (Nivel 1. Inicial; Nivel 2. Repetible; Nivel 3. Los procedimientos para la selección de los estudios se Definido; Nivel 4. Administrado; Nivel 5. Optimizado). 119 1.2. Gritzalis, D., et al., “Exiting the Risk Assessment maze: 1.5. Novoa, H.A. and C.R. Barrera, “Metodologías para el A meta-survey” [50]. análisis de riesgos en los sgsi” [54]. En la Investigación se puede ver una comparativa entre 10 En la Investigación podemos ver una pequeña comparativa metodologías de Análisis de Riesgos, con 3 criterios de entre algunas de las principales metodologías de Análisis de comparación. Riesgos. En concreto, se analiza OCTAVE, MAGERIT, Se analizan las siguientes metodologías de Análisis de MEHARI, NIST SP 800-30, CORAS, CRAMM y EBIOS, Riesgos: EBIOS, MEHARI, OCTAVE, IT-Grundschutz, analizando su ámbito de aplicación y las ventajas y desventajas MAGERIT, CRAMM, HTRA, NIST SP800, RiskSafe de cada una de ellas, orientándolas a su aplicación en los SGSI, Assessment y CORAS. aunque el análisis que se realiza es superficial y no entra a identificar las principales problemáticas que pueden tener estos Se analizan las siguientes dimensiones: Si incluye las cuatro modelos metodológicos en su aplicación real. fases del análisis de riesgos (1. Preparación; 2. Identificación del Riesgo; 3. Análisis del Riesgo; y 4. Evaluación del Riesgo); El modelo de cálculo del riesgo; y el tipo de Análisis que realiza 1.6. Santonja Lillo, J., “Análisis y correlación entre (Cualitativo o Cuantitativo). probabilidad e impacto de los riesgos” [55]. El articulo también muestra otras tablas comparativas En la Investigación se realiza una comparativa entre algunas interesantes entre las metodologías que incluyen su vinculación de las principales metodologías de Análisis de Riesgos. En con otros estándares y costes asociados con el soporte y el particular, se analizan Octave (las tres versiones), Magerit, software. Finalmente, muestra un análisis de características Mehari, Cramm y NIST SP 800:30, analizando las ventajas y como: la facilidad de uso, el ciclo de vida de sus versiones, los desventajas de cada una de ellas y las fases que cubren. objetivos respecto al tamaño de las empresas, software que la Las fases han sido catalogadas en: Caracterización del soporta, adaptabilidad, etc. Sistema, Identificación de Amenazas, Identificación de Vulnerabilidades, Análisis de Controles, Determinación de la Probabilidad, Análisis de Impacto, Determinación del Riesgo, 1.3. Mrksic Kovacevic, S., “Smart homes from a Risk Recomendaciones de Control, Documentación de los Management perspective” [51]. resultados, Establecimiento de Parámetros y Necesidades de En la Investigación podemos ver el trabajo de Tesis Seguridad. realizado sobre una maestría especializada en “Risk Assessment and Management”. 1.7. Hashim, N.A., et al., “Risk Assessment Method for Dentro de esta tesis de maestría, el autor analiza y compara Insider Threats in Cyber Security: A Review” [56]. diferentes metodologías y estándares de análisis de riesgos, en En la Investigación se realiza una comparación entre NIST particular: OCTAVE Allegro, FAIR, NIST CSF, RaMEX, SP 800-30, OCTAVE, FRAP y CRAMM, mencionando las ISRAM, CORAS y CIRA. principales investigaciones que las referencian, así como el tipo De cada una de ellas se analiza: i) Tipo de metodología; ii) de metodología, las fases principales de cada una de ellas y los Nivel; iii) Tiempo de implantación; iv) Fortalezas; v) recursos que requiere su implementación. Dentro de esta Debilidades; y vi) Perspectivas individuales, empresariales y investigación, su principal conclusión es que el método que gubernamentales. mejor aceptación tiene de los evaluados fue el del NIST por su orientación práctica y su simplicidad, aunque no está exento de 1.4. Wangen, G., C. Hallstensen, and E. Snekkenes, “A deficiencias que deben abordarse. framework for estimating information security risk assessment method completeness” [52, 53]. 1.8. Bergvall, J. and L. Svensson, “Risk analysis review” En la Investigación podemos ver cómo se plantea la [57]. dificultad de comparar los diferentes métodos al no existir En la Investigación se realiza una comparación entre Attack criterios unificados de comparación. Por ello se propone la trees (método de los investigadores), CRAMM, ISRAM, creación de un marco unificado de comparación (Core Unified OCTAVE Allegro, COBRA, Mehari, Magerit y CORAS, Risk Framework – CURF), que permitirá comparar diferentes clasificándose estas metodologías de Análisis de Riesgos en modelos. base a un conjunto de características, que incluyen: Recursos Dentro de esta investigación se compararon los siguientes necesarios, número de problemas identificados, tipo de AR modelos de riesgos: CIRA, CORAS, CRAMM, FAIR, (Cuantitativo y Cualitativo) y si tiene soporte para la toma de NSMROS, OCTAVE A, ISO27005, NIST 800-30, RISK IT, decisiones (es decir, que establezcan claramente qué acciones RAIS y CRDF. son necesarias para mitigar los riesgos). Para cada uno de los modelos se analizan en detalle: i) Los En las conclusiones de la investigación se destaca que la problemas relacionados con la identificación de riesgos; ii) La mayoría de los métodos evaluados carecían de soporte a la estimación del riesgo; iii) Problemas relacionados con la decisión, es decir, no especificaban de forma clara las acciones Evaluación del riesgo; y iv) Problemas de la Integridad del que debían implementarse para mitigar los riesgos, en particular Riesgo. CRAMM, ISRAM, MEHARI y MAGERIT. Esto dio lugar a que cada una de las compañías que formó parte de la investigación (Ericsson, SAAB, Tage Rejmes Bil AB, etc.) 120 había implementado el análisis de riesgos con métodos 1.12. Shameli-Sendi, A., R. Aghababaei-Barzegar, and M. diferentes y no unificados. Cheriet, “Taxonomy of information security risk assessment También se identifica la necesidad de elevados (ISRA)” [61] conocimientos para implantar métodos como CRAMM, En esta investigación los autores presentan una taxonomía ISRAM, MEHARI y CORAS. para la evaluación de riesgos de seguridad, construida a partir del análisis de 125 artículos publicados entre 1995 y 2014. 1.9. Abbass, W., A. Baina, and M. Bellafkih. “Using EBIOS Destacan que uno de los mayores problemas que han for risk management in critical information infrastructure” [58]. encontrado es que, aunque se investiga mucho sobre el riesgo, En la Investigación podemos ver la utilización de la la mayoría de los modelos propuestos están basados en metodología EBIOS para la gestión del riesgo dentro de la taxonomías antiguas, dejando a un lado la necesidad de Infraestructuras Críticas, y dentro del artículo se muestra una considerar nuevos criterios relacionados con el cambio de comparativa de diferentes metodologías de riesgos. En tecnologías y del nivel de conocimiento de los atacantes. concreto, se centra en la comparación de OCTAVE, EBIOS, Analiza algunas de las principales metodologías de riesgos, MEHARI, CRAMM y CORAS, analizando características como CRAMM, CORAS, OCTAVE, MAGERIT, Microsoft como la fecha de creación, soporte, herramientas, Security Risk Management Guide, MEHARI, ISO27005, NIST monitorización del riesgo, metodologías de análisis y SP800-30 y un grupo de proyectos de investigación en riesgos. documentación disponible de las mismas. Sobre ellos, evalúa la perspectiva con respecto al riesgo, las La principal conclusión que obtiene es que, a pesar del técnicas utilizadas, valoración, entradas y salidas, valoración de proceso estructurado, los resultados de los métodos de Análisis recursos, medición de riesgo y fases de riesgo. de Riesgos son en gran medida informales y no suelen ser suficientemente analíticos. Esta informalidad muestra una falta 1.13. Ruan, K. – “Introducing cybernomics: A unifying de automatización, razonamiento y trazabilidad del proceso de economic framework for measuring cyber risk”. [62] Análisis de Riesgos. En esta investigación el autor analiza diferentes modelos de riesgos como ITIL, COBIT, ISO/IEC 27005:2011, ISF 1.10. ENISA. “Inventory of Risk Management / Risk (SPRINT y SARA), OCTAVE, NIST 800-53, NIST 800-37, Assessment Methods” [59]. ISO/IEC 31000:2009, COBRA, CORAS, BPIRM, ISRAM, En [59] la Agencia Europea para la Ciberseguridad analiza CRAMM, BSI Guide y CORA, y sobre ellos analiza las las principales metodologías de Análisis de Riesgos que se problemáticas y limitaciones existentes que se resumen en: utilizan dentro del Marco de la Unión Europea, mostrando sus • Los métodos actuales se centran en la tecnología y principales características. dejan de lado otros factores como las personas, En particular se analizan las siguientes metodologías: procesos y factores de riesgo socioeconómicos. Austrian IT Security Handbook, Cramm, Dutch A&K Analysis, • Las estimaciones más precisas a menudo requieren Ebios, ISAMM, ISF Methods, ISO/IEC 13335-2, ISO/IEC acceso a datos y conocimiento que una sola entidad no 17799, ISO/IEC 27001, IT-Grundschutz, Magerit, Marion, posee. Mehari, MIGRA, Octave, RiskSafe Assessment y NIST SP800- • Los marcos de evaluación de riesgos predominantes 30. como ISO / IEC 27002 están estructurados en función de dominios de control de seguridad, que no son lo Para cada una de ellas se analizan las siguientes suficientemente efectivos para evaluar la preparación dimensiones: Información general, Nivel de referencia del de una entidad hacia un conjunto de escenarios de producto, Tarjeta de identidad del producto, Alcance y pérdida de alto riesgo desarrollados en torno a activos Características desde el punto de vista de los usuarios. digitales críticos. • La proliferación de metodologías de evaluación de 1.11. Pan, L. and A. Tomlinson, “A systematic review of riesgos en ausencia de un punto de referencia común ha information security risk assessment” [60]. causado inconsistencias indeseables en la medición del En [60] se hace una revisión de las publicaciones científicas riesgo cibernético. asociadas al análisis de riesgos, pero centradas en las De esta forma, es necesario plantear otros puntos de vista metodologías NIST SP800-30, ISO27005/ISO27001, diferentes para el análisis de riesgos que tenga en cuenta riesgos OCTAVE e ISRAM. Determina que estos mecanismos de externos, mayor objetividad, etc. análisis de riesgos tienen importantes carencias, como por ejemplo que no pueden abordar algunos factores importantes, como son la fuga de activos, los activos creados por los usuarios 1.14. Madhavan, K. and R. ManickaChezian, y el conocimiento crítico. También analiza las desventajas de “International Journal of Engineering Sciences & Research estos modelos a la hora de obtener puntuaciones de riesgo Technology a Study on Information Security and Risk objetivas. Por último plantean la necesidad de investigar los Management in IT Organizations”. [63] ISRA desde la perspectiva económica, como el análisis de El enfoque del presente estudio fue analizar 14 coste-beneficio y la teoría de juegos. metodologías de análisis de riesgos en detalle y reconocer algunos criterios comunes, con el objetivo de ayudar a las 121 empresas en la toma de decisiones de cuál puede ser más ISO/IEC 27005, ISO/IEC 31010, AS/NZS ISO 31000, BS adecuada para su negocio. 7799-3:2006, y UNE 71504:2008), realizando un análisis Las metodologías elegidas fueron: IT Grundschutz (BSI comparativo, de alto y bajo nivel, que permite conocer las 2008), “Standard of Good Practice” (ISF 2005), CRAMM, características más comunes y representativas de cada uno de OCTAVE-O, OCTAVE-A, COBIT, CORAS, ISM3, NIST SP ellos. 800-30, ITIL, EBIOS, MEHARI, GAISP y LRAM. El análisis realizado permitió evidenciar que la mayoría de las normas y modelos tienen puntos en común, aunque algunas normas presentan procesos más detallados, con un nivel más 1.15. Radanliev, P., et al., “Economic impact of IoT cyber profundo que otros modelos. Asimismo, se observó que hay risk-analysing past and present to predict the future normas y modelos con similitudes en la definición de sus developments in IoT risk analysis and IoT cyber insurance”. procesos, tales como actividades similares entre sí. Por otra [64] parte, también se encontraron algunas actividades que En esta investigación se realiza un análisis de 16 métodos complementaban y mejoraban las descripciones de otras de Análisis de Riesgos y su orientación y validez para los actividades, dando como resultado la característica en la que un sistemas IoT. modelo es capaz de soportar a otro modelo. Los métodos analizados fueron: ITIL, COBIT, La gestión de riesgos permite evitar el fracaso de proyectos ISO27005:2011, ISF (SPRINT y SARA), OCTAVE, NIST SP de desarrollo de software, estimulando la terminación del 800-37, NIST SP 800-53, ISO/IEC 31000:2009, COBRA, mismo de modo que se incrementa la calidad en los proyectos CORAS, BPIRM, ISRAM, CRAMM, BSI Guide, BS7799 y entregados, reduciendo costos y cumpliendo con las CORA. necesidades del cliente, lo que impacta positivamente en su Los resultados de esta investigación conducen a la satisfacción. Una buena gestión de riesgos tiene como habilidad conclusión de que existen muchos desafíos para comprender los entregar a tiempo los productos esperados a partir de las metas tipos y la naturaleza del riesgo cibernético y sus dependencias / que se plantearon y con el cronograma de actividades interacciones orientadas a los IoT. establecido. Por otro lado, el estudio concluye que las metodologías clásicas no se adaptan a los riesgos IoT y que es necesario 1.18. Alhajri, R.M., et al. “Dynamic Interpretation desarrollar nuevas métricas y métodos de valoración de riesgos. Approaches for Information Security Risk Assessment”. [68] El investigador plantea la necesidad de analizar los modelos de riesgos para prever los riesgos probables y llegar a las 1.16. Acevedo, N. and C. Satizábal. “Risk management contramedidas apropiadas, y para ello analiza modelos como and prevention methodologies: a comparison”. [65, 66] OCTAVE, CRAMM, FRAP e ISRAM, además de algunos Los investigadores analizan algunas metodologías de modelos de investigación. gestión y prevención de riesgos (OCTAVE, CORAS, AS/NZS 4360:1999, IS/IEC 27005, CRAMM, MAGERIT, 2 versiones Las conclusiones que presenta determinan que el factor de NIST y BID), realizando una comparación de las etapas que determinante básico es que el enfoque de evaluación de riesgos incluyen y determinando si tienen en cuenta el factor humano más importante es el que incorpora las tres dimensiones de en el análisis y tratamiento de riesgos. seguridad: confidencialidad, integridad y accesibilidad. Entre las conclusiones que obtienen es que solo el 42.85% de las metodologías de gestión de riesgos estudiadas incluyen 1.19. Korman, M., et al. “Overview of enterprise el factor humano, siendo el NIST la metodología más completa, information needs in information security risk assessment”. pero debe completarse con otras metodologías como la BID [69]. (Banco Interamericano de Desarrollo - Diagnóstico, prevención Según los investigadores, los métodos para la evaluación de y control de la corrupción en los programas de metodología de riesgos en seguridad de la información sugieren a los usuarios seguridad cívica). recopilar y considerar conjuntos de información de entrada, a menudo notablemente diferentes, tanto en tipo como en tamaño, De las siete metodologías de gestión de riesgos estudiadas, lo que suele hacer que los análisis de riesgos de las mismas sólo tres consideran el factor humano (Octave, Magerit y la compañías, sobre el mismo alcance y en igual de circunstancias metodología de gestión de riesgos del NIST) y cuatro no lo sean diferentes. consideran de manera explícita (CORAS, la metodología del estándar australiano, la NTC-ISO/IEC 27005 y CRAMM). Para explorar estas diferencias, este estudio compara doce métodos de análisis de riesgos (IT-Grundschutz, TRA-1, TRITF, CORAS, ISO/IEC27005, MEHARI, TSRMG, 1.17. Devia, G.A.V. and C.J. Pardo, “Hacia un modelo MAGERIT, OCTAVE, MG-3, NIST RMF, HMG IA), y se para la gestión de riesgos de TI en MiPyMEs: MOGRIT”. [67] analiza cómo sus sugerencias de entrada se corresponden con La investigación destaca la importancia cada vez mayor del los conceptos de ArchiMate, un lenguaje de modelado análisis de riesgos, y por ello presenta la armonización de ampliamente utilizado para la arquitectura empresarial. modelos de riesgos de TI (e.g., CRAMM, COBIT, EBIOS, ITIL V3 MAGERIT, OCTAVE, RISK IT) y algunas normas Como conclusión, determinan que varios factores podrían enfocadas en brindar soporte a los riesgos (e.g., ISO/IEC 27000, explicar las diferencias en las sugerencias de entrada entre los métodos. Por un lado, proporcionar sugerencias detalladas 122 puede beneficiar a los analistas, ya que identificar información 1.22. Pan, L., “Application of a Financial Quantitative Risk que sea verdaderamente relevante para una evaluación de Model to Information Security Risk Assessment”. [72] riesgos es una tarea difícil que merece una visión considerable Los investigadores destacan que muchas organizaciones no y un pensamiento amplio. Por otro lado, sugerencias muy pueden identificar sus activos, y mucho menos calcular el riesgo detalladas podrían sesgar cognitivamente a los analistas para asociado. Esta investigación argumenta que se necesita un seguir un esquema establecido que no sea necesariamente nuevo enfoque para la evaluación de riesgos y presenta una completo o equilibrado, lo que podría llevar a pasar por alto alternativa basada en modelos financieros. elementos de relevancia que de otro modo probablemente se identificarían. Esto último podría pesar especialmente a la luz Platean también que los estándares de gestión de seguridad de los constantes cambios de tecnologías y amenazas. Una de la información son esenciales para la seguridad de la alternativa podría ser invitar a los analistas a que identifiquen información, ya que permiten contar con un marco completo qué es lo más relevante para el objetivo específico de la para asegurar los datos en un nivel apropiado. evaluación en el día que se ésta realice. Se examinaron cuatro estándares ISRA comúnmente utilizados: OCTAVE, FAIR, ISO 27005 y NIST SP800-30. FAIR presta mayor atención a los métodos de cálculo del 1.20. Fulford, J.E., “What Factors Influence Companies’ análisis de riesgos, mientras que la ISO 27005 prefiere Successful Implementations of Technology Risk Management proporcionar un marco completo para la evaluación de riesgos. Systems”. [70] Sin embargo, el primer inconveniente de estos ISRA es que El artículo critica el poco éxito empresarial que tienen son difíciles de ejecutar en periodos cortos, o con seguimientos las metodologías de análisis de riesgos desarrolladas diario. Son procesos costosos y que requieren rellenar puramente en el ámbito académico, que no han sido aplicadas entrevistas y cuestionarios, seguidos por expertos. El segundo en la práctica. Para ello analiza algunas metodologías como problema es que son demasiado genéricos para todos los riesgos OCTAVE, CRAMM, ISO27001, ISRAM, FAIR, CORAS, así de seguridad de la información. como otras metodologías que están en fase de investigación. Las conclusiones extraídas de las comparaciones de las metodologías y modelos de gestión de riesgos tecnológicos 1.23. Nurse, J.R., S. Creese, and D. De Roure, “Security investigados durante la revisión de la literatura incluyeron: risk assessment in Internet of Things systems”. [73] Según los investigadores, los sistemas clásicos de • Algunos métodos de análisis de riesgos (como CORAS protección ya no son adecuados para los entornos IoT, ya que a y FAIR) utilizan aspectos de diseño de otras medida que aumenta la complejidad, la omnipresencia y la metodologías de riesgo y son muy complementarios automatización de los sistemas tecnológicos, particularmente con las metodologías en uso. con el Internet de las cosas (IoT), existe un fuerte argumento • Los profesionales han desarrollado modelos que sobre la necesidad de nuevos enfoques para evaluar el riesgo y típicamente incluyen métodos cuantitativos, pero estos generar confianza. Estos riesgos podrían estar relacionados con generalmente carecen de un método matemático los altos grados de conectividad presentes o el acoplamiento de componente de análisis, como un modelo estadístico, lo sistemas digitales, ciberfísicos y sociales, por lo que es que limita la capacidad de esos modelos para necesario analizar los modelos existentes y plantear nuevas determinar las relaciones e impactos de eventos de alternativas que consideren la dinámica y la singularidad de riesgo operacional de seguridad y tecnología para las IoT, pero manteniendo el rigor de las mejores prácticas en la operaciones de TI. evaluación de riesgos. • Los modelos profesionales generalmente se construyen para usuarios experimentados con amplios Para ello analizan métodos como NIST SP800-30, ISO/IEC conocimientos de dominio. 27001, OCTAVE y su orientación hacia el IoT. 1.21. Chen, F., “An Investigation and Evaluation of Risk 1.24. Agrawal, V., “A Comparative Study on Information Assessment Methods in Information systems”. [71] Security Risk Analysis Methods”. [74] Los investigadores realizan una revisión de diferentes El investigador destaca que el análisis de riesgos es una métodos de análisis de riesgos y de algunas dimensiones, y parte integral de la práctica de gestión y un elemento esencial presentan un marco de trabajo para ayudar a las empresas a del buen gobierno corporativo. Hay muchos métodos de análisis elegir el método que más se adapta a sus circunstancias. de riesgos disponibles en la actualidad, y es una tarea tediosa para una organización (particularmente una pequeña y mediana Entre los métodos elegidos para el análisis están: OCTAVE, empresa) elegir el método adecuado. Otro problema, es que CORAS, CORA, COBRA, Risk Watch, FRAP, COSO ERM y aunque hay muchos métodos y herramientas disponibles en este @Risk. Para el análisis posterior, no se tendrá en cuenta ni Risk dominio, existen muy pocos inventarios que estén estructurados Watch, ni @Risk, al ser estos herramientas para análisis de de acuerdo con un conjunto de propiedades comunes. riesgos, y no metodologías orientadas al riesgo TIC. Por lo tanto el investigador analiza cuatro métodos de Dentro de las características los investigadores analizan: el análisis de riesgos y los compara a partir de un conjunto de objetivo, alcance, flexibilidad, alineamiento con otras normas, atributos genéricos como: entrada, resultado, propósito, precio, tipología, tiempo de implantación, factor humano y esfuerzo, escalabilidad, metodología, etc. usabilidad. 123 Los métodos analizados son: CORAS, CIRA, ISRAM e IS Finalmente concluyeron que no existe ningún método de (IS Risk Analysis Based on Business Model). riesgos que sea totalmente adecuado a los ICS, pero que se pueden utilizar NIST y CORAS como enfoques subyacentes 1.25. Wangen, G.B., “Cyber Security Risk Assessment para desarrollar un Marco de Análisis de Riesgo Modificado Practices: Core Unified Risk Framework”. [75]. para sistemas ICS (MRAF-ICS). Este marco asigna pesos a Los investigadores consideran que las evaluaciones de todos los activos del sistema para enfatizar la importancia / riesgos permiten reducir la incertidumbre con respecto a criticidad del activo en el sistema general. Utiliza el enfoque de eventos futuros con el fin de tomar las mejores decisiones modelado de amenazas, FMEA y HAZOP para identificar posibles y controlar el riesgo. En la industria, el objetivo es exhaustivamente las amenazas, los peligros y las encontrar el equilibrio adecuado en la toma de riesgos en vulnerabilidades en el sistema. relación con el apetito y la tolerancia al riesgo de la Para la investigación se tuvieron en cuenta los siguientes organización. Demasiados controles de seguridad inhibirán la métodos: CRAMM, CORAS, OCTAVE, MEHARI, CSMRA, funcionalidad del negocio, y lo contrario conducirá a una FMEA&FMECA, HAZOP, HMRM-CI, NIST SP800-30 y exposición inaceptable. Por lo tanto, la investigación aborda ARMS. varios aspectos de las prácticas de evaluación y gestión de riesgos de seguridad informática y cibernética (ISRA) y 1.27. Oppliger, R., G. Pernul, and S. Katsikas, “New contribuye a nuevos problemas de investigación, métodos, Frontiers: Assessing and Managing Security Risks”. [77]. modelos y conocimiento dentro de la disciplina. Como hemos visto, existen múltiples investigaciones que Entre los desafíos dentro del campo de ISRM destacan la destacan que el análisis cuantitativo de riesgos, como se necesidad de elegir entre diferentes métodos ISRA sin una requiere para la evaluación y la gestión de riesgos, funciona premisa clara, y con una literatura sobre el tema de los mejor en la teoría que en la práctica, y que se necesitan algunos problemas en ISRM bastante dispersa. enfoques alternativos [78]. El estudio encontró que los principales problemas de ISRM Basado en ese problema se planteó este artículo, y otros según los expertos estaban en la comunicación de riesgos, las asociados, que permitió a los autores realizar un estudio sobre medidas de seguridad y el retorno de las inversiones. Mientras la gestión de riesgos en general, así como sobre el valor que para la evaluación y el análisis de riesgos, encontraron que intrínseco de la evaluación de riesgos. La mayoría de los los problemas clave son la aplicación de métodos cuantitativos investigadores que participaron estuvieron de acuerdo con la y cualitativos, la necesidad de experiencia y la evaluación de hipótesis inicial: los enfoques actualmente implementados para activos. la evaluación de riesgos no funcionan en la práctica y son La investigación propone además combinar los métodos difíciles o imposibles de aplicar en el campo. Hay una serie de cuantitativos (estadísticos) y cualitativos (basado en el razones para esto, que se pueden ver en el artículo de la IEEE conocimiento subjetivo) para poder modelar el ataque y estimar Security & Privacy [78] y que se pueden resumen en que el uso el riesgo. El enfoque se centra en estimaciones cualitativas de de la teoría de probabilidad y las estadísticas en un campo en activos, vulnerabilidades, amenazas, controles y resultados constante cambio como la ciberseguridad no tiene sentido. asociados, junto con un análisis estadístico del riesgo. Tambien analiza la comparación de métodos de hace Los modelos de riesgos analizados son: CIRA, CORAS, Wangen [13] sobre OCTAVE, ISO/IEC 27005:2011 y CRAMM, FAIR, NSMROS, OCTAVE-A, ISO27005, NIST NSMROS. Oppliger sostiene que la elección de un método SP800-30, Risk IT, RAIS y CRDF. sobre otro influye enormemente en el proceso de evaluación resultante. 1.26. MUKAMA, J., “Risk Analysis as a Security Metric Otra investigación analizada en el artículo es la de Burnap for Industrial Control Systems”. [76]. [79], que plantea el problema de que los métodos actuales de Según los investigadores, a medida que avanza el tiempo y análisis de riesgos están planteados para sistemas la tecnología, las personas se vuelven más dependientes de los independientes, pero los sistemas actuales son servicios proporcionados por los Sistemas de Control Industrial interdependientes y complejos. Lo que se requiere para manejar (ICS). Utilizados principalmente en las industrias de con éxito tales sistemas desde una perspectiva de evaluación de infraestructura crítica, los ICS han realizado y habilitado riesgos actualmente no se comprende bien. cientos de servicios esenciales para las personas, el público y Finalmente, analiza las investigaciones de Rossebo [80, 81] las organizaciones a diario. el cual presenta una nueva propuesta de análisis de riesgos Para mitigar los riesgos que pueden surgir debido a las diseñada para sistemas IoT, que tiene una aplicabilidad mucho vulnerabilidades introducidas en el sistema, los investigadores más amplia y que puede motivar más investigaciones en este realizaron una comprensión más profunda de los diferentes ICS, área. Al establecer un conjunto de requisitos para comparar los revisaron una serie de enfoques de análisis de riesgos existentes métodos de evaluación de riesgos existentes para el sector y los categorizamos en términos de su objetivo general, si son energético, los autores pudieron evaluar los métodos existentes, cualitativos o enfoques cuantitativos, las etapas de la gestión de lo que les permitió identificar la necesidad de un cuarto método, riesgos abordados y el alcance en términos de los problemas la Metodología de Gestión de Riesgos SEGRID (SRMM), que que abordaron. podría proporcionar un marco de gestión de riesgos para sistema IoT. 124 V. ANÁLISIS DE RESULTADOS. Communities, Directorate- En esta sección analizaremos los resultados obtenidos y General catalogaremos las características de cada una de las Information metodologías, estándares y guías asociadas al Análisis de Society) Riesgos que hemos encontrado. COSO ERM Committee of (Enterprise Risk Sponsoring Estad En total se han analizado 27 artículos científicos del periodo Management — Organiz os ación Organizations of Unido 1 [71] 2014-2019, que han permitido identificar 40 métodos, guías y Integrated the Treadway s estándares clásicos asociados al Análisis de Riesgos TIC y a Framework) Commission nuevos aspectos específicos como el IoT, Smart Grid o ICS, que CRAMM CCTA británica (Central (Agencia Central podríamos considerar la evolución futura de este tipo de computer and de [50, 52- sistemas. Telecommunicati Gubern Comunicaciones y Reino 19 59, 61-on Agency Risk amental Telecomunicacion Unido 67, 70, En la Tabla 1 podemos ver los 40 modelos identificados Analysis and es) 75, 76] durante la revisión sistemática, junto con la organización, país Management de origen y el número de artículos donde ha aparecido. Method) Insight Consulting Dutch A&K Analysis Gubern Ministerio (Análisis amental holandés de Países asuntos internos Bajos 1 [59] holandés A&K) ANSSI (Agence nationale de la EBIOS sécurité des (Expression of systèmes Needs and Gubern d'information) Franc [50, 54, ARMS 6 58, 59, (Automated Risk Gubern Defence R&D Cana Identification of amental DCSSI (Dirección ia 63, 67] Management amental Canada – Ottawa dá 1 [76] Security Objectives) Central de System) Seguridad de los Austr Sistemas de AS/NZS 4360 / alia y información) ISO31000:2009 Gubern Council of Standards Nuev 4 [64-67] FAIR (Factor Estad(incluye las guías amental a Empres os [51-53, HB) Australia Zelan Analysis of arial FAIR Institute Unido 6 70, 72, da Information Risk) s 75] Austrian IT FRAP Estad Security (Facilitated Risk Univers Peltier and os [56, 68, Handbook Gubern Bundeskanzleramt 3 (Manual austriaco amental (Cancillería Austri a 1 [59] Assessment itario Associates Unido 71] federal austríaca) Process) s de seguridad GAISP informática) (Generally Information BPIRM (Business Accepted Organiz Systems Security Estad os Process: Empres KPMG Reino 2 [62, 64] Information ación Association Unido 1 [63] Information Risk arial Unido Security International Management) Principles) (ISSA) s Desarrollo como HMG-IA (HMG National Technical Tesis Doctoral por IA Standard No. Gubern Authority for Reino CIRA Lisa Rajbhandari, 1 Technical Risk amental Information Unido 1 [69] (Conflicting Univers bajo el nombre de Norue [51-53, Assessment) Assurance Incentives Risk idad “Conflicting ga 5 74, 75] IS RA on BM (IS Korea Advances Analysis) Incentives” as an Risk Analysis Gubern Institute of Alternative Notion Based On amental Science and Corea 1 [74] of Risk. Business Model) Technology COBRA (The ISAMM Consultative, Objective and Bi- Empres C & A Systems Reino [57, 62, (Information functional Risk arial Security Ltd. Unido 4 64, 71] Security Empres Assessment and arial Telindus N.V Bélgi ca 1 [59] Analysis) Monitoring Estad Method) CORA (Cost-Of- Empres International Security Security, os 3 [62, 64, ISF (Information Risk Analysis) arial Lcd. Unido 71] ISF Method: Security Forum) s C&A Systems “Standard of ISF asociación Security LTD. good Practice”, Organiz internacional de Reino 4 [59, 62-CORAS [50-54, IRAM, IRAM2, ación Unido 64] (Construct a SARA, SPRINT , más de 260 platform for Risk Empres Information Reino 57, 58, empresas líderes y Analyisis of arial Society Unido 19 61-66, FIRM organizaciones del Security Critical Technologies 69-71, sector público Systems) (IST) Programme 74-76] ISO/IEC Organiz Intern [52, 53, (Commission of Baselines ación ISO acion 16 59-62, the European (incluye ISO/IEC al 64-67, 125 Modelo Análisis de Riesgos Origen Organizació n País Nº Apariciones Investigacion es Relacionadas 27001 - BS7799- (orga 69, 70, Integrata per la 2:2002, nizaci 72, 73, Gestione del ISO/IEC: 27002 - ón 75, 77] Rischio ISO/IEC con Aziendale) - 17799:2005, sede (anteriormente se ISO/IEC 27005 - en denominaba ISO/IEC 13335- Suiza Defender) 2/3, BS 7799- ) NIST Family: 3:2006) NIST CSF / National Research NIST RMF / Estad [50-56, ISRAM Institute of [51, 57, NIST SP800-30 / Organiz Instituto Nacional de Estándares y os 59-66, 20 69, 72, (Information Univers Electronics & NIST SP800 – 37 ación Cryptology & Turqu 8 60, 62, / NIST SP800–39 Tecnología (NIST) Unido 73, 75, Security Risk idad ia 64, 68, s 76] Analysis Method) TurkeybGebze / NIST SP800 - Institute of 70, 74] 53 Technology NSMROS IT-Grundschutz (Norwegian (IT Baseline Gubern Oficina Federal de Alem [50, 59, National Security Gubern Norwegian Norue [52, 53, Protection amental Seguridad de la ania 6 62-64, Authority Risk amental Security Act ga 4 75, 77] Manual)/BSI Información (BSI) 69] and Vulnerability Standard 100-2-3 Assessment) ITIL (The IT Office of Infraestructura Organiz Reino [62-64, OCTAVE (The Library) ación Government Unido 4 67] Operationally Commerce (OGC) Critical Threat, Universidad Asset, and Carnegie Mellon, EstadLawrence Vulnerability Univers SEI (Instituto de os 29 [48-73, LRAM Livermore Estad idad Unido 75-77] (Livermore Risk Univers National os EvaluationSM)/ Ingeniería de Analyisis idad Laboratory Unido 1 [63] Octave-S / Software) s Methodology) (University of s Octave-A California) (Allegro) MAGERIT Ministerio de RAIS (Risk Norwegian Data Administraciones [48-50, Assessment of Gubern Protection Norue [52, 53, (Methodology for Information amental Authority’s ga 3 75] Information Gubern Públicas 54, 55, Systems Risk amental (Ministerio de Españ a 12 57, 59, Systems) (Datatilsynet) Analysis and Administraciones 61, 65- RaMEX (Risk Management) Públicas de 67, 69] Analysis and Univers University of Reino España) Management idad Birminghan Unido 1 [51] MARION expert system) (Metodología de Risk IT - ISACA análisis de Gubern Franc / COBIT Risk información y amental CLUSIF ia 1 [59] (Control Estad [52, 53, optimización de Objectives for Empres ISACA os 8 62-64, datos por Niveau) Information and arial Unido 67, 69, MCRDF Estad Related s 75] (Microsoft Cloud Empres Microsoft os 3 [52, 53, Technology) Risk Decision arial Unido 75] RiskSafe Empres Platinum Squared Reino Framework) s Assessment arial Ltd Unido 2 [50, 59] MEHARI SRMM (SEGRID (Me´thode [49, 50, Risk ETSI (The Harmonise´e Organiz CLUSIF (Francia) 54, 55, Management European d’Analyse de ación transmitido por Franc 10 57-59, Methodology) - Gubern Telecommunicatio UE 1 [77] Risques— CLUSIQ (Canadá) ia 61, 63, SEGRID amental (Security for ns Standards Harmonised Risk 69] Smart Electricity Institute) Analysis Method) MG-2 (A Guide GRIDs) to Security Risk TRA (Threat and Risk Assessment Communications Management for Methodology) & Security Information Establishment Technology HTRA Gubern Canada (CSEC) Cana 2 [50, 69] Systems) & MG- CSE (Harmonized amental da 3 (A Guide to Organiz (Communications Cana Threat and Risk and the Royal Risk Assessment ación Security dá 1 [69] Assessment Canadian Mounted and Safeguard Establishment) Methodology) Police (RCMP) Selection for Tabla 1. Modelos identificados durante la revisión Information Technology sistemática Systems) Microsoft’s Estad Security Risk Empres os A continuación, vamos a extraer de forma resumida las Management arial Microsoft Unido 2 [61, 69] principales necesidades y problemas identificados durante la Guide s revisión sistemática: MIGRA Empres AMTC / Elsag (Metodologia arial Datamat S.p.A Italia 1 [59] 126 • Controles: Los controles deben formar parte del información facilitada por ENISA sobre las Análisis de Riesgo, y no sólo de la Gestión del Riesgo: metodologías de análisis de riesgos está ya obsoleta. Gran parte de las metodologías consideran que los • Existen muchos modelos de los analizados que no han controles son ajenos al análisis de riesgos, y no lo sido actualizados en los últimos 10 años, y aun así se consideran hasta la fase de gestión de riesgos [75]. siguen utilizando. • Capacidad Sectorial: Importancia de tener la capacidad • Se han identificado tímidas propuestas para modernizar en las metodologías de adaptarse a sectores específicos los análisis de riesgos ante los nuevos retos como el [48]. Cloud, IoT, ICSs, etc. Sin embargo, hasta ahora han • Estructuras comunes de riesgo que soporten diferentes tenido poco recorrido. metodologías: Ante la diversidad de marcos de trabajo, • La mayoría de los modelos encontrados tienen una ser capaces de crear una estructura común que pueda complejidad alta o media de implantación, no unificar las diferentes metodologías de riesgos [71]. considerándose adecuados para PYMES. • Los sistemas de riesgos son el núcleo de los sistemas de • La mayoría de los modelos se orientan a cubrir las tres Gestión de Seguridad [72]. dimensiones base (confidencialidad, integridad y • La simplicidad y la orientación práctica es importante disponibilidad), dejando de lado el resto de criterios. para las empresas [56-58, 72, 75, 77]. Podemos concluir por lo tanto, que ahora mismo existen • Los métodos deben tener mecanismos de soporte a la importantes carencias dentro de los modelos de Análisis de toma de decisiones [57]. Riesgos existentes que deben ser afrontadas, desarrollando • Los resultados del análisis de riesgos son informales y nuevas metodologías que permitan adaptarse a las poco analíticos, obteniendo puntuaciones de riesgo circunstancias cambiantes de las TIC. subjetivas [58, 60]. • Necesidad de contar con orientaciones y perspectivas AGRADECIMIENTOS económicas del análisis de riesgos [60]. Esta investigación ha sido co-financiada por los proyectos • Necesidad de taxonomías de riesgos actualizadas y adecuadas a las nuevas tecnologías (ICSs, IoT, Smart GENESIS - Security Government of Big Data and Cyber Grids, …) [61, 64, 73, 76]. Physics Systems ((SBPLY/17/180501/000202) financiado por el • Se dejan de lado perspectivas como personas, procesos “JCCM- Consejería de Educación, Cultura y Deportes, y y factores de riesgo socioeconómicos [61, 65, 66]. Fondos FEDER”, del proyecto ECLIPSE – Enhancing Data • Necesidad de contar con escenarios de riesgos [61]. Quality and Security for Improving Business Processes and • Herramientas: Necesidad de contar con herramientas Strategic Decisions in Cyber Physical Systems (RTI2018- que faciliten el cumplimiento de las metodologías [71]. 094283-B-C31) financiado por la ”Ministerio Economía, • Necesidad de poder contar con mecanismos de Industria y Competitividad y fondos FEDER”, y ha contado con selección de metodologías de análisis de riesgos según el apoyo de las empresas Marisma Shield S.L la compañía [69]. (www.emarisma.com) y Sicaman Nuevas Tecnologías • Necesidad de contar con métricas adecuadas [72]. (www.sicaman-nt.com). • Necesidad de que las metodologías académicas se validen en entornos reales [70]. • Necesidad de metodologías adaptadas a las PYMES REFERENCIAS [74]. • Necesidad de catálogos de elementos, estructurados y [1] Le Grand, G. and E. Adar. White cyber knight–a Risk Assessment tool for que puedan compartirse entre las diferentes network resilience evaluation. in the proceedings of the International Workshop on Complex Network and Infrastructure metodologías [74]. Protection (CNIP’06), Rome. 2006. [2] Vivas, T., A. Zambrano, and M. Huerta. Mechanisms of security based on VI. CONCLUSIONES. digital certificates applied in a telemedicine network. in 2008 30th Annual International Conference of the IEEE Engineering in En este artículo se han analizado diferentes metodologías, Medicine and Biology Society. 2008. IEEE. procesos y estándares de análisis de riesgos TIC (ISRA), [3] Huerta, M., et al. Implementation of a open source security software extrayendo más de 40 modelos que suelen referenciar y analizar platform in a telemedicine network. in Proceedings of the 9th WSEAS international conference on Advances in e-activities, los investigadores actualmente. information security and privacy. 2010. World Scientific and De los modelos encontrados, se han identificados unas 20 Engineering Academy and Society (WSEAS). carencias de relevancia que destacan los investigadores sobre [4] Pirrone, J. and M. Huerta. Security Mechanism for Medical Record Exchange Using Hippocratic Protocol. in World Congress on los modelos actuales. Medical Physics and Biomedical Engineering 2018. 2019. Springer. Estás carencias se complementan con otros aspectos [5] Huerta, M., et al. Design of a building security system in a university campus using RFID technology. in 2017 IEEE 37th Central America relevantes que hemos encontrado al analizar los propios and Panama Convention (CONCAPAN XXXVII). 2017. modelos de riesgo, entre las que podemos destacar: [6] Eloff, J. and M. Eloff, Information Security Management - A New Paradigm. Annual research conference of the South African • Sorprende comprobar que metodologías muy institute of computer scientists and information technologists on referenciadas y recomendadas como CRAMM ya no Enablement through technology SAICSIT´03, 2003: p. 130-136. tienen páginas web accesibles, y que gran parte de la 127 [7] Steve, E., An Introduction to information systems risk management. [32] Rea-Guaman, A., et al. Systematic Review: Cybersecurity Risk Taxonomy. SANS Institute InfoSec Reading Room. 16: p. 2011. in International Conference on Software Process Improvement. [8] Bača, M. and F. Varaždin, The risk assessment of information system 2017. Springer. security. Fakultet organizacije i informatike, Sveučilište u [33] López, D., O. Pastor, and L.J.G. Villalba, Concepto y Enfoques sobre el Zagrebu.< dostupno na http://cuc. carnet. Análisis y la Gestión Dinámica del Riesgo en Sistemas de hr/cuc2004/program/radovi/a5_baca/a5_full. pdf>,[očitano 07.10. Información. Actas de la XII Reunión Espanola de Criptologıa y 2010], 2004. Seguridad de la Información (RECSI 2012), Donostia-San [9] Restrepo, L.O. and F.J.V. Duque, Gestión de riesgos en eTOM. Un Sebastián, Espana, 2012. análisis comparativo con los estándares de riesgo corporativo. [34] Ganin, A.A., et al., Multicriteria decision framework for cybersecurity Revista Logos, Ciencia & Tecnología, 2017. 9(1): p. 85-99. risk assessment and management. Risk Analysis, 2017. [10] Ortiz Restrepo, L., V. Duque, and F. Javier, Gestión de riesgos en eTOM. [35] Smojver, S. Selection of information security risk management method Un análisis comparativo con los estándares de riesgo corporativo. using analytic hierarchy process (ahp). in Central European Revista Logos Ciencia & Tecnología, 2017. 9(1): p. 85-99. Conference on Information and Intelligent Systems. 2011. Faculty [11] Chen, T.M., Information security and risk management, in Encyclopedia of Organization and Informatics Varazdin. of Multimedia Technology and Networking, Second Edition2009, [36] Beckers, K., et al., ISMS-CORAS: A structured method for establishing IGI Global. p. 668-674. an ISO 27001 compliant information security management system, [12] Magerit_V2, Methodology for Information Systems Risk Analysis and in Engineering Secure Future Internet Services and Systems2014, Management (MAGERIT version 2), 2005, Ministerio de Springer. p. 315-344. Administraciones Públicas (Spain). [37] Shedden, P., et al. Towards a knowledge perspective in information [13] Wangen, G., Information security risk assessment: a method comparison. security risk assessments–an illustrative case study. in Proceedings Computer, 2017. 50(4): p. 52-61. of the 20th Australasian Conference on Information Systems. 2009. [14] Fakrane, C. and B. Regragui. Interactions and Comparison of It Risk [38] Rot, A. Enterprise information technology security: risk management Analysis Methods. in 2018 4th International Conference on Cloud perspective. in Proceedings of the World Congress on Engineering Computing Technologies and Applications (Cloudtech). 2018. and Computer Science. 2009. [15] Jeannot, F., Méthodologies d’évaluation et gestion de risques en sécurité. [39] Saripalli, P. and B. Walters. Quirc: A quantitative impact and risk Montréal, Canada, Mai 2018, R518, v1.0, 2018. assessment framework for cloud security. in 2010 IEEE 3rd [16] Benavides Sepúlveda, A.M. and C.A. Blandón Jaramillo, Modelo de international conference on cloud computing. 2010. Ieee. sistema de gestión de seguridad de la información basado en la [40] Li, S., et al., An improved information security risk assessments method norma NTC ISO/IEC 27001 para instituciones públicas de for cyber-physical-social computing and networking. IEEE Access, educación básica de la comuna Universidad de la ciudad de Pereira 2018. 6: p. 10311-10319. Alejandra. 2017. [41] Sicari, S., et al., A risk assessment methodology for the Internet of Things. [17] Bornman, W.G., Information security risk management: a holistic Computer Communications, 2018. 129: p. 67-79. framework, 2004, University of Johannesburg. [42] Kitchenham, B., Procedures for performing systematic reviews. Keele, [18] Refsdal, A., B. Solhaug, and K. Stølen, Cyber-risk management, in Cyber- UK, Keele University, 2004. 33(2004): p. 1-26. Risk Management2015, Springer. p. 33-47. [43] Brereton, P., et al., Lessons from applying the systematic literature review [19] Zudin, R., Analysis of information risk management methods. University process within the software engineering domain. Journal of Systems of Jyväskylä, 2014. and Software, 2007. 80(4): p. 571-583. [20] Carrillo Sánchez, J.P., Guía y análisis de gestión de riesgos en la [44] Budgen, D. and P. Brereton. Performing systematic literature reviews in adquisición e implantación de equipamiento y servicios de software engineering. in Proceedings of the 28th international tecnologías de información y comunicaciones para proyectos de conference on Software engineering. 2006. ACM. alcance nacional, 2012, Quito: EPN, 2012. [45] Biolchini, J., et al., Systematic review in software engineering. System [21] Pacheco Pozo, D.C., Propuesta de un plan de contingencia de TI para la Engineering and Computer Science Department COPPE/UFRJ, empresa LOGICIEL, 2016, Quito, 2016. Technical Report ES, 2005. 679(05): p. 45. [22] Alcántara, M. and A. Melgar, Risk management in information security: [46] Svatá, V. and M. Fleischmann, IS/IT Risk Management in banking a systematic review. Journal of Advances in Information industry. Acta oeconomica pragensia, 2011. 19(3): p. 42-60. Technology Vol, 2016. 7(1). [47] Mayer, N., P. Heymans, and R. Matulevicius. Design of a Modelling [23] Shamala, P., et al., Collective information structure model for information Language for Information System Security Risk Managem. 2007. security risk assessment (ISRA). Journal of Systems and Information [48] García, F.Y.H. and L.M.L. Moreta. Maturity Model for the Risk Analysis Technology, 2015. 17(2): p. 193-219. of Information Assets based on Methodologies MAGERIT, OCTAVE [24] Ford, M., IT Risk Management Systems Play a Key Role in Sustaining and y MEHARI; focused on Shipping Companies. in 2018 7th Promoting Business Growth. University of Westminster, MSc International Conference On Software Process Improvement Information Security, London, England, 2014. (CIMPS). 2018. IEEE. [25] Derakhshandeh, S. and N. Mikaeilvand, New framework for comparing [49] Holguín García, F.Y., Modelo de madurez para el análisis de riesgos de information security risk assessment methodologies. Australian los activos de información basado en las metodologías MAGERIT, Journal of Basic and Applied Sciences, 2011. 5(9): p. 160-166. OCTAVE y MEHARI; con enfoque a empresas navieras, 2018: [26] Dehkhoda, D., Combining IRAM2 with Cost-BenefitAnalysis for Risk Repositorio digital de la Universidad de Especialidades Espíritu Management: Creating a hybrid method with traditional and Santo, UEES, Ecuador. economic aspects, 2018: Department of Computer Science, [50] Gritzalis, D., et al., Exiting the Risk Assessment maze: A meta-survey. Electrical and Space Engineering, Luleå University of Technology. ACM Computing Surveys (CSUR), 2018. 51(1): p. 11. [27] Duricu, A., Data Protection Impact Assessment (DPIA) and Risk [51] Mrksic Kovacevic, S., Smart homes from a Risk Management perspective, Assessment in the context of the General Data Protection 2018, University of Stavanger, Norway. Regulation (GDPR), E.a.S.E. Department of Computer Science, [52] Wangen, G., C.V. Hallstensen, and E.A. Snekkenes, A framework for Luleå University of Technology Editor 2019. estimating information security risk assessment method [28] Shamala, P. and R. Ahmad. A proposed taxonomy of assets for completeness: Core Unified Risk Framework. 2017. information security risk assessment (ISRA). in 2014 4th World [53] Wangen, G., C. Hallstensen, and E. Snekkenes, A framework for Congress on Information and Communication Technologies (WICT estimating information security risk assessment method 2014). 2014. IEEE. completeness. International Journal of Information Security, 2018. [29] Wangen, G. An initial insight into information security risk assessment 17(6): p. 681-699. practices. in 2016 Federated Conference on Computer Science and [54] Novoa, H.A. and C.R. Barrera, Metodologías para el análisis de riesgos Information Systems (FedCSIS). 2016. IEEE. en los sgsi. Publicaciones e Investigación, 2015. 9: p. 73-86. [30] Haythorn, M., Information Security Risk Assessment Methods, [55] Santonja Lillo, J., Análisis y correlación entre probabilidad e impacto de Frameworks and Guidelines. East Carolina University, 2013. los riesgos. Repositorio Institucional de la Universidad de Alicante, [31] Pandey, S. and K. Mustafa, Risk Assessment Framework (RAF). España., 2019. International Journal of Advanced Research in C. Sc., 2010. 1(3). 128 [56] Hashim, N.A., et al., Risk Assessment Method for Insider Threats in Cyber Luis Enrique Sánchez is PhD and MsC in Computer Science and is a Professor Security: A Review. Risk, 2018. 9(11). at the Universidad of Castilla-la Mancha (Ciudad Real, Spain), MSc in [57] Bergvall, J. and L. Svensson, Risk analysis review, 2015: Linköpings Information Systems Audit from the Polytechnic University of Madrid, and Universitet, Linköping, Sweden. Certified Information System Auditor by ISACA. He is the Director of [58] Abbass, W., A. Baina, and M. Bellafkih. Using EBIOS for risk Professional Services and R&D departments of the company Sicaman Nuevas management in critical information infrastructure. in 2015 5th Tecnologías S.L. COIICLM board or committee member and responsible for World Congress on Information and Communication Technologies the professional services committee. His research activities are management (WICT). 2015. IEEE. security system, security metrics, data mining, data cleaning, and business [59] ENISA_(e). Inventory of Risk Management / Risk Assessment Methods. intelligence. He participates in the GSyA research group of the Department of 2019 02/08/2019]. Computer Science at the University of Castilla- LaMancha, in Ciudad Real [60] Pan, L. and A. Tomlinson, A systematic review of information security (Spain). risk assessment. International Journal of Safety and Security Engineering, 2016. 6(2): p. 270-281. Antonio Santos-Olmo is MsC in in Computer Science and is an Assistant [61] Shameli-Sendi, A., R. Aghababaei-Barzegar, and M. Cheriet, Taxonomy Professor at the Escuela Superior de Informática of the Universidad de Castilla- of information security risk assessment (ISRA). Computers & La Mancha in Ciudad Real (Spain) (Computer Science Department, University Security, 2016. 57: p. 14-30. of Castilla La Mancha, Ciudad Real, Spain), MSc in Information Systems Audit [62] Ruan, K., Introducing cybernomics: A unifying economic framework for from the Polytechnic University of Madrid, and Certified Information System measuring cyber risk. Computers & Security, 2017. 65: p. 77-89. Auditor by ISACA. He is the Director of Software Factory departments of the [63] Madhavan, K. and R. ManickaChezian, International Journal of company Sicaman Nuevas Tecnologías S.L. His research activities are Engineering Sciences & Research Technology a Study on management security system, security metrics, data mining, data cleaning, and Information Security and Risk Management in it Organizations. business intelligence. He participates in the GSyA research group of the International Journal OF Engineering Sciences & Research Department of Computer Science at the University of Castilla- LaMancha. TEchnology (IJESRT). 2015. [64] Radanliev, P., et al., Economic impact of IoT cyber risk-analysing past Victor Figueroa is Bachelor in Information Technology and MSc in and present to predict the future developments in IoT risk analysis Information Security. Is a Security Information Professor at the University of and IoT cyber insurance. The Institution of Engineering and Siglo21 (Cordoba, Argentina). He is the Cybersecurity Director of Neuquen Technology (IET), England., 2018. State (Argentina), working on development of Cibersecurity Information [65] Acevedo, N. and C. Satizábal, Risk management and prevention Policies, Risk Management and Incident Responses in Public Sector. He is methodologies: a comparison. Sistemas & Telemática, 2016. currently a researcher in the field of Information Security Management 14(36): p. 39-58. Systems, and Information System Risk Analysis (ISRA). [66] Satizábal, C., Risk management and prevention methodologies: a comparison. Sistemas & Telemática, vol.14, núm. 36, pp. 39-58, David G. Rosado has an MSc and PhD. in Computer Science from the Universidad ICESI,Cali, Colombia, 2016. University of Málaga (Spain) and from the University of Castilla-La Mancha [67] Devia, G.A.V. and C.J. Pardo, Hacia un modelo para la gestión de riesgos (Spain), respectively. His research activities are focused on security for de TI en MiPyMEs: MOGRIT. Sistemas & Telemática, 2014. Information Systems and Cloud Computing. He has published several papers in 12(30): p. 35-48. national and international conferences on these subjects, and he is co-editor of [68] Alhajri, R.M., et al. Dynamic Interpretation Approaches for Information a book and chapter books. Author of several manuscripts in national and Security Risk Assessment. in 2019 International Conference on international journals (Information Software Technology, System Architecture, Computer and Information Sciences (ICCIS). 2019. IEEE. Network and Computer Applications, etc.). He is member of Program [69] Korman, M., et al. Overview of enterprise information needs in Committee of several conferences and workshops nationals and internationals information security risk assessment. in 2014 IEEE 18th such as ICEIS, ICCGI, CISIS, SBP, IAS, SDM, SECRYPT, COSE and International Enterprise Distributed Object Computing Conference. international journals such as Internet Research, JNCA, KNOSYS, JKSU, and 2014. IEEE. so on. He is a member of the GSyA research group of the Information Systems [70] Fulford, J.E., What Factors Influence Companies’ Successful and Technologies Department at the University of Castilla-La Mancha, in Implementations of Technology Risk Management Systems? Muma Ciudad Real, Spain. Business Review, 2017. 1(13): p. 157-169. [71] Chen, F., An Investigation and Evaluation of Risk Assessment Methods in Eduardo Fernández-Medina holds a PhD. and an MSc. in Computer Science Information systems. Chalmers Univ. Technol. Goteborg, 2015: p. from the University of Sevilla. He is associate Professor at the Escuela Superior 1-83. de Informática of the University of Castilla-La Mancha at Ciudad Real (Spain), [72] Pan, L., Application of a Financial Quantitative Risk Model to his research activity being in the field of security in databases, datawarehouses, Information Security Risk Assessment. School of Mathematics and web services and information systems, and also in security metrics. Fernández- Information Security Royal Holloway, University London., 2018. Medina is co-editor of several books and chapter books on these subjects, and [73] Nurse, J.R., S. Creese, and D. De Roure, Security risk assessment in has several dozens of papers in national and international conferences (DEXA, Internet of Things systems. IT Professional, 2017. 19(5): p. 20-26. CAISE, UML, ER, etc.). Author of several manuscripts in national and [74] Agrawal, V., A Comparative Study on Information Security Risk Analysis international journals (Information Software Technology, Computers And Methods. Journal of Computers, 2017. 12(1): p. 57-67. Security, Information Systems Security, etc.), he is director of the GSyA [75] Wangen, G.B., Cyber Security Risk Assessment Practices: Core Unified research group of the Information Systems and Technologies Department at the Risk Framework. Norges teknisk-naturvitenskapelige U., 2017. University of Castilla-La Mancha, in Ciudad Real, Spain. [76] MUKAMA, J., Risk Analysis as a Security Metric for Industrial Control Systems., in Master’s thesis in Computer Systems and Networks.2016, Chalmers University of Technology. [77] Oppliger, R., G. Pernul, and S. Katsikas, New Frontiers: Assessing and Managing Security Risks. Computer, 2017. 50(4): p. 48-51. [78] Oppliger, R., Quantitative risk analysis in information security management: a modern fairy tale. IEEE Security & Privacy, 2015. 13(6): p. 18-21. [79] Burnap, P., et al., Determining and Sharing Risk Data in Distributed Interdependent Systems. Computer, 2017. 50(4): p. 72-79. [80] Rossebø, J.E., et al., An enhanced risk-assessment methodology for smart grids. Computer, 2017. 50(4): p. 62-71. [81] Rossebo, J.E., F. Fransen, and E. Luiijf. Including threat actor capability and motivation in risk assessment for Smart GRIDs. in 2016 Joint Workshop on Cyber-Physical Security and Resilience in Smart Grids (CPSR-SG). 2016. IEEE. 129 1 Análisis de la Privacidad y de la Seguridad en Contratos Inteligentes Antonio López Vivar, Ana Lucila Sandoval Orozco, and Luis Javier Garcı́a Villalba, Member, IEEE Resumen—Los contratos inteligentes han ganado mucha po- el recuento de forma automatizada, transparente y sin requerir pularidad en los últimos tiempos ya que son una herramienta de una autoridad de confianza. muy potente para el desarrollo de aplicaciones seguras descen- Este trabajo está estructurado en 5 secciones, siendo la tralizadas y automáticas en multitud de campos sin necesidad de intermediarios o terceros de confianza. No obstante, debido primera la presente introducción. En la Sección II se introdu- a la naturaleza descentralizada de la cadena de bloques en la cen las de cadenas de bloques y los contratos inteligentes. que se basan, se han puesto de manifiesto una serie de retos La Sección III se centra en los problemas de privacidad relacionados con la privacidad de la información que manejan de los contratos inteligentes y las herramientas. La sección dichos contratos, ası́ como vulnerabilidades en su programación que, dadas sus particularidades, podrı́an tener (y ya han tenido) IV se centra en las vulnerabilidades en la programación de un impacto económico muy elevado. Este artı́culo proporciona los contratos. Finalmente, en la Sección V se presentan las una visión holı́stica de los retos en materia de privacidad y conclusiones del presente trabajo. seguridad asociados con los contratos inteligentes, ası́ como del estado del arte de las herramientas y soluciones disponibles. II. CONTEXTO Palabras claves—Blockchain, privacy, security, smart con- tracts Se presenta en esta sección una breve introducción de la cadena de bloques y los contratos inteligentes. I. INTRODUCCI ÓN II-A. Tecnologı́as de Registro Distribuido Los contratos inteligentes está ganando popularidad en los Una cadena de bloques es básicamente un registro repli- últimos tiempos, aunque el concepto original es relativamente cado en múltiples nodos, llamados “mineros” que mantienen antiguo. La idea de los contratos inteligentes aparece en [1] y una copia (a veces no completa). Las operaciones, llamadas ha evolucionado hasta nuestros dı́as, especialmente después de transacciones, se registran como en un libro de contabilidad, la introducción en 2009 de Bitcoin [2] y su cadena de bloques agrupándolas en bloques, que son añadidos a la cadena descentralizada. En pocas palabras, un contrato inteligente es mediante un algoritmo de consenso basado habitualmente un programa de ordenador que se ejecuta de forma descen- en una prueba de trabajo [14] Para realizar dicha prueba, tralizada, modificando, si la ejecución es correcta, el estado cada uno de los nodos prepara un bloque candidato con un global del sistema, que se almacena en una cadena de bloques. conjunto de transacciones nuevas pendientes de ser añadidas a Aunque suele estar asociada a la plataforma Ethereum [3], la cadena de bloques al que le añade un contador y un puntero hoy en dı́a existen muchas plataformas que hacen uso de al último bloque de la cadena. Después cada nodo ejecuta ellas, como por ejemplo Hyperledger o Corda entre muchas sobre su bloque candidato un algoritmo de hash criptográfico otras (en [4] puede consultarse una lista actualizada de todas (en el caso de Ethereum es KECCAK-256 [15]). Si el hash las plataformas de contratos inteligentes existentes). En este resultante es menor que un valor determinado, el bloque se artı́culo, nos centraremos en Ethereum, aunque mucho de considera minado y se propaga junto al hash calculado para los conceptos de seguridad son extrapolables al resto de ser verificado por el resto de nodos y que actualicen su plataformas. copia de la cadena de bloques. En caso, contrario, si el hash En cuanto a las aplicaciones y casos de uso de los contratos resultante no es válido (lo más probable), se incrementa el inteligentes son muy variados pero su naturaleza descentrali- contador del bloque y se vuelve a calcular el hash. zada, velocidad, automatización, ausencia de intermediarios y transparencia los hacen particularmente adecuados en di- II-B. Contratos inteligentes ferentes sectores, tales como: gestión de identidades [5] [6], voto electrónico [7] [8], servicios bancarios y financieros [9], Como se ha mencionado, en la cadena de bloques se gestión de herencias [10], cadena de suministro [11], IoT [12], almacenan transacciones. En Ethereum, existen dos tipos de juego en lı́nea [3] e información médica [13] entre otros. transacciones, las “normales”, donde un usuario A envı́a una En el ejemplo del voto electrónico, serı́a posible mediante cantidad de “Ether” (una moneda virtual) a la dirección de un un contrato inteligente llevar la votación de unas elecciones y usuario B. Las direcciones de usuario constan básicamente de un par de claves pública/privada y cada transacción que A. López Vivar, A. L. Sandoval Orozco and L. J. Garcı́a Villalba. Grupo se genera va firmada digitalmente por el usuario que envı́a de Análisis, Seguridad y Sistemas (GASS), Departamento de Ingenierı́a los fondos. Además de las direcciones de usuario, existen del Software e Inteligencia Artificial, Facultad de Informática, Despacho las direcciones de contrato, que como su nombre indican 431, Universidad Complutense de Madrid (UCM), Calle Profesor José Garcı́a Santesmases, 9, Ciudad Universitaria, 28040 Madrid, España. e-mail: apuntan a un contrato inteligente. Para añadir un nuevo {alopezvivar, asandoval, javiergv}@fdi.ucm.es. contrato inteligente a la cadena de bloques, un usuario tiene 130 https://doi.org/10.12804/si9789587844337.12 2 que generar un tipo de transacción especial con una serie de una excepción y el usuario que lanzó la ejecución pierde datos, entre los que se incluye el código fuente del contrato ya el gas multiplicado por el precio unitario. En caso de que compilado. Para ejecutar un contrato inteligente, un usuario la ejecución termine, después de pagado el precio del gas tendrá que crear una transacción desde su dirección de usuario usado, el Ether sobrante será devuelto al usuario. Los mineros enviando Ether (y los parámetros que necesite el contrato) por su parte reciben unos honorarios para recompensarles por hacia la dirección del contrato. Si la ejecución del contrato es mantener la red. Sus honorarios están definidos por el gas y correcta, se modificará el estado global de Ethereum. En caso el precio del gas Si el atacante intenta lanzar un ataque de contrario, si la ejecución falla, se le cobrará al usuario el coste denegación de servicio y elige un precio de gas acorde al computacional usado del Ether que envió en la transacción, mercado, los mineros ejecutarán el ataque pero el precio del pero no habrá cambios en el estado global del sistema. ataque será muy alto. Por otro lado, si el atacante eligiera Los contratos inteligentes pueden escribirse en diferentes un precio del gas muy bajo, los mineros no incluirı́an su lenguajes de programación alto nivel, siendo el lenguaje más transacción en ningún bloque y por tanto no se ejecutarı́a utilizado Solidity [16], con una sintaxis muy parecida a el ataque. JavaScript. Este lenguaje es compilado a un bytecode que será ejecutado por la máquina virtual de Ethereum (EVM). III. PRIVACIDAD EN CONTRATOS INTELIGENTES Los contratos inteligentes que se ejecutan en cadenas de II-C. Un contrato inteligente de ejemplo bloques públicas, como es el caso de Ethereum, sufren de En la Figura 1 se presenta un ejemplo de un contrato problemas de privacidad tanto en las transacciones, que que- inteligente muy básico que va a servir de ejemplo. dan registradas en la cadena de bloques, como en el propio código fuente de los contratos. Si bien es cierto que las claves utilizadas para las transacciones de Ethereum no están asociadas a personas fı́sicas concretas, hay varios estudios que analizando la cadena de bloques han podido correlacionar dichas transacciones y agruparlas [17], [18], [19]. Además, el propio código fuente de los contratos inteligentes, puede con- tener datos o claves de carácter privado y muy sensible, como es por ejemplo el caso de los contratos inteligentes asociados a dispositivos médicos. Dicho código fuente, por la propia arquitectura de la cadena de bloques se encuentra replicado para su ejecución en múltiples nodos repartidos por la red, por lo que se encuentran expuestos a fugas de información. En las secciones que vienen a continuación se hará una descripción Figura 1. Contrato inteligente de ejemplo de algunas de las herramientas más relevantes que existen Puede verse que se declara una variable de tipo entero sin actualmente para mitigar estos problemas de privacidad de signo que en Ethereum tiene 256 bits. Después se declara una los contratos inteligentes. función pública para asignar el valor de la variable anterior y otra función que devuelve el valor de la variable. Cada III-A. Hawk vez que algún usuario invoca este contrato y asigna un nuevo Hawk es un framework para preservar la privacidad en valor, éste se actualiza. Aunque en este ejemplo no se usan, los contratos inteligentes que funciona como una capa de hay mecanismos en los contratos inteligentes para restringir el abstracción para que el desarrollador escriba el código del acceso a determinadas funciones en función de quién ejecute contrato inteligente y después el compilador de Hawk creará el contrato inteligente. tres programas a saber: el contrato inteligente que se ejecutará Un dato importante a recordar es que antes de añadir un en la cadena de bloques, un programa que se ejecutará por lo nuevo contrato a la cadena de bloques, los contratos se ejecu- usuarios y otro programa que será ejecutado por un manager tan de forma local en cada nodo minero y el resultado de la (ver Figura 2). ejecución debe ser determinista para garantizar la coherencia Como puede verse en la Figura 2, un contrato de Hawk de todo el sistema. Esta propiedad puede ser un problema a consta de dos partes diferenciadas: una parte privada donde la hora de generar números aleatorios dentro de los contratos se encuentran todos los datos sensibles que no queremos que inteligentes. Por último, faltarı́a hablar del concepto de gas. sean visibles en la cadena de bloques y una parte pública Solidity es un lenguaje Turing-completo, por lo que existe donde se manejan datos de carácter menos sensible o públicos. la posibilidad de provocar bucles infinitos en la ejecución. Para conseguir privacidad en la cadena de bloques, Hawk Una manera de evitar esto, lo cual podrı́a ser utilizado como utiliza principalmente criptografı́a y pruebas de conocimiento forma de ataque de denegación de servicio contra la red de zero para garantizar la integridad y el correcto funcionamiento Ethereum, existe un mecanismo mediante el cual, cada una de de los contratos. Por otro lado, la privacidad a nivel de las operaciones de bytecode posee un coste prefijado llamado contrato no sólo se centra en usar criptografı́a para proporcio- gas Cuando un usuario invoca un contrato, tiene que pasarle el nar confidencialidad si no que añade la figura del manager, precio unitario del gas y el lı́mite de gas que está dispuesto a una entidad que vigila comportamientos maliciosos de otros asumir. Si durante la ejecución del contrato, el gas alcanza el agentes, pero sin tener capacidad para modificar la correcta máximo que fijó el usuario, la ejecución se detiene lanzando ejecución de los contratos inteligentes. 131 3 Protocolo separa la ejecución de ciertas partes intensivas en una cadena de bloques diferente de la principal, donde se guardan los Administrador Blockchain resultados y las pruebas de verificación. Monedas IV. SEGURIDAD EN CONTRATOS INTELIGENTES Aunque la cadena de bloques está diseñada de forma segura Usuarios Dato y dicha seguridad está sustentada en algoritmos criptográficos ampliamente estudiados y probados, los contratos inteligentes como programas informáticos son susceptibles de contener vulnerabilidades de seguridad en su código, que dada su na- turaleza inmutable y unido al hecho de que pueden funcionar Compilar Contrato de Hawk en ámbitos financieros o de salud, supone una amenaza de seguridad grave, como ya ha sucedido en el pasado. Pública Privada pub priv Un ejemplo famoso de ataque en Ethereum fue el DAO Programador attack que se produjo en 2016 mediante el cual se robaron 3,6 millones de Ethers (el equivalente a unos 70 millones de Figura 2. Esquema de funcionamiento de Hawk [20] dólares) aprovechando una vulnerabilidad en la programación de un contrato inteligente que controlaba el balance de una fundación. El contrato no tenı́a en cuenta la posibilidad de ha- III-B. Ekiden cer llamadas recursivas que extraı́an dinero y no actualizaban Ekiden [21], de forma parecida a Hawk, se trata de un el total, por lo que el hacker pudo realizar muchas de estas entorno de ejecución segura de contratos inteligentes, pero a llamadas hasta vaciar los fondos. En [25] se hace un análisis diferencia de Hawk que basa su área privada de ejecución en detallado de este ataque. criptografı́a y pruebas de conocimiento cero, Ekiden apuesta En [26] se hace una clasificación de las vulnerabilidades por el uso de Entornos de Ejecución de Confianza [22] para existentes en los contratos inteligentes: ejecutar las partes más sensibles de los contratos inteligentes. Llamadas a lo desconocido: ocurre que algunas primi- Como puede verse en la Figura 3, existen tres tipos de tivas del lenguaje Solidity usadas para llamar a otras entidades en Ekiden: por un lado estarı́an los clientes, que funciones o enviar Ether pueden sufrir de un efecto serı́an los usuarios, los cuales pueden crear y ejecutar contra- lateral de llamar a una función definida por defecto que tos. En segundo lugar se encontrarı́an los nodos de ejecución tienen todos los contratos (y cuyo código podrı́a ser segura, que se encargarı́an de ejecutar los contratos y que desconocido para el llamador), en caso de no encontrarse deben disponer de una plataforma de ejecución en entorno la función llamada. Las primitivas afectadas por este de confianza. Por último, estarı́an los nodos de consenso, efecto son: encargados de validar los resultados de ejecución de los nodos • CALL: es una primitiva utilizada para llamar a las de computación y de añadir la información y cambios de funciones de un contrato inteligente (del mismo o de estados del sistema a la cadena de bloques. otro). Si la función que se le pasa como parámetro a la primitiva, no existe en el contrato, se ejecutará una función por defecto o fallback. Clientes • SEND: esta primitiva permite enviar Ether desde el (1) Entrada p (5’b) Salida p Vista ampliada de contrato en ejecución a otro destinatario. Una vez un nodo de cálculo i Nodos de Cálculo Nodo de Cálculo j que se ha enviado la cantidad de Ether, se ejecuta Contrato (3) Obtener Gestor de TEE k clave TEE la función por defecto en el contrato de destino.(4) exec • DELEGATECALL: esta primitiva es muy parecida (5’a) Almacenar (2) Obtener (Cif (estado ), 𝜎𝜎 ) Cifk(estado ) a CALL a diferencia de que en ésta, se utiliza elk nuevo TEE ant contexto de variables del contrato llamador. Nodos de consenso Envı́o sin gas: al enviar Ether usando la primitiva SEND Agregar solo libro mayor podrı́a producirse una excepción por agotamiento de gas si el destinatario es un contrato tiene una función de fallback con mucho código. Desorden en las excepciones: en Solidity existen varias Figura 3. Arquitectura de Ekiden [21] situaciones que pueden provocar que se dispare una excepción durante la ejecución, a saber: si la ejecución del contrato se queda sin gas, si se agota la pila de III-C. Enigma llamadas o en caso de que se lance la excepción de for- Enigma [23] por su parte, utiliza computación multi-agente ma explı́cita llamando al comando throw. No obstante, [24] para proveer seguridad en la ejecución de los contratos Solidity no trata de la misma forma las excepciones si inteligentes. Los datos son segmentados y repartidos en varios éstas se producen durante una llamada a una función de nodos aleatoriamente entre varios nodos, de forma que ningún forma directa o usando la primitiva CALL. En el primer nodo tiene nunca la totalidad de la información. Enigma caso, la ejecución se detiene y cualquier efecto lateral se 132 4 revierte, incluyendo las transferencias de Ether. Pero si mación entre llamadas de contratos. Desgraciadamente la excepción se produjo en el contexto de una llamada este sistema no es efectivo ya que los cambios en usando CALL, la excepción se propagará hacia arriba campos privados tienen que enviarse a nodos mineros revirtiendo los efectos en los contratos llamados hasta para que estos los metan en la cadena de bloques, la alcanzar la llamada CALL, devolviendo false y conti- cual es pública. Aquellos contratos que necesiten ocultar nuará la ejecución a partir de ahı́ y consumiendo gas. información sensible tendrán que usar técnicas como las Esta inconsistencia a la hora de manejar las excepciones mencionadas en la Sección III puede dar lugar a vulnerabilidades. Estado impredecible: todos los contratos inteligentes Conversión de tipos: aunque el compilador de Solidity tienen un estado determinado por el valor de sus campos puede detectar errores con los tipos, por ejemplo si y su balance de Ether. Pero no se puede garantizar una función espera un entero y es llamada pasándole que el estado que tenı́a un contrato cuando hicimos una cadena, en el caso de definiciones de contratos o una transacción hacia él será el mismo que cuando funciones con una determinada estructura, en caso de dicha transacción sea minada e incluida en la cadena de llamar a una función en un contrato, si el programador bloques. Es decir, podrı́a ocurrir que antes de procesar se equivoca y llama por error a otro contrato pero que nuestra transacción, otras transacciones hayan cambiado contiene una función con la misma estructura esperada el estado del contrato de destino y además ser rápidos por el compilador se ejecutará la función y en caso no nos garantiza nada porque los mineros pueden minar de que no exista la función, se llamará a la función las transacciones en el orden que quieran. Se da otro de fallback En cualquier caso, no se lanzará ninguna problema añadido por la naturaleza de la cadena de blo- excepción. ques, y es que podrı́a producirse un fork de la cadena si Reentrada: esta es una vulnerabilidad muy conocida dos mineros coniguen minar un bloque válido al mismo por su impacto. El programador puede pensar que una tiempo. Esto provocarı́a que algunos mineros intentarı́an función no recursiva no puede ser re-llamada mientras añadir su bloque en una de las dos cadenas y los otros se está ejecutando, pero esto no es siempre ası́, ya que en la otra. Llegado un momento la cadena más corta podrı́a darse el caso de que dentro de la función se llame se desecharı́a, perdiendo las transacciones contenidas en a un contrato malicioso vacı́o que sólo contenga una esta y cambiando el estado de los contratos a un estado función de fallback que vuelva a llamar a la función de indeterminado. Otro caso serı́an contratos que utilizan la que viene. Por ejemplo, supongamos que tenemos un librerı́as dinámicas (un tipo especial de contratos que no contrato ası́: pueden tener campos mutables). Ese tipo de contratos c o n t r a c t Bob { podrı́an cambiar de forma maliciosa para engañar a la boo l s e n t = f a l s e ; vı́ctima que los llamarı́a sin saber que han cambiado. f u n c t i o n foo ( a d d r e s s c ) { Números aleatorios: la ejecución del código de la máqui- i f ( ! s e n t ) { na virtual de Ethereum es determinista. Eso quiere decir, c . c a l l . v a l u e ( 1 ) ( ) ; que el código ejecutado con las mismas entradas debe s e n t = t r u e ; de producir las mismas salida en todos los nodos que lo } ejecuten. Esto presenta un problema a la hora de generar } número aleatorios. Para simular aleatoriedad, muchos } contratos utilizan un generador de números aleatorios inicializado con la misma semilla para todos los mineros. La función foo recibe como parámetro la dirección de Una opción muy utilizada por los programadores es un contrato y si el testigo no está activado, envı́a 1 wei utilizar como semilla el hash de un bloque determinado (la mı́nima unidad de Ether) al contrato c. en el futuro. Al tratarse de un valor impredecible a El problema viene si el contrato llamado es algo ası́: priori, es una buena manera de inicializar el generador c o n t r a c t A l i c e { de números aleatorios. Sin embargo, como los mineros f u n c t i o n ( ) { pueden elegir qué transacciones meter en los nuevos Bob (msg . s e nd e r ) . foo ( t h i s ) bloques, podrı́an conspirar para intentar conseguir alterar } el funcionamiento del generador de números aleatorios. } Restricciones de tiempo: muchas aplicaciones tienen restricciones de tiempo para operar. Habitualmente esas En este caso, después de recibir el Ether, Alice llama su restricciones utilizan timestamps. En el caso de los función de fallback, lo que a su vez vuelve a llamar a la contratos inteligentes, el programador puede obtener función foo de Bob y como el testigo no está puesto a el timestamp de cuándo se minó el bloque, que es true volverá a transferir a Alice Ether y esto se repetirá compartido por todas las transacciones del bloque. El hasta que se agote el gas o se alcance el lı́mite de la problema es que los mineros en las primeras versiones pila de llamadas. Esta vulnerabilidad se utilizó el Ataque del protocolo podı́an elegir el timestamp del bloque que DAO comentado más arriba y en [25] se explica en iban a minar de forma arbitraria, lo que podı́a usarse detalle. para llevar a cabo ataques. Secretos: Solidity permite definir la visibilidad de los Bugs inmutables: esto no es una vulnerabilidad en sı́ campos en los contratos como públicos o privados. Esto misma, sino la consecuencia de una propiedad de la ca- puede ser útil si se necesita ocultar determinada infor- 133 5 dena de bloques. Todo el código fuente de los contratos se analiza en el código en busca de vulnerabilidades. inteligentes, incluidos aquellos que contienen bugs son Reglas Horn: la lógica de Horn [27] está compuesta por inmutables una vez son minados y añadidos a la cadena una versión restringida de la lógica de primer orden de bloques, aunque si pueden ser bloqueados mediante donde todas las reglas son de la forma si-entonces la llamada a una función destructor. que aunque limitada es computacionalmente universal Pérdida de Ether: si el programador se equivoca al y puede llevar a cabo los mismos cálculos que cualquier introducir la dirección para enviar Ether y esa dirección ordenador. existe pero es una dirección huérfana que no pertenece Resolución de restricciones: mediante esta técnica las a nadie ese Ether se perderá para siempre. herramientas intentan resolver una serie de condiciones Tamaño de pila: cada vez que un contrato llama a otro en el código para determinar si la ejecución podrı́a to- contrato la pila de llamada asociada aumenta en uno. El mar determinados caminos que conduzcan a potenciales lı́mite de la pila es 1024 y cuando se llega al lı́mite se vulnerabilidades. lanza una excepción. Hasta el 18 de octubre de 2016 era Verificación de modelo: este método se basa en una posible aprovecharse de esto para lanzar un ataque donde verificación automática de las propiedades de un sistema un usuario malicioso incrementaba el contador de la pila de estados finitos utilizando un modelo del sistema que hasta casi agotarlo y entonces llamaba a la función de la se cruza con un conjunto de especificaciones. vı́ctima lo que lanzaba una excepción al agotar el lı́mite de la pila. Si la vı́ctima no tuvo en cuenta esto y no IV-B. Herramientas maneja correctamente la excepción, podrı́a tener éxito el ataque. El impacto de esta vulnerabilidad hizo que se Oyente [28] es una de las primeras herramientas de se- rediseñara Ethereum. guridad que aparecieron. Ejecuta el bytecode EVM de los contratos inteligentes de forma simbólica y se centra en A fecha de creación de este documento existen multitud comprobar bloques de código susceptibles de ser vulnerables de herramientas para este propósito. A continuación se hará por su estructura, llamadas a contratos externos o una mala una pequeña descripción de los métodos o técnicas utilizados gestión de las excepciones de ejecución, por ejemplo la Figura por las herramientas de análisis y reflejados en la tabla II y 4. Disponible en Github [29] desde enero de 2016 (licencia después de se hará una breve descripción de las herramientas. GPL-3.0). Remix-IDE es una extensión para el navegador web que IV-A. Métodos de análisis permite escribir contratos inteligentes en el lenguaje Solidity. Ejecución simbólica: en vez de usar valores concretos Muestra de forma gráfica distintos avisos de potenciales para las variables se utilizan sı́mbolos. Las operaciones vulnerabilidades o fallos en el código a la vez que hace un sobre estos sı́mbolos conducen a términos algebraicos, análisis estático ligero. Disponible en Github [30] desde abril y las declaraciones condicionales dan lugar a fórmulas de 2016 (licencia MIT). propositivas que caracterizan a las ramas. Una parte Solgraph [31] es una herramienta que permite visualizar el particular del código es alcanzable si la conjunción de flujo ejecución de un contrato inteligente escrito en Solidity fórmulas en el camino a esta parte es satisfactoria, lo que y ver de forma más fácil potenciales vulnerabilidades. Está puede ser comprobado por los solucionadores de SMT. disponible en Github [32] desde julio de 2016.Porosity [33] Interpretación asbtracta: mediante el uso de Árboles de es una herramienta que desensambla el bytecode EVM y Sintaxis Abstractos que se obtienen en una fase interme- genera un diagrama de flujo. También permite descompilar el dia en el proceso de compilación de Solidity en bytecode bytecode y convertirlo a código fuente. Disponible en Github [34] desde febrero de 2017. Tabla I VULNERABILIDADES DETECTADAS POR LAS HERRAMIENTAS Llamadas a lo desconocido                    Envı́o sin gas                    Desorden en excepciones                    Conversión tipos                    Reentrada                    Conversión tipos                    Revelación de secretos                    Estado impredecible                    Números aleatorios                    Restriciones de tiempo                    Bugs inmutables                    Pérdida de Ether                    Tamaño de pila                    134 EVM Blockchain Solidity Oyente Remix-IDE Solgraph Porosity Manticore SmartCheck FSolidM Mythril ContractLarva E-EVM SolMet Vandal EthIR MAIAN Erays Rattle Osiris Securify Ethertrust 6 Manticore [35] es una herramienta de ejecución simbólica contrato. Está disponible en Github [45] desde diciembre de que en el caso de la EVM, analiza la ejecución del código 2017 (licencia Apache-2.0). del contrato inteligente en busca de las vulnerabilidades E-EVM [46] es una heramienta que permite la ejecución mas tı́picas apoyándose del solucionador SMT Z3 [36] La del bytecode EVM de forma visual, creando un grafo de flujo herramienta está disponible en Github [37] desde febrero de y mostrando información sobre la pila de ejecución, a modo 2017 (licencia AGPL-3.0). de depurador. Está disponible en Github [47] desde enero de 2018. SolMet [48] se trata de una herramienta para calcular ByteCode Constructor CFG Visualizador la complejidad del código fuente de un contrato escrito en Solidity que utiliza un parser para generar un árbol de sintaxis abstracta donde evalúa una serie de métricas para medir la Estado Explorador Ethereum Análisis central Validador complejidad. Disponible en Github [49] desde febrero de 2018. Solver de vectores de bit Z3 Vandal [50] es un desensamblador y descompilador de Solidity que genera un grafo de control de flujo que puede visualizarse como una página web HTML. Además permite Figura 4. Esquema de funcionamiento de Oyente [28] especificar los análisis de seguridad de forma lógica usando el lenguaje Soufflé [51]. Disponible en Github [52] desde febrero SmartCheck [38] busca patrones de vulnerabilidades cono- de 2018. cidas en el código fuente. Para ello utiliza un archivo XML EthIR [44] es un framework que transforma el código con el código fuente en forma de árbol y explora caminos fuente de los contratos inteligentes a un lenguaje interme- que pueden llevar a vulnerabilidades durante la ejecución. dio. Está basado en la herramienta Oyente pero utiliza una Disponible en Github [39] desde mayo de 2017 (licencia GPL- representación basada en reglas . Se encuentra disponible en 3.0). Github [53] desde marzo de 2018 (licencia GPL-3.0). FsolidM [40] utiliza una máquina de estados finita para MAIAN [54] es una herramienta muy parecida a Oyente, permitir al usuario definir el comportamiento del contrato pero que la amplia teniendo en cuenta los ataques que inteligente y a partir de ésta generar de forma automática requieren de varias transacciones. Se apoya en el uso de una el código en Solidity del contrato inteligente. Está disponible cadena de bloques privada para testeo y ası́ mitigar los falsos en Github [41] desde septiembre de 2017 (licencia MIT). positivos. Al igual que otras muchas herramientas utiliza el Mythril [42], es una herramienta muy parecida a Manticore, solucionador SMT Z3 para buscar caminos en la ejecución que permita la ejecución simbólica del bytecode EVM y que que lleven a potenciales vulnerabilidades. Está disponible en genera un grafo de control de flujo. Todo esto permite detectar Github [55] desde marzo de 2018 (licencia MIT). una serie de tipos de vulnerabilidades. Desarrollado por la Erays [56] es un desensamblador de bytecode EVM que empresa ConsenSys, se encuentra disponible en Github [43] genera un archivo PDF con pseudocódigo de las rutinas pre- desde septiembre de 2017. sentes en los contratos inteligentes. Se encuentra disponible contractLarva [44] Es una herramienta que verifica los en Github [57] desde agosto de 2018 (licencia MIT). contratos inteligentes en tiempo de ejecución. Para ello, al Rattle [58] es un framework que hace análisis estático compilar el contrato, añade al código fuente original, una binario del bytecode EVM realizando un desensamblado que serie de instrucciones encargadas de velar durante la ejecución elimina instrucciones no necesarias para entender el funcio- de que no se producen vulnerabilidades y/o evitarlas dentro namiento del código fuente del contrato, aunque no detecta de lo posible sin alterar el flujo de ejecución normal del vulnerabilidades por sı́ mismo. Disponible en Github [59] desde agosto de 2018 (licencia GPL-3.0). Tabla II RESUMEN DE LAS HERRAMIENTAS DE ANÁLISIS Bytecode                    Solidity                    Análisis dinámico                    Análisis estático                    Ejecución simbólica                    Interpretación abstracta                    Instrumentación de código                    Reglas Horn                    Resolución de restricciones                    Verificación de modelo                    135 Algoritmo Tipo Nivel Oyente Remix-IDE Solgraph Porosity Manticore SmartCheck FSolidM Mythril ContractLarva E-EVM SolMet Vandal EthIR MAIAN Erays Rattle Osiris Securify Ethertrust 7 Osiris [60] es una herramienta especializada en detectar variedad, muchas de ellas comparten algoritmos y técnicas de vulnerabilidades relacionadas con números enteros dentro de análisis y otras son evoluciones de herramientas más antiguas. los contratos inteligentes de Ethereum. Funciona ampliando la Además, a la hora de desarrollar nuevas herramientas, existen funcionalidad de Oyente analizando el flujo de ejecución para ya librerı́as que aceleran el proceso como el desensamblador distinguir desbordamientos considerados benignos de aquellos de código de Ethereum de la Fundación Ethereum. malignos. Disponible en Github [61] desde septiembre de Por último, como trabajo futuro, quedarı́a pendiente el 2018. estudio de todas aquellas herramientas no disponibles públi- Securify [62] realiza primero un desensamblado del byte- camente (y/o cuyo código fuente no es público) y que no se code EVM. Después, el código desensamblado lo descompila han incluido en este trabajo. en un lenguaje intermedio con el que crea un conjunto de reglas DataLog como las mostradas en la figura 6 que AGRADECIMIENTOS usará para buscar la violación de patrones y ası́ encontrar This project has received funding from the European Union’s vulnerabilidades. Disponible en Github [63] desde septiembre Horizon 2020 research and innovation programme under grant de 2018 (licencia Apache-2.0). agreement No 700326. Website: http://ramses2020.eu. This paper has also received funding from THEIA (Techniques for Integrity and authentication of multimedia files of mobile devices) UCM project (FEI-EU-19-04). Figura 5. Análisis de código Securify [62] REFERENCIAS [1] N. Szabo, “Formalizing and securing relationships on public networks,” EtherTrust [64] es un framework que basa su funciona- First Monday, vol. 2, no. 9, 1997. miento en traducir el bytecode EVM los contratos inteligentes [2] S. Nakamoto et al., “Bitcoin: A peer-to-peer electronic cash system,” 2008. en cláusulas de Horn que junto al solucionador SMT Z3 [3] V. Buterin et al., “A next-generation smart contract and decentralized verifica que el código del contrato no presente potenciales application platform,” white paper, vol. 3, p. 37, 2014. vulnerabilidades aunque no las detecta. Está disponible en [4] Coinlore, “Smart contract platforms.” [5] M. Al-Bassam, “Scpki: a smart contract-based pki and identity system,” Github [65] desde agosto de 2019 (licencia GPL-3.0). in Proceedings of the ACM Workshop on Blockchain, Cryptocurrencies En la tabla I basada en la taxonomı́a de vulnerabilidades de and Contracts. ACM, 2017, pp. 35–40. [26] puede verse un resumen de todas las vulnerabilidades que [6] P. Dunphy and F. A. Petitcolas, “A first look at identity management schemes on the blockchain,” IEEE Security & Privacy, vol. 16, no. 4, las herramientas de seguridad analizadas detectan. Algunas de pp. 20–29, 2018. ellas, como por ejemplo FSolidM o ContractLarva no detectan [7] P. McCorry, S. F. Shahandashti, and F. Hao, “A smart contract for ninguna porque no es su función. boardroom voting with maximum voter privacy,” in International Con- ference on Financial Cryptography and Data Security. Springer, 2017, pp. 357–375. [8] N. Kshetri and J. Voas, “Blockchain-enabled e-voting,” IEEE Software, Comportamiento no seguro Comportamiento seguro vol. 35, no. 4, pp. 95–99, 2018. Patrón de [9] G. W. Peters and E. Panayi, “Understanding modern banking ledgers violación Patrón de cumplimiento through blockchain technologies: Future of transaction processing and smart contracts on the internet of money,” in Banking beyond banks and money. Springer, 2016, pp. 239–278. [10] P. Sreehari, M. Nandakishore, G. Krishna, J. Jacob, and V. Shibu, “Smart will converting the legal testament into a smart contract,” in 2017 Violación International Conference on Networks & Advances in Computational Todos los No violación Technologies (NetACT). IEEE, 2017, pp. 203–207. comportamientos Advertencia [11] T. Bocek, B. B. Rodrigues, T. Strasser, and B. Stiller, “Blockchains everywhere-a use-case of blockchains in the pharma supply-chain,” in 2017 IFIP/IEEE Symposium on Integrated Network and Service Figura 6. Sistema de patrones basados en reglas que utiliza Securify [62] Management (IM). IEEE, 2017, pp. 772–777. [12] K. Christidis and M. Devetsikiotis, “Blockchains and smart contracts for the internet of things,” Ieee Access, vol. 4, pp. 2292–2303, 2016. [13] N. Rifi, E. Rachkidi, N. Agoulmine, and N. C. Taher, “Towards V. CONCLUSIONES Y TRABAJOS FUTUROS using blockchain technology for ehealth data access management,” in 2017 Fourth International Conference on Advances in Biomedical La seguridad y privacidad de contratos inteligentes es un Engineering (ICABME). IEEE, 2017, pp. 1–4. campo de investigación relativamente nuevo, pero con este [14] A. Gervais, G. O. Karame, K. Wüst, V. Glykantzis, H. Ritzdorf, documento pretendemos dejar patente que ya existen multi- and S. Capkun, “On the security and performance of proof of workblockchains,” in Proceedings of the 2016 ACM SIGSAC conference on tud de herramientas y soluciones, algunas de ellas bastante computer and communications security. ACM, 2016, pp. 3–16. maduras. Es cierto, que con tanta variedad de soluciones, el [15] G. Bertoni, J. Daemen, M. Peeters, and G. Van Assche, “Keccak desarrollador de contratos inteligentes puede a priori sentirse specifications,” Submission to nist (round 2), pp. 320–337, 2009.[16] C. Dannen, Introducing Ethereum and Solidity. Springer, 2017. confundido y no saber por dónde empezar, aunque trabajos [17] X. Li, P. Jiang, T. Chen, X. Luo, and Q. Wen, “A survey on the security como este podrı́an ser un buen punto de partida. of blockchain systems,” Future Generation Computer Systems, 2017. En el caso de las herramientas de análisis de vulnerabili- [18] F. Reid and M. Harrigan, “An analysis of anonymity in the bitcoinsystem,” in Security and privacy in social networks. Springer, 2013, dades, aunque pueda parecer en principio que existe mucha pp. 197–223. 136 8 [19] M. Möser, K. Soska, E. Heilman, K. Lee, H. Heffan, S. Srivastava, [43] ConsenSys, “Mythril,” https://github.com/ConsenSys/mythril-classic, K. Hogan, J. Hennessey, A. Miller, A. Narayanan et al., “An empirical 2017. analysis of traceability in the monero blockchain,” Proceedings on [44] E. Albert, P. Gordillo, B. Livshits, A. Rubio, and I. Sergey, “Ethir: A Privacy Enhancing Technologies, vol. 2018, no. 3, pp. 143–163, 2018. framework for high-level analysis of ethereum bytecode,” in Internatio- [20] A. Kosba, A. Miller, E. Shi, Z. Wen, and C. Papamanthou, “Hawk: nal Symposium on Automated Technology for Verification and Analysis. The blockchain model of cryptography and privacy-preserving smart Springer, 2018, pp. 513–520. contracts,” in 2016 IEEE symposium on security and privacy (SP). [45] G. Pace, “contractlarva,” https://github.com/gordonpace/contractLarva, IEEE, 2016, pp. 839–858. 2017. [21] R. Cheng, F. Zhang, J. Kos, W. He, N. Hynes, N. Johnson, A. Juels, [46] R. Norvill, B. B. F. Pontiveros, R. State, and A. Cullen, “Visual emula- A. Miller, and D. Song, “Ekiden: A platform for confidentiality- tion for ethereum’s virtual machine,” in NOMS 2018-2018 IEEE/IFIP preserving, trustworthy, and performant smart contracts,” in 2019 IEEE Network Operations and Management Symposium. IEEE, 2018, pp. European Symposium on Security and Privacy (EuroS&P). IEEE, 1–4. 2019, pp. 185–200. [47] pisocrob, “E-evm,” https://github.com/pisocrob/E-EVM, 2018. [22] G. Arfaoui, S. Gharout, and J. Traoré, “Trusted execution environments: [48] P. Hegedus, “Towards analyzing the complexity landscape of solidity A look under the hood,” in 2014 2nd IEEE International Conference based ethereum smart contracts,” Technologies, vol. 7, no. 1, p. 6, 2019. on Mobile Cloud Computing, Services, and Engineering. IEEE, 2014, [49] P. Hegedus, “Solmet,” https://github.com/chicxurug/ pp. 259–266. SolMet-Solidity-parser, 2018. [23] G. Zyskind, O. Nathan, and A. Pentland, “Enigma: Decentralized [50] L. Brent, A. Jurisevic, M. Kong, E. Liu, F. Gauthier, V. Gramoli, computation platform with guaranteed privacy,” arXiv preprint ar- R. Holz, and B. Scholz, “Vandal: A scalable security analysis framework Xiv:1506.03471, 2015. for smart contracts,” arXiv preprint arXiv:1809.03981, 2018. [24] Y. Lindell, “Secure multiparty computation for privacy preserving data [51] H. Jordan, B. Scholz, and P. Subotić, “Soufflé: On synthesis of program mining,” in Encyclopedia of Data Warehousing and Mining. IGI analyzers,” in International Conference on Computer Aided Verification. Global, 2005, pp. 1005–1009. Springer, 2016, pp. 422–430. [25] M. I. Mehar, C. L. Shier, A. Giambattista, E. Gong, G. Fletcher, R. Sa- [52] Smart Contract Research (USYD), “Vandal,” https://github.com/ nayhie, H. M. Kim, and M. Laskowski, “Understanding a revolutionary usyd-blockchain/vandal, 2018. and flawed grand experiment in blockchain: the dao attack,” Journal [53] P. Gordillo, “Ethir,” https://github.com/costa-group/EthIR, 2018. of Cases on Information Technology (JCIT), vol. 21, no. 1, pp. 19–32, [54] I. Nikolić, A. Kolluri, I. Sergey, P. Saxena, and A. Hobor, “Finding the 2019. greedy, prodigal, and suicidal contracts at scale,” in Proceedings of the [26] N. Atzei, M. Bartoletti, and T. Cimoli, “A survey of attacks on ethereum 34th Annual Computer Security Applications Conference. ACM, 2018, smart contracts (sok),” in International Conference on Principles of pp. 653–663. Security and Trust. Springer, 2017, pp. 164–186. [55] MAIAN-tool, “Maian,” https://github.com/MAIAN-tool/MAIAN, 2018. [27] A. Gurfinkel, T. Kahsai, A. Komuravelli, and J. A. Navas, “The seahorn [56] H. Gans, “Poole and plans: Erays on urban solutions and problems,” verification framework,” in International Conference on Computer 1968. Aided Verification. Springer, 2015, pp. 343–361. [57] teamnsrg, https://github.com/teamnsrg/erays, 2018. [28] L. Luu, D.-H. Chu, H. Olickel, P. Saxena, and A. Hobor, “Making smart [58] R. Stortz, “Rattle - an Ethereum EVM binary analysis framework,” contracts smarter,” in Proceedings of the 2016 ACM SIGSAC conference https://github.com/crytic/rattle, 2018. on computer and communications security. ACM, 2016, pp. 254–269. [59] Trail of Bits, “Rattle,” https://github.com/trailofbits/rattle, 2018. [29] Melon Project, “Oyente,” https://github.com/melonproject/oyente, 2016. [60] C. F. Torres, J. Schütte et al., “Osiris: Hunting for integer bugs in [30] Ethereum Foundation, “Remix-ide,” https://github.com/ethereum/ ethereum smart contracts,” in Proceedings of the 34th Annual Computer remix-ide, 2018. Security Applications Conference. ACM, 2018, pp. 664–676. [31] R. Revere, “Solgraph,” https://github.com/raineorshine/solgraph, 2018. [61] C. Ferreira, “Osiris,” https://github.com/christoftorres/Osiris, 2018. [32] R. Revere, “Solgraph,” https://github.com/raineorshine/solgraph, 2016. [62] P. Tsankov, A. Dan, D. Drachsler-Cohen, A. Gervais, F. Buenzli, and [33] M. Suiche, “Porosity: A decompiler for blockchain-based smart con- M. Vechev, “Securify: Practical security analysis of smart contracts,” in tracts bytecode,” DEF con, vol. 25, p. 11, 2017. Proceedings of the 2018 ACM SIGSAC Conference on Computer and [34] Comae Technologies, “Porosity,” https://github.com/comaeio/porosity, Communications Security. ACM, 2018, pp. 67–82. 2017. [63] SRI Lab, “Securify,” https://github.com/eth-sri/securify, 2018. [35] M. Mossberg, F. Manzano, E. Hennenfent, A. Groce, G. Grieco, J. Feist, [64] I. Grishchenko, M. Maffei, and C. Schneidewind, “Ethertrust: Sound T. Brunson, and A. Dinaburg, “Manticore: A user-friendly symbolic static analysis of ethereum bytecode,” Technische Universität Wien, execution framework for binaries and smart contracts,” arXiv preprint Tech. Rep, 2018. arXiv:1907.03890, 2019. [65] SecPriv, “Ethertrust,” https://github.com/SecPriv/EtherTrust, 2019. [36] L. De Moura and N. Bjørner, “Z3: An efficient smt solver,” in Inter- national conference on Tools and Algorithms for the Construction and Antonio López Vivar received his Computer Engineering degree at Uni- Analysis of Systems. Springer, 2008, pp. 337–340. versidad Carlos III of Madrid (2011) and Master’s Degree in Security of [37] T. of Bits, “Manticore,” https://github.com/trailofbits/manticore. Information and Communication Technologies at Universidad Europea of [38] S. Tikhomirov, E. Voskresenskaya, I. Ivanitskiy, R. Takhaviev, E. Mar- Madrid (2015). Currently he is a Ph.D. student in the Department of Software chenko, and Y. Alexandrov, “Smartcheck: Static analysis of ethereum Engineering and Artificial Intelligence of the Faculty of Computer Science smart contracts,” in 2018 IEEE/ACM 1st International Workshop on and Engineering at the Universidad Complutense de Madrid (UCM) and Emerging Trends in Software Engineering for Blockchain (WETSEB). Member of the Complutense Research Group GASS (Group of Analysis, IEEE, 2018, pp. 9–16. Security and Systems, http://gass.ucm.es). working as Research Support Staff [39] SmartDec, “Smartcheck,” https://github.com/smartdec/smartcheck, in the Group of Analysis, Security and Systems (GASS) of Universidad Com- 2017. plutense of Madrid. His research interests are: blockchain, cryptocurrencies, [40] A. Mavridou and A. Laszka, “Tool demonstration: Fsolidm for desig- computer forensics and cybersecurity. ning secure ethereum smart contracts,” in International Conference on Principles of Security and Trust. Springer, 2018, pp. 270–277. Ana Lucila Sandoval Orozco was born in Chivolo, Magdalena, Colombia [41] A. Mavridou and A.Laszka, “Fsolidm,” https://github.com/anmavrid/ in 1976. She received a Computer Science Engineering degree from the smart-contracts, 2017. Universidad Autónoma del Caribe (Colombia) in 2001. She holds a Speciali- [42] B. Mueller, “Smashing smart contracts,” in 9th HITB Security Confe- zation Course in Computer Networks (2006) from the Universidad del Norte rence, 2018. (Colombia), and holds a M.Sc. in Research in Computer Science (2009) and a Ph.D. in Computer Science (2014), both from the Universidad Complutense de Madrid (Spain). She is currently a postdoctoral researcher and member of the Research Group GASS (Group of Analysis, Security and Systems, http://gass.ucm.es) at Universidad Complutense de Madrid (Spain). Her main research interests are coding theory, information security and its applications. 137 9 Luis Javier Garcı́a Villalba received a Telecommunication Engineering His professional experience includes the management of both national and degree from the Universidad de Málaga (Spain) in 1993 and holds a international research projects and both public (Spanish Ministry of R&D, Ph.D. in Computer Science (1999) from the Universidad Politécnica de Spanish Ministry of Defence, Horizon 2020 - European Commission, . . .) and Madrid (Spain). Visiting Scholar at COSIC (Computer Security and Industrial private financing (Hitachi, IBM, Nokia, Safelayer Secure Communications, Cryptography, Department of Electrical Engineering, Faculty of Engineering, TB Solutions Security, . . .). Author or co-author of numerous international Katholieke Universiteit Leuven, Belgium) in 2000 and Visiting Scientist at publications is editor or guest editor of numerous journals such as Entropy IBM Research Division (IBM Almaden Research Center, San Jose, CA, MPDI, Future Generation Computer Systems (FGCS), Future Internet MDPI, USA) in 2001 and 2002, he is currently Associate Professor of the Depart- IEEE Latin America Transactions, IET Communications (IET-COM), IET ment of Software Engineering and Artificial Intelligence at the Universidad Networks (IET-NET), IET Wireless Sensor Systems (IET-WSS), International Complutense de Madrid (UCM) and Head of Complutense Research Group Journal of Ad Hoc and Ubiquitous Computing (IJAHUC), International GASS (Group of Analysis, Security and Systems) which is located in Journal of Multimedia and Ubiquitous Engineering (IJMUE), Journal of the Faculty of Computer Science and Engineering at the UCM Campus. Supercomputing, Sensors MDPI, etc. 138 Revisión Sistemática de Análisis de Riesgos Asociativos y Jerárquicos. Periodo 2014 – 2019. A. Santos-Olmo, L. E. Sánchez, E. Álvarez, D.G. Rosado, E. Fernandez-Medina Resumen – La sociedad de la información cada vez depende información y las comunicaciones con garantías es necesario más de los Sistemas de Gestión y Análisis del Riesgo al que se disponer de guías, métricas y herramientas que les permitan encuentran sometidos sus principales activos de información, y conocer en cada momento su nivel de seguridad y las poder disponer de estos sistemas ha llegado a ser vital para la evolución de las PYMES. Sin embargo, este tipo de compañías vulnerabilidades que aún no han sido cubiertas [8], el nivel de requiere que estos sistemas estén adaptados a sus especiales implantación con éxito de estos sistemas realmente es muy características, y teniendo en cuenta la existencia de riesgos bajo [9]. Este problema se acentúa especialmente en el caso de derivados no sólo de la propia PYME, sino riesgos externos de las pequeñas y medianas empresas, que cuentan con la otras empresas que colaboran con ella, mediante relaciones de limitación adicional de no tener recursos humanos y asociatividad y jerarquía. De esta forma, obtendremos un análisis económicos suficientes para realizar una adecuada gestión [5]. de riesgo de mayor calidad (y reduciendo su coste) empleando conceptos avanzados como “Algoritmos asociativos” y “Redes Algunos autores [10, 11] sugieren la realización de un sociales empresariales”. En este artículo presentamos los análisis de riesgos como parte fundamental en la PYME, ya resultados obtenidos tras aplicar el método de investigación que deben tener en cuenta que el valor y la sanción de los “Revisión Sistemática de la Literatura” de las propuestas datos robados o filtrados en una pequeña organización es el científicas orientadas a análisis de riesgos TIC Asociativos y mismo que para una grande, y por tanto debe tener controlado Jerárquicos, publicadas en los últimos 5 años. el valor y los riesgos a los que esos activos están sometidos. Otros autores [12] proponen la necesidad de desarrollar un Palabras clave — Cibersecurity, Information Systems Security nuevo modelo de análisis de riesgos orientándolo directamente Management, ISMS, Risk Analysis, SME, ISO27001, ISO27002, a las PYMES. ISO27005, Magerit. Algunos autores [13] sugieren que no es suficiente con aplicar un enfoque basado en análisis y gestión de riesgos sino I. INTRODUCCIÓN que, además de identificar y eliminar riesgos, también esta Para las empresas, es muy importante implantar controles actividad se ha de realizar de manera eficiente, ahorrando de seguridad que les permitan conocer y controlar los riesgos a dinero, consecuencia directa de una correcta gestión de la los que pueden estar sometidas [1-3]. Pero la implantación de seguridad [14, 15]. estos controles no es suficiente, siendo necesarios sistemas Además, en una época en la que la colaboración es vital en que gestionen la seguridad a lo largo del tiempo, de modo que la situación actual del mercado, es necesario contemplar les permitan reaccionar ágilmente ante nuevos riesgos, también el riesgo derivado de la relación de la empresa con su vulnerabilidades, amenazas, etc. [4]. Sin embargo, la mayor entorno, sus circunstancias (variantes en cada momento) y con parte de las empresas tienen sistemas de seguridad caóticos otras empresas, bien partners tecnológicos, bien como terceras creados sin unas guías adecuadas, sin documentación y con partes en algún servicio que realice la empresa o bien como recursos insuficientes [5]. Los controles clásicos se muestran co-participantes en proyectos multi-empresa. por sí solos insuficientes para dar unas mínimas garantías de El tratamiento de estos riesgos de tipo asociativo adquiere seguridad, en especial en sectores como el de la salud [6, 7]. también especial relevancia con la aparición del Cloud Las herramientas de seguridad existentes en el mercado Computing, que ha alterado drásticamente la percepción de las ayudan a solucionar parte de los problemas de seguridad, pero arquitecturas de infraestructura de Sistemas de Información, nunca afrontan el problema de una manera global e integrada. con el consiguiente deterioro de gran parte de la eficacia de los Por último, la enorme diversidad de estas herramientas y su mecanismos tradicionales de protección [16]. falta de integración suponen un enorme coste en recursos para Añadido a este tipo de riesgo, también es necesario poderlas gestionar. gestionar los riesgos de carácter vertical en la jerarquía de Por lo tanto, a pesar de que la realidad ha demostrado que empresa, donde la actividad de una empresa filial puede para que las empresas puedan utilizar las tecnologías de la afectar a la empresa matriz, y viceversa. De esta manera, el objetivo principal de este trabajo es A. Santos-Olmo, Departamento I+D+i, Sicaman Nuevas Tecnologías y realizar una revisión sistemática de los modelos y Marisma Shield, Tomelloso (Ciudad Real), España, Asolmo@sicaman-nt.com metodologías existentes o en desarrollo para el análisis y L. E. Sánchez, Grupo de Investigación GSyA, Universidad de Castilla-la Mancha, Ciudad Real, España, Luisenrique@sanchezcrespo.org gestión de riesgos, contemplando riesgos de carácter E. Álvarez, Fundación In-Nova, Toledo, España, Ealvarez@in-nova.org asociativo y jerárquico, y con orientación a PYMES. D.G. Rosado, Grupo de Investigación GSyA, Universidad de Castilla-la En este artículo, vamos a llevar a cabo una revisión Mancha, Ciudad Real, España, David.Grosado@uclm.es E. Fernandez-Medina, Grupo de Investigación GSyA, Universidad de sistemática (RS) de la literatura existente en relación con las Castilla-la Mancha, Ciudad Real, España, Eduardo.FdezMedina@uclm.es investigaciones en el campo de los Análisis de Riesgos, no https://doi.org/10.12804/si9789587844337.13 139 sólo con el fin de resumir las pruebas existentes en relación a observar las propuestas existentes sobre modelos y con este tema, sino también para proporcionar un marco en el metodologías de análisis de riesgos, haciendo especial que posicionar adecuadamente nuevas líneas de investigación. hincapié en aquéllas orientadas a trabajo con riesgos Esta revisión sistemática se va a llevar a cabo mediante el asociativos, riesgos jerárquicos y/u orientadas a PYMES, uso de las directrices para las revisiones sistemáticas extrayendo las más importantes y procediendo a un posterior propuestas por Kitchenham [17-19], lo que se ha mostrado análisis y comparación de las mismas. La población a analizar apropiado para investigadores de ingeniería del software. se compone de las publicaciones presentes en los repositorios Usaremos también un modelo de protocolo de revisión de las fuentes de datos seleccionadas que estén relacionadas desarrollado por Biolchini et al. [20], que facilita la con el objetivo de esta revisión. planificación y ejecución de las revisiones sistemáticas en la Los resultados esperados de esta revisión son conocer las ingeniería del software. propuestas existentes en cuanto a análisis de riesgos El resto del artículo se estructura de la siguiente forma: En asociativos y jerárquicos con orientación a PYMES, para la Sección 2 definiremos la pregunta de investigación. En la posteriormente analizarlas y conocer qué comparten y en qué Sección 3 se explica el método de revisión, que se basa en el difieren, además de identificar necesidades de investigación. protocolo de investigación, y es aquí donde se definirá la Las principales áreas de aplicación que se verán beneficiadas estrategia de búsqueda y la selección de estudios. En la por los resultados de esta revisión sistemática son las Sección 4 definiremos los datos a extraer y que se presentarán relacionadas con la Seguridad de la Información, en especial en el resumen de los estudios relevantes. En Sección 5 la Gestión de la Seguridad (concretamente los análisis de presentaremos los resultados de la revisión y un análisis de los riesgos), así como los expertos en seguridad. A tal fin, se mismos. Finalmente, en la última sección describiremos las proveerá un marco comparativo que permita posicionar principales conclusiones obtenidas. adecuadamente las nuevas actividades de investigación en análisis de riesgos. II. PLANIFICACIÓN DE LA REVISIÓN En este apartado, se define la pregunta de investigación de III. MÉTODO DE LA REVISIÓN forma que se focalice el área de interés del trabajo y queden El método de revisión se basa en el protocolo de definidos tanto el problema a tratar como sus principales investigación. En esta etapa definimos la estrategia de características. búsqueda, qué fuentes se utilizarán para identificar los estudios primarios, si hubo algunas restricciones, cuáles son A. Objeto de la pregunta. los criterios de inclusión y exclusión, qué criterios se utilizarán para evaluar la calidad de los estudios primarios y En esta revisión sistemática se pretende localizar trabajos cómo se extraerán y sintetizarán los datos de los estudios. centrados en el desarrollo de modelos y metodologías de análisis de riesgos, con el objetivo de que puedan ser aplicadas en PYMES y puedan adaptarse a cubrir riesgos asociativos y A. Selección de fuentes. jerárquicos. El objetivo de esta fase es seleccionar las fuentes que se usarán para realizar la ejecución de la búsqueda de estudios B. Premisa de la Revisión Sistemática. primarios. El criterio para la selección de las fuentes de búsqueda será Podemos definir la pregunta de investigación de este la posibilidad de consultar los documentos en Internet o en la trabajo, por tanto, de la siguiente forma: biblioteca digital de la Universidad de Castilla-La Mancha, que cuenta con libros electrónicos así como con acceso a las ¿Qué trabajos se han llevado a cabo para desarrollar bibliotecas digitales de ACM, IEEE, Science@-Direct o sistemas de análisis de riesgos teniendo en cuenta riesgos Elsevier, entre otros; la inclusión motores de búsqueda que jerárquicos, asociativos y aplicación en PYMES? permitan consultas avanzadas y búsqueda por palabras clave; además, editoriales, libros, revistas y conferencias recomendadas por expertos en la materia (como los miembros Las palabras y conceptos relacionados que se utilizaron de RETISTRUST1, una Red española de expertos en para formular esta pregunta y que fueron utilizados durante la Seguridad de la Información). ejecución de la revisión son las siguientes: La búsqueda de estudios primarios se llevará a cabo utilizando motores de búsqueda en web, bases de datos Risk analysis: risk analysis model, risk analysis electrónicas y búsquedas manuales, tales como búsquedas en methodology una revista/conferencia/libro/publicación específica o en Risk management: risk management model, risk publicaciones de investigación recomendadas por expertos en management methodology la materia. Risks: Associative risks, hierarchical risks Finalmente, la lista de fuentes inicial obtenida sobre la cual Small & Medium-Sized Business: SMB, SME, PYME se ejecutará la revisión sistemática es la siguiente: ACM En el contexto de la revisión sistemática planificada se van digital library, IEEE digital library, Science@Direct, Google 140 Scholar, SREIS symposium, ESORICS symposium, REFSQ C. Ejecución de la selección. conference, IEEE International Requirements Engineering En este punto, se ejecuta la búsqueda en cada una de las Conference, ICSE conference, COMPSAC conference, DEXA fuentes seleccionadas con el fin de obtener una lista inicial de conference, WOSIS workshop, ICCSA conference, los estudios para la posterior evaluación aplicando todos los Requirements Engineering Journal, Computer Standards & criterios y procedimientos especificados. Interfaces Journal, Computers & Security. Los procedimientos para la selección de los estudios se aplican a todos los artículos obtenidos a fin de verificar si los B. Selección de estudios. estudios se ajustan a los criterios de inclusión y exclusión. Los Una vez que se han sido definidas las fuentes, es necesario estudios obtenidos, que corresponden exactamente con todos describir el proceso y el criterio que vamos a seguir en la los criterios de inclusión y exclusión definidos previamente, se ejecución de la revisión para la selección y evaluación de los detallan en la siguiente sección. estudios. En primer lugar, se combinaron las palabras clave seleccionadas con conectores AND y OR para obtener la IV. EXTRACCIÓN DE LA INFORMACIÓN. cadena de búsqueda, como se muestra a continuación: La información extraída de los estudios debe contener las técnicas, métodos, procesos, medidas, estrategias o cualquier tipo de iniciativa para la adaptación del análisis, gestión o methodology OR model evaluación de riesgos a un alcance abordable por las PYMES, AND o manejar riesgos asociativos o jerárquicos. associative OR hierarchical AND Los formularios de información definidos para esta “risk analysis” OR “risk management” OR “risk revisión sistemática contienen la identificación del estudio, la assessment" metodología o modelo del estudio, los resultados del estudio, AND los problemas del estudio y nuestras impresiones generales al SMB OR SME OR PYME respecto. A continuación se ofrece una breve reseña de cada uno de los estudios seleccionados mostrados en la sección anterior, de El procedimiento para la selección de estudios empleado acuerdo con la información extraída obtenida a través de los comienza con la adaptación de la cadena de búsqueda al motor formularios de información. de búsqueda de la fuente y la ejecución de la consulta, limitando la búsqueda a trabajos publicados en los últimos 5 4.1. Feng, Nan et al. “A security risk analysis model for años. Los criterios de inclusión y exclusión deberían basarse information systems: Causal relationships of risk factors and en la Pregunta de investigación. El criterio de inclusión actúa vulnerability propagation analysis” [21]. sobre los resultados obtenidos al ejecutar la búsqueda sobre la fuente, permitiéndonos realizar una primera selección de Los autores presentan un modelo de análisis de riesgos de documentos que serán considerados en el contexto de la seguridad con el objetivo de identificar las relaciones causales revisión como candidatos a convertirse en estudios primarios. entre los factores de riesgo y analizar la complejidad y la Como criterio de inclusión se realiza principalmente un incertidumbre de la propagación de las vulnerabilidades. Se análisis sobre el título, las palabras claves y el abstract de cada basan en que en los sistemas de información, los riesgos de documento, de forma que podemos ver en una primera seguridad son causados por diversos factores internos y instancia cómo están relacionadas estas palabras y porqué ha externos interrelacionados. De esta forma, una vulnerabilidad sido seleccionado el estudio. Con este criterio se localizan y de seguridad también podría propagarse y escalar a través de eliminan la mayor parte de los resultados obtenidos que no las cadenas causales de los factores de riesgo a través de realizan aportaciones sobre análisis de riesgos en el campo de diferentes vías de acceso. los Sistemas de Información. Los autores desarrollan una red Bayesiana para definir El criterio de exclusión actúa sobre el subconjunto de simultáneamente los factores de riesgo y sus relaciones estudios relevantes obtenidos y nos permite obtener el causales basadas en el conocimiento a partir de los casos conjunto de estudios primarios. En esta fase nos centramos observados y de los expertos en el dominio. principalmente en la lectura y análisis del abstract del Se trata de un estudio teórico, sin contrastar resultados con documento y sus conclusiones, teniendo en algunos casos que aplicación de la propuesta en casos prácticos. profundizar en el mismo y realizar una lectura más detallada sobre otras partes del documento, de cara a ver en más detalle 4.2. Webb, J. et al. “A situation awareness model for de qué trata cada estudio, ver la relación real que presenta con information security risk management” [22]. los objetivos buscados y, si es verdaderamente relevante para la revisión, seleccionarlo como estudio primario. Los autores proponen un modelo de análisis de riesgos de seguridad de la información consciente de la situación (SA- ISRM) para complementar el proceso de gestión del riesgo de seguridad de la información. Su objetivo es paliar las 141 deficiencias en la práctica de la evaluación de riesgos de riesgos, integrando conceptos de similitud de valores de seguridad de información que inevitablemente conducen a una medición de los número difusos y teorías de posibilidad. mala toma de decisiones y estrategias inadecuadas o Se trata de un estudio teórico, sin contrastar resultados con inapropiadas de seguridad. aplicación de la propuesta en casos prácticos. De esta forma, el modelo propuesto busca responder a dichas deficiencias a través de la recogida, análisis y 4.6. Abdel-Basset, Mohamed et al. “A framework for risk comunicación de la información relacionada con los riesgos de la empresa en su totalidad. assessment, management and evaluation: Economic tool for quantifying risks in supply chain” [26]. El modelo ha sido refinado y perfeccionado mediante un caso de estudio en la empresa de inteligencia de seguridad Los autores proponen un framework de gestión y nacional de Estados Unidos. evaluación de riesgos basado en la aplicación de técnicas neutrosóficas. Aunque se aplica al riesgo en el ámbito de una 4.3. Yongli Tang et al. “Information Security Risk cadena de montaje, es interesante estudiar su posible Assessment Method based on Cloud Model” [23]. adaptación a los Sistemas de Información. Lo interesante de esta propuesta es la introducción de la Los autores proponen una metodología de evaluación del incertidumbre dentro del análisis de riesgos, así como la riesgo en Sistemas de Información basándose en la posibilidad de obtener valores cuantitativos de riesgo dentro construcción de un modelo basado en la Nube (Cloud). De de un escenario afectado por sucesos imprevistos y al que esta forma, su objetivo es utilizar el “Modelo Cloud” para pueden afectar factores como la subjetividad, la incertidumbre reducir la incertidumbre en la cuantificación de resultados del o la vaguedad a la hora de obtener valores de riesgo análisis de riesgos. Este modelo, por su propia naturaleza, cuantitativos y objetivos que puedan orientar procesos de permite tener en cuenta factores asociativos a la hora de tomas de decisión. Los autores emplean el Proceso Analítico realizar la evaluación de riesgos, empleando para ello técnicas Jerárquico Neutrosófico (N-AHP) para analizar los factores de difusas (fuzzy). riesgo identificados. Se trata de un estudio teórico, sin contrastar resultados con Los autores han definido un caso de estudio para aplicar y aplicación de la propuesta en casos prácticos. refinar este framework. 4.4. Vicente, E. et al. “Risk analysis in information 4.7. Sicari, S. et al. “A risk assessment methodology for the systems: A fuzzification of the MAGERIT methodology” Internet of Things” [27]. [24]. Los autores proponen una Metodología de análisis y Los autores presentan una extensión de la metodología gestión de riesgos con aplicación sobre entornos IoT. El MAGERIT basada en modelos computacionales fuzzy método propuesto (tanto cualitativo como cuantitativo) se basa (difusos) con el objetivo de reducir el grado de incertidumbre la construcción de un árbol de ataques adaptado a cada en las técnicas de medición de las metodologías tradicionales. escenario y en un criterio denominado valor de explotabilidad. De esta forma, presentan una escala de términos Inicialmente, la evaluación de este valor se obtiene de forma lingüísticos para representar los valores de medición, sus cualitativa, considerando los niveles de dificultad de realizar dependencias y frecuencias y la degradación de los activos en un ataque contra el sistema. Estos niveles cualitativos se entornos de Sistemas de Información. traducen posteriormente en valores cuantitativos concretos. El valor de explotabilidad general del sistema se calcula Estas técnicas se aplican teniendo en cuenta también que la finalmente sobre la base de un grafo de dependencia entre las relación de activos de SI puede ser tanto interna como vulnerabilidades identificadas. depender de terceras partes, lo que apoya la necesidad de trabajar con factores asociativos de cara a la evaluación y El procedimiento propuesto es fundamentalmente teórico. gestión de riesgos. Se aplica en un caso práctico, pero es demasiado global y sin detallar demasiado los procesos llevados a cabo para obtener Se trata de un estudio teórico, sin contrastar resultados con los resultados. Además, requiere un alto grado de aplicación de la propuesta en casos prácticos. conocimiento experto para su mantenimiento, y se centra sobre todo en riesgo de ataque sobre componentes físicos, 4.5. Saptarshi, M. et al. “Risk analysis using FMEA: Fuzzy siendo demasiado específico. similarity value and possibility theory based approach” [25]. 4.8. Staalduinen, M.A. et al. “Functional quantitative Los autores proponen una metodología que incorpore a los security risk analysis (QSRA) to assist in protecting critical procesos de análisis de riesgos las técnicas de FMEA (Failure process infrastructure” [28]. Mode and Effect Analysis), particularmente las aproximaciones basadas en reglas y técnicas fuzzy. Los autores proponen una metodología cuantitativa de El objetivo principal es utilizar estas técnicas para reducir evaluación de riesgos de seguridad orientada a infraestructuras la arbitrariedad y, con ello, la incertidumbre en el análisis de críticas. Se parte de un enfoque orientado a la evaluación 142 concurrente de amenazas y vulnerabilidades y se introduce un evaluación de aspectos de Disponibilidad sobre un servicio de modelo de riesgo “Bow Tie” mapeado en un modelo de Red VoIP, si bien es aún muy esquemático y sin demasiado detalle. Bayesiana que permite diferentes supuestos lógicos. Finalmente, se integran las probabilidades de 4.11. Panchal, D. et al. “A new fuzzy methodology-based riesgo/vulnerabilidad con valores de pérdida potencial para cuantificar el riesgo. structured framework for RAM and risk analysis” [32]. La importancia de procesos de análisis de riesgos Los autores proponen un framework para la realización de adaptados a infraestructuras críticas siguiendo un modelo análisis de riesgos que sustenta sus procesos de análisis de “Bow Tie” también se presenta por Abdo, H. et al. en “A riesgos en técnicas de FMEA (Failure Mode and Effect safety/security risk analysis approach of Industrial Control Analysis), particularmente las aproximaciones basadas en Systems: A cyber bowtie – combining new version of attack reglas y técnicas fuzzy. tree with bowtie analysis” [29]. El objetivo principal es utilizar estas técnicas para reducir Aunque ambos puntos de partida se centran sobre la arbitrariedad y, con ello, la incertidumbre en el análisis de instalaciones químicas (sobre todo de cara a preparar casos de riesgos. De esta forma se utiliza un enfoque Fuzzy Lambda – estudio reales), las metodologías son adaptables a cualquier Tau (FLT) para calcular los parámetros de confiabilidad, infraestructura crítica configurando y personalizando sus disponibilidad y mantenibilidad (RAM) del sistema. elementos, aunque es necesario el conocimiento experto para llevarla a cabo. El estudio se centra en el ámbito de una planta de proceso químico, aunque es lo suficientemente genérico como para Los autores han definido un caso de estudio para aplicar y adaptarse a cualquier tipo de Sistema de Información. En todo refinar esta metodología. caso, refuerza la creciente importancia de procesos de análisis de riesgo específicos para Infraestructuras críticas. 4.9. Khan, F. et al. “Dynamic risk management: a Se trata de un estudio teórico, sin contrastar resultados con contemporary approach to process safety management” [30]. aplicación de la propuesta en casos prácticos. Los autores proponen un framework para la gestión 4.12. Sangaiah, A.K. et al. “Towards an efficient risk dinámica de riesgos, cuya piedra angular es un proceso de evaluación dinámica de riesgos basado en una estrategia Plan- assessment in software projects–Fuzzy reinforcement Do-Check-Act (PDCA). De esta forma, se define una paradigm” [33]. evaluación inicial de riesgos, tras la que comienza un ciclo PDCA de evaluación continua. Los autores proponen un acercamiento basado en técnicas fuzzy como base para el futuro desarrollo de un framework de El framework propuesto está aún en una fase muy inicial, evaluación de riesgos que permita manejar la incertidumbre y pero lo más interesante de esta propuesta es la creciente evaluar de forma eficiente los riesgos en el ámbito del importancia del concepto de dinamismo dentro de los procesos desarrollo de proyectos software, de forma que puedan guiar de evaluación de riesgos. un proceso de tomas de decisiones eficiente a lo largo del Se trata de un estudio teórico, sin contrastar resultados con Ciclo de vida del proyecto. aplicación de la propuesta en casos prácticos. Se trata de un estudio teórico, sin contrastar resultados con aplicación de la propuesta en casos prácticos. 4.10. Munodawafa, F. et al. “Security risk assessment within hybrid data centers: A case study of delay sensitive 4.13. Wangen, G. et al. “A framework for estimating applications” [31]. information security risk assessment method completeness” [34]. Los autores presentan un estudio discursivo sobre la necesidad de contar con procesos de análisis y gestión de Los autores proponen un framework llamado CURF (Core riesgos específicamente en el ámbito de los Centros de datos. Unified Risk Framework) cuyo objetivo es comparar métodos No se llega a proponer ni definir un mecanismo concreto pero de evaluación de riesgos de sistemas de información. pone sobre la mesa conceptos relevantes como la necesidad de incluir en la seguridad de estos Centros de datos los riesgos a La propuesta es interesante por plantear la necesidad de los que están sometidos no sólo los servidores físicos sino que este framework sea dinámico, permitiendo adaptarse a también los virtuales. Este nuevo escenario entronca con las nuevas características y tareas de los métodos revisados. nuevas necesidades en el área del Cloud Computing, con la Además, entre sus criterios de comparación de métodos de necesidad de convivencia de sistemas físicos clásicos con análisis de riesgo incluye como factores clave que se adapte a sistemas virtuales, así como en los riesgos asociativos Cloud Computing y que tenga en cuenta la Reutilización del derivados de la virtualización. conocimiento. El estudio presenta una selección inicial de Riesgos y Vulnerabilidades centrados en Data centers, incluyendo algunos específicos para servidores virtuales. También se presenta un caso de estudio centrado específicamente en la 143 4.14. Zhang, H. et al. “An Integrated Approach to Risk características que pueden ser utilizadas como base para el Assessment for Special Line Shunting Via Fuzzy Theory” desarrollo de una metodología que incluya todas las [35]. características deseadas. Los autores presentan un proceso de evaluación de riesgos basado en técnicas fuzzy con el objetivo principal de obtener valores de riesgo fiables en entornos sujetos a factores ambientales que condicen a obtener resultados de riesgo incompletos o involucran altos niveles de incertidumbre. Aunque el estudio se aplica específicamente al ámbito ferroviario, sus conceptos son fácilmente extrapolables al Feng, Nan Global Redes - Análisis de la incertidumbre campo de las TI donde la incertidumbre es también un factor Bayesianas de propagación de debilidades clave en los procesos de Análisis de riesgos. De esta forma, se - Procesos de toma de redunda en la importancia de la reducción de incertidumbre de decisiones cara a obtener resultados fiables, así como en otros conceptos - Mejora de los procesos de Webb, J. Global - recogida, análisis y muy interesantes como son la utilización tanto de técnicas comunicación de información cualitativas como cuantitativas. relativa a riesgos - Caso de estudio El estudio también incide en la necesidad de tener en Modelo cuenta las relaciones jerárquicas y define un caso de estudio - Modelo basado en la Nube para aplicar este proceso. Yongli Tang Global Cloud Técnicas - Gestión de riesgos difusas asociativos V. ANÁLISIS DE RESULTADOS. - Reducción del grado de incertidumbre Los resultados de la revisión sistemática se muestran en la Vicente, E. Global Técnicas difusas - Importancia del entorno y de siguiente tabla, que resume la cantidad de estudios por terceros en la evaluación de iniciativa: riesgos Saptarshi, M. Global FMEA - Reducción del grado de incertidumbre Nº de Abdel- - Gestión de la incertidumbre Tipo de iniciativa estudios Iniciativas Basset, - N-AHP - Uso de AHP para analizar Mohamed factores de riesgo e impacto Proceso 1 4.14 - Caso de estudio Framework 5 4.6, 4.9, 4.11, 4.12, 4.13 - Valor de explotabilidad de Sicari, S. IoT - vulnerabilidades Modelo 2 4.1, 4.2 - Grafos de vulnerabilidad Metodología 5 4.3, 4.4, 4.5, 4.7, 4.8 Staalduinen, Infraestruct - Modelos Bow Tie - Análisis concurrente de Otros 1 4.10 M.A. uras - Redes riesgos y vulnerabilidades Abdo, H. Críticas Bayesianas - Caso de estudio Total 14 - Khan, F. Global - - Evaluación dinámica del Tabla 1: Resultados por iniciativa riesgo - Análisis de riesgos en virtualización Como podemos ver en la tabla anterior, hay muchos Munodawafa, Data - Riesgos en Data centers nuevos frameworks, procesos, modelos y metodologías que F. Centers - fuera de la infraestructura del intentan facilitar la gestión, evaluación y/o el análisis de SI pero que forman parte de ella riesgos teniendo en cuenta factores como la flexibilidad o Infraestruct simplicidad de su aplicación (necesaria para poder aplicarlos Panchal, D. uras FMEA - Reducción del grado de al ámbito de la PYME), o considerando la importancia de Críticas incertidumbre gestionar los riesgos jerárquicos y asociativos, imprescindible Sangaiah, Desarrollo Técnicas - Reducción del grado de para Cloud Computing o IoT, por ejemplo. También se A.K. de Software difusas incertidumbre empieza a ver la necesidad de controlar el riesgo en sistemas - Reutilización del asociados de forma específica a Infraestructuras críticas. conocimiento - Importancia de la Sin embargo, muy pocos trabajos describen casos de Wangen, G. Global - Evaluación dinámica del estudio complejos que muestren la posibilidad y los beneficios riesgo y los entornos en la obtenidos de aplicar el modelo o metodología propuestos en la Nube práctica. - Reducción del grado de incertidumbre Por otra parte, como se puede ver en la Tabla 2, después de Zhang, H. - Técnicas difusas - Factores jerárquicos para nuestro análisis hemos llegado a la conclusión de que cada una valoración de probabilidad e de las iniciativas seleccionadas nos ofrece aspectos muy impacto de los riesgos importantes que tienen que ver con los requisitos de análisis Tabla 2: Principales contribuciones de las propuestas de riesgos en Sistemas de Información. Estas son seleccionadas 144 Iniciativa Ámbito Técnica/ Modelo base Principales contribucio nes En la Tabla 3 se puede ver una comparativa de las diferentes propuestas analizadas, comparadas con la propuesta futura que pretende abordarse. Se considera que los aspectos valorados se pueden cumplir de forma total, parcialmente o no haber sido abordados en el modelo. A continuación, se describe cada uno de los aspectos analizados: • Ámbito de aplicación: Si el modelo se aplica de Abdel-Basset, forma global a la seguridad los Sistemas de Mohamed N N N S P N N N N S N Información de una compañía, o sólo a un Sicari, S. N P S S N N N N N S N subconjunto de ellos. Staalduinen, • Métricas: La guía incluye mecanismos de medición M.A. N N N S N N N N N S N de los criterios de riesgo claros, detallando Abdo, H. información sobre su aplicación y evaluación. Khan, F. S N N N N N N P N N N • Técnicas cualitativas: El modelo incluye técnicas Munodawafa, F. N N N N P N N N N P S cualitativas de medición. Panchal, D. S P S N N N N N N N N • Técnicas cuantitativas: El modelo incluye técnicas cuantitativas de medición. Sangaiah, A.K. N S S N N N N N N N N • Asociativo: El modelo tiene en cuenta la distribución Wangen, G. S N N N S N N S N N N del riesgo (por ejemplo, funciones derivadas a Zhang, H. N S S S N S N N N N N terceros, o realizadas por la empresa en colaboración con otras empresas) y la interrelación de la empresa MARISMA S S S S S S S S S S S con el entorno. Tabla 3: Comparativa de las propuestas seleccionadas • Jerárquico: El modelo tiene en cuenta la relación jerárquica entre compañías relacionadas. (Por ejemplo, el esquema Matriz – Filiales). Se puede ver cómo ninguna de las propuestas estudiadas • Orientado a PYMES: El modelo ha sido desarrollado posee las características requeridas por las PYMES: pensando en la casuística especial de las PYMES. • No están pensadas para su aplicación en empresas de • Reutiliza el conocimiento: La guía adquiere pequeño tamaño y, por tanto, con escasos recursos conocimiento de las implantaciones y de la humanos y económicos. información recogida durante su utilización, de forma • La mayoría se centran sólo en el análisis de riesgos que este conocimiento pueda ser reutilizado para de una parte del Sistema de Información, y casi facilitar posteriores implantaciones. ninguna de ellas aborda desde un punto de vista • Dispone de herramienta software: El modelo dispone global la implantación de estos sistemas, lo que de una herramienta que lo soporte. obligaría a las compañías a tener que adquirir, • Casos prácticos: El modelo ha sido desarrollado y implementar, gestionar y mantener varias refinado a partir de casos prácticos. metodologías, modelos y herramientas para gestionar • Cloud Computing: El modelo tiene en cuenta la de forma integral los riesgos. Adicionalmente, las aplicación en entornos de Cloud Computing. pocas aplicaciones que han intentado abordar todo el Sistema de Información requieren de una gestión compleja y de un mantenimiento costoso, con una Estas características deseables para un modelo de análisis y necesidad importante de conocimiento experto para gestión de riesgos asociativos y jerárquicos para PYMES se poder mantener el sistema de gestión y evaluación de han obtenido a través de la aplicación del "método de riesgos, lo que hace que no sean adecuadas para las investigación-acción" a casos reales. Se considera que cada PYMES. uno de estos aspectos puede ser totalmente cumplido (S), • La mayoría de las propuestas no tienen en cuenta la parcialmente cumplido (P) o no tenido en cuenta por el necesidad de contemplar riesgos jerárquicos y modelo (N). asociativos y, las que lo hacen, lo realizan desde un punto de vista teórico, sin establecer mecanismos concretos y basados en casos prácticos para gestionar este tipo de riesgos. Por lo tanto, es relevante realizar un nuevo modelo que permita incluir todas esas características, incluyendo la automatización de las métricas para reducir los costes de Feng, Nan S S N S S N N N N N N mantenimiento del sistema. Webb, J. S N N N S N N N N S N Yongli Tang S S S S S N N N N N S Vicente, E. S S S N S N N N N N P Saptarshi, M. S S S N S N N N N N N 145 Iniciativa Ámbito Global Métricas Técnicas Cualitativas Técnicas Cuantitativas Asociativo Jerárquico Orientado PYMES Reutilización Conocimiento Herramienta Software Casos Prácticos Cloud Computing Iniciativa Ámbito Global Métricas Técnicas Cualitativas Técnicas Cuantitativas Asociativo Jerárquico Orientado PYMES Reutilización Conocimiento Herramienta Software Casos Prácticos Cloud Computing VI. CONCLUSIONES. aportaciones serán tenidas en cuenta para el desarrollo de una En este artículo se ha realizado una revisión sistemática de metodología que incluya todas las características deseadas. los diferentes modelos y metodologías para el análisis y gestión de riesgos, con el objetivo de estudiar las propuestas AGRADECIMIENTOS centradas en riesgos asociativos y jerárquicos, que sean válida Esta investigación ha sido co-financiada por los proyectos para las PYMES. GENESIS - Security Government of Big Data and Cyber Como resultado de esta revisión se ha podido establecer la Physics Systems ((SBPLY/17/180501/000202) financiado por importancia que tiene la gestión y el análisis de los riesgos el “JCCM- Consejería de Educación, Cultura y Deportes, y sobre la seguridad de los Sistemas de Información en el Fondos FEDER”, del proyecto ECLIPSE – Enhancing Data desempeño y evolución sostenible de las empresas, ya que Quality and Security for Improving Business Processes and constituye un requisito básico para alcanzar la misión y los Strategic Decisions in Cyber Physical Systems (RTI2018- objetivos organizacionales en un entorno altamente 094283-B-C31) financiado por la ”Ministerio Economía, competitivo. Industria y Competitividad y fondos FEDER”, y ha contado En numerosas fuentes bibliográficas se detecta y resalta la con el apoyo de las empresas Marisma Shield S.L dificultad que supone para las PYMES la utilización de las (www.emarisma.com) y Sicaman Nuevas Tecnologías metodologías y modelos de análisis de riesgos tradicionales, (www.sicaman-nt.com). que han sido concebidos para grandes empresas, siendo la aplicación de este tipo de metodologías y modelos difícil y costosa para las PYMES [36-40]. REFERENCIAS El problema principal de todos los modelos de análisis y gestión riesgos existentes es que no están teniendo éxito a la [1] Kluge, D. Formal Information Security Standards in German Medium hora de implantarse en PYMES, debido principalmente a que: Enterprises. in CONISAR: The Conference on Information Systems Applied Research. 2008. • Unos fueron desarrollados pensando en [2] Dhillon, G. and J. Backhouse, Information System Security Management organizaciones grandes (Grandes estándares como in the New Millennium. Communications of the ACM, 2000. 43(7): CRAMM, ISO/IEC 27005, MAGERIT, OCTAVE, p. 125-128. [3] Vivas, T., A. Zambrano, and M. Huerta. Mechanisms of security based NIST SP 800-39, Mehari, COBIT o ERMF) y en las on digital certificates applied in a telemedicine network. in 2008 estructuras organizativas asociadas a éstas. 30th Annual International Conference of the IEEE Engineering in • Otros (Khan [30] han intentado simplificar el modelo Medicine and Biology Society. 2008. IEEE. para que pudiera ser apto para compañías con [4] Barlette, Y. and V. Vladislav. Exploring the Suitability of IS Security Management Standards for SMEs. in Hawaii International recursos limitados, pero son modelos incompletos Conference on System Sciences, Proceedings of the 41st Annual. que sólo afrontan parte del problema, o intentan 2008. Waikoloa, HI, USA. aportar unas guías básicas de los pasos a realizar, [5] Wiander, T. and J. Holappa, Theoretical Framework of ISO 17799 pero sin entrar en cómo evaluar y gestionar realmente Compliant. Information Security Management System Using Novel ASD Method., in Technical Report, V.T.R.C.o. Finland, Editor los riesgos de una forma en la que el propio personal 2006. técnico de la empresa se pueda involucrar. Además, [6] Huerta, M., et al. Implementation of a open source security software la mayoría son modelos teóricos y están todavía en platform in a telemedicine network. in Proceedings of the 9th desarrollo. WSEAS international conference on Advances in e-activities, information security and privacy. 2010. World Scientific and • La mayoría de las propuestas no tienen en cuenta la Engineering Academy and Society (WSEAS). necesidad de contemplar riesgos jerárquicos y [7] Pirrone, J. and M. Huerta. Security Mechanism for Medical Record asociativos, factores cruciales en la estructura y Exchange Using Hippocratic Protocol. in World Congress on funcionamiento actual de las empresas (en el que Medical Physics and Biomedical Engineering 2018. 2019. Springer. cada vez tiene más peso el uso de sistemas en Cloud), [8] Wiander, T. Implementing the ISO/IEC 17799 standard in practice – sobre todo de las PYMES. experiences on audit phases. in AISC '08: Proceedings of the sixth • Aunque está creciendo el número de propuestas que Australasian conference on Information security. 2008. inciden en la necesidad de tener en cuenta factores Wollongong, Australia. [9] Huerta, M., et al. Design of a building security system in a university como el dinamismo, la reutilización del conocimiento campus using RFID technology. in 2017 IEEE 37th Central y la reducción de la incertidumbre a la hora de America and Panama Convention (CONCAPAN XXXVII). 2017. realizar un análisis de riesgos, son muy pocas las [10] Michalson, L., Information security and the law: threats and how to traslaciones prácticas de dichas propuestas a casos manage them. Convergence, 2003. 4(3): p. 34-38. [11] Volonino, L. and S. Robinson. Principles and Practice of Information reales y se encuentran en fases muy iniciales. Security. in 1 edition, Anderson, Natalie E. 2004. New Jersey. [12] Spinellis, D. and D. Gritzalis. nformation Security Best Practise Dissemination: The ISA-EUNET Approach. in WISE 1:First World De esta forma, se puede concluir que es relevante realizar Conference on Information Security Education. 1999. un nuevo modelo que permita incluir todas las características [13] Siegel, C.A., T.R. Sagalow, and P. Serritella, Cyber-Risk Management: citadas como deseables de cara a su implantación en todo tipo Technical and Insurance Controls for Enterprise-Level Security. de compañías, y en espacial para el caso de las PYMES. Security Management Practices, 2002. sept/oct: p. 33-49. [14] Garigue, R. and M. Stefaniu, Information Security Governance Todos los estándares y propuestas para la evaluación y Reporting. Information Systems Security, 2003. sept/oct: p. 36-40. gestión de riesgos estudiados son muy importantes, y sus [15] Mercuri, R.T., Analyzing security costs. Communications of the ACM, 2003. 46: p. 15-18. 146 [16] Zissis, D. and D. Lekkas, Addressing cloud computing security issues. Antonio Santos-Olmo is MsC in in Computer Science and is an Assistant Future Generation Computer Systems, 2012. 28(3): p. 583-592. Professor at the Escuela Superior de Informática of the Universidad de [17] Brereton, P., et al., Lessons from applying the systematic literature Castilla- La Mancha in Ciudad Real (Spain) (Computer Science Department, review process within the software engineering domain. Journal of University of Castilla La Mancha, Ciudad Real, Spain), MSc in Information Systems and Software, 2007. 80(4): p. 571-583. Systems Audit from the Polytechnic University of Madrid, and Certified [18] Kitchenham, B., Procedures for performing systematic reviews. Keele, Information System Auditor by ISACA. He is the Director of Software UK, Keele University, 2004. 33(2004): p. 1-26. Factory departments of the company Sicaman Nuevas Tecnologías S.L. His [19] Kitchenham, B. and S. Charters, Guidelines for performing systematic research activities are management security system, security metrics, data literature reviews in software engineering version 2.3. mining, data cleaning, and business intelligence. He participates in the GSyA Engineering, 2007. 45(4ve): p. 1051. research group of the Department of Computer Science at the University of [20] Biolchini, J., et al., Systematic review in software engineering. System Castilla- LaMancha, in Ciudad Real (Spain). Engineering and Computer Science Department COPPE/UFRJ, Technical Report ES, 2005. 679(05): p. 45. Luis Enrique Sánchez is PhD and MsC in Computer Science and is a [21] Feng, N., H.J. Wang, and M. Li, A security risk analysis model for Professor at the Universidad of Castilla-la Mancha (Ciudad Real, Spain), MSc information systems: Causal relationships of risk factors and in Information Systems Audit from the Polytechnic University of Madrid, and vulnerability propagation analysis. Information Sciences, 2014. Certified Information System Auditor by ISACA. He is the Director of 256(0): p. 57-73. Professional Services and R&D departments of the company Sicaman Nuevas [22] Webb, J., et al., A situation awareness model for information security Tecnologías S.L. COIICLM board or committee member and responsible for risk management. Computers & Security, 2014. 44(0): p. 1-15. the professional services committee. His research activities are management [23] Yongli, T., et al. Information security risk assessment method based on security system, security metrics, data mining, data cleaning, and business cloud model. in Irish Signals & Systems Conference 2014 and intelligence. He participates in the GSyA research group of the Department of 2014 China-Ireland International Conf. on Infor. and Comm. Computer Science at the University of Castilla- LaMancha, in Ciudad Real Technologies (ISSC 2014/CIICT 2014). 25th IET. 2014. (Spain). [24] Vicente, E., A. Mateos, and A. Jiménez-Martín, Risk analysis in information systems: A fuzzification of the MAGERIT methodology. Knowledge-Based Systems, 2014. 66(0): p. 1-12. Esther Álvarez President of Private Foundation In-nova and Research of the [25] Mandal, S. and J. Maiti, Risk analysis using FMEA: Fuzzy similarity UPM. Consultant in strategic communications programs radio, mobile and value and possibility theory based approach. Expert Systems with wireless both public and private sectors and in civil and military. Currently a Applications, 2014. 41(7): p. 3527-3537. member of the board of the Delegation of COIT (Association of [26] Abdel-Basset, M., et al., A framework for risk assessment, management Telecommunications Engineers) CLM, representative of Castilla La Mancha and evaluation: Economic tool for quantifying risks in supply in the groups of the free and COIT New Technologies of the National chain. Future Generation Computer Systems, 2019. 90: p. 489-502. Coordinator of the Treatment Research Chair in Digital Image at the Madrid [27] Sicari, S., et al., A risk assessment methodology for the Internet of Polytechnic University of Madrid. PhD in Information Systems specializing in Things. Computer Communications, 2018. 129: p. 67-79. Business ETSI Industriales (UPM) and the Specialty Program [28] van Staalduinen, M.A., et al., Functional quantitative security risk Communications Signals, Systems and Radiocommunications Department analysis (QSRA) to assist in protecting critical process SSR ETSI Telecomunicaciones (UPM). infrastructure. Reliability Engineering & System Safety, 2017. 157: p. 23-34. David G. Rosado has an MSc and PhD. in Computer Science from the [29] Abdo, H., et al., A safety/security risk analysis approach of Industrial University of Málaga (Spain) and from the University of Castilla-La Mancha Control Systems: A cyber bowtie–combining new version of attack (Spain), respectively. His research activities are focused on security for tree with bowtie analysis. Computers & Security, 2018. 72: p. 175- Information Systems and Cloud Computing. He has published several papers 195. in national and international conferences on these subjects, and he is co-editor [30] Khan, F., et al., Dynamic risk management: a contemporary approach to of a book and chapter books. Author of several manuscripts in national and process safety management. Current opinion in chemical international journals (Information Software Technology, System engineering, 2016. 14: p. 9-17. Architecture, Network and Computer Applications, etc.). He is member of [31] Munodawafa, F. and A.I. Awad, Security risk assessment within hybrid Program Committee of several conferences and workshops nationals and data centers: A case study of delay sensitive applications. Journal internationals such as ICEIS, ICCGI, CISIS, SBP, IAS, SDM, SECRYPT, of Information Security and Applications, 2018. 43: p. 61-72. COSE and international journals such as Internet Research, JNCA, KNOSYS, [32] Panchal, D., et al., A new fuzzy methodology-based structured JKSU, and so on. He is a member of the GSyA research group of the framework for RAM and risk analysis. Applied Soft Computing, Information Systems and Technologies Department at the University of 2019. 74: p. 242-254. Castilla-La Mancha, in Ciudad Real, Spain. [33] Sangaiah, A.K., et al., Towards an efficient risk assessment in software projects–Fuzzy reinforcement paradigm. Computers & Electrical Eduardo Fernández-Medina holds a PhD. and an MSc. in Computer Science Engineering, 2018. 71: p. 833-846. from the University of Sevilla. He is associate Professor at the Escuela [34] Wangen, G., C. Hallstensen, and E. Snekkenes, A framework for Superior de Informática of the University of Castilla-La Mancha at Ciudad estimating information security risk assessment method Real (Spain), his research activity being in the field of security in databases, completeness. International Journal of Information Security, 2018. datawarehouses, web services and information systems, and also in security 17(6): p. 681-699. metrics. Fernández-Medina is co-editor of several books and chapter books on [35] Zhang, H. and Q. Sun, An Integrated Approach to Risk Assessment for these subjects, and has several dozens of papers in national and international Special Line Shunting Via Fuzzy Theory. Symmetry, 2018. 10(11): conferences (DEXA, CAISE, UML, ER, etc.). Author of several manuscripts p. 599. in national and international journals (Information Software Technology, [36] Batista, J. and A. Figueiredo, SPI in very small team: a case with CMM. Computers And Security, Information Systems Security, etc.), he is director of Software Process Impr. and Practice, 2000. 5(4): p. 243-250. the GSyA research group of the Information Systems and Technologies [37] Hareton, L. and Y. Terence, A Process Framework for Small Projects. Department at the University of Castilla-La Mancha, in Ciudad Real, Spain. Software Process Improvement and Practice, 2001. 6: p. 67-83. [38] Tuffley, A., B. Grove, and M. G, SPICE For Small Organisations. Software Process Improvement and Practice, 2004. 9: p. 23-31. [39] Calvo-Manzano, J.A., et al., Experiences in the Application of Software Process Improvement in SMES. Software Quality Journal., 2004. 10(3): p. 261-273. [40] Mekelburg, D., Sustaining Best Practices: How Real-World Software Organizations Improve Quality Processes. Software Quality Professional, 2005. 7(3): p. 4-13. 147 Seguridad en redes Análisis y evaluación de la Seguridad proporcionada por DNSSEC en Redes de Información IPv6 en un escenario de pruebas controlado D. K Terán Arévalo, D. V. Fernández García, y F. J Terán Cuarán. 1 Resumen— El presente artículo se basa en el Análisis y Confidencialidad de la información y Disponibilidad del evaluación de la seguridad proporcionada por DNSSEC en redes servicio [3]. de información IPv6 en un escenario de pruebas controlado. Para el desarrollo de esta investigación, se implementó un escenario de Por esta razón la IETF propuso el Sistema de Nombres de pruebas controlado para el despliegue de DNSSEC en redes IPv6 Domino con Extensiones de Seguridad (DNSSEC, Domain en diferentes Ss. Os. (Windows, Linux), con equipos del Departamento de Telecomunicaciones de la Universidad del Name System Security Extensions) [4, 5, 6], como un Cauca (Routers Cisco 2801, Routers software Quagga, Switchs conjunto de extensiones que aumentan la seguridad del Catalyst 2960- S y Pcs). Además, se adaptó una metodología para protocolo DNS, al proveer un mecanismo para la el análisis de la seguridad proporcionada por DNSSEC en Redes Autenticación del origen e Integridad de los datos DNS, y IPv6 en el escenario de pruebas seleccionado, con base en el Denegación de existencia autenticada, mediante el uso de la estudio de las metodologías de evaluación de la seguridad: firma digital de los datos DNS, nuevos registros de recursos y ISSAF, OSSTMM y PTES, y se evaluó las vulnerabilidades de una Infraestructura de Clave Pública (PKI), para la seguridad de DNSSEC en redes IPv6, con base en el Sistema de construcción de una “Cadena de Confianza”. Sin embargo, no puntuación de vulnerabilidad común (CVSS, Common proporciona la confidencialidade de la información ni Vulnerability Scoring System), mediante diferentes PoC (Pruebas de Concepto), sobre escenarios distintos con diferentes requisitos disponibilidad del servicio. de seguridad con el fin de determinar en qué casos DNSSEC fue o no fue vulnerable, es decir si DNSSEC proporcionó o no sus En ese sentido, en el presente artículo se presenta el proceso funciones de seguridad tales como autenticación del origen y que se llevó a cabo, para Analizar y Evaluar la Seguridad autenticación e integridad de los datos de DNS. Proporcionada por DNSSEC en Redes de Información IPv6 en un escenario de pruebas controlado, así como los aportes y Índice de Términos— DNSSEC, DNS, IPv6. conclusiones obtenidos como resultado de la investigación. I. INTRODUCCIÓN II. ESCENARIO DE PRUEBAS CONTROLADO El sistema de Nombres de Dominio (DNS, Domain Name Para determinar el escenario de pruebas controlado, primero System) [1], resuelve un Nombre de Dominio en una dirección se llevó a cabo un estudio detallado sobre el funcionamiento IP, por ejemplo el Nombre Dominio www.google.com en la de los Servicios de Internet DNS, DNSSEC y Web en Redes dirección IPv6 [2]: 2001:4860:4860::8888, posibilitando que IPv6, y los componentes principales dentro de la internet sea más fácil de usar, sin que los usuarios tengan la infraestructura DNS: Servidores DNS autoritarios, Servidor necesidad de aprender, memorizar y recordar las direcciones DNS Caché y Clientes y los componentes DNSSEC: IP/IPv6 de cada uno de los Dominios a los que se comunican. Pero aquí, hay un grave problema, todo este proceso es Servidores autoritarios DNSSEC, Servidor DNS Caché inseguro, ya que en la vida real, un usuario que se conecta Validador y Cliente Validador, y las funciones que cumplen desde una terminal y realiza una consulta a un Nombre de en el proceso de validación para garantizar la autenticidad e Dominio, no sabe quién le envió la respuesta verdadera, y integridad de los datos DNS de una respuesta [7]. tampoco sabe si los datos fueron modificados por un atacante durante el tránsito, redireccionando a la víctima a un sitio web Con base en esto se determinaron los componentes falso, permitiendo robar de esta manera su información principales que formarían parte y cumplirían un rol específico confidencial. Todo esto hace que el DNS sea un protocolo para su implementación en redes IPv6 en el escenario de inseguro, debido a que no contempla ningún soporte de pruebas controlado. seguridad, para garantizar: Autenticación del origen, Autenticación e Integridad de los datos de DNS, La topología de red del escenario de pruebas controlado en redes IPv6 que se definió para lograr el propósito del proyecto, está conformada por una red interna y una red externa. La red interna, está constituida por la implementación Dalia. K Terán Arévalo, daliateran@unicauca.edu.co, Diana. V. Fernández de la delegación segura DNSSEC para los dominios y García, dianvf@unicauca.edu.co y Francisco. J Terán Cuarán, subdominios internos de la organización Bancodk, y la red fteran@unicauca.edu.co; Universidad del Cauca, Popayán, Colombia. externa, conformada por la implementación de la cadena de https://doi.org/10.12804/si9789587844337.14 149 confianza DNSSEC, en todos los servidores autoritarios Routers cisco 2801, routers software quagga, switchs involucrados en los niveles de la jerarquía DNS. catalyst 2960-s y pcs y se utilizó el protocolo estándar de enrutamiento BGP para redes IPv6 [8]. La configuración e implementación de la cadena de confianza DNSSEC se divide en 2 estados: el primero, cuando Para permitir la conectividad de todos los componentes todos los niveles de la jerarquía DNS se encuentran firmados involucrados en el escenario, definiendo 6 sistemas con DNSSEC, a excepción del dominio networks.com y el autónomos, para especificar las redes IPv6 del escenario en segundo cuando la cadena de confianza está rota, es decir que formato hexadecimal, como se aprecia en la Figura 1. el dominio de nivel superior gTLD.COM, no se encuentra firmado con DNSSEC. La implementación del escenario de pruebas, se llevó a cabo con equipos del Departamento de Telecomunicaciones de la Universidad del Cauca tales como: Figura 1. Escenario de pruebas controlado DNSSEC en IPv6. Fuente: Los autores. III. METODOLOGÍAS DE EVALUACIÓN DE LA SEGURIDAD Para adaptar una metodología para el análisis y evaluación de la seguridad proporcionada por DNSSEC en redes IPv6 en Figura 2. Metodologías de evaluación de seguridad. el escenario de pruebas controlado, se realizó un estudio, Fuente: Tomada de [8]. análisis detallado y comparación de los aspectos y características más importantes de las metodologías de En la Tabla I, se observa la comparación general de los evaluación de la seguridad: ISSAF 2.1 [9], OSSTMM 3.0 [10] aspectos más relevantes incluidos en cada una de las y PTES 1.1 [11], las cuales tienen en común que el tipo de metodologías, las marcas de verificación de color verde licencia con el que se han creado permite su utilización de representan los aspectos que tienen en común todas las forma libre, es decir sin costo, cuyo resultado fu ela defenición metodologías, y las marcas de verificación rojas los que no. de la Metodología Adaptada. 150 TABLA I D. Guía Técnica COMPARACIÓN GENERAL DE LAS METODOLOGÍAS DE EVALUACIÓN DE LA SEGURIDAD La guía técnica de la Metodología Adaptada, se basa en el modelo propuesto por la metodología de penetración de ISSAF, al especificar las herramientas y como se pueden utilizar para la ejecución de las pruebas de cada una de las fases. E. Métricas Este trabajo, no cubre el parámetro de métrica como la mayoría de las metodologías estudiadas, mediante el análisis y evaluación del riesgo, sino que se enfoca en el análisis y evaluación de las vulnerabilidades por medio del Sistema Común de Puntuación de Vulnerabilidades (CVSS, Common Vulnerability Scoring System), el cual es un estándar de la industria para evaluar la gravedad de las vulnerabilidades de seguridad informática del sistema. F. Informes Los informes de la Metodología Adaptada incluyen los criterios básicos contenidos en los informes de pruebas de penetración de las metodologías de OSSTMM, ISSAF y PTES, con el fin de fortalecer y complementar dichos criterios propuestos. IV. DEFINICIÓN DE LA METODOLOGÍA ADAPATADA G. Recomendaciones PARA EL ANÁLISIS Y EVALUACIÓN DE LA SEGURIDAD PROPORCIONADA POR DNSSEC Se establecen recomendaciones sobre cómo se deben llevar a cabo cada una de las fases de la Metodología adaptada para A partir del análisis comparativo de los aspectos más analizar y evaluar la seguridad proporcionada por DNSSEC en relevantes incluidos en cada una de las metodologías un escenario de pruebas controlado en redes IPv6, con base en mencionadas anteriormente, se determinaron los aspectos y las recomendaciones que proponen las metodologías ISSAF, características más importantes que sirvieron como base para OSSTMM y PTES. la definición de la Metodología Adaptada, resaltando las características generales que se querían obtener de manera que H. Meticulosidad se adapte a las necesidades del Proyecto para el análisis y El nivel de meticulosidad de la Metodología Adaptada, evaluación de la seguridad proporcionada por DNSSEC en tiene en cuenta la minuciosidad y exactitud que aportan la redes IPv6 en un escenario de pruebas controlado, siendo metodología ISSAF para el manejo detallado de la guía comprensible, detallada y de fácil aplicabilidad en este técnica para la realización de cada una de las pruebas, contexto. hacienda uso de herramientas actualizadas como el manejo exhaustivo de OSSTMM para el manejo de la métrica, en A. Alcance nuestro caso orientada a llevar a cabo un correcto análisis de la El alcance de la Metodología Adaptada se compone de: la evaluación de la seguridad teniendo en cuenta el estándar definición del test de intrusión, los objetivos, el ambiente o CVSS. De igual forma teniendo en cuenta los criterios entorno donde se realizarán las pruebas, y la metodología de contenidos en los reportes y los lineamientos de acción de penetración con su correspondiente guía técnica, métricas y todas las metodologías estudiadas. estructura para la entrega de resultados. I. Usabilidad y uso B. Entorno de Aplicabilidad El nivel de usabilidad de la Metodología Adaptada es alto, El entorno de aplicabilidad de la Metodología es la como resultado a la meticulosidad en la descripción de la seguridad de los sistemas y redes de información, desde la planeación, la prueba técnica de penetración, la evaluación de perspectiva de la evaluación de la seguridad proporcionada los resultados obtenidos mediante el CVSS y la presentación por la extensión de seguridad del protocolo DNSSEC. de informes. C. Metodología de Penetración V. FASES DE LA METODOLOGÍA ADAPTADA La metodología de penetración de la Metodología Adaptada, está fundamentada en los procedimientos de las Con base en el análisis de las metodologías anteriores, se metodologías de penetración de PTES e ISSAF. determinó que la Metodología Adaptada para analizar y 151 evaluar la seguridad de DNSSEC en Redes de Información TABLA II IPv6 está conformada por las siguientes cuatro Fases PLAN DE PRUEBAS DE RECOLECCIÓN DE INFORMACIÓN principales, como se observa en la Figura 3: TABLA III PLAN DE PRUEBAS DE EXPLOTACIÓN DE VULNERABILIDADES IDENTIFICADAS Figura 3. Fases de la Metodología Adaptada. Fuente: Los autores. VI. METODOLOGÍA ADAPTADA PARA ANALIZAR Y EVALUAR LA SEGURIDAD DE DNSSEC EN REDES DE INFORMACIÓN IPV6 A. Fase 1: Planeación En esta fase, se describen los objetivos, el tipo de test de intrusión, el diagrama de red del ambiente de prueba, el alcance y el plan de pruebas definido que se llevará a cabo en el escenario real de pruebas controlado, como se muestra a continuación: 1) Objetivo: analizar y evaluar la seguridad proporcionada por DNSSEC en redes de información IPv6 en el escenario real de pruebas controlado. B. Fase2: Penetración 2) Tipo de test de intrusión: Caja Gris. Esta fase se lleva a cabo las actividades de Recolección de información e Identificación y Explotación de Vulnerabilidades. 3) Alcance: Pruebas en las redes interna y externa del escenario con determinados requisitos de seguridad. 1) Identificación de Vulnerabilidades: Esta actividad se realizó con base en la documentación investigada donde 4) Diagrama de red: es el escenario de pruebas se encontraron una serie de posibles vulnerabilidades del controlado, mostrado en la Figura 1. servicio DNS y DNSSEC relacionadas con: 5) Plan de pruebas: El plan de pruebas de seguridad se • El uso de DNSSEC con RR NSEC, que permite divide en dos tipos de pruebas, el plan de pruebas de enumerar el contenido de una zona, a partir de la recolección de información y el plan pruebas de consulta de Nombres de Dominio que no existen. RFC identificación y explotación de vulnerabilidades, 5551, RFC 7129 [13], [14]. indicando con una X las pruebas que se realizaron en cada escenario, como se muestra en las Tabla II y III. • El uso de UDP como protocolo de transporte, que posibilita IP spoofing. RFC3833 [12]. 152 • El Resolver DNSSEC no puede verificar las respuestas Se realizó el cálculo CVSS en cada Prueba de Concepto de que se originan en una zona sin firmar. RFC4033 [4]. las actividades de la Fase 2 de Penetración, determinando los valores de cada uno de los parámetros de las métricas Base, • Un Cliente resolver que NO realiza validación. Temporal y Ambiental, hasta obtener el resultado final de la RFC4033 [4]. severidad de la vulnerabilidad [16]. A continuación se muestra un Ejemplo de los resultados obtenidos: 2) Explotación de Vulnerabilidades: Para verificar la existencia de vulnerabilidades en DNSSEC, se realizaron 1) Evaluación de vulnerabilidad con la PoC DNS Spoofing las siguientes PoC: Dominio Inexistente, Cadena de Confianza Firmada 1. Transferencia de zona. En este ejemplo se realiza el cálculo de la severidad con la 2. Enumeración de dominio por consultas PoC de DNS Spoofing exitosa, cuando la cadena de confianza incorrectas. DNSSEC está Firmada y el MITM se realiza entre el Servidor 3. Denegación de Servicio. Caché Validador Windows Server y la Gateway de la red 4. Secuestro de URL por ataque CAFE cuando el Cliente No Validador consulta por el Typosquatting. Dominio inexistente coomunicate.com, y el escenario está 5. DNS Spoofing. implementado sobre el sistema operativo Windows- Centos/Debian (Red interna–Red Externa). C. Fase 3: Evaluación de vulnerabilidades La evaluación de las vulnerabilidades de DNSSEC en redes IPv6, se realizó con base en el Sistema de Puntuación de Vulnerabilidad Común CVSS [15], que proporciona una forma de capturar las características principales de una vulnerabilidad y producir una puntuación numérica asociado a un valor de severidad, como se observa en la Tabla IV, y está compuesto por tres grupos principales de métricas: Base, Temporal y de Entorno, cada una con un conjunto de métricas como se observa en la Tabla V: TABLA IV PUNTUACIÓN CVSS Y VALOR CUALITATIVO (SEVERIDAD) Puntuación Severidad 0 Nula 0.1-3.9 Baja 4.0-6-9 Media Figura 4. PoC DNS Spoofing, Dominio Inexistente. 7.0-8.9 Alta Fuente: Los autores. 9.0-10.0 Crítica TABLA VI PUNTAJE BASE TABLA V FASE DE EVALUACIÓN DE VULNERABILIDADES TABLA VII PUNTAJE TEMPORAL 153 TABLA VIII TABLA X PUNTAJE AMBIENTAL CLASIFICACIÓN DE SEVERIDAD, CON LAS PRUEBAS EXITOSAS DE LA ACTIVIDAD DE RECOLECCIÓN DE INFORMACIÓN Una vez asignado los valores de cada uno de los parámetros de las métricas Base, Temporal y Ambiental para esta prueba de concepto, se determina que el valor cuantitativo de la vulnerabilidad está representado por el siguiente puntaje como se puede apreciar en la Figura 5: TABLA XI CLASIFICACIÓN DE SEVERIDAD, CON LAS PRUEBAS EXITOSAS DE LA ACTIVIDAD DE IDENTIFICACIÓN Y EXPLOTACIÓN DE VULNERABILIDADES Figura 5. Cálculo Puntaje general CVSS Fuente: Los autores. TABLA IX PUNTUACIÓN CVSS DNS SPOOFING TABLA XII CLASIFICACIÓN DE SEVERIDAD, CON LAS PRUEBAS EXITOSAS DE DNS SPOOFING Como se obtiene una Puntuación CVSS de 7.7 esta corresponde a una severidad asociada de Media. D. Fase 4: Reporte de auditoría Se divide en 2 reportes: 1) Reporte ejecutivo: tiene como objetivo dar conocer de manera resumida los resultados obtenidos de las PoC, con su respectivo análisis, conclusiones y recomendaciones. VII. CONCLUSIONES 2) Reporte técnico: Se documentan todos los hallazgos  Para analizar y evaluar la seguridad de los Servicios de de las PoC realizadas sobre el escenario real de Internet DNS, DNSSEC y Web en Redes IPv6, se pruebas controlado, con una descripción escrita, las herramientas utilizadas, la topología de red, el requiere implementar toda la Jerarquía DNS y la Cadena ambiente real de la prueba, las características de los de confianza DNSSEC, en un escenario de pruebas equipos involucrados por prueba, capturas de pantalla controlado como evidencia y algunas recomendaciones para  La Metodología Adaptada para analizar y evaluar la tener en cuenta. seguridad de DNSSEC en Redes de Información IPv6 En las Tablas X, XI y XII, se muestra la clasificación de incluye las siguientes las Fases: severidad, con las PoC exitosas en el escenario real de pruebas Planeación, Penetración, Evaluación de Vulnerabilidades controlado DNSSEC en redes de información IPv6: y Reporte de Auditoria. 154  Implementar DNSSEC en Windows Server, es mucho 1. Denegación de Servicio (DoS, Denial of Service). más complejo que implementar DNSSEC en un una 2. Transferencia de zona. Ditribución de Linux, se requiere mayor capacidad de 3. MITM (Man in the Midle). recursos y procesamiento, para optimizar el servicio.  Para la Recolección de Información y Explotación de las REFERENCIAS Vulnerabilidades relacionadas con la seguridad de [1] R. Arends, " Internet Protocol, Version 6 (IPv6) DNSSEC en Redes IPv6, actualmente son muy pocas las Specification", IETF, RFC 2460, Diciembre 1998. herramientas existentes y disponibles. [2] P. Mockapetris, "Domain Names - Implementation And Con base en la clasificación de severidad, con las PoC de Specification", IETF, RFC 1035, November 1987.R. DNS Spoofing, se determinó que los peores escenarios en [3] C. Gónzales, "Análisis de vulnerabilidades del DNS", que DNSSEC NO proporciona sus funciones de seguridad: Proyecto de Grado, Ingeniería de Sistemas Telemáticos, E.T.S.I. Telecomunicación (UPM), Madrid, 2015. autenticación del origen, y autenticación e integridad de los [4] Arends, "DNS Security Introduction and Requirements", datos de DNS. IETF, RFC 4033, Marzo 2005. [5] R. Arends, “Resource Records for the DNS Security  Cuando la cadena de confianza está firmada, el peor Extensions", IETF, RFC 4034, Marzo 2005. escenario presenta una clasificación de severidad Media, [6] R. Arends, “Protocol Modifications for the DNS Security cuando el proceso de validación DNSSEC es realizado Extensions", IETF, RFC 4035, Marzo 2005. únicamente por el Servidor Caché o cuando se consulta [7] T. E. Sánchez, “Extensiones de Seguridad para el Sistema por un dominio NO firmado, debido que bajo este de Nombres de Dominio”, Trabajo de Grado, Facultad de informática, Universidad Nacional de la Plata, UNLP, escenario, el cliente que no realiza el proceso de Argentina, 2012. validación es vulnerable a la suplantación de dominio al [8] Y. Rekhter, "IPv6 Address Specific BGP Extended aceptar la respuesta falsa del atacante. Community Attribute", IETF, RFC 5701, Noviembre 2009.  Cuando la cadena de confianza está rota, el peor [9] Rathore and Oissg, “ISSAF-Information Systens Security escenario presenta una clasificación de severidad Alta, Assessment Framework 0.2.1B,” p. 845, 2006. cuando se consulta por un dominio firmado y el cliente [10] Herzog,Pete, “OSSTMM: The Open Source Security como el servidor cache que realicen el proceso de Testing Methodology Manual: v3”, 2010. validación DNSSEC no tienen almacenada el ancla de [11] Nickerson, D. Kennedy, and C. J. Reil, “The Penetration Testing Execution Standard,” 2014, 2017. confianza del dominio, de modo que no se puede realizar [12] Atkins, "Threat Analysis of the Domain Name System", la validación de la respuesta. IETF, RFC 3833, Agosto 2004. [13] R. Gellens, Ed, “Lemonade Notifications Architecture”, Con base en las PoC NO exitosas de DNS Spoofing, se IETF, RFC 5551, Agosto 2009. determinó que los mejores escenarios en que DNSSEC [14] R. Gieben, “Authenticated Denial of Existence in the PROPORCIONA sus funciones de seguridad: autenticación DNS”, IETF, RFC 7129, Febrero 2014. del origen, y autenticación e integridad de los datos de DNS. [15] T. Base and T. Base, “Common Vulnerability Scoring System v3. 0 Examples,” no. July, pp. 1–38, 2016. [16] FIRST.org. (1989). Common Vulnerability Scoring  Cuando la cadena de confianza está firmada, el mejor System Version 3.0 Calculator [Online]. Available: escenario se presenta cuando el Cliente como el Servidor https://www.first.org/cvss/calculator/3.0FIRST.org Caché con soporte de validación DNSSEC, tienen almacenada el ancla de confianza del servidor Raíz y/o del dominio interno de la organización, de esta manera son capaces de validar las respuestas DNS y evitan la suplantación de identidad de un dominio y el envenenamiento de la memoria caché.  Cuando la cadena de confianza está rota, el mejor escenario se presenta cuando el Cliente como el Servidor Caché con soporte de validación DNSSEC, tienen almacenada el ancla de confianza de un dominio firmado con DNSSEC.  DNSSEC NO protege contra ATAQUES de: 155 Dalia Kelly Terán Arévalo Ingeniera en Electrónica y Telecomunicaciones de la Universidad del Cauca. Candidata a Magister en Seguridad Informática de UNIR “Universidad Internacional de la Rioja - España”. Áreas de interés: Seguridad en redes y sistemas de información, protocolos de routing en IPv4 e IPv6, Redes IPv4/IPv6 cableadas e inalámbricas. Diana Victoria Fernández García Ingeniera en Electrónica y Telecomunicaciones de la Universidad del Cauca. Áreas de interés: lenguajes de programación C, Linux y MatLab. Experiencia en la configuración e instalación de servidores Windows, Linux y Centos. Francisco Javier Terán Cuarán Magíster en Electrónica y Telecomunicaciones, Universidad del Cauca. Ingeniero en Electrónica, Universidad del Cauca. Pasantía Internacional en Redes y Servicios Telemáticos, Universidad de Chile. Gestor, Promotor y Coordinador del Programa de Especialización en Redes y Servicios Telemáticos de la Universidad del Cauca. Gestor y Promotor del Programa de Ingeniería de Sistemas de la Universidad del Cauca. Gestor, Promotor y Coordinador de la Red de Información de la Universidad del Cauca. Gestor y Promotor del Programa de Maestría en Telecomunicaciones de la Universidad del Cauca. Profesor Titular de Planta adscrito al Departamento de Telecomunicaciones de la FIET de la Universidad del Cauca. Profesor en pregrado y posgrado de la FIET. Decano de la Facultad de Ingeniería Electrónica y Telecomunicaciones (FIET) de la Universidad del Cauca. Jefe del Departamento de Telecomunicaciones de la FIET. Jefe de la División de Tecnologías de la Información y las Comunicaciones (TIC) de la Universidad del Cauca. Auditor interno de Sistemas de Gestión de Seguridad de la Información ISO 27001, Certificación de Bureau Veritas. Áreas de interés: Redes y Servicios IPv4. Enrutamiento IPv4/IPv6, Internetworking, Redes y Servicios IPv6, IPv4/IPv6 móvil, Seguridad en Redes y Sistemas de Información, SGSI Sistemas de Gestión de la Seguridad de la Información y Datacenters. 156 Vulnerability Analysis Oriented to Business Logic Dalia Kelly Terán Arévalo Ingeniera en Electrónica y Telecomunicaciones de la Universidad del Cauca. Candidata a of Web Applications. A Case Study Magister en Seguridad Informática de UNIR “Universidad Internacional de la Rioja - España”. Áreas de interés: Seguridad en redes y sistemas de información, protocolos de routing en IPv4 e IPv6, Redes IPv4/IPv6 cableadas e William-Rogelio Marchand-Niño1 Ana Claudia Terrones Murga1 inalámbricas. william.marchand@unas.edu.pe ana.terrones@unas.edu.pe Diana Victoria Fernández García Ingeniera en Electrónica y Resumen— El objetivo de este artículo es mostrar un proceso Telecomunicaciones de la Universidad del Cauca. Áreas de • Vulnerability Assessment and Mitigation (VAM)de análisis de vulnerabilidades de aplicaciones web orientada a interés: lenguajes de programación C, Linux y MatLab. la lógica de negocio, donde además de la identificación de El trabajo de investigación se orienta principalmente al Experiencia en la configuración e instalación de servidores vulnerabilidades tecnológicas, se debe prestar atención en análisis de vulnerabilidades no tecnológicas, es decir las Windows, Linux y Centos. aquellas relacionadas a las reglas de negocio que no son relacionadas a la lógica de negocio, que implica un detectadas por herramientas automatizadas pero que conocimiento preciso de las funciones de las aplicaciones y generalmente son de mayor impacto, por lo que es importante sitios web en el sentido de responder a la pregunta ¿qué es lo Francisco Javier Terán Cuarán Magíster en Electrónica y la capacidad de análisis del pentester para identificarlas. Este que hace la aplicación y qué no debería hacer? Para responder Telecomunicaciones, Universidad del Cauca. Ingeniero en tipo de vulnerabilidades están contempladas en la Guía de a esta interrogante se realizaron pruebas de identificación y Pruebas OWASP v4 (Open Web Application Security Project) Electrónica, Universidad del Cauca. Pasantía Internacional en comprobación de las vulnerabilidades de forma manual con pero su aplicación es específica y diferenciada en cada situación ayuda de algunas herramientas. En estos casos las Redes y Servicios Telemáticos, Universidad de Chile. Gestor, particular. Para el caso de estudio de la investigación se herramientas automatizadas no son de gran ayuda para la Promotor y Coordinador del Programa de Especialización en consideraron algunas aplicaciones de una universidad con detección de vulnerabilidades orientadas a la lógica de Redes y Servicios Telemáticos de la Universidad del Cauca. autorización previa. negocio. Gestor y Promotor del Programa de Ingeniería de Sistemas de la Universidad del Cauca. Gestor, Promotor y Coordinador de Palabras clave— pentesting, aplicaciones web, análisis de Para llevar a cabo las pruebas se consideró la aplicación de vulnerabilidades, cvss, owasp. los lineamientos de la Guía OWASP, OSSTMM y VAM. la Red de Información de la Universidad del Cauca. Gestor y Promotor del Programa de Maestría en Telecomunicaciones I. INTRODUCCIÓN En las siguientes secciones se describen con mayor detalle de la Universidad del Cauca. Profesor Titular de Planta En un proceso de análisis de vulnerabilidades a través de las metodologías, el sistema de puntuación CVSS para adscrito al Departamento de Telecomunicaciones de la FIET ataques informáticos autorizados, busca verificar la existencia determinar el nivel de severidad de las vulnerabilidades, el de la Universidad del Cauca. Profesor en pregrado y posgrado de vulnerabilidades a nivel de hardware, software y personas, detalle de las pruebas aplicadas, los resultados y las de la FIET. Decano de la Facultad de Ingeniería Electrónica y para una posterior explotación para evaluar su impacto y conclusiones. Telecomunicaciones (FIET) de la Universidad del Cauca. Jefe determinar las acciones correctivas. El resultado ayuda a II. METODOLOGÍAS PARA EL ANALISIS DE del Departamento de Telecomunicaciones de la FIET. Jefe de estimar un plan de mitigación para cerrar estas brechas en VULNERABILIDADES la División de Tecnologías de la Información y las previsión de un ataque real, y así evitar pérdidas financieras y Comunicaciones (TIC) de la Universidad del Cauca. Auditor de información. [1]. También es importante resaltar que la En esta sección se describen brevemente las metodologías utilizadas en el trabajo de investigación. interno de Sistemas de Gestión de Seguridad de la información sobre las vulnerabilidades encontradas durante la Información ISO 27001, Certificación de Bureau Veritas. prueba de penetración es confidencial y no debe divulgarse A. Open Web Application Security Project (OWASP)hasta que se resuelva por completo [2]. Abordar un análisis de Áreas de interés: Redes y Servicios IPv4. Enrutamiento vulnerabilidades y pruebas de penetración puedan darse en un Es un proyecto abierto dedicado a identificar y combatir IPv4/IPv6, Internetworking, Redes y Servicios IPv6, contexto de caja negra (sin información del objetivo), caja las causas que hacen que el software sea inseguro, y están IPv4/IPv6 móvil, Seguridad en Redes y Sistemas de blanca (con información completa del objetivo) o caja gris plasmados en documentos como la Guía de Pruebas OWASP Información, SGSI Sistemas de Gestión de la Seguridad de la (con información parcial del objetivo) [3]. y el Top 10 de OWASP ampliamente adoptados [6] [7]. El Información y Datacenters. Asimismo, las organizaciones en estos tiempos no pueden método de prueba para aplicaciones web se basa en dos fases: sentirse seguros en el ciberespacio (Internet), puesto que no • Fase Pasiva: Es una prueba para comprender la lógica están libres de ataques contra sus infraestructuras, de la aplicación y verificar elementos que podrían significar una puerta abierta para un análisisaplicaciones, usuarios y diversos sistemas digitales [4], por lo detallado. Las herramientas se pueden utilizar para que es importante e imprescindible analizar el nivel de capturar información, por ejemplo, un proxy HTTP vulnerabilidades que puedan presentar los componentes de que observa todas las solicitudes y respuestas HTTP. los sistemas de información (infraestructura tecnológica, Al final de esta fase, el pentester conocerá todos los aplicaciones) que soportan y procesan los activos de puntos de acceso de la aplicación, tales como información, además de valorar el impacto que un ataque encabezados HTTP, parámetros, cookies, etc. causaría en los mencionados sistemas [5]. Es importante señalar que existen bases metodológicas • Fase Activa: En esta fase, el pentester comienza a para aplicar un análisis de vulnerabilidades tales como: realizar las pruebas utilizando la metodología descrita en la Guía. El conjunto de pruebas activas se ha • Open Web Application Security Project (OWASP) dividido en 11 categorías para un total de 91 • Open Source Security Testing Methodology Manual controles. (OSSTMM) 1Grupo de Investigación en Redes, Seguridad y Gestión de TI Universidad Nacional Agraria de la Selva - Tingo María, Perú https://doi.org/10.12804/si9789587844337.15 157 B. Open Source Security Testing Methodology Manual • Etapa 3. Identificar las vulnerabilidades de los (OSSTMM) sistemas esenciales identificados en la etapa 2. El Manual de Metodología de Pruebas de Seguridad de • Etapa 4. Identificar las técnicas de seguridad Código Abierto (OSSTMM) es una metodología para probar pertinentes para mitigar las vulnerabilidades la seguridad operativa de ubicaciones físicas, flujo de trabajo, identificadas en la etapa 3. pruebas de seguridad humana, pruebas de seguridad física, • Etapa 5. Seleccionar y aplicar las técnicas de la etapa pruebas de seguridad inalámbricas, pruebas de seguridad de 4 basadas en restricciones, costos y beneficios. telecomunicaciones, pruebas de seguridad de redes de datos y cumplimiento [8]. • Etapa 6. Probar las técnicas aplicadas en la etapa 5 El análisis de vulnerabilidades en aplicaciones web se para determinar la robustez y las posibilidades reales pueden realizar de forma automatizada o manual con apoyo bajo amenaza. de algunas herramientas. Entre las herramientas más utilizadas De las seis etapas planteadas, las que se alinean con el para ejecutar pruebas automatizadas en el contexto de un procedimiento empleado en el trabajo de investigación fueron escaneo y análisis de vulnerabilidades se incluyen a OWASP las etapas 3, 4, 5 y 6, puesto que el objetivo del estudio fue ZAP Proxy, Brup Suite, Acunetix, Nessus, entre otras [9] [10] evidenciar las vulnerabilidades de tipo no tecnológico, más [11]. allá de realizar un análisis de los activos y sistemas de La identificación de vulnerabilidades tecnológicas con el información que bien puede ser parte de los trabajos futuros. uso de herramientas automatizadas no es suficiente, por lo que se debe recurrir a un análisis manual que implica generalmente III. MEDICIÓN DE SEVERIDAD DE VULNERABILIDADES CON el conocimiento de la lógica de negocio en las aplicaciones CVSS web y que muchas veces pueden tener un mayor impacto y su Para la medición de la severidad de las vulnerabilidades solución puede ser más compleja [6] [9]. se hace uso del CVSS (Common Vulnerability Scoring Pero ¿qué es una vulnerabilidad? Una vulnerabilidad es System ) que es un framework que incluye las características una falla en un sistema, que permite a un atacante más significativas para evaluar las vulnerabilidades de comprometer su confidencialidad, integridad o disponibilidad. software y hardware. Este framework ha sido desarrollado Las pruebas de penetración de aplicaciones web implican por First.org Inc. cuya finalidad es la de ayudar a los equipos técnicas que conducen a la identificación de vulnerabilidades de respuesta a incidentes de seguridad informática. potenciales, que pueden comprometer las aplicaciones web El CVSS consta de tres grupos de métricas, las cuales son, [9]. Las vulnerabilidades de aplicaciones pueden catalogarse métricas base, métricas temporales y métricas ambientales. de acuerdo con la Guía OWASP, siendo las más comunes las El grupo Base representa las cualidades intrínsecas de una siguientes [6] [12]: vulnerabilidad que son constantes en el tiempo, el grupo • SQL Injection (SQLi) Temporal refleja las características de una vulnerabilidad que cambian con el tiempo y el grupo Ambiental representa las • Cross site scripting (XSS), existen dos tipos básicos: características de una vulnerabilidad que son exclusivas en el XSS reflejado y XSS almacenado. entorno de una organización [14]. • Escalamiento de Privilegios, tanto horizontal como Para esta investigación, la determinación de la puntuación vertical. de severidad se aplicó el grupo de métricas base que se componen de las métricas de explotabilidad y las métricas de • Secuestro de sesiones, generalmente por medio impacto (ver Fig. 1). El resultado final produce una cookies. puntuación que oscila entre 0 y 10 y la categorización se • Insuficiente tiempo de expiración de sesiones. puede observar en la Tabla I. Directorios transversales. Acceso no autorizado a TABLA I. NIVELES DE SEVERIDAD CVSS • directorios y archivos no autorizados. Nivel de severidad de vulnerabilidad Puntuación CVSS • Fallas en la validación de entradas. Ninguno 0.0 Bajo 0.1 – 3.9 • Referencia Directa Insegura a Objetos (IDOR) Medio 4.0 – 6.9 Clickjacking. Técnica maliciosa para engañar a un Alto 7.0 – 8.9 • Crítico 9.0 – 10.0 usuario para que haga clic en páginas web aparentemente inofensivas. El componente de las métricas de explotabilidad refleja la C. Vulnerability Assessment and Mitigation (VAM) facilidad de explotación de una vulnerabilidad y el Para el análisis de vulnerabilidades también existe otra componente de métricas de impacto expresan la consecuencia metodología como VAM (Vulnerability Assessment and directa de la explotación exitosa de la vulnerabilidad. Mitigation) que establece seis etapas generales [13]: A continuación, se explican brevemente las métricas • Etapa 1. Identificar las funciones de información utilizadas en la determinación del nivel de severidad de las esenciales de la organización. vulnerabilidades identificadas. • Vector de ataque. Esta métrica refleja el contexto por • Etapa 2. Identificar los sistemas de información la que es posible la explotación de una vulnerabilidad esenciales para implementar las funciones esenciales (red, adyacente, local o físico). El valor será mayor identificadas en la etapa 1. 158 cuanto más remoto sea posible explotar la TABLA II. PRUEBAS REALIZADAS EN LAS APLICACIONES WEB vulnerabilidad. ID de Prueba Nombre de la Prueba • Complejidad de ataque. Describe las condiciones Recopilación de información que deben existir para explotar la vulnerabilidad. OTG-INFO-005 Revisión de los comentarios de la página web y los metadatos para detectar fugas de información. Puede ser baja si no existen condiciones de acceso Pruebas de gestión de identidad especializadas, o alta si requiere que el atacante Prueba de enumeración de cuenta de usuario invierta una cantidad considerable de esfuerzo en la OTG-IDENT-004 predecible preparación y ejecución contra el componente Pruebas de autenticación vulnerable. Prueba de credenciales transportadas a través de OTG-AUTHN-001 un canal encriptado • Privilegios requeridos. Refleja el nivel de privilegios OTG-AUTHN-002 Prueba de credenciales por defecto que debe tener un atacante antes de explotar con éxito OTG-AUTHN-003 Prueba de mecanismo de bloqueo débil la vulnerabilidad. Las alternativas para esta métrica OTG-AUTHN-004 Pruebas para eludir el esquema de autenticación son ninguno, bajo o alto. Pruebas de gestión de sesión OTG-SESS-002 Prueba de atributos de cookies • Interacción con el usuario. Esta métrica determina OTG-SESS-003 Pruebas para la fijación de sesión si la vulnerabilidad puede explotarse exitosamente a OTG-SESS-006 Prueba de funcionalidad de cierre de sesión voluntad del atacante o requiere la interacción de un OTG-SESS-007 Tiempo de espera de sesión de prueba usuario de alguna manera como descargar algún TABLA III. PRUEBAS REALIZADAS EN LOS SITIOS WEB archivo, hacer click en algún enlace, ejecutar o abrir ID de Prueba Nombre de la Prueba algún documento, etc. Configuración e implementación de pruebas de gestión • Alcance. Esta métrica determina si una Enumerar interfaces de administración de OTG-CONFIG-005 aplicaciones e infraestructura vulnerabilidad explotada impacta o no en recursos Pruebas de autenticación que están más allá del componente vulnerable y el OTG-AUTHN-003 Prueba de mecanismo de bloqueo débil alcance de su seguridad. • Confidencialidad. Esta métrica mide el impacto en la Realizadas las pruebas de acuerdo con la Tabla II y Tabla confidencialidad de los activos de información debido III, se identificaron como vulnerabilidades orientadas a la a una vulnerabilidad explotada con éxito. El posible lógica de negocio a los siguientes hallazgos: valor es alto, bajo o ninguno. A. Credenciales débiles (OTG-AUTHN-002) • Integridad. Esta métrica mide el impacto en la integridad de los activos de información producto de En muchas situaciones, cuando se crea una cuenta en una la explotación exitosa de una vulnerabilidad. El valor aplicación, se genera una contraseña predeterminada con que puede tomar es alto, bajo o ninguno. algunas características estándar. Si esta contraseña es predecible y el usuario no la cambia en el primer acceso, esto • Disponibilidad. Esta métrica mide el impacto en la puede hacer que un atacante obtenga acceso no autorizado a disponibilidad de los activos de información producto la aplicación. Este es el caso de una aplicación denominada de la explotación exitosa de una vulnerabilidad El Gestión Docente, cuya cuenta de administrador posee una valor que puede tomar es alto, bajo o ninguno. contraseña débil (docente/password) tal como se muestra en la Fig. 2. Fig. 2. Sesión con privilegios de administrador en la aplicación de Gestión Docente. Fig. 1. Grupo de métricas base [14] La puntuación determinada en el sistema CVSS es de 7.5 IV. DESARROLLO DEL ANÁLISIS DE VULNERABILIDADES mostrada en la Tabla IV, lo cual indica un nivel de severidad ORIENTADO A LA LOGICA DE NEGOCIO. alto, los factores (métricas) que contribuyen a una Las pruebas presentadas a continuación fueron realizadas explotación exitosa de esta vulnerabilidad son: El vector de según la guía de pruebas OWASP v4 y están orientadas a ataque es la red, es decir, es explotable de manera remota. No evaluar la lógica de negocio en las aplicaciones y sitios web. existen condiciones especializadas para su explotación, solo La Tabla II muestra la lista de controles que se evaluaron fue suficiente realizar una adecuada fase de reconocimiento donde se recolectaron correos electrónicos que sirvieron para en las aplicaciones web. elaborar un diccionario y encontrar alguna contraseña débil o por defecto. No se requirió ningún tipo de acceso ni privilegio 159 antes del ataque. Se puede realizar la explotación sin requerir la interacción de algún usuario. Hay una pérdida total de la confidencialidad, ya que con la explotación se logró el acceso como administrador quedando expuesta información confidencial de todos los usuarios de la aplicación. TABLA IV. SEVERIDAD DE LA VULNERABILIDAD CREDENCIALES DÉBILES Métrica Valor Vector de ataque Red Complejidad de ataque Baja Privilegios requeridos Ninguno Interacción con el usuario Ninguno Fig. 4. Séptimo intento fallido de inicio de sesión con usuario válido y Alcance Sin cambios contraseña incorrecta Confidencialidad Alto: Pérdida total de confidencialidad Integridad Ninguno Disponibilidad Ninguno Puntuación Base CVSS v3.0 7.5 Para mitigar esta vulnerabilidad de contraseñas fáciles de predecir que facilitan el acceso no autorizado, existen dos soluciones: introducir controles de autenticación adicionales (es decir, autenticación de dos factores) o introducir una política de contraseña segura. El más simple y barato de estos es la introducción de una política de contraseñas sólida que garantice la longitud, complejidad, reutilización y antigüedad de las contraseñas, sin embargo, lo Fig. 5. Octavo intento fallido de inicio de sesión con usuario válido y recomendable es agregar un factor adicional de autenticación contraseña incorrecta (token, mensaje de texto, llamada por teléfono) B. Mecanismo de bloqueo débil (OTG-AUTHN-003) En esta prueba se verificó que el mecanismo de bloqueo no es efectivo, ya que presenta un temporizador aleatorio el cual no impide seguir realizando intentos, lo cual nos indica que la aplicación es susceptible a ataques de diccionario y fuerza bruta. En la aplicación evaluada, las cuentas se bloquean después de 5 intentos fallidos de inicio de sesión y solo se pueden desbloquear después de un período de tiempo predeterminado o por intervención de un administrador. En los resultados de la prueba, que se muestran a continuación, se puede observar que en el sexto intento de inicio de sesión con un usuario válido y un password incorrecto, la aplicación Fig. 6. Noveno intento fallido de inicio de sesión con usuario válido y envía un mensaje de bloqueo de la cuenta por 39 segundos contraseña incorrecta (ver Fig. 3), luego, sin esperar el tiempo indicado se realizó La puntuación determinada en el sistema CVSS es de 7.5 un nuevo intento (séptimo intento) con los mismos datos y tal como se muestra en la Tabla V, lo cual indica un nivel de ahora se muestra un mensaje pero con un tiempo menor al severidad alto. Los factores (métricas) que contribuyen a una anterior (Fig. 4), sucediendo lo mismo en el octavo intento explotación exitosa de esta vulnerabilidad son, el vector de (Fig. 5) y en el noveno intento ya no se mostró ningún ataque es la red, que significa que es posible su explotación mensaje de bloqueo (Fig. 6). de forma remota. La complejidad de ataque es baja, porque no se requieren condiciones de acceso especiales para su explotación, solo realizar un ataque de password spraying para evadir el mecanismo de bloqueo. No se requiere ningún tipo de acceso ni privilegio antes del ataque. Se puede realizar la explotación sin requerir la interacción de algún usuario. En caso de una explotación exitosa, es decir, encontrar credenciales de acceso válidas, significaría una pérdida total de la confidencialidad, porque el atacante tendría acceso a información confidencial de los usuarios de la aplicación. Fig. 3. Sexto intento fallido de inicio de sesión con usuario válido y contraseña incorrecta 160 TABLA V. SEVERIDAD DE LA VULNERABILIDAD MECANISMO DE Al ingresar un correo no válido en el formulario de BLOQUEO DÉBIL recuperación de contraseña se muestra el mensaje “El usuario Métrica Valor con este Correo no se ha encontrado” tal como se aprecia en Vector de ataque Red la Fig. 8, esto es un indicador de la posibilidad de saber qué Complejidad de ataque Baja cuentas de correo electrónico son válidas o no, y para Privilegios requeridos Ninguno confirmar que se puede utilizar dichos mensajes para Interacción con el usuario Ninguno enumerar correos electrónicos válidos, se ingresa un correo Alcance Sin cambios válido tal como se muestra en la Fig. 9, y como se puede Confidencialidad Alto observar el mensaje “Le hemos enviado el enlace para el Integridad Ninguno reinicio de la contraseña” es distinto al de un correo no válido, Disponibilidad Ninguno lo cual hace posible probar de forma manual o automatizada Puntuación Base CVSS v3.0 7.5 si una dirección de correo electrónico es válida o no. El propósito final de esta enumeración es la construcción de Para mitigar esta vulnerabilidad se recomienda aplicar listas de usuarios válidos para ataques de ingeniería social o mecanismos de desbloqueo de cuentas en función del nivel de riesgo. En orden de menor a mayor seguridad: bloqueo y desbloqueo basado en el tiempo; desbloqueo de autoservicio (envía un correo electrónico de desbloqueo a la dirección de correo electrónico registrado); o desbloqueo manual por parte del administrador. C. Enumeración de usuarios y cuenta de usuario predecible (OTG-IDENT-004) A menudo, las aplicaciones web revelan cuándo existe o no un nombre de usuario en el sistema, ya sea como consecuencia de una configuración incorrecta o como una decisión de diseño. El propósito de esta prueba es verificar si es posible recopilar un conjunto de nombres de usuario válidos interactuando con el mecanismo de autenticación de la aplicación y los mensajes de errores o advertencias que emiten durante el proceso, o como en este caso de prueba a Fig. 9. Mensaje de recuperación de contraseña con ingreso de correo válido. través del mecanismo de recuperación de contraseña y sus La puntuación determinada en el sistema CVSS es de 5.3 correspondientes mensajes. Un atacante puede utilizar los tal como se muestra en la Tabla VI, lo cual indica un nivel de mensajes que se emiten por el proceso de recuperación de severidad medio. Los factores (métricas) que contribuyen a contraseña para obtener una lista de usuarios del sistema que una explotación exitosa de esta vulnerabilidad son el vector luego pueden formar parte de un diccionario para ataques de de ataque (red), es decir, es explotable de manera remota. No fuerza bruta. existen condiciones especializadas para su explotación, solo En la Fig. 7 se muestra el formulario de recuperación de fue suficiente realizar una adecuada fase de reconocimiento contraseña donde se solicita la dirección de correo donde se recolectaron correos electrónicos de otros sitios web electrónico. del mismo dominio, los cuales sirvieron para enumerar usuarios válidos de la aplicación. No se requiere ningún tipo de acceso ni privilegio para realizar el ataque. Se puede realizar la explotación sin requerir la interacción de algún usuario. La pérdida de confidencialidad es considerada baja, porque el hecho de obtener usuarios del sistema no causa una pérdida directa o grave para la aplicación, pero cabe mencionar que esta vulnerabilidad es un factor agravante para las vulnerabilidades de mecanismo de bloqueo y credenciales débiles, ya que en conjunto ayudan al atacante a crear el Fig. 7. Formulario de recuperación de contraseña. escenario ideal para ataques de diccionario o fuerza bruta. Fig. 8. Mensaje con ingreso de correo no válido. 161 TABLA VI. SEVERIDAD DE LA VULNERABILIDAD DE ENUMERACIÓN DE D. Reproducción de cookies de autenticación (OTG-SESS- USUARIOS 002) Métrica Valor Algunos sitios vulnerables simplemente están utilizando Vector de ataque Red la cookie como token de autenticación sin tener que realizar Complejidad de ataque Baja más comprobaciones en el lado del servidor web, por lo tanto, Privilegios requeridos Ninguno para comprobar se inició sesión con credenciales válidas, la Interacción con el usuario Ninguno cual se copió la cookie, en otro navegador, se pega el valor Alcance Sin cambios copiado anteriormente en el campo correspondiente en la Confidencialidad Baja consola y como resultado se comprueba que es posible iniciar Integridad Ninguno sesión solo con el valor de dicha cookie sin necesidad de Disponibilidad Ninguno ingresar un usuario y una contraseña, lo que hace que el token Puntuación Base CVSS v3.0 5.3 de autenticación sea vulnerable a los atacantes si las cookies Fig. 10. Cookie de la sesión original son robadas por malware o inyección de JavaScript. Las Fig. Fig. 11. Reproducción de la sesión reutilización la cookie de sesión en el 10 y 11 muestran la evidencia en diferentes navegadores. Sistema de Gestión Docente 162 TABLA VII. SEVERIDAD DE LA VULNERABILIDAD EN LA COOKIE DE un atacante logre capturar la cookie y así logre secuestrar la SESIÓN sesión del usuario, tal como se evidencia en las Fig. 12, Fig. Métrica Valor 13 y Fig. 14. Vector de ataque Red Complejidad de ataque Baja Privilegios requeridos Ninguno Interacción con el usuario Requerido Alcance Sin cambios Confidencialidad Bajo Integridad Ninguno Disponibilidad Ninguno Puntuación Base CVSS v3.0 4.3 La puntuación en el sistema CVSS es de 4.3, tal como se Fig. 13. Prueba de funcionalidad de cierre de sesión muestra en la Tabla VII, lo cual indica un nivel de severidad medio, ya que para lograr una explotación exitosa es necesario recrear un escenario donde el atacante capture la cookie y luego logre secuestrar la sesión del usuario. Se recomienda que además de usar la cookie como token de autenticación, realizar más comprobaciones en el lado del servidor web (validar usuario y contraseña). E. Funcionalidad de cierre de sesión (OTG-SESS-006) La terminación de la sesión es una parte importante del ciclo de vida de la sesión. Algunas aplicaciones web se basan únicamente en la cookie de sesión para identificar al usuario Fig. 14. Reproducción de la sesión utilizando la cookie en el Sistema de que ha iniciado sesión. Al cerrar sesión, la cookie de sesión Gestión Académica se elimina del navegador, sin embargo, dado que la aplicación La puntuación en el sistema CVSS es de 4.3, tal como se no realiza ningún seguimiento, no sabe si una sesión está muestra en la Tabla VIII, lo cual indica un nivel de severidad desconectada o no. Por lo tanto, al reutilizar una cookie de medio, ya que para lograr una explotación exitosa es sesión es posible obtener acceso a la sesión autenticada. Para necesario recrear un escenario donde el atacante capture la esta prueba se inició sesión con usuario y contraseña válidos, cookie y luego logre secuestrar la sesión del usuario. luego se invocó la función de cierre de sesión y a continuación se navegó a una página que solo está visible en TABLA VIII. SEVERIDAD DE LA VULNERABILIDAD DE LA FUNCIONALIDAD una sesión autenticada, mediante el uso del botón atrás del DE CIERRE DE SESIÓN navegador, volviendo a acceder al panel de administración, Métrica Valor lo ideal es que la aplicación redirija al formulario de Vector de ataque Red autenticación, lo cual debería ser necesario para la seguridad Complejidad de ataque Baja de la aplicación, pero el establecimiento de cookies de sesión Privilegios requeridos Ninguno a nuevos valores después del cierre de sesión generalmente Interacción con el usuario Requerido se considera una buena práctica. Alcance Sin cambios Confidencialidad Bajo Integridad Ninguno Disponibilidad Ninguno Puntuación Base CVSS v3.0 4.3 Se recomienda, que como buena práctica se establezca las cookies de sesión a nuevos valores después del cierre de sesión, además de destruir dicha variable al invocar la función de cierre de sesión. Asimismo, implementar el indicador HttpOnly, que permite enviar cookies solo a través del protocolo http, pero no de JavaScript. Establecer la marca HttpOnly considerando como base el siguiente ejemplo: Fig. 12. Prueba de terminación de sesión del lado del servidor en el Sistema de Gestión Docente [2] Y. Stefinko, A. Piskozub y R. Banakh, «Manual and automated penetration testing. Benefits and drawbacks. Modern tendency,» de 13th International Conference on Modern Problems of Radio Implementar el indicador “secure”, en el encabezado set- Engineering, Telecommunications and Computer Science (TCSET), cookie para enviar cookies solo a través de HTTPS. Lviv, Ukraine, 2016. Establecer la marca “secure” considerando como base el [3] R. E. L. d. Jiménez, «Pentesting on web applications using ethical - siguiente ejemplo: hacking,» de 2016 IEEE 36th Central American and Panama Convention (CONCAPAN XXXVI), San José, 2016. Conference on Computing, Communication, Control and Automation (ICCUBEA), Pune, 2017. V. RESULTADOS [10] Open Web Application Security Project, «OWASP ZAP 2.8,» 20 El análisis de vulnerabilidades presentado como un caso Marzo 2019. [En línea]. Available: de estudio enfatiza la necesidad de realizar pruebas mas allá https://www.owasp.org/index.php/OWASP_Zed_Attack_Proxy_Pr de la aplicación de herramientas automatizadas; debido a que oject. como se evidencia, no existe herramienta que detecte y valide [11] SANS Institute Reading Room site, «Burp Suite(up) with fancy la existencia de vulnerabilidades que no sean tecnológicas scanning mechanisms,» 20 Febrero 2019. [En línea]. Available: https://www.sans.org/reading-room/whitepapers/tools/burp-suiteup- completamente. fancy-scanning-mechanisms-36557. Se ha mostrado que puede existir un impacto significativo [12] P. S. Shinde y S. B. Ardhapurkar, «Cyber security analysis using con el tipo de vulnerabilidades orientado a la lógica de vulnerability assessment and penetration testing,» de 2016 World Conference on Futuristic Trends in Research and Innovation for negocio ya que corresponden a, cómo las aplicaciones Social Welfare (Startup Conclave), Coimbatore, 2016. funcionan, qué datos transmiten, cómo las transmiten, que [13] P. S. Anton, R. H. Anderson, R. Mesie y M. Scheiern, The privilegios tiene cada rol de una aplicación, manejo de Vulnerability Assessment & Mitigation, N. D. R. Institute, Ed., p. sesiones, manejo de credenciales, etc. Este tipo de fallas están 134. relacionadas a la manera en que se han construido las [14] FIRST.org, Inc, «Common Vulnerability Scoring System v3.1: aplicaciones y sitios web, por lo que la solución por lo general Specification Document,» 2019. [En línea]. Available: suele ser complicada en términos de tiempo y adaptación. https://www.first.org/cvss/v3.1/specification-document. [Último acceso: enero 2019]. Las vulnerabilidades identificadas en este caso de estudio tienen un nivel de severidad entre 4.3 (medio) a 7.5 (alto) según CVSS lo cual implica tomar las acciones necesarias William-Rogelio Marchand-Niño, Ingeniero de Sistemas otorgado por la para mitigarlas. Comúnmente este tipo de vulnerabilidades Universidad Nacional del Centro del Perú, con maestría en Dirección están asociadas al manejo de credenciales y sesiones de las Estratégica de TI de la Universidad de Piura, con 18 años de experiencia aplicaciones. académica en UNAS, UDH, UPLA. Desde el año 2004 es profesor asociado en la UNAS. Ha impartido más de 90 cursos de pregrado en diferentes VI. CONCLUSIONES universidades. Instructor CISCO por 12 años. Posee múltiples certificaciones de la Industria como PMP, ITIL Foundation, CCNA, MTA. En un proceso de análisis de vulnerabilidades se deben Director del Centro de Tecnologías de Información y Comunicación de la consideran tanto las relacionadas a vulnerabilidades Universidad Nacional Agraria de la Selva. Miembro Senior de la IEEE. tecnológicas como las vulnerabilidades de lógica de negocio, Ana Claudia Terrones Murga, Estudiante de Ingeniería en Informática y por lo que es importante la capacidad de análisis del pentester Sistemas de la Universidad Nacional Agraria de la Selva (UNAS). o auditor además del manejo de las herramientas adecuadas. Certificada Cisco CCNA R&S. Miembro del Grupo de Investigación de El conocimiento del funcionamiento de las aplicaciones Redes y Seguridad de la Facultad de Ingeniería en Informática y Sistemas es vital para un análisis exhaustivo y preciso que permita (FIIS-UNAS) detectar vulnerabilidades importantes que pueden afectar significativamente a la organización. Estas vulnerabilidades pueden ser las más complicadas de identificar. 164 1 Analisis y Monitorización por Agrupamiento de Contenido Multimedia en Redes SDN Jesús Antonio Puente Fernández and Luis Javier Garcı́a Villalba, Member, IEEE Resumen—Los proveedores actuales de contenido de vı́deo manera discreta dentro de una aplicación de transmisión de requieren una gran demanda de recursos de red para obtener vı́deo de YouTube de Android (YoMoApp), proporcionando la mejor calidad de experiencia (QoE) en el lado del usuario. información precisa sobre los factores de QoE en cómo son Para obtener la mejor QoE del usuario, la red debe poder anticipar problemas de ancho de banda, contenido congelado, percibidos por los usuarios finales [5], [6]. ataques de Denegación de Servicio (DoS), entre otros. Estos Las Redes Definidas por Software (SDN, del inglés Soft- problemas no pueden resolverse en las redes IP tradicionales ware Defined Networks) se ha convertido en un concepto para debido a la rigidez de su arquitectura. Teniendo en cuenta los el control dinámico de la configuración de redes informáticas. beneficios que proporciona el nuevo concepto de arquitectura de Desacopla el control de red (plano de control) de los recursos red llamado Redes definidas por software (SDN) se presenta una posible solución para resolver los desafı́os de las redes existentes de red subyacentes (plano de datos) controlados a través de un en términos de entrega de contenido de vı́deo. Estos aspectos son controlador centralizado. También proporciona un conjunto de posibles debido a la separación del plano de control (controlador) interfaces de programación de aplicaciones (API) para abreviar y el plano de datos (switches). Usando la vista centralizada de la la implementación de servicios de red como por ejemplo: red que proporciona SDN, es posible desarrollar una herramienta enrutamiento, QoS, QoE, DoS y balanceadores de carga entre de monitorización que obtenga las métricas de la red que se utilizarán posteriormente. En este artı́culo se estudia la aplicación otros. La combinación de la granularidad de las estadı́sticas de un algoritmos de clustering que optimiza la monitorización del de red y la vista global de la red obtenida en el plano de tráfico en las redes SDN disminuyendo el número de consultas datos ha creado un interés importante en la monitorización de estadı́sticas para mejorar el tráfico de la red, reducir la de redes usando SDN. Trabajos como [7] [8] exploran la sobrecarga y ser utilizadas para ataques DoS. Las simulaciones combinación de protocolos de monitorización tradicionales utiliza un algoritmo de clustering que monitoriza una transmisión de vı́deo entre dos host demostrando la viabilidad de nuestra como NetFlow/IPFIX y sFlow con el protocolo OpenFlow propuesta de monitorización. usado en redes SDN. Palabras claves—clustering, consultas estadı́sticas, controlador, En este artı́culo se presenta una discusión de dos algoritmos DoS, monitorización, QoE, seguridad, SDN. de clustering que se aplican en el framework de monitorización SDN propuesto en [9]. Se utilizan para disminuir el número de peticiones de monitorización en los swtiches de la topologı́aI. INTRODUCCI ÓN sin comprometer la precisión de los valores monitorizados, Hoy en dı́a, la transmisión de vı́deo es una de las aplica- lo que permite a los administradores de red tener un estado ciones más populares y demandadas en Internet. Requiere un real de los enlaces de red. Para analizar los resultados al gran ancho de banda y altos volúmenes de datos, lo que plantea aplicar cada algoritmo de clustering, se ha construido un muchos desafı́os para los proveedores de servicios de Internet, escenario de prueba para transmitir un vı́deo entre dos hosts que compiten por ser el mejor proveedor en entregar el tráfico (cliente y servidor) utilizando un simulador de red. Finalmente, de la manera más eficiente posible, al tiempo que mantienen los resultados confirman que aplicar diferentes algoritmos de una calidad de servicio alta y continua. La medición de la clustering en la monitorización reduce el número de peticiones satisfacción de los usuarios finales con los servicios de red se de estadı́sticas de red sin pérdida de precisión respecto a las establece como el concepto de Calidad de Experiencia (QoE). estrategias de monitorización tradicionales Trabajos como [1] se centran en comprender y mejorar el El resto del documento se describe a continuación: El concepto de QoE de la transmisión de vı́deo adaptativa HTTP paradigma de SDN y el uso del protocolo OpenFlow se (HAS) actual. Esta tecnologı́a permite adaptar la velocidad detallan en la sección II. La sección III describe los trabajos de bits de vı́deo de la red en función de las demandas de relacionados. El estudio y la discusión de los diferentes algo- transmisión. Se han presentado dos enfoques para monitorear ritmos de clustering se explica en la sección IV. Para verificar el QoE de HAS: el primer enfoque se encuentra en el trabajo los beneficios de cada algoritmo de clustering, la sección V [2] y se usó como ejemplo de monitorización basado en la contiene las simulaciones y resultados de las pruebas usando red [3] [4]. Las métricas de calidad de vı́deo se extrajeron del dos topologı́as. Finalmente, la sección VI concluye con una tráfico de la red mediante la inspección profunda de paquetes breve discusión y conclusiones. (DPI). El segundo trabajo se enfoca en monitorizar el QoE de J. A. Puente Fernández and L. J. Garcı́a Villalba. Grupo de Análisis, Seguridad y Sistemas (GASS), Departamento de Ingenierı́a del Software e Inteligencia Artificial, Facultad de Informática, Despacho 431, Universidad Complutense de Madrid (UCM), Calle Profesor José Garcı́a Santesmases, 9, Ciudad Universitaria, 28040 Madrid, España. e-mail: jesusantoniopuen- te@ucm.es, javiergv@fdi.ucm.es. https://doi.org/10.12804/si9789587844337.16 165 2 3 II. REDES DEFINIDAS POR SOFTWARE hipervisores), para que pueda adaptarse mejor a los requisitos flujo de forma estática. Además, proporciona un compilador IV. ESTUDIO DE ALGORITMOS DE CLUSTERING PARA Las redes definidas por software (SDN) son un nuevo comerciales. Dicho protocolo define la comunicación entre los que verifica (también estáticamente) y evita fugas de informa- MONITORIZAR REDES SDN paradigma de red que gestiona toda la red a través de un dispositivos de red de Capa 2 (switches) y el controlador. En ción a través de canales de almacenamiento. jFlow proporciona Clustering es la tarea de agrupar un conjunto de objetos de controlador de software programable centralizado. Desacopla una vista más profunda, proporciona la capacidad de progra- caracterı́sticas que hacen que la comprobación de flujo no sea tal manera que los objetos en el mismo grupo (llamado cluster) el plano de control y el plano de datos respecto a las redes mar las tablas de flujo ubicadas dentro de un conmutador y tan restrictiva como otros lenguajes de programación. son lo más similares (en cierto sentido) entre sı́ que con los tradicionales. Usando la vista centralizada, el controlador también puede cambiar o introducir una nueva funcionalidad de otros grupos. Es una tarea principal de la minerı́a de datos puede administrar el tráfico de red de manera más eficiente en tiempo de ejecución. Los métodos pasivos y activos para medir el rendimiento de la red se utilizan en [28]. Utiliza beacons para enviar paquetes exploratoria, y una técnica común para el análisis estadı́stico y dinámica. Además, SDN proporciona una configuración de sonda e instalar flujos adicionales en los switches. Luego, estos de datos, utilizado en muchos campos, incluido el aprendizaje red dinámica adaptable a la condición de la red o los requisitos III. ESTADO DEL ARTE beacons se utilizan para estimar la tasa de pérdida de paquetes automático, el reconocimiento de patrones, el análisis de del usuario. La lógica de control es programable a través del La monitorización de la red es el uso de un sistema que y el retraso. Una solución hı́brida entre métodos pasivos y imágenes, la recuperación de información, la bioinformática, controlador que envı́a paquetes de control a los switches de supervisa constantemente una red en busca de componentes activos es el framework propuesto en [29]. Este trabajo define la compresión de datos y los gráficos por ordenador. red utilizando el protocolo más extendido para redes SDN, que lentos o defectuosos y lo notifica al administrador de la red un framework de monitorización de red basado en un módulo El análisis de Clustering en sı́ no es un algoritmo especı́fico, es OpenFlow [10] [11]. La arquitectura OpenFlow [10] sigue en caso de interrupciones u otros problemas. La supervisión orquestador con un método flexible para recuperar estadı́sticas sino que es la tarea general a resolver. Se puede lograr el principio SDN desacoplando el plano de datos y de control. de la red es parte de la administración de la red, ya que se de red. mediante varios algoritmos que difieren significativamente en Se basa en tres entidades principales: un switch OpenFlow utiliza para recuperar una vista global del tráfico que ingresa su comprensión de lo que constituye un cluster y cómo encon- (plano de datos), un controlador externo (plano de control) y a la red. Dichas herramientas son muy útiles para que los OpenNetMon [30] monitoriza las métricas por flujo en las trarlos de manera eficiente. Las nociones populares de clusters el Protocolo OpenFlow [10]. Por lo tanto, el comportamiento administradores de red analicen la red para prevenir futuros redes OpenFlow. En lugar de utilizar una estrategia única para incluyen clusters con pequeñas distancias entre los miembros de la red es altamente personalizable según el propósito o los problemas de congestión, flujos de tráfico ilegı́timos, entre la monitorización, la aplicación de diferentes métodos para del grupo, áreas densas del espacio de datos, intervalos o requisitos del usuario. SDN se divide en tres capas lógicas: otros problemas. consultar estadı́sticas puede ayudar a reducir la sobrecarga distribuciones estadı́sticas particulares entre otros. Por lo tanto, 1. Capa de datos (recursos de red): Está conectada a la Mientras que un Sistema de Detección de Intrusos (IDS) en los switches y en las redes. En este orden, OpenTm el término clustering puede formularse como un problema de capa superior, que es la capa de control a través de las monitoriza una red en busca de amenazas del exterior, un [31] propone seguir una distribución de consulta no uniforme optimización de objetivos múltiples. El algoritmo de clustering interfaces Southbound. Estas interfaces proporcionan la sistema de monitorización de red monitoriza el estado de con respecto a un esquema uniforme. Demuestra que esta apropiado y la configuración de parámetros (incluidos los abstracción de los switches programables y la conexión la red en busca de problemas causados por servidores so- estrategia es mucho más rápida que las formas existentes de parámetros como la función de distancia a utilizar, un umbral con el software que se ejecuta dentro del controlador brecargados o bloqueados, conexiones de red u otros dis- estimación del tráfico en las redes IP. Chowdhury et al. [32] de densidad o el número de clusters esperados) dependen (OpenFlow es el ejemplo más representativo de estas positivos que utilizan diferentes métricas entre otros. Las propone Payless, un framework de monitorización eficiente del conjunto de datos individual y del uso previsto de los interfaces). Como se mencionó anteriormente, en estas métricas de medición comunes son el tiempo de respuesta de bajo coste de redes SDN. Su caracterı́stica principal es que resultados. El análisis de conglomerados como tal no es una interfaces se ejecuta un Sistema Operativo de Red (NOS) y la disponibilidad, aunque las métricas de consistencia y proporciona una vista abstracta de la red y una manera regular tarea automática, sino un proceso iterativo de descubrimiento que es responsable de controlar el comportamiento de la confiabilidad están comenzando a ganar gran popularidad. La de solicitar estadı́sticas sobre los recursos de la red. Además, de conocimiento u optimización interactiva de objetivos múlti- red. Ejemplos de NOS son: NOX [12], Floodlight [13] incorporación generalizada de dispositivos de optimización dado que se ha desarrollado como un conjunto de componentes ples que implica pruebas y fallos. A menudo es necesario y OpenDaylight [14] entre otros. WAN está teniendo un efecto adverso en la mayorı́a de las conectables, proporciona interfaces para conectarlos a todos modificar el procesamiento previo de datos y los parámetros 2. Capa de control (controlador SDN): Está conecta- herramientas de monitorización de red, especialmente cuando (API RESTful de alto nivel). del modelo hasta que el resultado alcance las propiedades da a la capa de aplicación a través de las interfaces se trata de medir retrasos precisos de extremo a extremo deseadas. Resumiendo, el objetivo de usar la agrupación es Northbound que permiten la creación de aplicaciones porque limitan la visibilidad del tiempo de retraso de ida y Continuando con la monitorización de redes de flujo, maximizar la variación inter-clusters y minimizar la variación y polı́ticas de red de alto nivel que se envı́an al NOS. vuelta. Los fallos de solicitud de estado, como cuando no se Flowsense [33] es un enfoque que busca estadı́sticas de intra-clusters. Del mismo modo, ejemplos de interfaces en dirección puede establecer una conexión, tiempos de espera agotados o alta precisión con un coste cero de medición utilizando la Hemos utilizado dos algoritmos de agrupación en este norte son: Frenetic [15], Procera [16], Netcore [17] y no se puede recuperar el documento o mensaje, generalmente separación fı́sica del plano de control y de datos en SDN. trabajo: McNettle [18]. producen una acción desde el sistema de monitorización. Las caracterı́sticas clave son: la duración que tarda el flujo 3. Capa de aplicación: son programas que comunican Los métodos activos y pasivos son dos enfoques para en la entrada de la tabla de flujo, la cantidad de tráfico que Kmeans [35]: es probablemente el algoritmo de cluste- comportamientos y recursos necesarios con el contro- monitorizar redes: coincide con ese flujo y, finalmente, el puerto de entrada ring más conocido y el más simple entre los algoritmos lador SDN a través de la API Northbound. Además, del tráfico que coincide con la entrada. Sin embargo, tiene de aprendizaje no supervisados. Este trabajo funciona Métodos activos: métodos que envı́an paquetes a dispo- según el principio de agrupación Kmeans. En realidad, las aplicaciones pueden construir una vista abstracta algunas limitaciones, ya que depende en gran medida del tipositivos de red como switches, servidores, entre otros. Por de tráfico que va a monitorizar, ya que los flujos grandes esto significa que los grupos (clusters) para un conjuntode la red mediante la recopilación de información del lo tanto, dado que estos métodos inyectan paquetes en la controlador para la toma de decisiones. como una transmisión de vı́deo pueden retrasar su cálculo y de datos dado, están representados por una variable “k”. red, impactan directamente en el tráfico de la red. su utilización. Para cada grupo, se define un centroide. El centroide es Dado que el hardware de reenvı́o está separado y gestionado Métodos pasivos: métodos compatibles con hardware un punto de datos presente en el centro de cada grupo por el controlador, los administradores de la red pueden de propósito especial (sniffers) o integrados en otros Suárez-Varela et al [34] propone un sistema de monitoriza- (considerando la distancia euclidiana). diseñar e implementar cualquier lógica de control utilizando dispositivos como routers, switches o hosts. De forma ción habilitado para SDN y reconocimiento de aplicaciones. Expectation-Maximization (EM) [36]: es un método el estándar OpenFlow [10], que es el más extendido en las contraria a los métodos activos, no aumentan el tráfico Este sistema de monitorización está dividido en dos bloques. iterativo para buscar la máxima probabilidad o el máxi- redes SDN. De este modo, SDN proporciona flexibilidad en dentro de la red cuando miden estadı́sticas. El primer bloque, llamado SBAR, es un sistema basado en mo. Este algoritmo se basa en la distribución gaussiana el desarrollo de nuevas estrategias y lógicas de red, mientras Con respecto al uso de métodos pasivos en redes tradi- OpenFlow que produce informes de monitorización a nivel en estadı́stica. Considera una colección de distribuciones que las redes tradicionales son limitadas. Varias encuestas y cionales, los protocolos como el Protocolo de administración de flujo. El segundo bloque es una herramienta de análisis de gaussianas para el conjunto de datos en un problema de trabajos sobre SDN se centran en la perspectiva de red [19]– de red (SNMP) [22] y el Protocolo de configuración de red datos que procesa los informes resultantes de SBAR y muestra LA. [21] en comparación con las redes tradicionales. (NETCONF) [23] permiten monitorizar los dispositivos y las estadı́sticas valiosas de red a través de una interfaz gráfica de Este trabajo es una extensión de la prueba de concepto uti- OpenFlow [10] se considera uno de los primeros estándares estadı́sticas de la red. De manera similar, las herramientas usuario web. SBAR, a su vez, está compuesto por un módulo lizada en [9] donde las diferencias entre clustering (usando el SDN. Originalmente definió el protocolo de comunicación en de monitorización como NetFlow [24] y sFlow [25] se usan de medición que se encarga de mantener las mediciones de algoritmo kmeans) y el algoritmo optimizado de conservación entornos SDN que permite que el controlador SDN interactúe para estimar tanto una muestra como estadı́sticas completas de flujo en los switches e informarlas a los controladores, y un de flujo se pusieron de manifiesto usando la tasa de datos como directamente con el plano de reenvı́o de dispositivos de red co- tráfico en redes basadas en flujo. jFlow [26] es una extensión módulo de clasificación, que produce etiquetas de clasificación métrica única en las simulaciones. Entonces, tomando como mo switches y routers, tanto fı́sicos como virtuales (basados en del lenguaje Java [27] que permite verificar las anotaciones de para cada flujo en los informes de medición. referencia los resultados de [9] (usando el algoritmo kmeans), 166 3 flujo de forma estática. Además, proporciona un compilador IV. ESTUDIO DE ALGORITMOS DE CLUSTERING PARA que verifica (también estáticamente) y evita fugas de informa- MONITORIZAR REDES SDN ción a través de canales de almacenamiento. jFlow proporciona Clustering es la tarea de agrupar un conjunto de objetos de caracterı́sticas que hacen que la comprobación de flujo no sea tal manera que los objetos en el mismo grupo (llamado cluster) tan restrictiva como otros lenguajes de programación. son lo más similares (en cierto sentido) entre sı́ que con los Los métodos pasivos y activos para medir el rendimiento de de otros grupos. Es una tarea principal de la minerı́a de datos la red se utilizan en [28]. Utiliza beacons para enviar paquetes exploratoria, y una técnica común para el análisis estadı́stico sonda e instalar flujos adicionales en los switches. Luego, estos de datos, utilizado en muchos campos, incluido el aprendizaje beacons se utilizan para estimar la tasa de pérdida de paquetes automático, el reconocimiento de patrones, el análisis de y el retraso. Una solución hı́brida entre métodos pasivos y imágenes, la recuperación de información, la bioinformática, activos es el framework propuesto en [29]. Este trabajo define la compresión de datos y los gráficos por ordenador. un framework de monitorización de red basado en un módulo El análisis de Clustering en sı́ no es un algoritmo especı́fico, orquestador con un método flexible para recuperar estadı́sticas sino que es la tarea general a resolver. Se puede lograr de red. mediante varios algoritmos que difieren significativamente en su comprensión de lo que constituye un cluster y cómo encon- OpenNetMon [30] monitoriza las métricas por flujo en las trarlos de manera eficiente. Las nociones populares de clusters redes OpenFlow. En lugar de utilizar una estrategia única para incluyen clusters con pequeñas distancias entre los miembros la monitorización, la aplicación de diferentes métodos para del grupo, áreas densas del espacio de datos, intervalos o consultar estadı́sticas puede ayudar a reducir la sobrecarga distribuciones estadı́sticas particulares entre otros. Por lo tanto, en los switches y en las redes. En este orden, OpenTm el término clustering puede formularse como un problema de [31] propone seguir una distribución de consulta no uniforme optimización de objetivos múltiples. El algoritmo de clustering con respecto a un esquema uniforme. Demuestra que esta apropiado y la configuración de parámetros (incluidos los estrategia es mucho más rápida que las formas existentes de parámetros como la función de distancia a utilizar, un umbral estimación del tráfico en las redes IP. Chowdhury et al. [32] de densidad o el número de clusters esperados) dependen propone Payless, un framework de monitorización eficiente del conjunto de datos individual y del uso previsto de los de bajo coste de redes SDN. Su caracterı́stica principal es que resultados. El análisis de conglomerados como tal no es una proporciona una vista abstracta de la red y una manera regular tarea automática, sino un proceso iterativo de descubrimiento de solicitar estadı́sticas sobre los recursos de la red. Además, de conocimiento u optimización interactiva de objetivos múlti- dado que se ha desarrollado como un conjunto de componentes ples que implica pruebas y fallos. A menudo es necesario conectables, proporciona interfaces para conectarlos a todos modificar el procesamiento previo de datos y los parámetros (API RESTful de alto nivel). del modelo hasta que el resultado alcance las propiedades deseadas. Resumiendo, el objetivo de usar la agrupación es Continuando con la monitorización de redes de flujo, maximizar la variación inter-clusters y minimizar la variación Flowsense [33] es un enfoque que busca estadı́sticas de intra-clusters. alta precisión con un coste cero de medición utilizando la Hemos utilizado dos algoritmos de agrupación en este separación fı́sica del plano de control y de datos en SDN. trabajo: Las caracterı́sticas clave son: la duración que tarda el flujo en la entrada de la tabla de flujo, la cantidad de tráfico que Kmeans [35]: es probablemente el algoritmo de cluste- coincide con ese flujo y, finalmente, el puerto de entrada ring más conocido y el más simple entre los algoritmos del tráfico que coincide con la entrada. Sin embargo, tiene de aprendizaje no supervisados. Este trabajo funciona algunas limitaciones, ya que depende en gran medida del tipo según el principio de agrupación Kmeans. En realidad, de tráfico que va a monitorizar, ya que los flujos grandes esto significa que los grupos (clusters) para un conjunto como una transmisión de vı́deo pueden retrasar su cálculo y de datos dado, están representados por una variable “k”. su utilización. Para cada grupo, se define un centroide. El centroide es un punto de datos presente en el centro de cada grupo Suárez-Varela et al [34] propone un sistema de monitoriza- (considerando la distancia euclidiana). ción habilitado para SDN y reconocimiento de aplicaciones. Expectation-Maximization (EM) [36]: es un método Este sistema de monitorización está dividido en dos bloques. iterativo para buscar la máxima probabilidad o el máxi- El primer bloque, llamado SBAR, es un sistema basado en mo. Este algoritmo se basa en la distribución gaussiana OpenFlow que produce informes de monitorización a nivel en estadı́stica. Considera una colección de distribuciones de flujo. El segundo bloque es una herramienta de análisis de gaussianas para el conjunto de datos en un problema de datos que procesa los informes resultantes de SBAR y muestra LA. estadı́sticas valiosas de red a través de una interfaz gráfica de Este trabajo es una extensión de la prueba de concepto uti- usuario web. SBAR, a su vez, está compuesto por un módulo lizada en [9] donde las diferencias entre clustering (usando el de medición que se encarga de mantener las mediciones de algoritmo kmeans) y el algoritmo optimizado de conservación flujo en los switches e informarlas a los controladores, y un de flujo se pusieron de manifiesto usando la tasa de datos como módulo de clasificación, que produce etiquetas de clasificación métrica única en las simulaciones. Entonces, tomando como para cada flujo en los informes de medición. referencia los resultados de [9] (usando el algoritmo kmeans), 167 4 se han extendido las pruebas usando el algoritmo EM para V. SIMULACIONES Y RESULTADOS comparar los resultados entre ambos algoritmos. En esta sección, probamos los beneficios de los algoritmos El presente trabajo se basa en la aplicabilidad y el estudio de Clustering utilizando la herramienta de monitorización de de los beneficios al aplicar diferentes algoritmos de clustering optimización de Clustering descrita en la sección 4 Enhanced en la herramienta de monitorización presentada en [9]. Este Monitored Algorithm de [9]. estudio se verifica utilizando las métricas de tasa de datos y Hemos realizado las pruebas en el escenario descrito en la tasa de error, que también se describen en [9], para afirmar que Figura 1 atendiendo al uso de la optimización del clustering es posible disminuir el número de peticiones de monitorización utilizando una plataforma de simulación llamada Mininet mientras se mantiene la precisión de los datos monitorizados. v2.1.0 [21]. La topologı́a se compone de 7 OF-Switches Por tanto, el objetivo del presente trabajo es optimizar (s1, s2, s3, s4, s5, s6, s7) y 2 host (h1 y h2) conectados a s1 el número de solicitudes de switches utilizando diferentes y s7 respectivamente. Los enlaces [switch : s3 − puerto : algoritmos de clustering para reducir el número de solicitudes p4, switch : s6 − puerto : p1] y [switch : s6 − port : de switches respecto a técnicas no optimizadas entre las que se p2, switch : s5 − port : p3] están configurados con valores encuentran las herramientas de monitorizan todos los switches de velocidad de datos máxima (1 Mbps de ancho de banda) y de una topologı́a. Es importante aclarar que los algoritmos porcentaje de pérdida del 5%. de agrupación no se utilizan para optimizar el número de peticiones, ya que se utilizan para crear clusters sobre los cuales se ejecutan las técnicas de optimización descritas en [9]. Después de esto, se continua aplicando diferentes algoritmos, obteniendo diferentes asignaciones de clusters y, por lo tanto, diferentes resultados en las simulaciones. Antes de empezar a realizar peticiones de estadı́sticas a los switches, la función ClusteringFunction(G) lee la to- pologı́a de red estructurada lógicamente en un grafo G = (S,L) el cual será usado para construir los clusters. De- bido a que G contiene el grafo de la red, la función Create Cluster(G,Algorithm, nc) los divide en N clusters, nombrándolos como c0, c1, ..., cnc−1. La agrupación de los switches se basa en el número de puertos que están compuestos y la importancia de aplicar Figura 1. Topology tested. uno de los algoritmos implementados: Kmeans o Expectation- Una simulación consiste en una transmisión de vı́deo en- Maximization descritos en la sección anterior. viada desde el host 1 al host 2 usando el servidor de vı́deo Una vez que se ha seleccionado el algoritmo, los criterios VLC y RTP/UDP como protocolo de transmisión al mismo para monitorizar los clusteres dependen del número de puertos tiempo que se ejecuta el módulo de monitorización. Por lo de los switches. Por un lado, la herramienta de monitorización tanto, la tarea principal del módulo de monitorización es medir aplica el principio del algoritmo de conservación de flujo en las estadı́sticas de los switches de la red (tanto los enlaces switches de 2 grados, ya que todo el tráfico de datos que recibe donde se envı́a el vı́deo como el resto de ellos). El vı́deo el puerto entrante del switch se reenviará al puerto saliente utilizado en la transmisión de vı́deo es “Highway cif” [38] y del mismo switch y, por lo tanto, el tráfico a través de dichos el tiempo de monitorización (tmon) es de 200 ms.enlaces será casi el mismo valor. Por otro lado, los clusteres La construcción de clusters será diferente atendiendo a la que contienen switches con tres o más puertos se eligen aplicación de los algoritmos de clúster Kmeans y EM como aleatoriamente en cada perı́odo Tmon que se supervisará. Para muestra la Tabla I. Una vez que se han creado los clusters, la más nivel de detalle, estos algoritmos se describen en las secciones 4.2 Flow-Conservation Algorithm Enhancement herramienta de monitorización aplica las diferentes estrategias 4.3 Clustering Enhancement Technique de monitorización descritas en [9].y de [9]. Para propósitos experimentales, hemos elegido la tasa de Tabla I datos y la tasa de error como métricas para demostrar la CLUSTER ASSIGNMENT IN TEST SCENARIO viabilidad de nuestra propuesta. El procedimiento para calcular ambas métricas se describe en la sección 4.3 Clustering Clusters Kmeans EMCluster 0 (C0) S3 S4S5S6 Enhancement Technique de [9]. Concretamente, los procedi- Cluster 1 (C1) S1S6 S1 mientos para calcular la tasa de datos y las métricas de error Cluster 2 (C2) S4S5 S2S7 se explican en detalle en el Algoritmo 2 y el Algoritmo 4, Cluster 3 (C3) S2S7 S3 respectivamente. Como se ha indicado anteriormente, los resultados de las simulaciones aplicando el algoritmo kmeans se exponen en [9]. El número de consultas de monitorización en el método no optimizado durante la simulación (80 segundos) fueron 2079 solicitudes, mientras que en el algoritmo optimizado, la 168 5 aplicación del algoritmo de clustering Kmeans fue 903. Supuso (5% de pérdida de paquetes). Como se esperaba, los enlaces una relación de reducción del 57% en solicitudes con respecto pueden detectar la pérdida de información entre los enlaces a una simulación no optimizada. debido a las caracterı́sticas de estos enlaces. Comenzando con los resultados de la simulación realizados en este trabajo y tomando la tasa de datos como la medición Link S3-S6 error rate que aplica el algoritmo EM, el número de consultas de 16 monitorización es 888. La diferencia de 1191 consultas (con el Opt S3P4 - S6P1 No Opt S3P4 - S6P1 algoritmo no optimizado que fueron 2079 peticiones) muestra 14 Teoric error rate un relación de reducción del 58%. 12 La Figura 2 muestra el flujo de tráfico entre dos simu- laciones en las cuales una aplica la optimización usando el 10 algoritmo EM respecto a otra que no lo aplica. La Figura describe el flujo de datos (en bps) a través de los enlaces s 83 - s6. Las lı́neas puntiagudas (lı́neas azules) muestran la tasa de datos que el servidor está enviando, mientras que las lı́neas 6 continuas (lı́neas verdes) muestran la tasa de datos obtenida 4 utilizando el método no optimizado y las lı́neas de puntos (lı́neas rojas) muestran la velocidad de datos con algoritmo 2 optimizado. Como se esperaba, los enlaces experimentan un aumento de la velocidad de datos debido a la transmisión del 0 0 50 100 150 200 250 300 vı́deo entre h1 y h2. Tan pronto como finaliza la transmisión Controller Request (alrededor de 200 solicitudes), la tasa de datos disminuye, lo que demuestra la eficiencia del algoritmo para detectar cam- bios en la transmisión de la red. Estos resultados confirman Figura 3. Error rate of link s3-s6 que la optimización mantiene buenos niveles de precisión y reduce el número de solicitudes en el plano de datos utilizando dos criterios diferentes para construir el conjunto de switches. VI. CONCLUSIONES La diferencia entre el enlace s3 − s6 aplicando y sin aplicar SDN ha traı́do muchas oportunidades en el ámbito de las la optimización es de 41,22 Kbps. redes que han permitido la adaptación dinámica y la reconfi- guración con su separación del plano de control del dispositivo 5 Link S3-S6 data rate de reenvı́o controlado por el controlador centralizado. El 10 #10 controlador SDN gestiona los flujos de red de forma dinámica Server rate 9 e individual con la visión global de toda la red. El surgimientoOpt S3P4 - S6P1 No Opt S3P4 - S6P1 de SDN con su capacidad de control dinámica puede traer 8 varios beneficios a centros de datos en la nube donde, en 7 esencia, los requisitos y la utilización cambia dinámicamen- 6 te bajo demanda. Hay una amplia gama de algoritmos de clustering, cada uno con sus ventajas e inconvenientes con 5 respecto a qué tipo de datos agrupan, complejidad de tiempo, 4 debilidades, etc. Existen otros algoritmos de clustering entre los que se encuentran por ejemplo clustering aglomerativo 3 jerárquico (o clustering de vinculación), bueno para cuando 2 no haya necesariamente grupos circulares (o hiper esféricos), 1 y no conozca la cantidad de grupos por adelantado. Comienza con cada punto siendo un cluster separado y funciona uniendo 0 0 50 100 150 200 250 300 los dos grupos más cercanos en cada paso hasta que todo Controller Request esté en un grupo grande. Este artı́culo presenta un estudio de los beneficios aplicando diferentes algoritmos de clustering Figura 2. Data rate of link s3-s6 en una herramienta de monitorización que reduce la cantidad de solicitudes de monitorización en los dispositivos que la Por otro lado, la Figura 3 muestra la tasa de error en los red que está compuesto. Esta reducción en las consultas a datos de tráfico a través de la ruta de transmisión, es decir los switches de la red depende de la construcción de los el enlace s3 − s6 (switch : s3 − puerto : p4, switch : s6 − clusters. Hemos demostrado que usando diferentes algoritmos puerto : p1). Las lı́neas continuas (lı́neas verdes) muestran la de clustering para construir diferentes conjuntos/grupos de tasa de error obtenida utilizando el método no optimizado, las switches, proporciona beneficios disminuyendo el número de lı́neas punteadas (lı́neas rojas) muestran la tasa de error con consultas de monitorización en los switches de la topologı́a. el algoritmo optimizado y la lı́nea continua punteada (lı́neas Usando los valores de tasa de datos y tasa de error obtenidos azules) muestra el porcentaje netem configurado en Mininet a partir de los resultados de las simulaciones, se confirman 169 Data Rate (bps) Error Rate 6 los beneficios de los algoritmos de clustering respecto a las [17] Monsanto C.; Foster N.; Harrison R.; Walker D. A Compiler and Run- simulaciones no optimizadas. time System for Network Programming Languages. In ACM SIGPLAN Notices; ACM; 2012; vol 47(1); pp. 217–230. A [18] Voellmy A.; Wang J. Scalable Software Defined Network Controllers. InCKNOWLEDGMENT Proceedings of the ACM SIGCOMM 2012 conference on Applications, This paper has also received funding from THEIA (Techniques technologies, architectures, and protocols for computer communication; for Integrity and authentication of multimedia files of mobile ACM; 2012; pp. 289–290.[19] M. Casado, N. Foster, A. Guha, Abstractions for software-defined devices) UCM project (FEI-EU-19-04). networks, Communications of the ACM; 2014; pp. 86–95. [20] N. Feamster, J. Rexford, E. Zegura, The Road to SDN: An Intellec- REFERENCIAS tual, History of Programmable Networks, ACM SIGCOMM ComputerCommunication Review 44 (2) (2014) 87–98. [1] M. T. Seufert, “Quality of Experience and Access Network Traffic Mana- [21] V. K. Gurbani, M. Scharf, T. Lakshman, V. Hilt, E. Marocco, Abstracting gement of HTTP Adaptive Video Streaming”, Doctoral Thesis, Univer- network state in software defined networks (sdn) for rendezvous services, sity of Würzburg, 2017. [Online]. Available: https://opus.bibliothek.uni- in: 2012 IEEE International Conference on Communications (ICC), wuerzburg.de/files/15413/Seufert Michael Thomas HTTP.pdf IEEE, 2012, pp. 6627–6632 [2] P. Casas, M. Seufert, and R. Schatz, “YOUQMON: A System for [22] Case J. D.; Fedor M.; Schoffstall M. L.; Davin J. Simple Network Online Monitoring of YouTube QoE in Operational 3G Networks,” Management Protocol (SNMP). RFC 1157 (Historic); 1990. ACM SIGMETRICS Performance Evaluation Review, vol. 41, no. 2, [23] Enns R.; Bjorklund M.; Schoenwaelder J.; Bierman A. Network Confi- pp. 44–46, 2013. guration Protocol. [3] M. Seufert, M. Slanina, S. Egger, and M. Kottkamp, “To Pool or not to [24] Claise B. RFC 3954 - Cisco Systems NetFlow Services Export Version Pool: A Comparison of Temporal Pooling Methods for HTTP Adaptive 9. RFC 3954; 2004. Video Streaming,” in Proceedings of the 5th International Workshop on [25] Phaal P.; Lavine M. Sflow version 5. 2004. Quality of Multimedia Experience (QoMEX), Klagenfurt, Austria, 2013. [26] Myers A. C. JFlow: Practical Mostly-static Information Flow Control. [4] M. Wennesheimer, D. Robinson, J. De Vriendt, D. De Vleeschauwer, In Proceedings of the 26th ACM SIGPLAN-SIGACT symposium on C. Bahr, K. Heise, S. Argyropoulos, B. Feiten, M. Bilgic, T. Raiha, Principles of programming languages; ACM; 1999; pp. 228–241. S. Egger, M. Seufert, M. Slanina, M. Kottkamp, H. Gsödl, H. Ibl, [27] Gosling, J., Joy, B., Steele, G. L., Bracha, G., and Buckley, A. (2014). and R. Garcı́a Pérez, “Service Quality Definition and Measurement,” The Java Language Specification. Pearson Education. Next Generation Mobile Networks Alliance (NGMN), Tech. Rep., 2013, [28] Shibuya M.; Tachibana A.; Hasegawa T. Efficient Performance Diagno- version 1.0.4 sis in OpenFlow Networks Based on Active Measurements. 1st ACM [5] F. Wamser, M. Seufert, P. Casas, R. Irmer, P. Tran-Gia, and R. Schatz, Conference on Information-Centric Networking (ICN-2014); 2014; pp. “YoMoApp: a Tool for Analyzing QoE of YouTube HTTP Adaptive 279. Streaming in Mobile Networks,” in Proceedings of the European Confe- [29] Valdivieso Caraguay A. L.; Puente Fernández J. A.; Garcı́a Villalba rence on Networks and Communications (EuCNC), Paris, France, 2015. L. J. An Optimization Framework for Monitoring of SDN/OpenFlow [6] M. Seufert, F. Wamser, P. Casas, R. Irmer, P. Tran-Gia, and R. Schatz, Networks. International Journal of Ad Hoc and Ubiquitous Computing “YouTube QoE on Mobile Devices: Subjective Analysis of Classical (IJAHUC); 2015. vs. Adaptive Video Streaming,” in Proceedings of the 6th International [30] Van Adrichem N. L.; Doerr C.; Kuipers F. A. Opennetmon: Network Workshop on Traffic Analysis and Characterization (TRAC), Dubrovnik, Monitoring in Openflow Software-defined Networks. In Network Ope- Croatia, 2015. rations and Management Symposium (NOMS); IEEE; 2014; pp. 1–8. [7] K. Giotis, C. Argyropoulos, G. Androulidakis, D. Kalogeras, V. Ma- [31] Tootoonchian A.; Ghobadi M.; Ganjali Y. OpenTM: Traffic Matrix glaris, Combining OpenFlow and sFlow for an Effective and Scalable Estimator for OpenFlow Networks. In Passive and active measurement; Anomaly Detection and Mitigation Mechanism on SDN Environments, 2010; pp. 201–210. Computer Networks 62 (1) (2013) 122–136. [32] Chowdhury, S. R., Bari, M. F., Ahmed, R., and Boutaba, R. (2014, [8] A. Zaalouk, R. Khondoker, R. Marx, K. M. Bayarou, Orchsec: An May). Payless: A low cost network monitoring framework for software orchestrator-based architecture for enhancing network-security using defined networks. In 2014 IEEE Network Operations and Management network monitoring and sdn control functions., in: NOMS, 2014, pp. Symposium (NOMS) (pp. 1-9). IEEE. 1–9. [33] Yu, C., Lumezanu, C., Zhang, Y., Singh, V., Jiang, G., Madhyastha, H. [9] Puente Fernández, J., Garcı́a Villalba, L., and Kim, T. H. (2018). V. (2013, March). Flowsense: Monitoring network utilization with zero Clustering and Flow Conservation Monitoring Tool for Software Defined measurement cost. In International Conference on Passive and Active Networks. Sensors, 18(4), 1079. Network Measurement (pp. 31-41). Springer Berlin Heidelberg. [10] McKeown N.; Anderson T.; Balakrishnan H.; Parulkar G.; Peterson [34] J. Suárez-Varela, P. Barlet-Ros, Sbar: Sdn flow-based monitoring and L.; Rexford J.; Shenker S.; Turner J. OpenFlow: Enabling Innovation application recognition, in: Proceedings of the Symposium on SDN in Campus Networks. ACM SIGCOMM Computer; Communication Research, ACM, 2018, p. 22 Review; 2008; vol. 38 (2); pp. 69–74. [35] HARTIGAN, John A.; WONG, Manchek A. Algorithm AS 136: A k- [11] OpenFlow Switch Specification v1.1.0. Available at means clustering algorithm. Journal of the Royal Statistical Society. http://archive.openflow.org/documents/openflow-spec-v1.1.0.pdf Series C (Applied Statistics), 1979, vol. 28, no 1, p. 100-108. [12] Gude N.; Koponen T; Pettit J.; Pfaff B.; Casado M.; McKeown N.; [36] MOON, Todd K. The expectation-maximization algorithm. IEEE Signal Shenker S. NOX: Towards an Operating System for Networks. ACM processing magazine, 1996, vol. 13, no 6, p. 47-60. SIGCOMM Computer Communication Review; 2008; vol. 38; pp. [37] Mininet. Available at https://github.com/mininet/mininet/wiki/Introduction- 105–110. to-Mininet [13] Project Floodlight: Open Source Software for Building Software-Defined [38] Highway. Available at http://www2.tkn.tu- Networks. Available at http://www.projectfloodlight.org berlin.de/research/evalvid/qcif.html [14] OpenDaylight (ODL) open source SDN platform. Available at https://www.opendaylight.org [15] Foster, N.; Harrison R.; Freedman M. J.; Monsanto C.; Rexford J.; Story Jesús Antonio Puente Fernández was born in Madrid (Spain) in 1988. A.; Walker, D. Frenetic: A Network Programming Language. In ACM Jesús received his Computer Science Engineering degree by Universidad SIGPLAN Notices; 2011; vol. 46(9); pp. 279-291. Complutense de Madrid (Spain) in 2012. He received a M.S. degree in [16] Voellmy A.; Kim H.; Feamster N. Procera: a Language for High-level Computer Research in the Universidad Complutense of Madrid (Spain) in Reactive Network Control. In Proceedings of the first workshop on Hot 2014. He is currently a Ph.D. student of Computer Engineering in Universidad topics in software defined networks; ACM; 2012; pp. 43–48. Complutense de Madrid (Spain). His research interests include computer networks, software-defined networking and network function virtualization. In addition, he is currently working as IT security evaluator and Project manager in DEKRA Testing and Certification. 170 7 Luis Javier Garcı́a Villalba received a Telecommunication Engineering includes the management of both national and international research projects degree from the Universidad de Málaga (Spain) in 1993 and holds a Ph.D. in and both public (Spanish Ministry of R&D, Spanish Ministry of Defence, Computer Science (1999) from the Universidad Politécnica de Madrid (Spain). Horizon 2020 - European Commission, . . .) and private financing (Hitachi, Visiting Scholar at COSIC (Computer Security and Industrial Cryptography, IBM, Nokia, Safelayer Secure Communications, TB Solutions Security, . . .). Department of Electrical Engineering, Faculty of Engineering, Katholieke Author or co-author of numerous international publications is editor or Universiteit Leuven, Belgium) in 2000 and Visiting Scientist at IBM Research guest editor of numerous journals such as Entropy MPDI, Future Generation Division (IBM Almaden Research Center, San Jose, CA, USA) in 2001 and Computer Systems (FGCS), Future Internet MDPI, IEEE Latin America 2002, he is currently Associate Professor of the Department of Software Transactions, IET Communications (IET-COM), IET Networks (IET-NET), Engineering and Artificial Intelligence at the Universidad Complutense de IET Wireless Sensor Systems (IET-WSS), International Journal of Ad Hoc Madrid (UCM) and Head of Complutense Research Group GASS (Group of and Ubiquitous Computing (IJAHUC), International Journal of Multimedia Analysis, Security and Systems) which is located in the Faculty of Computer and Ubiquitous Engineering (IJMUE), Journal of Supercomputing, Sensors Science and Engineering at the UCM Campus. His professional experience MDPI, etc. 171 Encryption with TLS Protocol version 1.2 and Web Sites Performance. A Case Study. William-Rogelio Marchand-Niño1 Edgar Etson Rueda Liberato1 william.marchand@unas.edu.pe edgar.rueda@unas.edu.pe Resumen— El protocolo TLS ofrece una comunicación web entre extremos para determinar los mecanismos y algoritmos segura porque la transmisión de información está encriptada a utilizar. entre el cliente y el servidor, gracias al intercambio de claves simétricas y asimétricas, garantizando la confidencialidad e integridad de los datos. El uso de algoritmos de encriptación robustos y el intercambio de claves son la base para la generación del canal encriptado utilizado en las conexiones web, conocido como HTTPS, sin embargo, esto agrega el consumo de recursos computacionales que afectan el tiempo de procesamiento, la velocidad y el número de conexiones simultáneas. Estas son una medida del rendimiento de los sitios web. Para medir el impacto del Protocolo TLS versión 1.2, se utilizaron cinco sitios web de producción de una empresa de desarrollo de aplicaciones y sitios web, donde se realizó la evaluación del rendimiento del sitio web Palabras clave— SSL/TLS, TLS, rendimiento web, autoridad de certificación, HTTPS, seguridad web. I. INTRODUCCIÓN El protocolo SSL/TLS fue creado por la empresa Fig. 1. Porcentaje de sitios web con soporte del protocolo TLS v.1.2 (SSLA Labs - Qualys) NetScape en el año 1994, inicialmente fue denominado SSL (Secure Socket Layer) [1] y posteriormente por medio de la Esta investigación se enfoca en el Protocolo Seguro de IETF [2] y las mejoras realizadas a dicho protocolo paso a ser Transferencia de Hipertexto (HTTPS), que permite verificar TLS (Transport Layer Security) [3]. Actualmente el término la autenticidad de una página web por medio de un certificado más usado es SSL cuando se refiere al protocolo SSL/TLS. El digital. Este protocolo también hace uso de algoritmos de trabajo de investigación está enfocado al protocolo HTTPS, cifrado simétrico y asimétrico en el proceso de intercambio de que es el protocolo HTTP sobre SSL/TLS [4]. claves entre navegador y servidor para establecer un canal Según el Informe de Telemetría del año 2017 [5] seguro para la transferencia de la información. elaborado por David Holmes y publicado en el mes de abril Actualmente el uso de SSL/TLS con el protocolo HTTP es del 2018, detalla que más del 80% de las páginas web a nivel cada vez más importante, debido a las constantes mundial están haciendo uso del protocolo SSL/TLS. vulnerabilidades asociadas a las comunicaciones e Actualmente TLS en su versión 1.2 es la más utilizada en intercambio de datos por Internet; esas vulnerabilidades comparación con sus antecesoras y con la última versión 1.3 puedes ser aprovechadas por los actores de amenazas bajo definida en agosto de 2018. Según el reporte por “Qualys SSL diversas formas de amenazas, y una de ellas es la Labs” del mes de abril de 2019 [6], existe un 95% de sitios interceptación de los mensajes intercambiados entre los web seguros con soporte para TLS versión 1.2 sobre una base servicios web, y si estás viajan por los medios de transmisión de 150,000 sitios web (ver Fig. 1), es así, como este protocolo sin la protección adecuada (cifrado), el riesgo es alto contra la desarrollado por la empresa Netscape Comunications e confidencialidad por ejemplo. implementado en sus inicios por Netscape Navigator versión El uso de nuevas versiones del protocolo SSL/TLS, 1.1 llega a ser uno de los más importantes en cuanto al acceso específicamente TLS, permite disponer de suites de cifrado seguro a la Wolrd Wide Web. más complejas para proporcionar mayor seguridad. Muchas Cada vez son más los administradores que configuran los veces las organizaciones no cuentan con los recursos certificados digitales de pago o gratuitas emitidos por computacionales o buenas prácticas en optimización de los Autoridades Certificadoras como Let's Encryp, Godaddy, sitios web para que estas sean más ligeras (expresado en Start SSL que son algunas de las conocidas en el mercado. Megabytes del sitio web) y a la vez más rápidas ante Sin embargo, el aplicar un algoritmo de cifrado a cierta peticiones en grandes volúmenes. información hace que se requiera un mayor consumo de A nivel técnico, el análisis del uso del protocolo SSL/TLS recursos computacionales en comparación que no se aplique. y de la suite de cifrado en su versión TLS 1.2 en los sitios web, Esto debido a que la información pasa por un proceso permite entender si este genera un impacto en el rendimiento computacional donde el texto legible será trasformado a texto sin sentido, además de establecer un proceso de negociación 1 Grupo de Investigación en Redes, Seguridad y Gestión de TI Universidad Nacional Agraria de la Selva - Tingo María, Perú https://doi.org/10.12804/si9789587844337.17 172 de los sitios web, considerando la confidencialidad, integridad TABLA I. CARACTERÍSTICAS TÉCNICAS DE HARDWARE Y SOFTWARE DEL y autenticación de la información. SERVIDOR WEB (VPS 1) El estudio de este protocolo permite a los administradores HARDWARE web y a los usuarios finales, quienes hacen uso de un navegador web, comprender la importancia y la influencia que Disco Duro 150 Gb - SSD genera el uso del protocolo SSL/TLS, específicamente TLS Memoria RAM 6 Gb v1.2 cuando se navega en Internet, con esto se pretende Procesador 48 Procesadores generar confianza tanto para los administradores web respecto Dirección IP Pública 173.231.212.158 al nivel de rendimiento y seguridad informática, como Ancho de banda 5 TB también para los usuarios consumidores de los sitios web CENTOS 7.6 Número de núcleos 12 respecto a la navegación confiable y segura en Internet. MINIMALISTA (VPS 1) Alta Disponibilidad SI La evaluación del impacto generado en el rendimiento de SOFTWARE los sitios web del caso de estudio permite demostrar su Servidor Web Apache 2.4.39 impacto en el rendimiento, consolidando la aplicación de buenas prácticas en cuanto al uso y adecuada configuración Modulo SSL/TLS mod_ssl del protocolo TLS v.1.2 para la organización y los clientes que Criptografía OpenSSL versión 1.0.2k- administran sus sitios web. Otro factor adicional es, validar las PHP vfieprss i(ó2n6 7J.a1n. 2280 17) recomendaciones realizadas por los fabricantes y marcas de la Mysql 10.2.24-MariaDB industria respecto a SSL/TLS. Ante este escenario, la interrogante planteada es ¿Cuál es TABLA II. CARACTERÍSTICAS TÉCNICAS DE HARDWARE Y SOFTWARE el impacto del cifrado con el protocolo TLS v1.2 en el DEL SERVIDOR WEB (VPS 2) rendimiento de sitios web? Para responder a la interrogante se tiene en un escenario de pruebas para la medición del HARDWARE rendimiento de cinco sitios web en producción alojados en un Servidor Web de la empresa Web-Out S.A. como parte del Disco Duro 2 Gb - HDD caso de estudio. Por el lado del cliente en estas pruebas se usó Memoria RAM 4 Gb Windows 10 como anfitrión y máquinas virtuales con Centos Procesador 48 Procesadores 7 minimalista y Ubuntu 19; para la virtualización se ha Dirección IP Pública 69.167.175.211 empleado la herramienta Virtual Box en su versión 6.0.6. CENTOS 7.6 MINIMALISTA Ancho de banda 40 GB II. E P (VPS 2) SOFTWARE SCENARIO DE RUEBAS Servidor Web Apache 2.4.39 A. Objetivo Modulo SSL/TLS mod_ssl Evaluar el impacto del cifrado con el protocolo SSL/TLS Criptografía OpenSSL versión 1.0.2k- en TLS versión 1.2 en el rendimiento de los sitios web. Caso PHP vfieprss ión 5.6 empresa Web-Out S.A. Mysql 5.6 B. Escenario para las pruebas El ambiente que se ha utilizado se expresa en la Fig. 2, con Se recopilo la información de los cinco sitios web, como las características de los VPS (Servidor Virtual Privado) dirección IP pública, puerto empleado en la conexión por mostradas en la Tabla I y II. HTTPS, protocolos habilitados y deshabilitados en el servidor para cada sitio web que se muestran en la Tabla IV empleando la herramienta SSLRobot. Los cinco sitios web para las pruebas del estudio han sido desarrollados utilizando el CMS (Sistema de Gestión de Contenidos) Drupal versión 7 y 8, conteniendo código HTML (Lenguaje de Marcado de Hipertexto), CSS (Hojas de Estilo en Cascada) y JavaScript como lenguaje de programación. Los cinco sitios web están alojados en dos VPS así como se detalla en la Tabla III TABLA III. SITIOS WEB, URL DE ACCESO Y UBICACIÓN EN EL VPS Sitio Web URL VPS Web-Out S.A. www.web-out.com VPS 1 Facultad de Ciencias Económicas y Administrativas de la UNAS www.fceaunas.edu.pe VPS 1 Hotel Oro Verde www.hotel-oroverde.com VPS 2 Fig. 2. Topología del caso de estudio, indicando distribución y direcciones Hotel Natural Green www.hotelnaturalgreen.com VPS 1 IP. Cámara de Comercio Canadá - Perú www.canadaperu.org VPS 1 173 TABLA IV. INFORMACIÓN DEL PROTOCOLO SSL/TLS DE LOS CINCO global del handshake de TLS y el entorno de red; llegando a SITIOS WEB la conclusión que al comparar RSA con DHE PSK, este último funciona mejor que RSA solo cuando se usan tamaños de Facultad de clave pequeños y tienen un rendimiento de red bajo. Aunque Ciencias Cámara DHE PSK puede tener un rendimiento peor que RSA al usar Web- Económi Hotel Hotel de tamaños de clave grandes o alto rendimiento de red, DHE PSK Out cas y Oro Natural Comercio proporciona Perfect Forward Secrecy (PFS) para garantizar Administ Verde Green Canadá – una comunicación más segura entre los cifradores de clave rativas Perú de la pre-compartida [10]. UNAS Para el tratamiento de la sobrecarga de solicitudes Servidor simultaneas se propuso el balanceo de handshake con el Virtual VPS 1 VPS 1 VPS 2 VPS 1 VPS 1 Privado algoritmo EAMRSA que mejora el rendimiento mediante la 173.231. 173.231.2 69.167.1 173.231. 173.231.2 técnica de transferencia de carga en el protocolo de enlace IP pública 212.158 12.158 75.211 212.158 12.158 SSL/TLS. Esta técnica facilita en la distribución de carga favorable al requerir que los clientes realicen más trabajo Puerto 443 443 443 443 443 (como parte de la encriptación) y servidores para realizar un TLS 1.2 TLS 1.2 TLS 1.2 TLS 1.2 TLS 1.2 Protocolos trabajo proporcionalmente menor, lo que resulta en un mejor Habilitados TLS 1.1 TLS 1.1 TLS 1.1 TLS 1.1 TLS 1.1 rendimiento de SSL. Como resultado se obtuvo que el método TLS 1.0 TLS 1.0 TLS 1.0 TLS 1.0 TLS 1.0 puede acelerar el procesamiento de las operaciones de claves Protocolos SSL 3.0 SSL 3.0 SSL 3.0 SSL 3.0 SSL 3.0 Deshabilita privada RSA por un factor de entre 4.5 a 18 dependiendo del dos SSL 2.0 SSL 2.0 SSL 2.0 SSL 2.0 SSL 2.0 tamaño de clave RSA [11]. A. Cifrado Web mediante el Protocolo SSL/TLS Al instalar el mod_ssl el servidor Web posee un nuevo El protocolo SSL/TLS ha ido evolucionando desde su fichero de nombre ssl.conf en las que se configura el nombre implementación en el año 1994 y la publicación de TLSv1.0 de dominio, dirección local del certificado digital que ha sido en 1999; estos protocolos operan entre la capa de transporte y auto-firmado por medio de la herramienta OpenSSL [7] la de aplicación según el modelo TCP/IP. Las diversas versiones de SSL y TLS ofrecen servicios de seguridad, como III. ANTECEDENTES Y REVISIÓN BIBLIOGRÁFICA la confidencialidad, autenticación de servidor y la integridad Existen diversas investigaciones que se enfocan en la del mensaje. Asimismo, estos protocolos se han diseñado implementación del protocolo SSL/TLS en las considerando características como la eficiencia y comunicaciones entre cliente y servidor, en las que se extensibilidad, lo que implica un mejor uso de recursos en las realizaron un análisis en servidores web con una comunicaciones reutilizando parámetros de conexión en configuración del modSSL en Apache para la entrega segura sesiones simultaneas y la posibilidad de agregar nuevas por medio de TLS, obteniendo como resultado que los combinaciones de algoritmos de cifrado además de las cálculos RSA son la operación más costosa en TLS hablando predefinidas [12] [13] [14]. en términos de rendimiento, ya que consume entre un 13% a 58% del tiempo pasado en el servidor web. También B. Rendimiento de un sitio web mencionan que a medida que el rendimiento de las CPU Uno de los puntos clave del éxito de un sitio web será el continúa creciendo, la sobrecarga de TLS disminuirá. Es por nivel de comodidad de nuestros usuarios, que la experiencia eso por lo que invertir en CPU más rápidas o adicionales al visitar nuestro sitio sea agradable, que la respuesta que parece ser una estrategia preferible para maximizar el obtengan a sus acciones sea fluida, sin retrasos en las rendimiento del servidor web TLS. [8] respuestas, etc., esto nos hace afirmar que la percepción del usuario está en función del rendimiento del sitio web en En otros casos se evalúa el impacto en el rendimiento del términos de tiempo de procesamiento o respuesta, uso de TLS como protocolo de transporte para servidores SIP. concurrencia de usuarios, y la seguridad de la comunicación También evalúa el costo de TLS experimentalmente [15] [16] [17] [18]. utilizando un banco de pruebas con OpenSIPS, OpenSSL y Linux ejecutándose en un servidor que está basado en Intel. Se Los sitios web siguen una arquitectura cliente servidor, evalúan los costos de TLS como el cifrado masivo de datos, el donde el cliente es una máquina que solicita un determinado cifrado de clave pública, el descifrado de clave privada y la servicio al servidor que es la máquina que lo proporciona. El verificación basada en MAC. Como resultado se obtuvo que rendimiento de un sitio web va a depender de ambas partes, ya el uso de TLS puede reducir el rendimiento hasta en un factor que el servidor será quien realice el procesamiento de las de 20 en comparación con el caso típico de SIP sobre UDP diversas peticiones haciendo que el consumo de recursos [9]. computacionales aumente y por ello el rendimiento del sitio web se vea afectado, así como también depende del cliente Otros trabajos intentan explicar y proponer la forma de que es quien por medio de un navegador consume el servicio evitar o reducir las operaciones criptográficas utilizadas en los web. Este intercambio de mensajes se realiza antes de iniciar mecanismos basados en claves públicas estándar en TLS, bajo con el proceso de transmisión de información en cuestión de un análisis sistemático y una comparación del rendimiento segundos, lo que provoca que el tiempo sea superior que entre los mecanismos de intercambio de claves pre- cuando la información no fuera cifrada. En ese sentido una compartidas y los mecanismos de intercambio de claves comunicación no cifrada además de ser vulnerable va a ser públicas. Las métricas de rendimiento fueron el tiempo de mucho más rápido en tiempo de respuesta. Con la procesamiento y la cantidad de datos transmitida para una investigación se conoce la diferencia de tiempo y en cuanto sesión. Además, se evaluó la interacción entre la duración puede influir en el rendimiento del sitio web. 174 La cantidad total de clientes que pueden ser atendidos en simultaneo [17] por un Servidor Web está dada por la formula (1) Max_Clientes = Total_RAM / Max_Proceso_Hijo (1) Asimismo, existen diversas herramientas en línea de fabricantes como como Google y Mozilla que permiten medir el rendimiento de un sitio web alojado en internet cada quien, con sus respectivos estándares y valoraciones, en la gran mayoría de los casos nos muestran el tiempo de carga, almacenamiento en cache, peso de la página, tiempo de respuesta, entre otros. Esta información debe de ser considerada ya que evidencia el rendimiento que pueda tener el sitio web. Fig. 3. Proceso de negociación de una sesión SSL/TLS. Existen herramientas como OpenSSL, CypherScan, Wireshark por mencionar los más comunes que permiten Las Autoridades Certificadoras (AC o CA por sus siglas obtener información más específica respecto a un sitio web en ingles Certification Autority) son las encargadas de emitir como son: los algoritmos criptográficos utilizados, versiones certificados digitales (documento electrónico identificado por de TLS aceptados, tiempo de respuesta, peso del sitio web, un único número de serie con periodo de validez incluido en versión de http utilizado, puertos por defecto, entre otra el propio certificado) el cual permite identificar a información. determinados equipos y sitios web ante terceros [25]. Asimismo, una forma de medir el consumo de recursos C. Fortaleza de los algoritmos criptográficos computacionales en función del tiempo de carga. Para La fortaleza del algoritmo de cifrado tanto simétrico como calcular el porcentaje de incremento del tiempo de carga de asimétrico forman parte de una comunicación por medio de cada sitio web cuando es accedido por HTTPS y HTTP, se HTTPS. La seguridad y la fuerza del algoritmo de cifrado está empleó la siguiente formula [19]. relacionada con el tiempo, cada vez más las computadoras son mucho más rápidas y accesibles a un menor costo, ( ) |Valor 1- Valor 2| permitiendo que los algoritmos de cifrado de mayor Tasa de crecimiento % = ×100% |Valor 2| complejidad puedan ser procesados con mucha facilidad en comunicaciones por HTTPS. La fortaleza está vinculada con Valor 1: Población al final del periodo. el tamaño de la clave utilizada y por los recursos computacionales con el cual puede ser vulnerado [26]. Valor 2: Población al principio del periodo. IV. EVALUACIÓN DEL RENDIMIENTO DE UN SITIO WEB En esta investigación se reemplazó el Valor 1 por el “Tiempo de carga total de HTTPS” y para valor 2 el “Tiempo En esta sección se describirá las pruebas realizadas para de carga total por HTTP” para el mismo sitio web, el cual nos evaluar el impacto del uso del protocolo TLS v1.2 en los cinco permitió calcular el incremento porcentual existente entre sitios web que actualmente se encuentran en producción, con estos dos tiempos. el uso de herramientas como Apache Bench, SSLRobot, Qualys SSL Labs. |Tiempo carga HTTPS-Tiempo carga HTTP| ×100% A. Evaluación con Apache Bench |Tiempo carga por HTTP| En la Tabla V se muestra el análisis de rendimiento de los cinco sitios web de producción con Apache Bench (ab), donde Como antecedente, dicha fórmula también fue empleada se puede observar un mayor tiempo de carga y un menor con el objetivo de ver la diferencia de tamaños de datos número de solicitudes atendidas cuando se hace uso del cifrados y no cifrados que existe cuando el sitio web es protocolo TLS v1.2 a diferencia del sitio web sin el uso del accedido por HTTP y HTTPS [20]. protocolo de este. El comando utilizado con Apache Bench Para configurar la versión más adecuada del protocolo fue: SSL/TLS es posible realizarlo dentro del archivo de #ab -n 1000 -c 25 https://www.web-out.com...(Con SSL/TLS) configuración ssl.conf con la directiva SSLProtocol [21], según la Fig. 5 podemos ver que se han deshabilitado las # ab -n 1000 -c 25 http://www.web-out.com…(Sin SSL/TLS) versiones de SSLv2 y SSLv3, para poder trabajar con todas Donde: las versiones de TLS. ab: Comando a usar para el análisis del rendimiento. Por otro lado, tanto cliente como servidor deben establecer los métodos y algoritmos de cifrado. Esto se realiza durante el -n: Indica el número de solicitudes al servidor. proceso de establecimiento de sesión, que es el intercambio de información entre el cliente y servidor que permite lograr un -c: Indica la cantidad de peticiones concurrentes. acuerdo de algoritmos y claves a utilizar de manera segura, Se realizaron cinco pruebas por cada sitio web con el con la finalidad de garantizar la confidencialidad e integridad. objetivo de tener un valor promedio con mayor precisión, El proceso de negociación básico publicado en el RFC 5246 aumentando la cantidad de peticiones concurrentes para poder se muestra en la Fig. 2 [22] [23] [24] evaluar el impacto entre una comunicación cifrada y no cifrada por el protocolo TLS v1.2 tal como se muestra en la Tabla V. 175 Se consideran algunas características para la prueba, las se utilizó el comando: cuales son: # ab -n 1 -v 2 https://www.web-out.com • Time taken: Tiempo promedio que se mide desde el momento que se crea la primera conexión de socket hasta recibir la última respuesta. • Requests per Second: Número promedio de solicitudes por segundo, resultado de número de solicitudes entre en tiempo total. Fig. 4. Información de Protocolo, Suite de Cifrado, ID-Session y valides En la Tabla VI Se puede observar el resumen de las de certificado del sitio web https://www.web-out.com. pruebas realizadas a los cinco sitios web obteniendo un Time Es importante conocer cuál es la suite de cifrado, validez Taken superior y Requests per Second inferior cuando es del certificado digital, la versión de protocolo que está accedido por HTTPS. habilitado, entre otros datos. Esto permite al administrador tomar medidas correctivas si es necesario. TABLA V. ANÁLISIS DE RENDIMIENTO DEL SITIO WEB-OUT CON APACHE BENCH Para identificar las suites de cifrado y su prioridad al momento de ingresar al sitio web de web-out, se usó la WEB1 (WWW.WEB-OUT.COM) - 1,100 Y 500 SOLICITUDES herramienta Cipherscan desarrollada por Mozilla tal como muestra la Fig. 5. HTTPS HTTP Fig. 5. Prioridad de Suite de Cifrado SSL/TLS del sitio web https://www.web-out.com Para automatizar el trabajo de obtención de la información con la herramienta Apache Bench (ab) de ambos sitios web, 1 0.278 4.028 0.250 4.024 0.03 0.00 se creó un script con bash, cuyo código es el siguiente: 20 4.153 24.214 3.801 26.362 0.35 2.15 40 5.047 20.948 4.067 24.848 0.98 3.90 #!/bin/bash 60 4.154 24.428 3.907 26.204 0.25 1.78 echo "Analisis de la Información de Test de Rendimiento" 80 5.858 18.672 4.352 24.470 1.51 5.80 echo "---------------------------------------" 100 3.829 26.150 3.659 27.384 0.17 1.23 echo "Quiere realizar un analisis del sitio:" echo "1 -> Análisis con TLS v1.2" 20 24.339 21.070 22.734 22.146 1.61 1.08 echo "2 -> Análisis sin TLS v1.2" echo "---------------------------------------" read var1 PROMEDIO: 0.7 2.277 if [ $var1 -eq "1" ]; then echo "Análisis con TLSv1.2 echo "---------------------------------------" TABLA VI. TIME TAKEN Y REQUEST PER SECOND ATENDIDAS POR EL echo "Ingrese el Sitio Web a evaluar:" SERVIDOR ENTRE HTTP Y HTTPS echo "1 - https://www.web-out.com/" echo "2 - https://www.fceaunas.edu.pe/" Diferencia % de Diferencia % de echo "3 - https://www.canadaperu.org/" de Time diferencia de Requests diferencia echo "4 - https://www.hotel-oroverde.com/" echo "5 - https://www.hotelnaturalgreen.com/ " Sitio Web Taken de de Time Taken de per Second de Requests per Second echo "---------------------------------------" HTTP y HTTPS HTTP y HTTP y HTTP y read site HTTPS HTTPS HTTPS echo "---------------------------------------" Web-Out 0.7 s 11% 2.227 #/s 11% case $site in Facultad de 1) siteeval='https://www.web-out.com/' Ciencias ;; Económicas y 0.25 s 18% 17.82 #/s 23% 2) siteeval='https://www.fceaunas.edu.pe/' ;; Administrativas 3) siteeval='https://www.canadaperu.org/' de la UNAS ;; Hotel Oro Verde 1.41 s 4% 3.97 #/s 4% 4) siteeval='https://www.hotel-oroverde.com/' Hotel Natural ;; Green 0.52 s 17% 0.24 #/s 20% 5) siteeval='https://www.hotelnaturalgreen.com/' Cámara de ;; Comercio 1.08 s 4% 0.12 #/s 4% esac echo 'El sitio a evaluar es:' $siteeval Canadá - Perú rm -f resumen_con_ssl.txt array=(20 40 60 80 100) Existen diversas combinaciones de valores y técnicas con echo 'Iniciando Test...' el cual se pueden obtener diversos resultados para “ab”. Para for i in ${array[@]}; ver más detalles del protocolo SSL/TLS de un sitio web como do ab -n 100 -c $i $siteeval > web_con_ssl_$i.txt; Cipher Suite y versión de TLS tal como se muestra en Fig. 4, echo $i 176 500 100 1 SOLICITUDES # Peticiones Concurrentes Tiempo de la Prueba (segundos) Media de Peticiones atendidas por segundo (#/s.) Tiempo de la Prueba (segundos) Media de Peticiones atendidas por segundo (#/s.) Diferencia del Tiempo de Prueba entre HTTP y HTTPS (segundos) Diferencia de Peticiones por segundo entre HTTP y HTTPS (#/s.) done El tiempo de carga de los cinco sitios web cuando es for i in ${array[@]}; do accedido por HTTP y HTTPS se detallan en la Tabla VII. En ls | grep "Concurrency Level" web_con_ssl_$i.txt >> resumen_con_ssl.txt la que se puede apreciar un leve incremento cuando el sitio ls | grep "Time taken for tests" web_con_ssl_$i.txt >> resumen_con_ssl.txt web es accedido por HTTPS, esta información ha sido ls | grep "Requests per second" web_con_ssl_$i.txt >> resumen_con_ssl.txt obtenida mediante la herramienta de desarrollo del navegador echo "-------------" >> resumen_con_ssl.txt done Mozilla Firefox. fi TABLA VII. DIFERENCIA DE NÚMERO DE SOLICITUDES Y TIEMPO DE CARGA TOTAL DEL SITIO WEB. if [ $var1 -eq "2" ]; then echo "Análisis sin TLS v1.2" echo "---------------------------------------" Núm. de Tiempo en Tiempo en % de Núm. de cargar cargar Increment echo " Ingrese el Sitio Web a evaluar:" Solicitud echo "1 - http://www.web-out.com/" Sitio Web Solicitud es todas las todas las o del es HTTP solicitudes solicitudes Tiempo de echo "2 - http://www.fceaunas.edu.pe/" HTTPS cada de los echo "3 - http://www.canadaperu.org/" HTTP HTTPS sitios web echo "4 - http://www.hotel-oroverde.com/" web-out.com 86 86 8.928 s 10.300 s 15% echo "5 - http://www.hotelnaturalgreen.com/ " fceaunas.edu.p echo "---------------------------------------" e 106 106 6.386 s 6.500 s 2% read site hotel- echo "---------------------------------------" 94 94 18.692 s 19.842 s 6% oroverde.com case $site in 1) siteeval='http://www.web-out.com/' hotelnaturalgre 107 107 9.572 s 9.906 s 3% ;; en.com 2) siteeval='http://www.fceaunas.edu.pe/' canadaperu.org 146 146 20.234 s 21.324 s 5% ;; 3) siteeval='http://www.canadaperu.org/' C. Algoritmos de cifrado ;; Una de las consideraciones importantes para el uso 4) siteeval='http://www.hotel-oroverde.com/' ;; adecuado del protocolo TLS v1.2 es la selección de los 5) siteeval='http://www.hotelnaturalgreen.com/' algoritmos de cifrado robustos y descartar aquellos que no ;; presentan tal característica. Algunas herramientas como esac “Analize” (desarrollada en leguaje Python y disponible como echo 'El sitio a evaluar es:' $siteeval rm -f resumen_sin_ssl.txt parte de la suite de Cipherscan) ayudan a identificar los array=(20 40 60 80 100) algoritmos que se deberían descartar. El resultado de ejecutar echo 'Iniciando Test...' el comando “./analize.py -t https://www.web-out.com” con for i in ${array[@]}; esta herramienta en el servidor web se muestra en la Fig. 7. do ab -n 100 -c $i $siteeval > web_sin_ssl_$i.txt; echo $i done for i in ${array[@]}; do ls | grep "Concurrency Level" web_sin_ssl_$i.txt >> resumen_sin_ssl.txt ls | grep "Time taken for tests" web_sin_ssl_$i.txt >> resumen_sin_ssl.txt ls | grep "Requests per second" web_sin_ssl_$i.txt >> resumen_sin_ssl.txt echo "-------------" >> resumen_sin_ssl.txt done fi B. Tiempo de procesamiento El uso del Protocolo SSL/TLS genera un tiempo de latencia el cual genera un tiempo superior cuando un sitio web está siendo accedido por HTTPS, esto debido al proceso de negociación que existe entre el cliente y servidor, en la Fig. 6 se describe tiempos aproximados en ms para cada intercambio de información entre cliente y servidor. Fig. 7. Recomendaciones de suites de cifrado a modificar en el Servidor Web. Asimismo, es posible considerar las recomendaciones de Mozilla, en la que se puede obtener la configuración moderna, intermedia y antigua relacionadas con las versiones de software de servidor y de OpenSSL. En la Tabla VIII se detalla información del certificado digital obtenido con la herramienta SSL Robot de los cinco Fig. 6. Latencias de TCP Handshake y TLS Handshake sitios web, indicando el tipo y tamaño de clave pública, la Autoridad Certificadora y el algoritmo de firma del Certificado Digital generado para cada sitio web. 177 Se puede apreciar una similitud en los cinco sitios web que RSA 2048 bits es posible realizar 331.8 firmas/segundo. Con emplean el algoritmo RSA con un tamaño de clave de 2048 el algoritmo ECDSA 256 bits es posible 3572 conexiones TLS bits. Para el campo de algoritmo de firma todos los sitios web por segundo con un proceso de verificación mucho más lento emplean como algoritmo de hash a SHA-256 excepto para el que usando RSA. sitio web del Hotel Oro Verde que emplea SHA-384, y como TABLA X. RENDIMIENTO DEL ALGORITMO DE FIRMA RSA, DSA Y algoritmo de firma es RSA-2048. ECDSA EN UNA COMUNICACIÓN HTTPS TABLA VIII. CERTIFICADO DIGITAL EMPLEADO EN LA CONEXIÓN CON LOS Algoritmo/Lon gitud de clave Firma Verificación Firmas Verificac CINCO SITIOS WEB POR HTTPS /s. ión/s. RSA 512 bits 0.000625 s. 0.000030 s. 1599.8 33411.8 Clave CA Algoritmo de Firma RSA 1024 bits 0.000812 s. 0.000069 s. 1231.4 14534.3 Web-Out RSA COMODO RSA Domain Validation SHA 256 RSA 2048 bits 0.003014 s. 0.000203 s. 331.8 4922.8 2048 Secure Server CA WITH RSA RSA 3072 bits 0.021355 s. 0.000439 s. 46.8 2277.7 Facultad de Ciencias RSA COMODO RSA SHA 256 RSA 4096 bits 0.042895 s. 0.000699 s. 23.3 1430.7 Económicas y 2048 Domain Validation WITH RSA Administrativas Secure Server CA RSA 7680 bits 0.364444 s. 0.002103 s. 2.7 475.6 Hotel Oro RSA CPANEL INC. SHA 384 DSA 512 bits 0.000997 s. 0.000572 s. 1003.1 1749 Verde 2048 Certification Authority WITH RSA Hotel Natural RSA COMODO RSA DSA 1024 bits 0.001378 s. 0.001071 s. 725.5 934.1 SHA 256 Green 2048 Domain Validation Secure Server CA WITH RSA DSA 2048 bits 0.0081 s. 0.0056 s. 202 433.7 Cámara de RSA COMODO RSA comercio Domain Validation SHA 256 ECDSA 256 0.0003 s. 0.0007 s. 3572.1 1512 2048 WITH RSA bits (nistp256) Canadá - Perú Secure Server CA ECDSA 384 0.0189 s. 0.0138 s. 52.8 72.5 D. Evaluación con Qualys SSL Labs bits (nistp384) Es una herramienta completa que muestra información respecto al nivel de seguridad que cuenta un sitio web V. RESULTADOS respecto a su configuración del protocolo SSL/TLS, funciona De acuerdo con los resultados presentados en la Tabla VI online y asigna una valoración del sitio web respecto a tres sobre las pruebas con Apache Bench, los valores de tiempo de criterios: “Soporte de Protocolo”, “Intercambio de llaves” y carga (time taken) el protocolo SSL/TLS no influye “Fuerza de cifrado”. significativamente en el nivel de solicitudes que pueda atender un servidor web, habiendo realizado 5 pruebas de saturación del servidor para cada sitio web, existiendo un total de 25 pruebas mediante la herramienta ApacheBench (ab) donde se realizaron 1, 100 y 500 solicitudes con una concurrencia de peticiones de 1, 20, 40, 60, 80 y 100 hacia el VPS 1 y VPS 2. La variación de los tiempos de carga y la velocidad de respuesta por solicitud no varían significativamente existiendo un margen de diferencia de 1.5 segundos adicionales para las conexiones por HTTPS (TLS versión 1.2) y existiendo una Fig. 8. Puntuación a las categorías para SSL Labs. mayor velocidad de atención de solicitudes por medio de HTTP, siendo mucho más rápido en un 11% para el sitio web En la Tabla IX se puede visualizar la calificación final de Web-Out S.A.; un 23% para el sitio web de la Facultad de obtenida por la herramienta Qualys SSL Labs para los cinco Ciencias Económicas y Administrativas de la UNAS; un 4% sitios web, existiendo un intervalo de calificación de A-F, para el sitio web del Hotel Oro Verde; un 20% para el sitio siendo A la nota más alta y F la nota más baja respecto a los web del Hotel Natural Green y un 4% para la cámara de criterios descritos en la Fig. 9. Comercio de Canadá Perú. Además del impacto del protocolo TLS versión 1.2 en el rendimiento de los sitios web. TABLA IX. CALIFICACIÓN OBTENIDA POR QUALYS SSL LABS PARA LOS CINCO SITIOS WEB Asimismo, el resultado de las pruebas de nivel de seguridad del sitio web con la herramienta Qualys SSL Labs Sitio Web Calificación General indican que los cinco sitios web obtienen una puntuación de Web-Out B entre A y B lo cual se consideran configuraciones optimas, Facultad de Ciencias Económicas y Administrativas - UNAS B teniendo un impacto positivo en la seguridad de la Hotel Oro Verde A información trasmitida durante la interacción del sitio web con Hotel Natural Green B el usuario final. Cámara de Comercio Canadá - Perú B Sin embargo, se debe considerar que desde la perspectiva del usuario promedio es posible que no se perciba las E. Evaluación con OpenSSL diferencias encontradas como poco significativas debido a la En la Tabla X se puede visualizar que el algoritmo RSA potencia de hardware actualmente disponible. conforme aumenta la longitud de clave, el proceso de firmado es mucho más lento que el proceso de verificación de la firma. Así mismo nos indica que el servidor mediante el algoritmo 178 VI. CONCLUSIONES [4] E. Rescorla, «HTTP Over TLS,» Network Working Group, 2000. El uso del protocolo TLS versión 1.2 para el cifrado de [En línea]. Available: https://tools.ietf.org/html/rfc2818. sitios web (HTTPS) es altamente recomendable, debido a los [5] D. Holmes, «The 2017 TLS Telemetry Report,» 23 Abril 2018. [En línea]. Available: https://www.f5.com/labs/articles/threat- riesgos que representa el transferir información en texto plano intelligence/the-2017-tls-telemetry-report. con protocolos no cifrados como HTTP. Aunque el uso de [6] Qualys Inc., «SSL Labs,» 09 Abril 2019. [En línea]. Available: protocolos como TLS generan mayor consumo de recursos https://www.ssllabs.com/ssl-pulse/. [Último acceso: abril 2019]. computacionales afectando mínimamente el rendimiento de [7] OpenSSL, «TLS/SSL and crypto library,» [En línea]. Available: los sitios web, expresados en tiempo de respuesta o carga https://github.com/openssl/openssl. [Último acceso: Octubre 2018]. (time taken), la percepción negativa del usuario promedio es [8] C. Coarfa, P. Druschel y D. Wallach, «Performance Analysis of posible que no sea significativa. TLS Web Servers,» IEEE Xplore Digital Library, pp. 39-69, 2006. [9] C. Shen, E. Nahum, H. Schulzrinne y C. Wright, «The Impact of Se ha podido comprobar que mientras más componentes TLS on SIP Server Performance,» 2009. (imágenes, archivos css, archivos java script, videos, entre [10] F.-C. Kuo, H. Tschofenig y F. Meyer, «Comparison Studies otros) tenga un sitio web, el número de solicitudes HTTP o between Pre-Shared and Public Key Exchange Mechanisms for HTTPS se incrementaran, reflejándose en un mayor tiempo de Transport Layer Security,» IEEE Xplore Digital Library, 2006. carga. Se recomienda reducir en lo más mínimo estos [11] H. Li y G. Zhao, «Improving Secure Server Performance By componentes ya sea combinando archivos y script en archivos EAMRSA SSLHandshakes,» IEEE Xplore Digital Library, 2012. únicos, o eliminando y reduciendo el peso de componentes [12] IETF, The TLS Protocol version 1.0, vol. RFC 2246, IETF, 1999. innecesarios, así mismo empleando el guardado en cache. [13] R. Oppliger, SSL and TLS Theory and Practice, London: Artech House, 2016. Asimismo, se puede demostrar que el uso del protocolo SSL/TLS influye de manera positiva en la seguridad de los [14] M. López Fernández, «Caracterización y medida pasiva del rendimiento para conexiones Web seguras HTTPS,» España, 2015. sitios web y esto se puede comprobar mediante la herramienta Qualys SSL Labs obteniendo una puntuación (A-F) respecto [15] C. Mateu, Desarrollo de Aplicaciones Web, Barcelona, 2004. a las configuraciones habilitadas en el servidor web, se debe [16] F. Carvajal Palomares, «Administración y Auditoría de los servicios considerar que si la configuración de este protocolo es web,» Editorial CEP, S.L., 2017. incorrecta será igual de vulnerable como si la navegación [17] J. L. Villada Romero, Instalación y configuración del software de servidor web (UF1271), IC Editorial, 2015, p. 403. fuera por HTTP. [18] J. Sabogal Rosas, «Modelamiento de una plataforma virtual para la Además del impacto del protocolo TLS versión 1.2 en el gestión de avisos normativos y de trámite legal,» 2015. rendimiento de los sitios web, es importante considerar los [19] A. O. Pallmall, Demografía, un problema global, 2014. tipos de algoritmos de cifrado y la combinación de uso para [20] R. A. Ariansen Moncada y J. I. Rojas Diaz, «Implementación de garantizar la mejor protección durante una sesión e protocolo de cifrado TLS para mejorar la seguridad de las intercambio de información a nivel de la web. comunicaciones en la capa de transporte 2016,» Chiclayo, 2016. [21] Apache, «Apache Modulo mod_ssl,» [En línea]. Available: TRABAJOS FUTUROS https://httpd.apache.org/docs/2.4/mod/mod_ssl.html#sslprotocol. Realizar evaluaciones incluyendo otros servidores Web [22] IETF, « The Transport Layer Security (TLS) Protocol version 1.2,» como IIS de Microsoft y GlasFish, además de considerar sitios agosto 2008. [En línea]. Available: https://tools.ietf.org/html/rfc5246. web mas complejos que realicen transacciones con bases de datos. [23] M. Driscoll, «The Illustrated TLS Connection v1.2,» diciembre 2018. [En línea]. Available: https://tls.ulfheim.net/. Finalmente, complementar la evaluación de este tipo de [24] M. Driscoll, «The New Illustrated TLS Connection v1.3,» diciembre protocolos en los sitios web, poniendo a prueba su fortaleza y 2018. [En línea]. Available: https://tls13.ulfheim.net/. robustez con adecuadas técnicas de pruebas de penetración de [25] G. Escrivá Gascó, R. Romero Serrano, D. Jorge Ramada y R. forma controlada. Onrubia Pérez, Seguridad Informática, Madrid, 2013. [26] I. Ristic, Bulletproof SSL and TLS: The Complete Guide to Comparar el rendimiento de sitios web entre el uso del Deploying Secure Servers and Web Applications, 2014. protocolo TLSv1.2 y TLSv1.3. AGRADECIMIENTOS William-Rogelio Marchand-Niño, Ingeniero de Sistemas otorgado por la A la empresa Web-Out por permitir analizar cinco de sus Universidad Nacional del Centro del Perú, con maestría en Dirección sitos web desarrollados y administrados. Estratégica de TI de la Universidad de Piura, con 18 años de experiencia académica en UNAS, UDH, UPLA. Desde el año 2004 es profesor asociado REFERENCIAS en la UNAS. Ha impartido más de 90 cursos de pregrado en diferentes universidades. Instructor CISCO por 12 años. Posee múltiples certificaciones de la Industria como PMP, ITIL Foundation, CCNA, MTA. [1] J. D. Irwin y C.-H. Wu, «Introduction to Computer Networks and Director del Centro de Tecnologías de Información y Comunicación de la Cybersecurity,» 2013. Universidad Nacional Agraria de la Selva. Miembro Senior de la IEEE. [2] IETF, «Who we are,» [En línea]. Available: Edgar Etson Rueda Liberato, Bachiller en Ingeniería en Informática y https://www.ietf.org/about/who/. [Último acceso: 15 Noviembre Sistemas de la Universidad Nacional Agraria de la Selva (UNAS). Miembro 2018]. del Grupo de Investigación de Redes y Seguridad de la Facultad de Ingeniería [3] E. Rescorla, «The Transport Layer Security (TLS) Protocol,» en Informática y Sistemas (FIIS-UNAS) Agosto 2008. [En línea]. Available: https://www.ietf.org/rfc/rfc5246.txt. 179 Tendencias de la educación en seguridad Laboratory for Vulnerability Analysis and CIS Controls on Layer 2 Switches William-Rogelio Marchand-Niño1 José Martin Santillan Ruiz1 william.marchand@unas.edu.pe jose.santillan@unas.edu.pe Resumen— En el proceso de enseñanza de temas completo, desde la identificación de la vulnerabilidad, relacionados con la seguridad de la red, es importante que el explotación o verificación de la vulnerabilidad con técnicas de estudiante tenga un enfoque más real de las vulnerabilidades y ethical hacking (enfoque de seguridad ofensiva), valoración los tipos de ataques que pueden especificarse en los entornos de CVSS, mitigación (enfoque de seguridad defensiva), y red de producción de infraestructuras de Tecnologías de alineación con los 20 controles (enfoque de la gestión de Información y Comunicación. El objetivo principal es seguridad informática) críticos de CIS (Center for Internet proporcionar al alumno escenarios que le permitan llevar a cabo Security) [8]. un análisis de vulnerabilidad completo, desde la identificación de la vulnerabilidad, explotación o verificación de la Para el desarrollo del Laboratorio se ha formulado una vulnerabilidad con técnicas de hacking ético, evaluación CVSS, rubrica asociada para la verificación del cumplimiento de los mitigación y alineación con algún control de CIS (Center of pasos formulados. Internet Security). El Laboratorio propuesto es una forma de apoyo para el proceso de enseñanza-aprendizaje de la seguridad Una característica para resaltar de la propuesta de este de la red a nivel universitario. Ofrece un paquete práctico que Laboratorio es su forma de aplicación, que está orientada a un incluye las fases generales y comunes de un ataque (enfoque de tipo de desafío o CtF (Capture the Flag) con formación de seguridad ofensiva), procedimientos de mitigación (enfoque de equipos, que en otros estudios muestran un impacto positivo, seguridad defensiva) y controles de seguridad basados en una lo que indica en principio, que es un método efectivo para referencia válida como CIS (gestión de seguridad informática). afianzar las capacidades y habilidades en temas relacionados a la seguridad informática, promoviendo el trabajo en equipo, Palabras clave— Vulnerabilidades, pentesting, redes, CIS, la colaboración y la competencia [9]. CVSS, capa dos OSI, amenazas, seguridad ofensiva, aprendizaje. La práctica de evaluar o diagnosticar el nivel de seguridad de una red debe ser una práctica común y frecuente, porque a I. INTRODUCCIÓN pesar que los sistemas puedan tener instalado las últimas La investigación está orientada a la propuesta de un actualizaciones no significa que están libres de Laboratorio para el análisis de las vulnerabilidades asociadas vulnerabilidades, por el contrario, se evidencia que las a la deficiente configuración de los dispositivos de red de capa deficientes configuraciones son causa de vulnerabilidades que 2, específicamente los conmutadores (switches) de red. La son aprovechadas por los actores de amenaza [10]. deficiente configuración o las omisiones en las misma, Una de las formas de evaluar la robustez de la también se debe al efecto de crecimiento de la red, al infraestructura es sometiendo a prueba las defensas incrementarse el número de dispositivos, también se implementadas a nivel de configuraciones y servicios incremente el volumen de configuraciones, y esto genera que habilitados en los equipos de red. Uno de los beneficios de las amenazas (de reconocimiento, acceso o denegación de utilizar pruebas de penetración en el contexto de la seguridad servicio) puedan concretarse en ataques o incidentes de informática es que esta provee de un enfoque desde la seguridad no deseados dañando a los sistemas u organización. perspectiva de un atacante real que dirige técnicas de [1] [2] [3]. explotación para romper la protección de un sistema [11] [12]. Para la definición del alcance del Laboratorio se identificó A nivel de los switches que operan en la capa de enlace de las principales vulnerabilidades que presentan comúnmente datos de acuerdo al modelo de referencia OSI, se establece los dispositivos de capa de enlace de datos, tomando como algunos de los ataques más frecuentes dirigidos a este tipo de referencia la base de datos de dominio público CVE (Common equipos, entre los que destacan, saturación de direcciones Vulnerabilities and Exposures) siendo algunas de estas, ARP MAC, aprovechamiento de protocolos de descubrimiento, spoofing, salto de VLAN, ataques de fuerza bruta o suplantación de identidad de switch, ataque de etiquetado diccionario contra servicios TELNET y SSH, ataques de doble, y la denegación de servicio [13] [14], que a su vez están hombre-en-el-medio, DHCP spoofing y claim role STP relacionados a los siguientes tipos de vulnerabilidades: forman parte de las pruebas de concepto con los recursos disponibles para el montaje de un Laboratorio orientado al • Imperfecciones en las políticas. estudio de seguridad de redes [4] [5] [6]. Asimismo, se • Errores de diseño consideró incluir la valoración del grado de severidad que está de acuerdo con el Sistema de Calificación de Vulnerabilidades • Deficiencias de protocolos Comunes (CVSS) [7]. El objetivo principal es proveer al estudiante escenarios que pueden presentarse en entornos de • Deficiencias en la configuración producción y realizar un análisis de vulnerabilidades 1 Grupo de Investigación en Redes, Seguridad y Gestión de TI Universidad Nacional Agraria de la Selva - Tingo María, Perú https://doi.org/10.12804/si9789587844337.18 181 • Debilidades en el software • Disponibilidad (A): Ninguno, Bajo, Alto. • Factores humanos El resultado de la valoración estable una clasificación del nivel de severidad de la vulnerabilidad que se muestra en la • Software malicioso Tabla I. • Vulnerabilidades de hardware TABLA I. NIVELES DE SEVERIDAD CVSS • Acceso físico a los recursos de red. Nivel de severidad de vulnerabilidad Puntuación CVSS • Cifrado y autenticación Ninguno 0.0 De la relación anterior y para efectos del trabajo de Bajo 0.1 – 3.9 Medio 4.0 – 6.9 investigación, se consideran las siguientes: Alto 7.0 – 8.9 • Deficiencias de protocolos Crítico 9.0 – 10.0 • Deficiencias en la configuración II. TIPOS DE ATAQUES PARA VULNERABILIDADES • Cifrado y autenticación. CONTRA SWITCHES La fase de explotación en el contexto de las pruebas de Algunos tipos de ataques o pruebas de concepto asociadas penetración es la aplicación de exploits para lograr el acceso a se describen a continuación: los sistemas de un cliente. También es aprovechar las vulnerabilidades identificadas previamente, es la real fase de A. Suplantación de identidad de DHCP. ataque. No es necesario utilizar exploits (código malicioso) DHCP es el protocolo que asigna automáticamente una para realizar el proceso de explotación. Otra definición de la dirección IP válida de un pool de DHCP a un host. Se pueden explotación es el aprovechamiento de los fallos lógicos de los realizar dos tipos de ataques DHCP a una red conmutada: los sistemas informáticos para lograr acceso privilegiado a la red, ataques de agotamiento de DHCP y los de suplantación de extraer información sensible o persistencia de ataque, identidad de DHCP. mediante herramientas o técnicas de explotación como En los ataques de suplantación de identidad de DHCP, un ataques de fuerza bruta o diccionario, ejecución de código, atacante configura un servidor de DHCP falso en la red para ingeniería social, pivoting, etc. [15] [16] [17]. asignar direcciones de DHCP para los clientes. El motivo Al realizar la explotación de vulnerabilidades se pueden común de este ataque es obligar a los clientes a que usen utilizar herramientas automatizadas, sin embargo, se debe servidores de Sistema de nombres de dominios (DNS) o de tener conciencia y certeza de lo que realmente está ejecutando Servicio de nombres Internet de Windows (WINS) falsos y el código de la herramienta o exploit. Muchas veces la hacer que los clientes usen al atacante, o una máquina automatización hace que el pentester pierda cierto control controlada por el atacante como gateway predeterminado. sobre el proceso de explotación, por lo que un pentester debe B. Aprovechamiento de CDP conocer y tener certeza de lo que se ejecuta y el tipo de vulnerabilidad que se está analizando [18]. El Protocolo de Descubrimiento de Cisco (CDP, Cisco Discovery Protocol) es un protocolo propiedad de Cisco que En el aspecto de formas de mitigación, las soluciones puede configurarse en todos los dispositivos de este propuestas en la literatura para enfrentar los ataques y fabricante. CDP detecta otros dispositivos de Cisco amenazas en redes LAN Ethernet abarcan entre otros, el conectados directamente, lo que permite que los dispositivos reemplazo de switch por router; protección física, configuren su conexión de forma automática. En algunos segmentación VLAN; control de acceso de host basado en casos, esto simplifica la configuración y la conectividad. autenticación 802.1x; listas de control de acceso; seguridad de puerto; protección de sobrecarga, seguridad centralizada, De manera predeterminada, la mayoría de los routers y protocolos seguros; monitorización de seguridad; además de switches Cisco poseen CDP habilitado en todos los puertos. corregir errores cometidos por parte de los administradores en La información de CDP se envía en broadcast periódicas sin los procedimientos de configuración [19]. cifrar. Esta información se actualiza localmente en la base de datos de CDP de cada dispositivo. Debido a que CDP es un La valoración de las vulnerabilidades se realizó utilizando protocolo de capa 2, los routers no propagan los mensajes la calculadora de CVSS versión 3 que tiene las siguientes CDP. métricas base [7]: El protocolo análogo al CDP es el protocolo LLDP (Link • Vector de Ataque (AV): Red, Adyacente, Local, Layer Discovery Protocol) que tiene funciones similares de Físico. descubrimiento de dispositivos a nivel de capa de enlace de Complejidad de Ataque (AC): Bajo, Alto. datos. Este protocolo a diferencia de CDP es “multivendor”, • es decir opera de forma independiente a la marca del • Privilegios Requeridos (PR): Ninguno, Bajo, Alto. dispositivo. • Interacción con Usuario (UI): Ninguno, Requerido. El aprovechamiento de CDP se asocia a la divulgación información por la operación del protocolo en los puertos en • Alcance (S): Sin cambios, cambiado. los que no debería estar activo, y desde el punto de vista de los • Confidencialidad (C): Ninguno, Bajo, Alto actores de amenazas se denomina un ataque reconocimiento. Integridad (I): Ninguno, Bajo, Alto. Para efectos de las pruebas y por disponibilidad de equipos • Cisco se utilizó el protocolo CDP. 182 C. Ataque de suplantación de identidad de Switch Este tipo de ataque es unidireccional y solo funciona En un ataque de suplantación de identidad de switch cuando el atacante se conecta a un puerto que reside en la básico, el atacante aprovecha la configuración predeterminada misma VLAN que la VLAN nativa del puerto de enlace del puerto del switch establecido en dinámico automático. El troncal. atacante de la red configura un sistema para suplantar su propia identidad y hacerse pasar por un switch. Esta III. METODOLOGÍA suplantación de identidad requiere que el atacante de la red En esta sección se detallará el proceso de las pruebas de pueda emular mensajes 802.1Q y DTP. Al engañar al switch concepto, la valoración y mitigación asociada con los que otro switch intenta crear un enlace troncal, el atacante controles de CIS. puede acceder a todas las VLAN permitidas en el puerto de Para el montaje del Laboratorio se utilizaron los siguientes enlace troncal. equipos: Los saltos de VLAN permiten que una VLAN pueda ver el tráfico de otra VLAN. La suplantación de identidad de • 3 switches Cisco Catalyst 2960 con IOS versión 12. switch es un tipo de ataque con salto de VLAN que funciona • Servidor de pruebas con sistema operativo Linux mediante el aprovechamiento de un puerto de enlace troncal Ubuntu 16.04 mal configurado. De manera predeterminada, los puertos de enlace troncal tienen acceso a todas las VLAN y pasan el • Dos máquinas virtuales con sistema operativo tráfico para varias VLAN a través del mismo enlace físico, Windows 7. (víctimas) generalmente entre switches. • Una máquina virtual con sistema operativo Kali D. Ataque de etiquetado doble Linux 2018. (atacante) Este tipo de ataque aprovecha la forma en que funciona el El proceso de desarrollo de pruebas de concepto se realizó hardware en la mayoría de los switches. La mayoría de los sobre una topología básica de experimentación con los switches realizan solo un nivel de desencapsulación 802.1Q, equipos indicados anteriormente. La topología se muestra en lo que permite que un atacante incorpore una etiqueta 802.1Q la Fig. 1. oculta en la trama. Esta etiqueta permite que la trama se reenvíe a una VLAN que la etiqueta 802.1Q original no especificó. Una característica importante del ataque con salto de VLAN de encapsulado doble es que funciona incluso si se inhabilitan los puertos de enlace troncal, ya que, generalmente, un host envía una trama por un segmento que no es un enlace troncal. Los ataques con salto de VLAN de etiquetado doble implican los siguientes tres pasos: • El atacante envía una trama 802.1Q con doble etiqueta al switch. El encabezado externo tiene la etiqueta VLAN del atacante, que es la misma que la VLAN nativa del puerto de enlace troncal. Se supone que el switch procesa la trama que recibe del atacante como si estuviera en un puerto de enlace troncal o un Fig. 1. Topología base para las Pruebas de Concepto. puerto con una VLAN de voz (un switch no debe recibir una trama de Ethernet etiquetada en un puerto De acuerdo con las vulnerabilidades comunes para los de acceso). Por ejemplo, suponga que la VLAN nativa equipos de la capa de enlace de datos se definieron las pruebas es la VLAN 10. La etiqueta interna es la VLAN específicas mostradas en la Tabla I. víctima; en este caso, la VLAN 20. TABLA II. PRUEBAS DE CONCEPTO • La trama llega al switch, que observa la primera etiqueta 802.1Q de 4 bytes. El switch observa que la Protocolo Prueba de Concepto trama está destinada a la VLAN 10, que es la VLAN STP Claim root role nativa. El switch reenvía el paquete por todos los CDP Aprovechamiento de CDP puertos de la VLAN 10 después de eliminar la Salto de VLAN etiqueta de VLAN 10. En el puerto de enlace troncal, IEEE 802.1q Aprovechamiento DTP se elimina la etiqueta de VLAN 10, y no se vuelve a Telnet y SSH Ataque de fuerza bruta etiquetar el paquete porque esta forma parte de la VLAN nativa. En este punto, la etiqueta de VLAN 20 DHCP Suplantación de servidor DHCP sigue intacta, y el primer switch no la inspeccionó. ARP ARP Posoning, Man-in-the-middle • El segundo switch observa solo la etiqueta 802.1Q interna que envió el atacante y ve que la trama está destinada a la VLAN 20, el objetivo. El segundo Las herramientas para las pruebas son provistas por los switch envía la trama al puerto víctima o lo satura, instructores o docentes, entre las que destaca el framework según si existe una entrada en la tabla de direcciones Yersinia, que es un programa de software para realizar ataques MAC para el host víctima. (en nuestro caso pruebas de concepto) contra servicios y 183 protocolos de red tales como STP, CDP, DTP, DHCP, HSRP, protocolo Spanning Tree activo. El efecto de este ataque es 802.1Q y VTP. Estos ataques son realizados a nivel de capa 2. desestabilizar o modificar la topología STP de la red, lo cual El desarrollo del laboratorio se ejecuta en un contexto de puede llevar a errores de control de bucles de forma tipo CtF (Capture the Flag) por equipos, con el propósito de intermitente; así como aprovechar el rol de puente raíz (root promover la competencia y fortalecimiento de habilidades de bridge) para otros ataques como denegación de servicio y concentración y trabajo en equipo. man-in-the-middle. En los escenarios planteados se asume que el atacante se Para esta prueba de ataque se utilizó la herramienta encuentra en el mismo segmento de red que los dispositivos Yersinia, y se intentó obtener el rol de root en la VLAN 20, vulnerables, por lo que la evaluación y medición de los niveles asumiendo que un atacante malicioso logre conectarse de severidad son considerando este aspecto de ubicación del físicamente a un puerto de swtich en la VLAN 20. La atacante. valoración de la vulnerabilidad se muestra en la Tabla II. Asimismo, es necesario considerar que los estudiantes al Para mitigar el ataque se deben habilitar la siguiente recibir entrenamiento sobre la metodología y el uso de configuración en los switches de la red: herramientas de hacking están comprometidos con aspectos S(config)#spanning-tree portfast bpduguard éticos y legales por lo que deberán firmar un Acuerdo de Compromiso sobre el uso adecuado de los conocimientos y herramientas a recibir. La finalidad es comprometer al estudiante a no usar el conocimiento adquirido para acciones fuera de la ley o ética. También se deberá emitir un “Disclaimer” sobre las técnicas mostradas. En general las fases de desarrollo del Laboratorio son las siguientes: • Identificación de vulnerabilidad. Este procedimiento es abierto a otras técnicas o formas de encontrar una vulnerabilidad, inclusive las herramientas (legales y éticas) a utilizar. El estudiante no queda limitado a una sola forma de proceder. Lo que se muestra en este trabajo es finalmente un ejemplo de un procedimiento clásico. • Verificación de vulnerabilidad. Luego de identificar Fig. 2. Topología Pruebas de Concepto de Claim Root Role una vulnerabilidad se debe procede a comprobarla, es TABLA III. VALORACIÓN CVSS DE CLAIM ROOT ROLE decir determinar si efectivamente es una vulnerabilidad que es susceptible de ser explotada o Métrica Base Valor aprovechada. Las técnicas y herramientas son sugeridas, pero no quedan limitadas a esas. Vector de ataque Adyacente Complejidad de ataque Bajo • Valoración CVSS. En esta fase se debe estimar el grado de severidad de la vulnerabilidad que permite Privilegios requeridos Ninguno el ataque exitoso. Para la valoración se determina con Interacción con usuario Ninguno el uso de la calculadora de CVSS versión 3. Alcance Sin cambios • Mitigación de la vulnerabilidad. El estudiante Confidencialidad Ninguno deberá plantear las recomendaciones de mitigación Integridad Ninguno asociadas a las soluciones que hayan determinado los fabricantes, sin embargo, no queda limitado a ese Disponibilidad Bajo aspecto, por lo que el estudiante puede generar Puntuación Base CVSS v3.0 4.3 propuestas de mitigación diversas pero que deberá mostrar su eficiencia. • Alineación con los controles CIS. En esta última La Tabla III muestra el resultado de la valoración del nivel fase el estudiante deberá analizar la correspondencia de severidad CVSS para el ataque de Claim Root Role que se entre la vulnerabilidad de la prueba de concepto establece en 4.3 como nivel medio, debido a que el vector de desarrollada con algún o algunos controles que CIS ha ataque es de modo adyacente, significa que se necesita estar formulado. en el mismo dominio de broadcast para explotar la vulnerabilidad, además de solo afectar a la disponibilidad de A. Prueba de concepto de Claim Root Role una forma baja. Sobre la topología base, se realizó la configuración de B. Prueba de concepto de aprovechamiento de CDP STP, definiendo a uno de los switches en el rol de “puente raíz” (root bridge) modificando la prioridad asociada. La Fig. El protocolo CDP, propietario de Cisco, tiene la función 2 muestra el escenario. de mantener informado a los equipos vecinos acerca del tipo de dispositivo conectado y sus características (marca, modelo, La prueba de Claim Root Role consiste en la posibilidad versión de IOS, etc.), por lo que esta información puede ser de obtener el rol de Root para una topología conmutada con el obtenida aprovechándose de la actividad del protocolo CDP 184 en las interfaces que no son necesarias como aquellas negociar un enlace para convertirse en un enlace troncal o no. conectadas a dispositivos finales (PCs, laptops, impresoras, Para tal efecto, las interfaces deben tener habilitado la etc.). Se considera un ataque de reconocimiento. negociación dinámica. La vulnerabilidad radica en que la Para realizar la prueba de concepto se utilizó la negociación está habilitada por defecto en las interfaces que herramienta Yersinia en modo interactivo. En la Fig. 3 se conectan dispositivos finales, por lo que esto puede ser puede observar la información obtenida a partir del envío de aprovechado por atacantes para establecer un enlace troncal mensajes CDP. La información obtenida en el ejercicio es de no deseado, consiguiendo de esta manera al tráfico de todas un equipo Catalyst 2960, de 24 puertos FastEthernet, que las VLANs permitidas en los enlaces troncales. incluye datos sobre el IOS o sistema operativo del equipo. La Para realizar la prueba de concepto se utilizó la valoración de la vulnerabilidad se muestra en la Tabla III. herramienta Yersinia. Para mitigar el aprovechamiento del protocolo de descubrimiento se debe deshabilitar los anuncios de CDP en las interfaces que no están conectados a equipos de red. Para deshabilitar en una interfaz específica: S(config-if)#no cdp enable Fig. 4. Topología para Pruebas de Concepto de DTP Fig. 3. Información obtenida de CDP En la Fig. 5, se puede observar la negociación del protocolo DTP para lograr un enlace troncal con el equipo TABLA IV. VALORACIÓN CVSS DE APROVECHAMIENTO CDP atacante. Métrica Base Valor Vector de ataque Adyacente Complejidad de ataque Bajo Privilegios requeridos Ninguno Interacción con usuario Ninguno Alcance Sin cambios Confidencialidad Bajo Fig. 5. Negociación DTP con Yersinia Integridad Ninguno Después de la negociación de enlace troncal, se puede Disponibilidad Ninguno verificar en el switch (S1) estableció un enlace troncal de Puntuación Base CVSS v3.0 4.3 forma automática. La Fig. 6 muestra la tabla de enlaces troncales en el switch S1, y la interfaz Fa0/19 se ha convertido en un enlace troncal, y esta interfaz es la que conecta a una La Tabla IV muestra el resultado de la valoración del nivel de PCs que es el equipo atacante. severidad CVSS para la vulnerabilidad que permite el aprovechamiento CDP, el cual está establecido en 4.3, es decir un nivel medio, debido a que el vector de ataque es de modo adyacente, significa que se necesita estar en el mismo dominio de broadcast para que el ataque sea exitoso, además de solo afectar la confidencialidad de manera baja. C. Prueba de concepto de ataque a DTP (Dynamic Trunk Protocol) Para realizar la prueba de concepto para la explotación referida a VLAN en switches se ha establecido el escenario mostrado en la Fig. 4. El Protocolo Troncal Dinámico (DTP por sus siglas en Fig. 6. Enlaces Troncales en el switch S1. inglés) propietario de Cisco, tiene como función principal 185 Asimismo, se puede visualizar en la Fig. 7, el tráfico capturado que pertenece a otras VLANs, en este caso de la VLAN 10 (10.1.10.0/24). Fig. 7. Tráfico de otras VLAN capturado La Tabla V muestra el resultado de la valoración del nivel de severidad CVSS para la vulnerabilidad que permite el ataque a DTP, el cual está establecido en 4.3, es decir un nivel medio, debido a que el vector de ataque es de modo adyacente, significa que se necesita estar en el mismo dominio de broadcast para que el ataque sea exitoso, además de solo afectar la confidencialidad de manera baja. TABLA V. VALORACIÓN CVSS DE ATAQUE A DTP Métrica Base Valor Vector de ataque Adyacente Fig. 8. Topología para Prueba de Concepto de DHCP Spoofing Complejidad de ataque Bajo Privilegios requeridos Ninguno Interacción con usuario Ninguno Alcance Sin cambios Confidencialidad Bajo Integridad Ninguno Disponibilidad Ninguno Puntuación Base CVSS v3.0 4.3 Para evitar la negociación de un enlace troncal en Fig. 9. Módulo de Mestasploit auxliary/server/dhcp interfaces no deseadas, se debe suprimir la negociación en la interfaz específica, de la siguiente forma: S(config-if)# switchport mode access | trunk S(config-if)# switchport nonegotiate D. DHCP Spoofing La prueba de concepto para DHCP Spoofing requiere de un servidor legitimo en la red experimental construida para las pruebas anteriores. La Fig. 8 muestra el escenario utilizado para el tipo de ataque de suplantación de servidor DHCP. La Fig. 9 y Fig. 10 muestran los resultados de la prueba, utilizando como herramienta el módulo de Metasploit Framework auxiliary/server/dhcp. Los hosts de la red local que tienen habilitado la configuración de sus direcciones IP mediante DHCP, recibiendo los parámetros falsos del servidor DHCP Rogue. La Tabla VI muestra el resultado de la valoración del nivel de severidad CVSS para la vulnerabilidad que permite el Fig. 10. Módulo de Mestasploit auxliary/server/dhcp aprovechamiento CDP, el cual está establecido en 5.3, es decir un nivel medio, debido a que el vector de ataque es de modo Para la mitigación se debe habilitar port-security y DHCP adyacente, significa que se necesita estar en el mismo dominio snooping en los switches para evitar el procesamiento y de broadcast para que el ataque sea exitoso, además de afectar reenvío de mensajes DHCP (DHCPOFFER, la confidencialidad y disponibilidad de manera baja. DHCPDICOVER, DHCPREQUEST y DHCPACK) por los puertos de switch que no son de confianza; es decir por aquellos puertos donde no debería estar conectado un servidor DHCP. 186 TABLA VI. VALORACIÓN CVSS DE PRUEBA DE DCHP SPOOFING TABLA VII. VALORACIÓN CVSS DE PRUEBA DE ARP SPOOFING Métrica Base Valor Métrica Base Valor Vector de ataque Adyacente Vector de ataque Adyacente Complejidad de ataque Bajo Complejidad de ataque Bajo Privilegios requeridos Ninguno Privilegios requeridos Ninguno Interacción con usuario Ninguno Interacción con usuario Ninguno Alcance Sin cambios Alcance Sin cambios Confidencialidad Bajo Confidencialidad Alto Integridad Ninguno Integridad Ninguno Disponibilidad Bajo Disponibilidad Ninguno Puntuación Base CVSS v3.0 5.4 Puntuación Base CVSS v3.0 6.5 E. ARP Poisoning – Main-in-the-middle La Tabla VII muestra el resultado de la valoración del Un ataque de hombre en el medio a nivel de capa 2, nivel de severidad CVSS para la vulnerabilidad que permite el requiere de un ataque previo como el de envenenamiento de al ataque de ARP Spoofing el cual está establecido en 6.5, es ARP (ARP Poisoning) para que sea efectivo. La Fig. 11 decir un nivel medio, debido a que el vector de ataque es de muestra la topología utilizada para este tipo de prueba. modo adyacente, significa que se necesita estar en el mismo dominio de broadcast para que el ataque sea exitoso, además Las herramientas utilizadas para esta prueba fueron de afectar la confidencialidad de forma alta, porque es posible Ettercap para el envenenamiento de las tablas ARP de los la captura de mensajes eventualmente no cifrados que pueden hosts víctimas (ver Fig. 12) y el Wireshark para la verificación contener información sensible o confidencial. del ataque. La valoración de la vulnerabilidad se muestra en la Tabla VI. Para mitigar los ataques por envenenamiento de ARP, se debe habilitar el mecanismo de inspección dinámica de ARP en los puertos del switch F. Ataque de diccionario Telnet y SSH Para las pruebas de autenticación con protocolos de acceso remoto como TELNET y SSH, se realizaron ataques de diccionario. Como se muestra en la Fig. 13, los equipos admiten gran cantidad de intentos para autenticarse, lo que resulta una debilidad que puede ser aprovechada por agentes maliciosos al utilizar diccionarios que pueden ser elaborados de forma personalizada y ser exitosos al encontrar una credencial válida. Fig. 11. Topología para la prueba de concepto de ARP Poisoning Fig. 13. Ataque de diccinario Telnet La herramienta utilizada para esta prueba fue Hydra con un diccionario elaborado con palabras comunes que corresponden a contraseñas para este tipo de dispositivos. La Tabla VIII muestra el resultado de la valoración del nivel de severidad CVSS para la vulnerabilidad que permite el ataque de diccionario contra servicios de Telnet y SSH, el cual está establecido en 5.3, es decir un nivel medio, debido a que el vector de ataque es a nivel de red, significa que es posible realizar el ataque de forma remota desde otros segmentos de red, además de afectar solo la confidencialidad de manera Fig. 12. Envenenamiento de ARP con Ettercap baja. 187 TABLA VIII. VALORACIÓN CVSS DE PRUEBA DE ATAQUE DE TABLA X. RÚBRICA PARA DESARROLLO DEL LABORATORIO DICCIONARIO CONTRA SERVICIOS TELNET Y SSH Criterio Nivel Métrica Base Valor (4) Excelente. Vector de ataque Red Identifica con éxito la vulnerabilidad con el apoyo de herramientas adecuadas o de forma manual con Complejidad de ataque Bajo previa detección de la presencia de operación de Privilegios requeridos Ninguno protocolo y/o puerto asociado. (3) Satisfactorio Interacción con usuario Ninguno Puede identificar la vulnerabilidad con el apoyo de herramientas adecuadas o de forma manual con Alcance Sin cambios Identificación de previa detección de la presencia de operación de Confidencialidad Bajo vulnerabilidad protocolo y/o puerto asociado. Integridad Ninguno (reconocimiento) (2) Puede Mejorar Ocasionalmente puede identificar la vulnerabilidad con el apoyo de herramientas adecuadas o de forma Disponibilidad Ninguno manual con previa detección de la presencia de Puntuación Base CVSS v3.0 5.3 operación de protocolo y/o puerto asociado. (1) Inadecuado (necesita ayuda) Necesita asistencia para identificar la vulnerabilidad Para mitigar esta vulnerabilidad se recomienda limitar el con uso de herramientas adecuadas o de forma manual con previa detección de la presencia de origen de las conexiones con listas de control de acceso operación de protocolo y/o puerto asociado (ACL). (4) Excelente. Verifica con éxito la presencia de la vulnerabilidad G. Alineación con los Controles CIS con el apoyo de herramientas seleccionadas De acuerdo con la rúbrica formulada, el estudiante deberá adecuadamente. asociar las pruebas de concepto con los controles que (3) Satisfactorio correspondan a los 20 controles críticos publicado por el Puede verificar la presencia de la vulnerabilidad con el apoyo de herramientas seleccionadas Center for Internet Security (CIS). Un ejemplo de esta Verificación de adecuadamente. correspondencia se puede apreciar en la Tabla IX, donde se vulnerabilidad (2) Puede Mejorar observa que se alinean principalmente con dos sub-controles Ocasionalmente puede verificar la presencia de la correspondientes al control 11 de CIS “Configuración segura vulnerabilidad con el apoyo de herramientas de los equipos de red, tales como cortafuegos, enrutadores y seleccionadas adecuadamente conmutadores”. (1) Inadecuado (necesita ayuda) Necesita asistencia para verificar la presencia de la TABLA IX. ALINEACIÓN CON LOS CONTROLES DE CIS vulnerabilidad con el apoyo de herramientas seleccionadas adecuadamente Prueba de concepto Sub Control Descripción (4) Excelente. Claim root role Realiza con éxito la valoración de cada Suplantación de vulnerabilidad verificada con las métricas base de servidor DHCP Mantenga CVSS v3 y considerando las características de las ARP Poisoning, Man- 11.1. Mantener configuración de pruebas de concepto. in-the-middle configuraciones de seguridad (3) Satisfactorio Aprovechamiento de seguridad estandarizadas y Puede realizar la valoración de cada vulnerabilidad CDP estandarizadas en documentados para verificada con las métricas base de CVSS v3 y equipos de red todos los equipos de Salto de VLAN considerando las características de las pruebas de red autorizados Aprovechamiento Valoración concepto. DTP CVSS (2) Puede Mejorar Todas las reglas de Ocasionalmente puede realizar la valoración de cada configuración que vulnerabilidad verificada con las métricas base de permiten que el CVSS v3 y considerando las características de las tráfico fluya a través pruebas de concepto. de dispositivos de red (1) Inadecuado (necesita ayuda) deben documentarse Necesita asistencia para realizar la valoración de cada vulnerabilidad verificada con las métricas base 11.2. Documentar en un sistema de gestión de de CVSS v3 y considerando las características de las las reglas configuración con un pruebas de concepto. Ataque de fuerza bruta de configuración de fin de negocio (4) Excelente. Identifica con éxito la solución para mitigación y tráfico específico para cada regla, el nombre de un describe correctamente el procedimiento de la individuo específico aplicación de las recomendaciones técnicas responsable de esa asociadas a la solución de mitigación. necesidad de negocio (3) Satisfactorio y una duración Puede identificar la solución para mitigación y esperada de la Mitigación de la describe correctamente el procedimiento de la necesidad vulnerabilidad aplicación de las recomendaciones técnicas asociadas a la solución de mitigación. (2) Puede Mejorar H. Rúbrica para el desarrollo del Laboratorio Ocasionalmente identifica la solución para La rúbrica formulada es la que se muestra en la Tabla X mitigación y describe el procedimiento de la aplicación de las recomendaciones técnicas que abarca las fases del Laboratorio propuesto. asociadas a la solución de mitigación. (1) Inadecuado (necesita ayuda) 188 Necesita asistencia para identificar la solución de AGRADECIMIENTOS mitigación y describir correctamente el procedimiento de la aplicación de las Al Laboratorio de Redes y Seguridad y a la Facultad de recomendaciones técnicas asociadas a la solución de Ingeniería en Informática y Sistemas de la Universidad mitigación. Nacional Agraria de la Selva. (4) Excelente. Establece con éxito la correspondencia entre la vulnerabilidad y algún control o controles de CIS. (3) Satisfactorio REFERENCIAS Puede establecer la correspondencia entre la Alineación con vulnerabilidad y algún control o controles de CIS (2) Puede Mejorar [1] M. A. Rahman y E. Al-Shaer, «A declarative approach for global controles CIS Ocasionalmente establece la correspondencia entre network security configuration verification and evaluation,» de 12th la vulnerabilidad y algún control o controles de CIS IFIP/IEEE International Symposium on Integrated Network (1) Inadecuado (necesita ayuda) Management, 2011. Necesita asistencia para establecer la [2] ISO/IEC, «ISO/IEC 27002 -Tecnología de la Información – correspondencia entre la vulnerabilidad y algún Técnicas de seguridad – Código para la práctica de la gestión de la control o controles de CIS seguridad de la información,» ISO, 2013. [3] J. Cioara, D. Minutella y H. & Stevenson, Exam Prep CCNA 640- 802., Indianapolis: Pearson Education, 2008. IV. DISCUSIÓN [4] W. K. Alzubaidi, L. Cai y S. A. Alyawer, «A New Verification El Laboratorio propuesto es una forma efectiva de Method To Prevent Security Threads Of Unsolicited Message In Ip fortalecer y apoyar el proceso de enseñanza-aprendizaje de la Over Ethernet Networks,» International Journal of Computer Networks & Communications, vol. 4, nº 6, pp. 21-31, 2012. seguridad de redes, específicamente en infraestructuras [5] The MITRE Corporation., «CVE - Common Vulnerabilities and basadas en switches administrables. Exposures,» 2019. [En línea]. Available: https://cve.mitre.org/. Las pruebas de concepto seleccionadas y las [Último acceso: noviembre 2018]. vulnerabilidades comunes son básicas, que en entornos de red [6] O. Santos y J. & Stuppi, CCNA Security 210-260, Indianapolis: de producción maduros probablemente no estan presentes, sin Pearson Education - CiscoPress, 2015. embargo, son vulnerabilidades aún vigentes y vectores de [7] FIRST.org, Inc, «Common Vulnerability Scoring System v3.1: ataques válidos, además de ser una fuente de aprendizaje Specification Document,» 2019. [En línea]. Available: https://www.first.org/cvss/v3.1/specification-document. [Último importante para los estudiantes de carreras afines. acceso: enero 2019]. En trabajos futuros es posible ampliar las características [8] Center for Internet Security, «Center for Internet Security,» 2019. de las pruebas de concepto utilizando equipos de diversos [En línea]. Available: https://www.cisecurity.org. [Último acceso: Diciembre 2018]. fabricantes y controles adicionales como los contemplados en la ISO/IEC 27001, PCI, entre otros, de tal forma que el [9] W. R. Marchand, E. Vega y J. Santillan, «Capture the Flag for Computer Security Learning,» de IX Congreso Iberoamericano de estudiante tenga un panorama más completo de los aspectos Seguridad Informática y IV Taller Educativo TIBETS, Buenos técnicos y de gestión de la seguridad informática; asimismo es Aires, 2017. deseable pasar a niveles más sofisticados de pruebas de [10] A. Bechtsoudis y N. Sklavos, «Aiming at Higher Network Security concepto como la manipulación de mecanismos de Through Extensive Penetration Tests,» IEEE Latin America criptografía, o ataques de Denegación de Servicio (DoS). Transactions, vol. 10, nº 3, pp. 1752-1756, 2012. [11] D. Shmaryahu, «Constructing Plan Trees for Simulated Penetration Las herramientas utilizadas no son las únicas con las que Testing,» de The 26th International Conference on Automated se puede desarrollar los laboratorios, sin embargo, se Planning and Scheduling, London, 2016. recomienda analizar cómo opera cada herramienta que se [12] A. Tewai y A. Kumar Misra, «Evaluation and Taxonomy of pretenda usar. El estudiante puede elegir distintas Penetration Testing,» International Journal on Recent and herramientas a las establecidas para el laboratorio, lo que Innovation Trends in Computing and Communication, vol. 3, nº 8, puede permitir desarrollar capacidades de análisis pp. 5297 - 5302, 2015. complementarias. [13] Cisco System, CCNA Routing & Switching, California: Cisco Press, 2016. Las recomendaciones de mitigación o corrección de las [14] Y. Bhaiji, «Understanding, Preventing, and Defending Against vulnerabilidades pueden ser tomadas de las indicaciones de Layer 2 Attacks,» 2009. [En línea]. Available: los fabricantes, pero también pueden ser propuestas por el https://www.cisco.com/c/dam/global/en_ae/assets/exposaudi2009/as estudiante mostrando su eficiencia. De esta manera se deja sets/docs/layer2-attacks-and-mitigation-t.pdf. [Último acceso: abierto a las posibilidades de generar soluciones diversas. Octubre 2018]. [15] G. Weidman, Penetration Testing. A Hands-on Introduction to V. CONCLUSIONES Hacking, San Francisco, California: Law, 2014. El Laboratorio propuesto como una forma de soporte y [16] N. Jaswal, Mastering Metasploit, Birmingham, Mumbai: Packt Publishing, 2015. apoyo al proceso de enseñanza-aprendizaje de la seguridad de redes a nivel universitario ofrece un paquete práctico que [17] C. McNab, Network Security Assessment, San Francisco: O Relly Media, 2015. incluye las fases generales y comunes de un ataque (seguridad ofensiva), los procedimientos de mitigación (seguridad [18] P. Gonzáles Pérez, Metasploit para pentester, Madrid: 0xWord, 2014. defensiva) y los controles de seguridad basados en una [19] T. Kiravuo, M. Sarela y J. Manner, «A Survey of Ethernet LAN referencia válida como CIS (gestión de la seguridad Security,» IEEE COMMUNICATIONS SURVEYS & TUTORIALS, informática). Este laboratorio, aunque limitado a un solo vol. 15, nº 3, p. 1477–1491, 2013. fabricante y tipo de control, es útil y motivador. 189 William-Rogelio Marchand-Niño, Ingeniero de Sistemas otorgado por la Universidad Nacional del Centro del Perú, con maestría en Dirección Estratégica de TI de la Universidad de Piura, con 18 años de experiencia académica en UNAS, UDH, UPLA. Desde el año 2004 es profesor asociado en la UNAS. Ha impartido más de 90 cursos de pregrado en diferentes universidades. Instructor CISCO por 12 años. Posee múltiples certificaciones de la Industria como PMP, ITIL Foundation, CCNA, MTA. Director del Centro de Tecnologías de Información y Comunicación de la Universidad Nacional Agraria de la Selva. Miembro Senior de la IEEE. José Martin Santillan Ruiz, Ingeniero en Informática y Sistemas de la Universidad Nacional Agraria de la Selva. Profesor auxiliar en la UNAS, con mas de 7 años de experiencia en docencia. Miembro IEEE. Coordinador del área de Gestión de la Red Corporativa en el Centro de Tecnologías de la Información y Comunicación de la UNAS-Perú en el año 2016-2017. 190 Estrategias para la implementación y adopción de componentes curriculares de ciberseguridad en programas de grado y posgrado F.A. Corredor 1, D. C. Franco 2, J. E. Martínez3. Resumen - This paper presents the approach and informática o computación, como son la computación application of strategies to assume two big problematic aspects of inteligente, big data y analítica, cloud computing, IoT y the cybersecurity sector, in which higher education institutions together with other stakeholders (productive sector and ciberseguridad, que conllevan a tomar decisiones de cobertura government) should cooperate and establish appropriate a nivel curricular para dejar componentes en el núcleo de solutions. As a first aspect, the curricular design for integral formación – obligatorio – de las planes de estudio y dejar training in cybersecurity is assumed, due to the density of otros desde la oferta de electivas. themes, references of criteria and competences, which contrasts with the restrictions of space in the curricula of degree programs En el caso de ciberseguridad; se debe ser cuidadoso en la in information technologies (I.T.) with which you must address forma de estructurar y organizar la gran densidad de sus ejes issues of foundation, deepening and emerging. moreover, the industry demand of the cybersecurity professionals, which temáticos, para responder al contexto local y global, pero currently exceeds supply; generating a global risk in también al proceso pedagógico que capte la atención de organizations. The strategy is being implemented in a Colombian estudiantes, motivándolos hacia el área de la ciberseguridad University, involving actively the student body to capture their (seguir formándose y ejercer laboralmente) y contribuir a la interest in the area, as an objective of integral training and a disminución del déficit de profesionales en ciberseguridad que graduated that generates labor supply. sigue en aumento. Palabras Clave - Cybersecurity education, systems engineering, curricular strategies, undergraduate computing El artículo presenta los aspectos que definen el problema y programs. propone una estrategia que está siendo adoptada en una universidad pública en Colombia, posteriormente una discusión de los aspectos encontrados y finalmente las conclusiones. I. INTRODUCCIÓN II. CONTEXTO DEL PROBLEMA LA ciberseguridad es un aspecto que ha sido reconocidocomo elemento estratégico a nivel organizacional, La amplia dependencia tecnológica de las sociedades y abordado desde los diferentes estándares (CSF NIST, sectores económicos ha venido presentando una preocupante COBIT, ISO27001, ISO 27103, entre otros) y herramientas de situación de riesgos a nivel de ciberseguridad, donde el software para gestión y operación específica, pero aunque hay eslabón más débil sigue siendo el recurso humano interno de cierto grado de consenso en los aspectos disciplinares propios las organizaciones (menos del 40% de las organizaciones de los contenidos tecnológicos, se genera cierto desacuerdo en realiza capacitación y concienciación del personal [1]) y la los aspectos metodológicos y las temáticas a desarrollar, por principal amenaza la generan en su mayoría atacantes las limitantes de espacio en los currículos de los programas humanos externos (69% de los ataques son generados por outsiders y el 52% de los ataques involucra operaciones de profesionales de tecnologías de información (T.I.). hacking [2]) lo cual dificulta las operaciones de protección y Desde la academia, se debe considerar esa gran cantidad de lo convierte en un problema que continúa en aumento. Esto ha ejes temáticos y enfoques, así como la oferta de programas no generado la demanda de personal calificado para implementar formales y certificaciones, lo que dificulta garantizar la una serie de factores de atención, gestión y operación, que calidad y la secuencia organizada en ciclos y niveles de garanticen su adecuado funcionamiento, dar cumplimiento a formación. Los diseños microcurriculares deben velar por legislación específica y estar preparados ante las amenazas y desarrollar una gama de competencias (definidas por ABET, vulnerabilidades que puedan materializar el riesgo. Esto ABET CSAB, ACOFI, CSEC) las cuales deben cubrir acarrea varias situaciones de consideración para las aspectos generales y específicos de áreas fundamentales como instituciones de educación superior: la algoritmia y lógica, matemáticas, bases de datos, - El poco espacio de los currículos para asumir todos comunicaciones, etc. Pero también temas más avanzados que los temas emergentes y las competencias básicas, en son de relevancia para los currículos de ingeniería de sistemas, el núcleo obligatorio de los planes de estudio. Lo que 1 Felipe Andrés Corredor, M.Sc., Universidad de los Llanos, Grupo de Investigación GITECX, felcorredor@unillanos.edu.co. 2 Diana Franco Mora, M.Sc., Universidad de los Llanos, Grupo de Investigación GITECX, dfranco@unillanos.edu.co. 3 Javier Eduardo Martínez, Mg., Universidad de los Llanos, Grupo de Investigación GITECX, jmartinez@unillanos.edu.co. https://doi.org/10.12804/si9789587844337.19 191 implica tomar decisiones y acciones respecto a las disciplina de la ciberseguridad establecida en el CSEC 2017 – estrategias para formar integralmente a los nuevos Cybersecurity “Curriculum Guidelines for Post-Secondary profesionales con los conocimientos y capacidades Degree Programs in Cybersecurity”, que establece las suficientes en ciberseguridad. características de un programa de ciberseguridad y sus componentes estructurales del currículo como son : seguridad - Incrementar la oferta de profesionales en de datos, seguridad de software, seguridad de componentes, ciberseguridad, ante la creciente demanda, que en la seguridad en conexiones, seguridad en sistemas y seguridad en actualidad presenta un déficit de tres millones de el recurso humano [6]. Lo cual es completamente compatible profesionales de ciberseguridad en el mundo; lo que con la perspectiva asumida en cada uno de los elementos implica que deben plantearse estrategias (incluso planteados anteriormente para formación integral en el extracurriculares) que incentiven el interés y agrado programa de ingeniería de sistemas de la Universidad de los por esta disciplina. Llanos; cuyo diseño se basó en un enfoque hibrido entre el lineamiento curricular en tecnologías de información – En ambos casos, el sector educativo debe disponer de personal TI.2017 [5] y Ciencias de la computación CS.2013 [7] de con amplio nivel de conocimiento teórico y aplicado, con ACM-IEEE. visión analítica, crítica y conocimiento del contexto local y TABLA I. global. Lo cual conlleva a unir esfuerzos y capacidades de los ASPECTOS CURRICULARES DE REFERENCIA, ACM-IEEE profesionales del sector educativo con los profesionales del sector productivo [3]. Y aunque los tiempos de la academia Enfoque Áreas o aspectos de referencia son difíciles de sincronizar con los tiempos que maneja la Tecnologías de ITE-CSP Cybersecurity Principles (6% del industria, deben establecerse canales de cooperación y trabajo Información. T.I. 2017 currículo obligatorio) y ITS-CEC Cybersecurity Emerging Challenges (4% complementario) colaborativo que permitan mantener esa retroalimentación Ciencias de la IAS (Information Assurance and Security) Es para los respectivos propósitos. (Formación, investigación y computación. C.S. una de las 18 áreas de conocimiento en el núcleo proyección social, así como la continuidad del negocio, 2013 del plan de estudios; Dispone de seis horas en el innovación y oferta de servicios). Los proyectos de núcleo y 31,5 horas de lAS distribuidas en otras investigación, pasantías, cursos de formación bajo demanda, áreas. organización de eventos de concienciación, son algunas Ciberseguridad. CSEC Ciberseguridad como disciplina y áreas de la estrategias muy efectivas de propósitos comunes en ambos 2017 Seguridad: datos, software, componentes, sectores. conexiones, sistemas y humano, así como la perspectiva de la industria. En el primer aspecto, “diseño curricular” necesario, apropiado, La Universidad de los Llanos, desde la Facultad de Ciencias y suficiente; las instituciones diseñan y adoptan una serie de Básicas e Ingeniería cuenta con programas formales de grado estrategias para abordar una formación integral en y posgrado, así como de programas no formales como ciberseguridad [4], en la cual se pueden definir y asumir los diplomados, en los cuales, se ha logrado introducir el siguientes componentes: componente de ciberseguridad, manteniendo una línea secuencial de temáticas y niveles de profundidad.  Teóricos: Matemáticas, probabilidad, estadística, grafos, teoría de la información, criptografía TABLA II. (sustitución, permutación, difusión, confusión, cifra CRÉDITOS EN CIBERSEGURIDAD EN PROGRAMAS DE T.I. simétrica en bloque y en flujo, cifra asimétrica, EN LA UNIVERSIDAD DE LOS LLANOS funciones hash, intercambio de clave, firma digital) y Programa Nivel Creiditos Créditos. Aval MEN complejidad algorítmica. total Relación.  Tecnológicos: Programación, Sistemas operativos, Cibersegur sistemas distribuidos, Redes y comunicaciones, Arquitectura Diploma No requerido sistemas web y servicios telemáticos, arquitectura de de software y do 96 Horas 48 Horas seguridad (2019) software e infraestructura, etc. y sus respectivas habilidades tecnológicas. Ingeniería de Alta Calidad Grado 165 8 (2016) por 6  Organizacionales: Estándares y buenas prácticas de Sistemas años. ISO, IEEE, NIST, OWASP, etc. Sistemas de gestión Registro (procesos, riesgos, ciberseguridad), gobernanza de Ingeniería Electrónica Grado 169 4 Calificado T.I., etc. (2017) por 7 años  Éticos y legales. Códigos de ética (Copnia – ley 842 de 2003, Código de ética de ACM), Ley 1273 de Registro Ingeniería de Especial calificado 2009, Ley 1928 de 2018 - Acuerdo de Budapest, Ley Software ización 28 3 (2014) por 7 1581 de 2012 (Protección de dato personales), Ley años. 1712 de 2014 (Transparencia de la información Maestría En pública). Tecnologías , En Construcción, Digitales 52 5 actualización al  Habilidades blandas: liderazgo, trabajo en equipo, emergentes construc decreto 1330 del comunicación verbal y escrita, argumentación, ción. MEN resolución de problemas, gestión del tiempo, etc. [5] A nivel de pregrado, ciberseguridad se desarrollará a través de En una amplia gama de enfoques que provee la disciplina de un curso obligatorio, nuevo, en séptimo semestre denominado ciberseguridad se hace necesario estructurar una secuencia “seguridad de la información” y un curso de profundización adecuada de ejes temáticos en diferentes niveles de formación en décimo semestre denominado Curso de Profundización III profesional y tomando como referentes los lineamientos – “aspectos avanzados de ciberseguridad” del área de curriculares internacionales, provistos por ACM-IEEE desde teleinformática; plan de estudios que se encuentra acreditado los enfoques de la computación, pero principalmente desde la 192 de alta calidad por el MEN Colombia para un periodo de seis por la asociación Colombiana de Ingenieros de sistemas años. (ACIS) a través de la cual concluye que solo el 28% de los empresarios reconoce que se están ofreciendo programas de grado y posgrado formales en ciberseguridad y el 31% considera que no hay suficiente investigación en el área [11]. A esto se suma que a nivel mundial existe un gran déficit de profesionales en ciberseguridad, según lo plantea la Organización de Estados Americanos (OEA) y que afecta seriamente la adopción de su programa de ciberseguridad por parte de las organizaciones y los gobiernos del continente [12] y más crítico aún; lo planteado en el estudio de la fuerza laboral de Ciberseguridad de ISC, en el cual se determinó que el déficit ya se encuentra por el orden de tres millones de profesionales: “Una escasez de casi tres millones: este número puede parecer abstracto, pero está teniendo un impacto en el mundo real, en las empresas y en las personas que son responsables de su ciberseguridad. Según la encuesta, el 63% de los encuestados informan que sus organizaciones tienen escasez de personal de TI dedicado a la ciberseguridad. Y casi el 60% dice que sus empresas Figura 1. Estudiantes Décimo semestre, Curso de Seguridad de información, Ingeniería de sistemas. están en niveles moderados de riesgo extremo de ataques de ciberseguridad debido a esta escasez”. [13]. En Asia se concentra el mayor déficit con 2,17 millones, luego Estados Unidos con cerca de A nivel de posgrado, desde la especialización en Ingeniería del medio millón y Latinoamérica con 0,2 millones. Para el caso de software, se oferta una electiva denominada “ciberseguridad y Colombia, el déficit se debe en gran parte a la normatividad hacking ético”, la cual tiene un enfoque ofensivo, donde se que ha venido surgiendo en términos de protección de datos presentan aspectos de gestión y se sigue un proceso personales, ley de transparencia de la información pública y el metodológico de penetration testing (PTES – Penetration CONPES 3854 de 2016, los cuales establecen nuevas Testing Execution Estándar) [8], hasta la entrega de reporte y obligaciones y condiciones para las organizaciones en torno a plan de acción. Así mismo se presentó una electiva en un la seguridad de información. programa de maestría con aspectos avanzados de criptografía y aplicaciones pasando por PKI y blockchain, hasta modelos de seguridad y arquitectura de seguridad. Estos cursos de Por esta razón las instituciones deben acompañar las posgrado pueden ser tomados por estudiantes de Ingeniería de iniciativas gubernamentales en torno al área y brindarle al sistemas como opción de grado. estudiante insumos iniciales para permanecer explorando oportunidades como: A nivel de educación no formal, se diseñó y desarrolló un diplomado denominado “Arquitectura de software y - Becas de formación posgradual: MINTIC, seguridad”, que está estructurado con el enfoque de seguridad Colciencias – línea de investigación en para aplicaciones web, así como la arquitectura de ciberseguridad y ciberdefensa [14], Fulbright, infraestructura y la arquitectura de software, tomando como Colfuturo, etc. referente principal la guía de pruebas de OWASP 4.0 (OTG4) [9]. - Becas de cursos, eventos y certificaciones: MinTIC y OEA simposium, Cybersecurity women challenge, Para el segundo aspecto problemático, planteado en este OWASP Latam Tour, Foros Universitarios en artículo, que implica el déficit de profesionales en seguridad Digital (Universidad de los Andes). ciberseguridad, se requiere trabajar anticipadamente para que el estudiante mantenga el interés en la disciplina después del - La Universidad de los Llanos brinda matrícula grado profesional, para ejercer en el área y continuar gratuita a cualquiera de sus programas de posgrado al capacitándose (preferiblemente con incentivos financieros de mejor estudiante por facultad, que haya obtenido apoyo). Diferentes organizaciones y el gobierno han promedio de carrera igual o superior a 4.5. determinado las situaciones de contexto que exponen varios de (Reglamento Estudiantil Universidad de los Llanos – los aspectos problemáticos y las oportunidades que se tienen Acuerdo superior 015 de 2003, Artículo 68) [15]. desde las instituciones que forman para la ciberseguridad: - Cursos en posgrado como opción de grado de los El CONPES 3854 de 2016 que define “la política de seguridad programas de Ingeniería. Electivas de Ciberseguridad digital - Colombiana” plantea la necesidad de formación para ofensiva, criptografía y gestión de seguridad, sus estudiantes en todos los niveles educativos y también para permiten que el estudiante de grado amplíe su perfil. los profesores Universitarios, como se indica literalmente “Solicitar al Ministerio de Educación Nacional: a. Crear contenidos III. DESARROLLO DE LA ESTRATEGIA educativos complementarios relacionados con la gestión de riesgos de seguridad digital, y capacitar a: (i) los estudiantes de educación Teniendo en cuenta que los estudiantes ingresan al programa básica y media, (ii) los estudiantes de educación superior, y (iii) a los de grado en edades que oscilan entre los 15 y 17 años de edad docentes” [10]; labor que han liderado desde el Ministerio de y su dedicación es presencial (tiempo completo), la estrategia las TIC (MINTIC) y las Universidades Colombianas. Sin se ha enfocado en dar continuidad al proceso de formación embargo, esto contrasta con los resultados emitidos por la sobre los aspectos esenciales de ciberseguridad con un encuesta nacional de seguridad informática de 2019 realizada enfoque defensivo (protección) a nivel de grado como 193 Ingeniero de sistemas; para que pueda posteriormente software y seguridad”. 15 estudiantes consolidar y continuar su proceso de formación avanzado en certificados. otros niveles de formación (Diplomado o posgrado) con un 6. Semillero de Creación de un Semillero enfoque más ofensivo. investigación. (Apoyo denominado CYSETH, conformado de estudiantes antiguos por 11 estudiantes y 4 profesores. para liderar los nuevos). Vinculación de 15 estudiantes a Como parte de este proceso, se diseñó y aplicó un instrumento Proyectos de investigación de de levantamiento de información a una muestra del 37% (82 GITECX (Grupo de Investigación estudiantes de 219) de los estudiantes del programa de reconocido por Colciencias). Ingeniería de sistemas de la Universidad de los Llanos, una 7. Grupos de interés – Búsqueda de apoyo y aval universidad pública de orden nacional, lo que permitió capítulo OWASP, rama institucional para iniciar la creación evidenciar aspectos relacionados con el sector de interés para IEEE, Capitulo ACM. del capítulo OWASP regional. Y ejercer la profesión y la concienciación sobre las alianzas con otras iniciativas, que ya implicaciones de la ciberseguridad en su ámbito profesional, existen en la Universidad. de igual manera permitió brindar a los funcionarios y entes 8. Conferencias y 5 conferencias ofrecidas de forma demostraciones de gratuita (3 internas y dos externas – colegiados, responsables del diseño curricular, elementos para Ethical Hacking y Universidad Cooperativa y la toma de decisiones sobre la adopción de los componentes blockchain en Uniminuto) en ciberseguridad, de ciberseguridad en los programas académicos de grado y diferentes semestres. hacking ético, ataques a la posgrado con sus respectivos planes de estudio. autenticación y blokchain. 9. Eventos, retos e Se realizó un foro regional de También se revisó un resultado de autoevaluación del plan de invitados ciberseguridad, un CTF y apoyo a 4 estudios del programa de ingeniería de sistemas realizado en especializados. congresos (CTA – Congreso de tecnologías abiertas) donde se el año 2017, donde se relacionaron varias preguntas, que incluye el tema de ciberseguridad reflejan su grado de variación y permiten evaluar las (conferencistas incluidos). estrategias tomadas en su momento. 10. Encuestas y aná2li esinsc udesl tas Dos instrumentos diseñados y contexto. aplicados a más de 130 estudiantes, los cuales fueron aplicados en 2017 y 2019 11. Banco de proyectos 9 proyectos ejecutados desde el para Trabajo de grado. grupo de investigación GITECX y 7 proyectos asignados desde el semillero CYSETH. Se diseñó un instrumento de levantamiento de información que se aplicó de manera presencial a estudiantes del programa Figura 2. Semillero de Investigación CYSETH de ingeniería de sistemas, de todos los semestres, buscando Las acciones han sido tomadas desde un semillero de indagar tanto por los aspectos propios del diseño curricular y Investigación denominado CYSETH Unillanos de la perspectiva laboral. (CyberSecurity & Ethical Hacking Unillanos), conformado por cuatro profesores, 11 estudiantes (IV –VII semestre) y dos egresados, a partir de las siguientes estrategias adoptadas: TABLA III. ESTRATEGIAS Y RESULTADOS PLAN DE CIBERSEGURIDAD UNIVERSIDAD DE LOS LLANOS Estrategia Resultados 1. Apoyo a la oficina de Construcción de la política de T.I. de la Universidad seguridad de información de la (más de mil empleados Universidad, Apoyo a la y siete mil estudiantes). implementación de ISO 27005 e Diseño de políticas, ISO/IEC 27001 (en proceso). análisis de riesgos. Profesor auditor certificado ISO27001 y estudiantes. Figura 3. Resultados Preg. Nivel de importancia temática ciberseguridad. 2. Auditorías a Auditorías de controles de seguridad dependencias como en el marco de ISO/IEC 27001- proyecto final de un 27002, como proyecto final del curso En cuanto a lo curricular, se establecieron varios aspectos curso en décimo seguridad de la información en relacionados con la caracterización de los estudiantes, así semestre. décimo semestre, desde el año 2015 a como la importancia y necesidad de los temas en el plan de empresas de la ciudad (más de 50 auditorías en los últimos 4 años). estudios. Por otro lado, también se indagaron aspectos 3. Oferta de cursos en Oferta de dos cursos electivos de específicos del agrado por las áreas y sectores del ejercicio posgrado seguridad ofensiva que se han profesional. dictado en cinco cohortes. 4. Diseño curricular en Participación en el diseño de 12 pregrado y posgrado. cursos que proveen requisitos para Muchos estudiantes son proclives al aprendizaje a través de lo asumir cursos de ciberseguridad. Así praxiológico y manifestaron una preferencia por lo práctico como dos cursos específicos en (59%) sobre lo teórico (41%). Esto se puede relacionar con lo pregrado y dos en posgrado. indagado sobre la relevancia de las temáticas que debe incluir 5. Oferta de diplomados. Diseño y ejecución de un programa de diplomado “Arquitectura de un curso de ciberseguridad – ver figura 3, encontrando que los 194 temas asociados directamente con lo tecnológico (Hacking Ante la diversidad de temas de impacto o emergentes que se ético, criptografía y Seguridad en redes, servidores y sistemas deben asumir en los planes de estudio de los programas de operativos) son considerados por los estudiantes, como más T.I., es necesario determinar la percepción e interés, para importantes. Por otro lado, llama la atención que los enfocar los cursos de profundización y electivos en los fundamentos matemáticos, así como los elementos éticos y diferentes niveles de formación. El estudio determinó que el legales tengan una débil percepción de importancia, dentro de 67% de los estudiantes considera que la “Ciberseguridad y los cursos de seguridad; en el sentido de que la criptografía, hacking ético” junto a “Big Data” son los temas de mayor catalogada como muy importante; requiere bastante impacto y deben ser incluidos en el plan de estudios de fundamentación matemática y el hacking ético una sólida manera preferencial, seguidos por “computación inteligente” base ética y legal. De ahí la necesidad de que los profesores con 65%, como se ilustra en la figura 5. Las Temáticas generen esta concienciación y orienten el diseño curricular asociadas a la reutilización de componentes, educación virtual ante estas dualidades. y Aplicaciones a la agroindustria no superan el 15% de interés. Teniendo en cuenta que el instrumento aplicó preguntas con respuestas multidimensionales (cada tema con múltiples opciones de nivel de importancia), se calculó un valor total ponderado por cada temática de la siguiente manera: Total Ponderado = ∑ (Nivel Importancia* Factor Ponderación). Donde al nivel Muy Importante se le asignó un factor de 1 (100%), al nivel Importante 0,7 (70%) al poco Importante 0,3 (30%) y al nada Importante 0 (0%). Obteniendo los valores de la tabla 4. TABLA IV. RESULTADOS DE PONDERACIÓN TOTAL POR TEMAS. Muy Total Temas Importan Important Poco Nada te e importante importante Pondera do Cómputo Forense 23 39 7 0 60,3 Hacking ético 42 26 2 1 71,2 Criptografía 41 28 1 0 71,2 Seguridad en redes, servidores 43 25 1 0 71,2 y Sist. Operat. Gestión de la Figura 5.Resultados 2017 y 2019, Temas de impacto que deben incluirse en el plan de Seguridad 40 27 3 0 69,9 estudios Fundamentación Teórica 7 38 23 1 48 En lo referente contexto de la industria y el sector donde les Matemática. interesa ejercer la profesión; el instrumento permitió Aspectos éticos y legislación 20 39 11 0 57,5 determinar cómo los estudiantes perciben la incidencia de la Seguridad e el adopción tecnológica y legislación (que impone ciertas desarrollo de 44 24 2 0 70,8 condiciones), y su posible incidencia en la escogencia del software sector de interés para ejercer la profesión. Otra 0 0 0 0 0 El 74,4% de los estudiantes consideran que el comercio electrónico y las criptomonedas son el principal factor que incidirá en su ejercicio profesional como futuro Ingeniero de sistemas, de igual manera la normatividad del sector TIC (73,2%), Incremento del uso de aplicaciones móviles (63,4%) y el Incremento de los delitos y riesgos cibernéticos (52,4%), según lo indicado en la figura 6. Figura 4. Estudiantes Décimo semestre, Curso de Seguridad de información, Ingeniería de sistemas. 195 Figura 7. Comparación resultados Percepción estudiantes ética y humanidades. Para el caso de los sectores de la industria de preferencia para ejercer la profesión, se retomó el estudio de autoevaluación de Figura 6. Resultados Percepción, eventos que direccionarán el ejercicio de la Ingeniería 2017 y se cruzaron los resultados de 2019 sobre los 16 de sistemas. sectores de la industria T.I (MINTIC) que habían sido indagados en ese momento; lo que permitió analizar Para la definición de los sectores indagados a los estudiantes, tendencias y se evidenció (ver figura 8) que “de los cinco respecto a la preferencia para ejercer la profesión de ingeniero primeros sectores preferidos en el año 2017 (Big data, Ciberseguridad, metodología SCRUM, redes ópticas, de sistemas, se tomaron los definidos por el MINTIC en el ciudades inteligentes); todos descendieron en interés documento de caracterización de la industria TIC en Colombia excepto ciberseguridad, que presentó un incrementó de [16], por lo cual se asumió el nombre “seguridad informática” 5.1%”, esto en parte debido a las actividades curriculares y literalmente, siendo el más afín a ciberseguridad. extracurriculares promovidas por los actores interesados (profesores estudiantes y semilleros) en la Universidad. Se consultó finalmente por 28 sectores de la industria T.I., encontrando que los sectores de mayor preferencia son De los 28 sectores, se incluyeron 12 sectores nuevos en el Desarrollo y fabricación de software con el 73,1%, seguido estudio actual; en los resultados, uno de ellos se ubicó en el por seguridad informática con el 65,9% y Animación primer lugar general (Desarrollo y fabricación de software) y otro en el tercero (animación digital/videojuegos), ambos con Digital/Video Juegos con el 62,2%. Lo cual es coherente con más del 60% de aceptación. Mientras que siete de estos las iniciativas que el MINTIC viene desarrollando sectores nuevos estuvieron por debajo del 20%. Vale la pena específicamente en estos sectores. resaltar que los sectores desarrollo de software y desarrollo de aplicaciones Web, son dos temas que han dinamizado de IV. DISCUSIÓN manera importante el área de la ciberseguridad a través del proyecto OWASP, que asume de manera directa estos Los parámetros del contexto, así como los temas relevantes y aspectos con enfoque de seguridad y así mismo es una preferencias estudiantiles en el campo de las TIC, deben tener realidad de contexto, que ha presentado un aumento del 56% un seguimiento para identificar tendencias y las motivaciones en los ataques web durante el 2018 [17]. sobre ellas. Cuando se plantea formación integral, es esencial incluir en los currículos el componente ético y humanístico, lo cual también está determinado como criterio de acreditación para programas de ciberseguridad en ABET-CSAB (Cybersecurity and Similarly Named Computing Programs: criterio f. Seguridad Humana y criterio h. Seguridad social) [4], que a su vez se encuentran alineados con las guías curriculares de ACM-IEEE CSEC 2017 (Seguridad en el recurso humano – Privacidad y seguridad en el Comportamiento social, Seguridad de Software – Ética, especialmente en el desarrollo, pruebas y revelación de vulnerabilidades). Para el caso de la Universidad de los Llanos, se creó un nuevo curso en el plan de estudios denominado “ética y humanística” en séptimo semestre y se adopta un capítulo de ética y Figura 8. Sectores de la industria T.I. donde los estudiantes prefieren ejercer la profesión aspectos legales en todos los cursos relacionados con la (Comparativa 2017 - 2019). ciberseguridad, lo cual evidencia un incremento del 54% al 57% en la cantidad de estudiantes que consideran suficiente el Al analizar los resultados de las preferencias de los sectores componente “ético y humanístico” en el plan de estudios para ejercer la profesión y la percepción del grado de (Figura 7). Sin embargo se deben desarrollar nuevas orientación que los eventos sociales y de gobierno puedan dar estrategias para seguir incrementando este indicador que aún al sector de las TIC en Colombia, se procede a cruzarlas, y no es el ideal. tratar de determinar posible incidencia mutua. 196 En este sentido, la figura 9, presenta la correlación de eventos Sin embargo al observarlo desde el total de la población que dinamizadores con los sectores de la industria T.I., donde el escogieron cada sector, la representatividad de mujeres es evento que más se considera dinamizador de la profesión reducida (ver figura 10): Desarrollo y fabricación de software sobre todos los sectores, es el “Comercio electrónico y fue 15%, Animación Digital/Video Juegos con 10%, criptomonedas” con 18% en promedio. Sin embargo, al seguridad informática (9%) y aplicaciones móviles (9%). relacionarlo con los dos sectores preferidos para ejercer Según el estudio de ISC [13], las mujeres representan el 24% laboralmente: “desarrollo y fabricación de software” presenta de la oferta laboral en ciberseguridad a nivel global, de ahí las una incidencia de 56% y “ciberseguridad y hacking ético” iniciativas locales (Universitarias) y de la OEA, que muestran alcanza un 54% respectivamente. De igual manera el evento que a nivel local se tiene una brecha de 15 puntos “delitos y riesgo cibernético” que tiene una relación directa porcentuales. . con las dinámicas de la seguridad informática en 39% como sector para ejercer la profesión, y 38% para desarrollo y fabricación de software. Figura 10. Proporción género – Preferencia sector para ejercer la profesión. V. CONCLUSIONES El diseño curricular debe responder a las necesidades del contexto local, sin desatender los aspectos globales; hay que tomar las múltiples referencias internacionales como un Figura 9. Correlación de Eventos del contexto TIC con las preferencias del sector para complemento a los enfoques de diseño propios y realizar los ejercer la profesión. ajustes respectivos. Es de resaltar el gran aporte de los Otro aspecto que se viene promoviendo desde la OEA y ha lineamientos establecidos en CSEC 2017, que puede ser visto encontrado eco en los gobiernos y organizaciones civiles, es la como un documento de consenso, que integra en gran parte los necesidad de brindar mayor inclusión a la mujer en el campo esfuerzos de importantes organizaciones como ISC, ACM, de la ciberseguridad. Para lo cual se han aplicado estrategias IEEE y ABET entre otros. como el Cyberwomen Challenge en diferentes países (Colombia, Chile, Ecuador, Argentina, Estados Unidos), La realización de proyectos de final de curso o carrera deben otorgando becas y recursos financieros. Sin embargo el estar dirigidos al análisis y solución de problemas del contexto problema no es solo para el campo de la ciberseguridad, sino real, la realización de auditorías de seguridad en el marco de de la ingeniería en general; para el caso particular de este una estrategia pedagógica (proyecto de final de curso de proceso, la distribución porcentual de cantidad de estudiantes profundización en Seguridad de Información en una empresa del programa de ingeniería de sistemas corresponde a 84.9% de la región) es un factor integrador entre la academia y la hombres y 15.06% mujeres y la población tomada para la muestra en este estudio, correspondió a 84% hombres y 16% industria, que proyecta ampliamente al estudiante para mujeres. continuar laborando o estudiando en el sector. En lo referente a preferencias de sector para el ejercicio La mujer en ciberseguridad provee apenas el 24% de la profesional desde la perspectiva de género, el estudio capacidad laboral mundial pero a nivel local, solo determinó que del total de mujeres, el sector de Desarrollo y representaría el 9% de la capacidad laboral; por tal razón es fabricación de software fue seleccionado por el 69,2%, una oportunidad con amplio margen de crecimiento para seguido por Animación Digital/Video Juegos con 61,5%, ampliar la oferta. Es necesario determinar de manera precisa a Seguridad Informática (61,8%) y aplicaciones móviles qué se debe el bajo índice de participación femenino y verlo (53,8%). El porcentaje del total de hombres que seleccionaron como una oportunidad desde las iniciativas de la OEA y seguridad informática es de 68%. Ministerio de las TIC (MINTIC) para becas y financiación. 197 Es importante conformar equipos de trabajo curricular que [Accessed: 30-Sep-2019]. analicen y construyan todo un proyecto de formación en ciberseguridad, que trasciende un programa académico y un [9] P. Leaders, M. Meucci, and A. Muller, “OWASP, Testing nivel de formación; desplegando competencias, temáticas y Guide 4.0,” no. Cc. componentes curriculares en múltiples cursos de programas de grado, posgrado y no formal (virtual, MOOCS, curso libres). [10] Departamento Nacional de Planeación, “Conpes 3854 - Política Nacional De Seguridad Digital,” 2016. De la misma manera participar activamente en el diseño de los cursos que proveen los requisitos previos (como Sistemas [11] ACIS - Asociación Colombiana de Ingenieros de Sistemas, Operativos, Redes, Programación, entre otros). “XIX Encuesta Nacional de Seguridad Informática,” Sistemas, vol. 151, pp. 12–41, 2019. Promover el interés de los estudiantes involucrándolos en los procesos de construcción curricular con instrumentos de [12] O. Organization of American States, “Ciberseguridad marco levantamiento de información, invitándolos a cursos y tallares NIST, Un abordaje integral de la Ciberseguridad,” 2019. abiertos, demostraciones en vivo y retos CTF (Capture The Flag), entre otros, por fuera de los espacios de clase y presión [13] C. W. Study, “Cybersecurity Professionals Focus on Developing New Skills as Workforce Gap Widens Table of de la calificación, lo que permite conocer sus intereses Contents,” 2018. particulares y grupales, para tenerlos en cuenta en las estrategias (Caso: Los estudiantes más antiguos, lideran y [14] Colciencias, “Programas Nacionales de CTeI.” [Online]. orientan a los más nuevos). Available: https://www.colciencias.gov.co/investigadores/programas- nacionales-ctei. [Accessed: 30-Sep-2019]. AGRADECIMIENTOS Los autores expresan su gratitud a Dios y sus Familias, [15] Universidad de los Llanos, Reglamento estudiantil. 2003, p. 20. quienes siempre apoyaron este proceso. De igual manera, a la Universidad de los Llanos, al semillero de investigación [16] F. MinTIC, “Caracterizacion del sector teleinforatica, CYSETH y al grupo de Investigación en tecnologías abiertas - Software y TI en COlombia,” 2015. GITECX, por creer en este Proyecto. [17] Symantec, “ISTR Informe sobre las Amenazas para la Seguridad en Internet,” 2019. REFERENCIAS [1] CISCO Cybersecurity, “Anticipating the Unknowns: CISO Benchmark Study March 2019,” 2019. Felipe Andrés Corredor Magister en Software libre; del área de administración de redes y sistemas operativos. Especialista en Soluciones [2] Verizon, “Verizon: 2019 Data Breach Investigations telemáticas e Ingeniero de Sistemas. Docente de planta e investigador de la Escuela de ingeniería de la Universidad de los Llanos. Sus áreas de Report,” 2019. desempeño son la seguridad informática y los sistemas distribuidos. Lidera el Grupo de investigación en Tecnologías abiertas GITECX, reconocido por [3] R. K. Raj et al., “Perspectives on the future of cybersecurity Colciencias. education,” Proc. - Front. Educ. Conf. FIE, vol. 2017- Octob, pp. 1–2, 2017. Diana Cristina Franco Mora Magister en Software libre; del área de administración de redes y sistemas operativos. Especialista en Soluciones [4] ABET, “Computing Accreditation Commission CRITERIA telemáticas e Ingeniera de Sistemas. Docente de tiempo completo e FOR ACCREDITING COMPUTING PROGRAMS 2019- investigadora de la Escuela de ingeniería de la Universidad de los Llanos. Sus áreas de desempeño son la teleinformática y el Software libre. Es 2020,” 2019. integrante activa del Grupo de investigación en Tecnologías abiertas GITECX, reconocido por Colciencias. [5] C. S. I.-A. ACM, Information Technology Curricula 2017: Curriculum Guidelines for Baccalaureate Degree Programs in Information Technology. 2017. Javier Eduardo Martínez Baquero, Magister en Tecnología educativa; Especialista en Instrumentación Industrial. Docente de planta e investigador [6] A. ACM, IEEE, CSEC - Curriculum Guidelines for Post- de la Escuela de ingeniería de la Universidad de los Llanos. Director de la Especialización en Instrumentación y control industrial. Sus áreas de Secondary Degree Programs in Cybersecurity, vol. Version desempeño son la Automatización, Instrumentación. Es integrante activo del 1., no. November. 2017. Grupo de investigación en Tecnologías abiertas GITECX, reconocido por Colciencias. [7] Computer Society IEEE - ACM, “CS2013: Computer Science Curricula 2013,” Computer, vol. 48, no. 3. 2013. [8] “PTES Technical Guidelines - The Penetration Testing Execution Standard.” [Online]. Available: http://www.pentest- standard.org/index.php/PTES_Technical_Guidelines. 198