Está en la página 1de 6

Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

Arboles de decisión aplicados a la evaluación de riesgos de


seguridad de tecnologías de información utilizando Python
Autor: Diana Carolina Angles Diaz, DA, Facultad de Mecánica Eléctrica Electrónica y
Sistemas, Escuela Profesional de Ingeniería de Sistemas.

1. RESUMEN
Este trabajo busca hacer uso de árboles de decisión para la evaluación de riesgos
de tecnologías de información en una empresa basado en variables de entrada que
permiten realizar una clasificación que ayudaran a determinar el nivel de riesgo
de una amenaza o riesgo de tecnologías de información en una empresa, y de
acuerdo al nivel de riesgo identificado se pueda dar el tratamiento adecuado según
su impacto y probabilidad de materialización. El uso de algoritmos para la toma
de decisiones aplicación a un proceso ayudan a poder realizar evaluaciones y
emitir informes de forma automática lo cual ahorra en tiempo ya que solo se
requiere el ingreso de entradas y variables que pueden o no afectar en el resultado
para su respectivo tratamiento.

2. ABSTRACT
This research seeks the use of decision trees for the evaluation of information
technology risks in a company based on input variables that allow a classification
to help determine the level of risk of a threat or risk of information technologies
in a company, and according to the level of risk identified, the appropriate
treatment can be given according to its impact and probability of materialization.
The use of algorithms for decision making application to a process help to perform
evaluations and issue reports automatically which saves time since it only requires
the entry of inputs and variables that may or may not affect the result for its
respective treatment.

Palabras Clave: Árboles de decisión, clasificación de riesgos, Python, riesgos de


tecnología de información
Key Word: Decision trees, classsification of risk, Python, risk in IT
Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

3. INTRODUCCIÓN

4. MATERIALES Y METODOS
ARBOLES DE DECISIÓN
Los arboles de decisión es una técnica de aprendizaje inductivo supervisado no
paramétrico, se utiliza para la predicción y se emplea en el campo de la
inteligencia artificial, donde a partir de una base de datos se construyen
diagramas de construcción lógica, muy similares a los sistemas de predicción
basado en reglas que sirven para representar y categorizar una serie de
condiciones que ocurren en forma repetitiva para la solución de un problema.1
Los arboles de decisión se han utilizado como herramienta en el diagnóstico de
diferentes fines, un árbol de decisión es un modelo de predicción cuyo objetivo
principal es el aprendizaje partir de observaciones y construcciones lógicas. Un
árbol gráficamente se representa por un conjunto de nodos, hojas y ramas2, ver
Figura Nº1.
Figura 1: Estructura de un Árbol de Decisión

PROPIEDADES DE LOS ÁRBOLES DE DECISIÓN


Una de las propiedades de esta técnica es que permite una organización eficiente
de un conjunto de datos, debido a que los arboles con construidos a partir de la
evaluación del primer nodo (raíz) y de acuerdo a su evaluación o valor tomado se
va descendiendo en las ramas hasta llegar al final del camino (hojas del árbol),
donde las hojas representan clases y el nodo raíz representa todos los patrones de
entrenamiento los cuales se han dividir en clases. Los sistemas que implementan
arboles de decisión como ID3 son muy utilizados en lo que se refiere a la
extracción de reglas de dominio. Este método (ID3) se construye a partir del
método de Hunt. La heurística de Hunt, consiste escoger la característica más

1
(Research in Computing Science, 2016)
2
(Martínez & Cruz Ramírez, 2009)
Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

discriminante del conjunto X, luego realizar divisiones recursivas del conjunto X,


en varios subconjuntos 3
La aplicación de algoritmos de inteligencia artificial para la sistematización de
procesos como sistema de detección de riesgos también han sido aplicados con
anterioridad en referencia de la reseñas en la revista Iberoamericana de
Producción Académica y Gestión Educativa 4

5. DESARROLLO
CONTEXTO DE LA INVESTIGACIÓN
El trabajo de investigación busca llevar a cabo la aplicación de árboles de
decisión en la clasificación de riesgos de tecnologías de información, basado en
la metodología de riesgos y estándares seguridad de información.
Criterios de selección:
Para la recolección de datos de estudio se tomaron los siguientes criterios, ver
Tabla 1.
Tabla 1: Criterios para la clasificación de Riesgos

Probabilidad
Bajo Medio Alto

Alto

Impacto Moderado

Leve

Tabla 2: Nivel de Riesgo final

Valor Descripción
1 Baja, no hay historial y es raro que la amenaza ocurra.
2 Media, se han presentado casos y puede ocurrir la amenaza.
Alta, se han presentado suficientes casos y la amenaza
3
seguramente ocurrirá.

Para la determinación del nivel de riesgo de una amenaza o evento encontrado se tiene
la siguiente formula:

Riesgo Total = Amenaza x Vulnerabilidad x Probabilidad x Impacto

3
(Research in Computing Science, 2016)
4
(Carrión, 2014)
Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

Primero debe realizar como entrada todos o eventos y amenazas encontradas y


luego ser clasificados y determinar el nivel de riesgo inherente que representaría
para una institución si éste se materializa.
Luego deben tomarse las variables del impacto y la probabilidad de
materialización del riesgo, del cual lo cual dara como resultado final un riesgo
residual, y se dará el resultado de acuerdo al nivel de riesgo final {1}{2}{3},ver
Tabla Nº2, por último se da un tratamiento del riesgo o recomendación para su
mitigación se acuerdo a los resultado e intereses de la empresa.
Recopilación de datos: Las evaluaciones realizadas por auditores en riesgos en el
2018 a diferentes instituciones se incluyeron en el presente estudio. La técnica de
recolección de datos fueron los informes y sus resultados, se tienen datos de
cabecera, datos de escala y datos de confirmación. Los datos de cabecera sirvieron
para describir las casuísticas encontradas en cada evaluación, y los datos de escala
para construir los árboles de decisión ID3, de tal forma que se tengan patrones
para realizar una clasificación de riesgos con el algoritmo ID3.
Para la selección de las variables, se basó en las escalas para la clasificación de
riesgos que toma en cuenta el impacto el riesgo identificado desde leve hasta alto,
así como la variable de probabilidad del riesgo desde el nivel bajo hasta el medio
alto.
Las variables escogidas son para poder realizar una adecuada clasificación basada
en los criterios para la clasificación y determinación el nivel de riesgo asociado al
evento encontrado.
La determinación del nivel de riesgo se clasifica en Alto, Medio o Bajo lo cual es
tomado para su respectivo tratamiento y en un plazo acorde al nivel de riesgo.
En ese sentido se busca realizar todo el proceso de clasificación de riesgos de
forma automatizada con el uso de árboles de decisión que permitan realizar la
toma de decisiones de actividades y tratamiento de amenazas o eventos de
tecnologías de información que deba desplegar la empresa.

6. RESULTADOS
Para realizar el análisis y la creación del árbol de decisión ID3 se utilizó la
herramienta de Spyder de Anaconda lenguaje de programación de Python.
Los parámetros de configuración fueron predeterminados por el software, el
software generado con Pyhton tiene la importación de archivos .csv una ventana
de análisis de datos y la generación de reglas, ver Ilustración 1. El apartado de las
reglas generadas con el árbol de decisión ID3 cargando los datos de prueba para
ser examinados y determinar el tipo de riesgo.
Se han utilizado las siguientes librearías de Python:
 import numpy as np
 import pandas as pd
 import seaborn as sb
Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

 import matplotlib
 import matplotlib.pyplot as plt
 #%matplotlib inline
 plt.rcParams['figure.figsize'] = (16, 9)
 plt.style.use('ggplot')
 from sklearn import tree
 from sklearn.metrics import accuracy_score
 from sklearn.model_selection import KFold
Se ha recolectado casos con el ingreso de datos y sus puntuaciones de riesgo
respectivas:

Se muestra la cantidad de riesgos que clasifican con bajo y medio nivel de riesgos.

Se utilizó el diagrama de pera son para mostrar la cantidad de riesgos y sus


niveles de exposiciones con la ayuda del diagrama de Pearson
colormap = plt.cm.viridis
Escuela de Postgrado – Ingeniería de Sistemas UNA - PUNO

plt.figure(figsize=(12,12))
plt.title('Diagrama de Clasificacion de Riesgos', y=1.05, size=15)
sb.heatmap(riesgos_nivel.astype(float).corr(),linewidths=0.1,vmax=1.0,
square=True, cmap=colormap, linecolor='white', annot=True)

7. CONCLUSIONES
Se ha determinado que el uso de la herramienta hace posible la realización una
evaluación de riesgos de tecnologías de información con el uso de árboles de
decisión haciendo uso de Python y sus librerías para la construcción de un árbol
de decisión, así como se demuestra de la incorporación de variables puede hacer
que el resultado final de la materialización de un riesgo pueda seguir aprendiendo
de acuerdo al impacto y probabilidad de la amenaza así como otros valores que
puede hacer variar el resultado teniendo como riesgo inherente una clasificación
de alto a bajo mucho más adecuada que permita centrar los intereses de la empresa
de acuerdo a esta adecuada evaluación.

8. AGRADECIMIENTO
Agradezco a mi clase de estructura de datos con quienes se han analizado más
casuísticas y aplicaciones de algoritmos y herramientas de análisis de data y tomas
de decisiones.

9. BIBLIOGRAFÍA
Carrión, A. G. (Junio de 2014). Aplicación de la inteligencia artificial en la
sistematización de procesos educativos Caso. Sistema de deteccion de
riesgo escolar en ESCOM. Revista Iberoamericana de Producción
Académica y Gestión Educativa, 23.
Martínez, R. E., & Cruz Ramírez, N. (2009). Árboles de decisión como
herramienta en el diagnóstico. 6.
Research in Computing Science. (2016). 113.

También podría gustarte