Módulo 6

UNIVERSIDAD DE CATALUNYA
CURSO BIG DATA Y DATA SCIENCE
Módulo 6. Investigación Reproducible y técnicas de

implementación
Mód 6 - PRAI Práctica Individual
Presentado por: Juan David Santos Llanes / Julio del 2019

Contenido
1. CASO DE USO ......................................................................................................................... 3
2. COMPRENSIÓN DE DATOS: ................................................................................................ 3
3. PREPARACIÓN DE LOS DATOS: ...................................................................................... 10
4. MODELAMIENTO: ................................................................................................................. 10
5. APLICACIÓN MODELO: ....................................................................................................... 13
6. EVALUACIÓN: ........................................................................................................................ 13
1. CASO DE USO
1.1. Objetivos de negocio: Brindar servicios móviles y fijos a empresas y usuarios en
Colombia, específicamente el área que se estudiará es el proceso de Ingeniería,
el cual monitorea, diagnostica, gestiona y realiza escalamientos para solución
de fallas o degradaciones que se presentan en la red móvil y fija.
1.2. Descripción problema: Analizar y clasificar el comportamiento de los datos

relacionados al ciclo de vida de un incidente en la operación Front Office Móvil
de monitoreo, control y seguimiento de las fallas presentadas en la red de
telecomunicaciones para la empresa Claro Colombia de manera que se pueda
determinar la veracidad de la información obtenida.
1.3. Requerimientos del proyecto: Para realizar el respectivo análisis de los datos y
conocer el comportamiento de las incidencias gestionadas por la operación FO
Móvil, se requiere la siguiente información.
Python: Herramienta para el manejo de los datos obtenidos de la operación

y modelamiento.
Power BI: Herramienta para presentación de informe y gráficas de las fallas

en la red Claro.
Datos: Para el caso de uso se manejarán 178.303 registros correspondientes

al seguimiento de la operación FO Móvil, divididos en 9 variables.
Fuente: Los datos se obtuvieron del reporte Atención formulado por el área
de Calidad para el análisis en el cumplimiento de los KPI frente a la operación
de control, seguimiento y gestión de fallas en la red Claro.
2. COMPRENSIÓN DE DATOS:
2.1. Obtención de conjunto inicial de datos y definición variables:
 Ticket ID: Código que permite identificar las fallas que se presentan
en la red Claro y permite la gestión de dicha falla.
 Tipo TKT: Clasificación de las fallas teniendo en cuenta la afectación

o el nivel de daño que puede generar dentro de la red Claro.
 Tiempo Vida: Hace referencia a una medición cuantitativa sobre el

periodo de vida de una falla desde que aparece hasta que se
soluciona. Se toma un periodo de tiempo de 12 meses comprendidos
entre Mayo del 2019 hasta Mayo del 2020.
 Tiempo Resolución: Hace referencia a una medición cuantitativa

sobre el periodo en el cual se da solución de las fallas presentadas
en la red de Claro Colombia. Se toma un periodo de tiempo de 12
meses comprendidos entre Mayo del 2019 hasta Mayo del 2020.
 Tiempo Detección: Hace referencia a una medición cuantitativa sobre
el periodo en el cual es posible detectar las alarmas presentadas en
los paneles de detección de las fallas presentadas en la red de Claro
Colombia. Se toma un periodo de tiempo de 12 meses comprendidos
entre Mayo del 2019 hasta Mayo del 2020.
 Tiempo Escalamiento: Hace referencia a una medición cuantitativa

sobre el periodo en el cual la falla que no puede ser solucionada por
la operación FO Móvil, es enviada a otra área resolutoria. Se toma
un periodo de tiempo de 12 meses comprendidos entre Mayo del
2019 hasta Mayo del 2020.
 Tiempo Falla: Hace referencia a una medición cuantitativa sobre el

periodo en el cual la falla continua activa, aun cuando se han
realizado las actividades de gestión del incidente. Se toma un periodo
de tiempo de 12 meses comprendidos entre Mayo del 2019 hasta
Mayo del 2020.
 Tiempo D+E: Hace referencia a una medición cuantitativa sobre el

periodo en el cual se analiza la duración de una falla desde el
momento es que es detectada en los paneles de revisión, hasta que
la falla se soluciona o se envía a otra área resolutoria. Se toma un
periodo de tiempo de 12 meses comprendidos entre Mayo del 2019
hasta Mayo del 2020.
 Mes – Año: Fecha de creación del incidente.

2.2. Dashboard:
 Variables Independientes: La variable TICKETID es la variable

independiente ya que de ella se obtienen todos los datos y también
es a partir de ella que se realiza la gestión de falla.
La variable TIPO_TKT es independiente porque los tiempos en la
gestión de las fallas dependen de la clasificación del tipo, si es un
incidente, una notificación o una intermitencia.
 Variables dependientes: Se consideran variables dependientes todas

aquellas que tengan como base un dato cuantitativo como el tiempo
de detección o el de escalamiento, incluido el tiempo.
2.3. ¿Existen variables irrelevantes que se puedan excluir del conjunto de datos?
Aunque en la matriz de correlación se pueden observar que varios

datos no tienen un nivel de correlación alto, todos los datos son
necesarios para analizar el comportamiento de la gestión de
incidencias frente al tiempo de las fallas.
2.4. ¿Existe datos atípicos?
3. PREPARACIÓN DE LOS DATOS:
3.1. Realice la limpieza de los datos: No se elimina ninguna variable como se explica
anteriormente, pues todos los datos del DB son necesarios para el análisis de la
falla y encontrar los posibles motivos. Tampoco se eliminan datos atípicos
porque son consecuencias de diversos factores que deben ser registrados y
detallados más a profundidad, para entender el por qué se están presentando
estos datos y también generar soluciones que permitan controlar esos errores o
posiblemente eliminarlos.
4. MODELAMIENTO:
4.1. Modelo 1
#Experimentación Modelo MLPRegressor
mlp_1 = MLPRegressor(hidden_layer_sizes=1, activation= 'identity',solver='adam',

max_iter=90000) # Parámetros experimentación
mlp_1.fit(X_train,Y_train)
#Precisión del modelo

score_test = mlp_1.score(X_test,Y_test)
print('\n Precisión del modelo: ', score_test, 'para un tamaño de entrenamiento d
e:', tamaño_train)
4.2. Modelo 2
X = datos[['TIEMPO_DETECCION','TIEMPO_ESCALA']].values
y = datos['T D+E MINUTOS'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
n_neighbors =1
knn = KNeighborsClassifier(n_neighbors)
knn.fit(X_train, y_train)
print('Accuracy of K-NN classifier on training set: {:.2f}'
.format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
.format(knn.score(X_test, y_test)))
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))
print(classification_report(y_test, pred))
4.3. Modelo 3
X_trn,X_tst,Y_trn,Y_tst = train_test_split(X,Y,test_size=0.3,random_state=int(tim
e.time()))
print(X_trn.shape)
tree=DecisionTreeClassifier(random_state=0)
tree.fit(X_trn,Y_trn)
print('Precisión en el conjunto de entrenamiento:{:.3f}'.format(tree.score(X_trn,
Y_trn)))
print('Precisión en el conjunto de prueba:{:-
3f}'.format(tree.score(X_tst,Y_tst)))
tree=DecisionTreeClassifier(random_state=0, max_depth=2)
tree.fit(X_trn,Y_trn)
print('Precisión en el conjunto de entrenamiento:{:.3f}'.format(tree.score(X_trn,
Y_trn)))
print('Precisión en el conjunto de prueba:{:-
3f}'.format(tree.score(X_tst,Y_tst)))
5. APLICACIÓN MODELO:
5.1. Justificación: Se aplicaron 3 modelos los cuales fueron RNC, KNN y árbol de
decisiones, de los cuales el que mejor nivel de precisión fue el árbol de
decisiones. Por lo cual será el modelo a aplicar para realizar el análisis de los
datos según el TIPO_TKT.
6. EVALUACIÓN:
Aunque los datos arrojados en el nivel de precisión por el modelo de árbol de

decisiones en el conjunto de prueba equivalen al 92%, se recomendaría seguir
validando con otros modelos y otras combinaciones que permitan dar un resultado
más conciso para la validación de los datos con respecto a los tiempos y datos
elevados. Aunque es satisfactorio el conocer que es posible validar mediante un
modelo, que pueden agruparse los datos y entrar a verificar los diferentes motivos
de sus resultados en la operación FO Móvil.

Módulo 6

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo 6

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE CATALUNYA

CURSO BIG DATA Y DATA SCIENCE

Módulo 6. Investigación Reproducible y técnicas de

Mód 6 - PRAI Práctica Individual

Presentado por: Juan David Santos Llanes / Julio del 2019

1.2. Descripción problema: Analizar y clasificar el comportamiento de los datos

Python: Herramienta para el manejo de los datos obtenidos de la operación

Power BI: Herramienta para presentación de informe y gráficas de las fallas

Datos: Para el caso de uso se manejarán 178.303 registros correspondientes

 Tipo TKT: Clasificación de las fallas teniendo en cuenta la afectación

 Tiempo Vida: Hace referencia a una medición cuantitativa sobre el

 Tiempo Resolución: Hace referencia a una medición cuantitativa

 Tiempo Escalamiento: Hace referencia a una medición cuantitativa

 Tiempo Falla: Hace referencia a una medición cuantitativa sobre el

 Tiempo D+E: Hace referencia a una medición cuantitativa sobre el

 Mes – Año: Fecha de creación del incidente.

 Variables Independientes: La variable TICKETID es la variable

 Variables dependientes: Se consideran variables dependientes todas

Aunque en la matriz de correlación se pueden observar que varios

#Experimentación Modelo MLPRegressor

mlp_1 = MLPRegressor(hidden_layer_sizes=1, activation= 'identity',solver='adam',

#Precisión del modelo

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Aunque los datos arrojados en el nivel de precisión por el modelo de árbol de

También podría gustarte