Está en la página 1de 15

UNIVERSIDAD CENTRAL DEL ECUADOR

FACULTAD DE INGENIERÍA Y CIENCIAS APLICADAS

MINERÍA DE DATOS
DEBER N°1

Díaz Pastaz Erick Enrique

DOCENTE

Ing. Jefferson Tarciso Beltrán Morales

Quito – Ecuador
2022
Ejercicio 1
Supongamos que tenemos un modelo predictivo para detectar Fraude en Tarjetas de
Crédito, la variable a predecir es Fraude con dos posibles valores Sí (para el caso en que
sí fue fraude) y No (para el caso en que no fue fraude). Supongamos la matriz de
confusión es:

NO SÍ
NO 83254 12
SÍ 889 3
Calcule:

 Precisión global
VN +VP
P=
VN + FN + FP+VP

83254 +3
P= =0.989
83254+ 3+12+889

P=98.9 %
 Precisión positiva (del Sí)

VP
PP=
VP+ FP

3
PP= =0.0034
889+3

PP=0.34 %

 Precisión negativa (del No)


VN
PN =
VN + FP

83254
PN = =0.999
83254+12

PN =99.9 %
 Falsos positivos
FP
PFP=
FP+VN

12
PFP= =0.0 0 0144
83254+12

PFP=0. 0 144 %
 Falsos negativos
FN
PFN =
FN +VP

889
PFN = =0.996
889+3

PFN =99.6 %

 Asertividad Positiva
VP
AP=
VP+ FP

3
AP= =0.2
3+12

AP=20 %
 Asertividad Negativa
VN
AN =
FN +VN

83254
AN= =0.989
889+83254

AN=98.9 %
 ¿Es bueno o malo el modelo predictivo? Justifique su respuesta
Es un mal modelo predictivo porque el objetivo consiste en determinar cuál
registro es fraude y en este modelo para dicho caso solo obtuvo un porcentaje de
precisión positiva de 0.34%

Ejercicio 2
En este ejercicio usaremos los datos (recursos humanos.csv) sobre empleados que dejan
una empresa. El objetivo analizar por qué los mejores y más experimentados empleados
deciden irse con la competencia y este podría ser un desafío realmente serio para un
departamento de recursos humanos, desafío que se podría abordar desde nuestro
conocimiento en modelos predictivos.

1. Cargue la tabla de datos recursos humanos.csv en PredictoR y asegúrese re-


codificar las variables como se muestra en las siguientes imágenes

2. ¿Es un problema equilibrado o desequilibrado? Justifique su respuesta


Es un problema desequilibrado debido a que la variable a predecir no tiene una
distribución semejante de registros para ambas categorías. De esta manera pueda
que los resultados al realizar las pruebas no sean exactos para registros que se
quieran determinar que sí salió de la empresa.
3. Use el método de K vecinos más cercanos en PredictoR para generar un
modelo predictivo para la tabla recursos humanos.csv usando el 70 % de los
datos para la tabla aprendizaje y un 30 % para la tabla testing, para esto
genere el modelo usando K vecinos más cercanos con el núcleo (Kernel)
optimal, luego calcule para los datos de testing la matriz de confusión, la
precisión global y la precisión para cada una de las dos categorías.
 Matríz de confusión

REAL / PREDICCIÓN NO SALIÓ SALIÓ


NO SALIÓ 3312 138
SALIÓ 61 989
 Precisión Global
VP+ VN
P=
VN + FN + FP+VP

3312+989
P= =0.9558
3312+989+61+138

P=95.58 %
 Precisión Negativa
VN
PN =
VN + FP

3312
PN = =0.96
3312+138

PN =96 %
 Precisión Positiva
VP
PN =
VP+ FN

989
PN = =0.9419
989+61

PP=94. 19 %
4. Genere un Modelo Predictivo usando K vecinos más cercanos con los
siguientes núcleos: rectangular, triangular, epanechnikov, biweight,
triweight, cos, inv, gaussian y optimal usando la precisión global determine
cuál modelo produce los mejores resultados.

En función de los resultados de precisión global para los 9 núcleos y los datos
generados para entrenamiento como prueba, la mayor precisión global es para el
núcleo inv con 95.711 de precisión global

Usando la Curva ROC determine cuál modelo produce los mejores


resultados.

En primer instancia no se observa una mejora significativa entre los núcleos


comparados, y esto se esperado puesto a que los valores en la tabla comparativa
tienen resultados similares, la diferencia se presenta en rangos cercanos. Sin
embargo, el que más rápido converge a 1, que sería lo ideal para la clasificación
de este problema, es el núcleo inv.
Haciendo un zoom, es posible determinar una resultado más preciso, por tanto,
se concluye que inv converge más rápido a 1.
5. Realice un análisis del poder predictivo de las variables de la tabla recursos
humanos.csv, identifique las 4 variables predictoras que usted considere
que tienen el mayor poder predictivo y luego realice la predicción usando
solo esas variables con el modelo K vecinos más cercanos y núcleo (Kernel)
optimal. ¿Mejoró la calidad de la predicción?
Las variables predictoras que se seleccionan corresponden a: salary,
promotion_last_5years, sales, satisfaction_level.

En este caso la precisión global decayó a un 87.04% pero esto es mucho más
grave al tener en cuenta que el objetivo es predecir si algún empleado va a
abandonar la empresa y para este caso la precisión es de 71.14% casi 20%
menos que tomando todas las variables juntas. De esta manera se puede concluir
que no se tiene un modelo eficaz al no tomar todas las variables predictoras.
Ejercicio 3
Esta pregunta utiliza los datos sobre la conocida historia y tragedia del Titanic, usando
los datos (titanic.csv) de los pasajeros se trata de predecir la supervivencia o no de un
pasajero.

1. Cargue la tabla de datos titanic.csv en PredictoR Asegúrese re-codificar las


variables categóricas e ignorar las variables que tienen valor único. ¿Por
qué se deben eliminar las variables con valor único?

2. Use el método de K vecinos más cercanos en PredictoR (con el núcleo por


defecto) para generar un modelo predictivo para la tabla titanic.csv usando
el 75 % de los datos para la tabla aprendizaje y un 25 % para la tabla
testing. Calcule para los datos de testing la precisión global, la matriz de
confusión, la precisión positiva, la precisión negativa, los falsos positivos, los
falsos negativos, la asertividad positiva y la asertividad negativa para este
modelo (algunas deben calcularse “a mano” a partir de la matriz de
confusión).
 Matriz de confusión

REAL / PREDICCIÓN NO SOBREVIVIÓ SOBREVIVIÓ


NO SOBREVIVIÓ 192 21
SOBREVIVIÓ 31 84
 Precisión Global
VP+ VN
P=
VP+VN + FN+ FP
192+84
P= =0.841
192+84+ 21+ 31

P=84.1%
 Precisión Positiva
VP
PP=
VP+ FN

84
PP= =0.73
84+31

PP=73 %
 Precisión Negativa
VN
PN =
VN + FP

192
PN = =0.901
192+21

PN =90.1 %
 Falsos Positivos
FP
P FP=
FP+VN

21
PFP= =0.0 986
21+192

PFP=9. 8 6 %
 Falsos Negativos
FN
PF N=
FN +VP

31
PFN = =0.269
31+ 84

PFN =2 6.9 %
 Asertividad Positiva
VP
AP=
VP+ FP

84
AP= =0.8
84+21

AP=80 %
 Asertividad Negativa
VN
AN =
VN+ FN

192
AN = =0.86
192+ 31

AN =86 %

3. Genere un Modelo Predictivo usando K vecinos más cercanos con los


siguientes núcleos: rectangular, triangular, epanechnikov, biweight,
triweight, cos, inv, gaussian y optimal ¿Cuál produce los mejores resultados
en el sentido de que predice mejor las personas que morirían?
En función de la tabla de comparación de los modelos se determina que el
núcleo que otorgan el mejor resultado con respecto a la categoría de 0 (no
sobrevivirá) pertenece a rectangular.

4. Genere la curva ROC para cada modelo, ¿Cuál produce los mejores
resultados según la curva ROC?
De manera general todos los modelos tienen un resultado cercano con respecto a
la convergencia a 1, sin embargo, el núcleo que converge más rápido en la cura
ROC corresponde a rectangular

5. Realice un análisis del poder predictivo de las variables de la tabla


titanic.csv, identifique las 3 variables predictoras que usted considere que
tienen el mayor poder predictivo y luego realice la predicción usando solo
esas variables con el modelo K vecinos más cercanos y núcleo (Kernel)
optimal. ¿Mejoró la calidad de la predicción?
Las variables determinantes que se consideran para realizar el nuevo análisis
corresponden a: Age, Pclass, Sex. El resultado obtenido genera una predicción
global de 86.89% que es mucho mayor que tomando todas las variables
definidas en un inicio, en específico un 2.75% más.
Además, la predicción positiva y negativa también aumentaron en comparación
con el resultado anterior, para la positiva en 1.06% y para la negativa en 5.88%

Ejercicio 4
Esta pregunta utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La
variable que queremos predecir es chd que es un indicador de muerte coronaria basado
en algunas variables predictivas (factores de riesgo) como son el fumado, la obesidad,
las bebidas alcohólicas, entre otras.

1. Use el método de K vecinos más cercanos en predictoR para generar un


modelo predictivo para la tabla SAheart.csv usando el 85 % de los datos
para la tabla aprendizaje y un 15 % para la tabla testing.

2. Calcule para los datos de testing la precisión global, la matriz de confusión,


la precisión global, la precisión positiva (del Sí), la precisión negativa (del
No), los falsos positivos, los falsos negativos, la asertividad positiva y la
asertividad negativa para este modelo (algunas deben calcularse “a mano”
a partir de la matriz de confusión).
 Matriz de confusión

REAL / PREDICCIÓN NO SÍ
NO 38 11
SÍ 15 6
 Precisión Global
VP+ VN
P=
VP+VN + FP+ FN

6+38
P= =0.628
6+38+ 11+ 15

P=62.8 %
 Precisión Positiva
VP
PP=
VP+ FN

6
PP= =0.286
6+15

PP=28.6 %
 Precisión Negativa
VN
PN =
VN + FP

38
PN = =0.775
11+38

PN =77.5 %
 Falsos Positivos
FP
P FP=
FP+VN

11
PFP= =0.224
11+38

PFP=22.4
 Falsos Negativos
FN
P FN =
FN +VP
15
PFN = =0.714
15+6

PFN =71.4
 Asertividad Positiva
VP
AP=
VP+ FP

6
AP= =0.353
6+11

AP=35.3 %

 Asertividad Negativa
VN
AN =
VN+ FN

38
AN = =0.717
38+15

AN =71.7 %
3. Genere un Modelo Predictivo usando K vecinos más cercanos con los
siguientes núcleos: rectangular, triangular, epanechnikov, biweight,
triweight, cos, inv, gaussian y optimal ¿Cuál produce los mejores resultados
en el sentido de que predice mejor las personas sí tendrán muerte del
corazón? ¿Alguno genera resultados aceptables?
Una vez generada la tabla de comparación de modelos se puede determinar que
el provee una mejor precisión en la predicción de que se puede tener una muerte
de corazón corresponde al núcleo biweight.
Hay que tener en cuenta que es el más preciso, sin embargo, no quiere decir que
pueda considerarse como un modelo aceptable ya que se requiere predecir de
manera sistemática esta condición, la cual ningún modelo provee con un
porcentaje aceptable para ser adoptado como eficaz.

También podría gustarte