Iicg2101 - s4 - Cristina Valdivieso Ballon

Facultad de Ingeniería
Aprendizaje Supervisado
Modelos Predictivos
Autora
Cristina Valdivieso Ballón
Profesora
Francisca Novoa Winder
Santiago, Chile
2023
INTRODUCCION
El aprendizaje supervisado nos permite desarrollar modelos predictivos mediante la ejecución de comandos
y datos de entrada, que nos permite obtener diferentes grados de asertividad en cuanto a una decisión
general.
En este informe explicamos paso a paso de como ingresar datos a mediante comandos en lenguaje R.
APRENDIZAJE SUPERVISADO
USO DE LENGUAJE R
I. GENERALIDADES
Lista de Útiles
Para este informe se utiliza como base de datos el archivo LISTAUTILES en formato CSV que contiene 6
columnas y 51 filas donde se indica los precios de cada artículos desde el año 2020 al 2023 y la decisión de
compra. Esta última columna se tomará como columna de resultado.
Los precios se definen en valor numérico y la decisión de compra se obtiene mediante la condicional si el
promedio de los precios de los 2020 al 2023 es mayor a 20000, se compra =si, caso contrario = no. Fórmula
utilizada: SI(PROMEDIO(B2:E2)<20000;"si";"no")
LISTAUTILES.csv
II. USO DEL LENGUAJE R
A continuación, se interpreta los resultados en R:
PASO 1
Cargar el archivo LISTAUTILES.CSV en la opción UPLOAD.
PASO 2
Cargamos los paquetes y librerías necesarios, que permitirá organizar nuestra visualización de datos. El
paquete obtiene información de las siguientes librerías:
install.packages: Comando para instalar paquetes

tidyverse: permite trabajar matrices, filas y columnas.
rpart: genera modelo de árbol de decisión
rpart.plot: genera grafico de árbol de decisión
kknn: genera modelo de vecino más cercano
naivebayes: trabaja el modelo de Naive Bayes
caret,e1071: genera matriz de confusión y soporte vectorial.
RWekajars, RWeka: genera cálculo de ganancia de información
FSelector: selecciona tributos del dataset
PASO 3
Especificamos la ruta donde se guardan los archivos que se importan desde el equipo a la nube y también
la ruta donde se guardan los resultados del trabajo
PASO 4
Cargamos nuestro archivo LISTAUTILES a través del comando, especificando que la primera fila es un título
y separar los ; en columnas.
Con el comando View (datos), nos permite visualizar nuestra base de datos armada.
Para visualizar los datos generados por los patrones se indica:
PASO 5
Para una mejor optimización e interpretación de los datos, eliminamos la primera columna con el comando:
PASO 6
Calculamos la ganancia de información de nuestras variables, es decir, que tanta impureza tiene nuestras
variables. Mientras más cercanas estén a 1, tendrá buena calidad, pero si se acercan 0 serán de mala
calidad.
Se infiere que nuestras todas las variables tienen la misma calidad promedio para ser evaluadas.
Dim(datos)
Para saber la dimensión se utiliza el comando, indicando el nombre de nuestro data frame.
Str(datos)
La función str() se observa la estructura de los datos y la naturaleza de las variables
Names(datos)
Comando que permite ver los nombres de las columnas de nuestra base de datos.
PASO 7
Convertimos nuestra columna resultado Decision_compra en factor.
PASO 8
Fijamos nuestra nueva ruta de trabajo, tomando el 80% de registros al azar.

Estos serán los datos de entrenamiento.
PASO 9
Fijamos nuestros datos de prueba restando nuestra base de datos menos datos_entrenamiento.
PASO 10: MODELOS DE DECISIÓN
Árbol de Decisión
Nos muestra las decisiones de compra considerando todas las variables de nuestra data frame. Con
rpart.plot tenemos la representación de la decisión compra del año 2020.
La decisión de compra fue afirmativa durante el año 2020 en un 72%.
PASO 11
Con el comando Matriz Confusión obtenemos la efectividad de la predicción de nuestro árbol.

De las 5 variables clasificas, 5 fueron decisiones de compra positivas y 3 negativas.
El porcentaje de precisión que nos da como resultado es del 100%, quiere decir que este modelo acertó el
100% la predicción.
Confusion Matrix and Statistics
Reference
Prediction no si
no 3 0
si 0 5
Accuracy : 1
95% CI : (0.6306, 1)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.02328
Kappa : 1
Mcnemar's Test P-Value : NA
Sensitivity : 1.000
Specificity : 1.000
Pos Pred Value : 1.000
Neg Pred Value : 1.000
Prevalence : 0.375
Detection Rate : 0.375
Detection Prevalence : 0.375
Balanced Accuracy : 1.000
'Positive' Class : no
PASO 12: Modelo Naives Bayes
Nuestro factor es Decision_Compra, la cual es indicada en la fórmula, junto con los datos de entrenamiento.
Para mostrar la predicción del modelo, utilizamos la función predict() cargo en ella el modelo, los resultados
de bayes y por último dato prueba
Nuestra matriz de confusión con la función confusiónMatrix(), donde la primera indicación es vector de
predicción y luego datos prueba
Ahora ya estamos en condiciones de ver la matriz de confusión
Confusion Matrix and Statistics
Reference
Prediction no si
no 2 0
si 1 5
Accuracy : 0.875
95% CI : (0.4735, 0.9968)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.135
Kappa : 0.7143
Mcnemar's Test P-Value : 1.000
Sensitivity : 0.6667
Specificity : 1.0000
Pos Pred Value : 1.0000
Neg Pred Value : 0.8333
Prevalence : 0.3750
Detection Rate : 0.2500
Detection Prevalence : 0.2500
Balanced Accuracy : 0.8333
'Positive' Class : no
Se deduce de las 3 variables, 2 fueron decisión de compra negativas y 1 fue positiva.

De las 6 variables clasificas,0 fueron decisiones de compra negativa y 6 positivas.
El modelo presenta un 87,5% de efectividad.
PASO 13:
Se ingresa el comando ggplot para que se visualice el grafico de costo vs. Error de clasificación.
Se toma como data las gráficos de predicción de Decision_compra.
Se observa que los precios se mantienen constantes y el margen de error es mínimo.
CONCLUSION
Podemos concluir El árbol de decisión tiene un 100% de certeza con una sensibilidad del 100% versus el
modelos de Naives Bayes presenta un 87,5% de certeza en predicción y una sensibiidad del 66,67%.
Por tanto, se recomienda usar el Modelo de Árbol de Decisiones por alcanzar una mayor certeza en la
predicción de decisión de compra lo que genera mayor confiabilidad.

Iicg2101 - s4 - Cristina Valdivieso Ballon

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Iicg2101 - s4 - Cristina Valdivieso Ballon

Cargado por

Copyright:

Formatos disponibles

Facultad de Ingeniería

II. USO DEL LENGUAJE R

A continuación, se interpreta los resultados en R:

install.packages: Comando para instalar paquetes

La función str() se observa la estructura de los datos y la naturaleza de las variables

Fijamos nuestra nueva ruta de trabajo, tomando el 80% de registros al azar.

PASO 10: MODELOS DE DECISIÓN

Con el comando Matriz Confusión obtenemos la efectividad de la predicción de nuestro árbol.

Confusion Matrix and Statistics

PASO 12: Modelo Naives Bayes

Ahora ya estamos en condiciones de ver la matriz de confusión

Confusion Matrix and Statistics

Mcnemar's Test P-Value : 1.000

Se deduce de las 3 variables, 2 fueron decisión de compra negativas y 1 fue positiva.

El modelo presenta un 87,5% de efectividad.

También podría gustarte