Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Supervisado
Modelos Predictivos
Autora
Cristina Valdivieso Ballón
Profesora
Francisca Novoa Winder
Santiago, Chile
2023
INTRODUCCION
El aprendizaje supervisado nos permite desarrollar modelos predictivos mediante la ejecución de comandos
y datos de entrada, que nos permite obtener diferentes grados de asertividad en cuanto a una decisión
general.
En este informe explicamos paso a paso de como ingresar datos a mediante comandos en lenguaje R.
APRENDIZAJE SUPERVISADO
USO DE LENGUAJE R
I. GENERALIDADES
Lista de Útiles
Para este informe se utiliza como base de datos el archivo LISTAUTILES en formato CSV que contiene 6
columnas y 51 filas donde se indica los precios de cada artículos desde el año 2020 al 2023 y la decisión de
compra. Esta última columna se tomará como columna de resultado.
Los precios se definen en valor numérico y la decisión de compra se obtiene mediante la condicional si el
promedio de los precios de los 2020 al 2023 es mayor a 20000, se compra =si, caso contrario = no. Fórmula
utilizada: SI(PROMEDIO(B2:E2)<20000;"si";"no")
LISTAUTILES.csv
PASO 1
Cargar el archivo LISTAUTILES.CSV en la opción UPLOAD.
PASO 2
Cargamos los paquetes y librerías necesarios, que permitirá organizar nuestra visualización de datos. El
paquete obtiene información de las siguientes librerías:
PASO 3
Especificamos la ruta donde se guardan los archivos que se importan desde el equipo a la nube y también
la ruta donde se guardan los resultados del trabajo
PASO 4
Cargamos nuestro archivo LISTAUTILES a través del comando, especificando que la primera fila es un título
y separar los ; en columnas.
Con el comando View (datos), nos permite visualizar nuestra base de datos armada.
Para visualizar los datos generados por los patrones se indica:
PASO 5
Para una mejor optimización e interpretación de los datos, eliminamos la primera columna con el comando:
PASO 6
Calculamos la ganancia de información de nuestras variables, es decir, que tanta impureza tiene nuestras
variables. Mientras más cercanas estén a 1, tendrá buena calidad, pero si se acercan 0 serán de mala
calidad.
Se infiere que nuestras todas las variables tienen la misma calidad promedio para ser evaluadas.
Dim(datos)
Para saber la dimensión se utiliza el comando, indicando el nombre de nuestro data frame.
Str(datos)
Names(datos)
Comando que permite ver los nombres de las columnas de nuestra base de datos.
PASO 7
Convertimos nuestra columna resultado Decision_compra en factor.
PASO 8
PASO 9
Fijamos nuestros datos de prueba restando nuestra base de datos menos datos_entrenamiento.
Árbol de Decisión
Nos muestra las decisiones de compra considerando todas las variables de nuestra data frame. Con
rpart.plot tenemos la representación de la decisión compra del año 2020.
La decisión de compra fue afirmativa durante el año 2020 en un 72%.
PASO 11
Reference
Prediction no si
no 3 0
si 0 5
Accuracy : 1
95% CI : (0.6306, 1)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.02328
Kappa : 1
Mcnemar's Test P-Value : NA
Sensitivity : 1.000
Specificity : 1.000
Pos Pred Value : 1.000
Neg Pred Value : 1.000
Prevalence : 0.375
Detection Rate : 0.375
Detection Prevalence : 0.375
Balanced Accuracy : 1.000
'Positive' Class : no
Nuestro factor es Decision_Compra, la cual es indicada en la fórmula, junto con los datos de entrenamiento.
Para mostrar la predicción del modelo, utilizamos la función predict() cargo en ella el modelo, los resultados
de bayes y por último dato prueba
Nuestra matriz de confusión con la función confusiónMatrix(), donde la primera indicación es vector de
predicción y luego datos prueba
Reference
Prediction no si
no 2 0
si 1 5
Accuracy : 0.875
95% CI : (0.4735, 0.9968)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.135
Kappa : 0.7143
Sensitivity : 0.6667
Specificity : 1.0000
Pos Pred Value : 1.0000
Neg Pred Value : 0.8333
Prevalence : 0.3750
Detection Rate : 0.2500
Detection Prevalence : 0.2500
Balanced Accuracy : 0.8333
'Positive' Class : no
PASO 13:
Se ingresa el comando ggplot para que se visualice el grafico de costo vs. Error de clasificación.
Se toma como data las gráficos de predicción de Decision_compra.
Se observa que los precios se mantienen constantes y el margen de error es mínimo.
CONCLUSION
Podemos concluir El árbol de decisión tiene un 100% de certeza con una sensibilidad del 100% versus el
modelos de Naives Bayes presenta un 87,5% de certeza en predicción y una sensibiidad del 66,67%.
Por tanto, se recomienda usar el Modelo de Árbol de Decisiones por alcanzar una mayor certeza en la
predicción de decisión de compra lo que genera mayor confiabilidad.