Está en la página 1de 12

Facultad de Ingeniería

Aprendizaje Supervisado
Modelos Predictivos

Autora
Cristina Valdivieso Ballón

Profesora
Francisca Novoa Winder

Santiago, Chile
2023
INTRODUCCION

El aprendizaje supervisado nos permite desarrollar modelos predictivos mediante la ejecución de comandos
y datos de entrada, que nos permite obtener diferentes grados de asertividad en cuanto a una decisión
general.
En este informe explicamos paso a paso de como ingresar datos a mediante comandos en lenguaje R.
APRENDIZAJE SUPERVISADO
USO DE LENGUAJE R

I. GENERALIDADES
Lista de Útiles

Para este informe se utiliza como base de datos el archivo LISTAUTILES en formato CSV que contiene 6
columnas y 51 filas donde se indica los precios de cada artículos desde el año 2020 al 2023 y la decisión de
compra. Esta última columna se tomará como columna de resultado.
Los precios se definen en valor numérico y la decisión de compra se obtiene mediante la condicional si el
promedio de los precios de los 2020 al 2023 es mayor a 20000, se compra =si, caso contrario = no. Fórmula
utilizada: SI(PROMEDIO(B2:E2)<20000;"si";"no")

LISTAUTILES.csv

II. USO DEL LENGUAJE R

A continuación, se interpreta los resultados en R:

PASO 1
Cargar el archivo LISTAUTILES.CSV en la opción UPLOAD.

PASO 2
Cargamos los paquetes y librerías necesarios, que permitirá organizar nuestra visualización de datos. El
paquete obtiene información de las siguientes librerías:

install.packages: Comando para instalar paquetes


tidyverse: permite trabajar matrices, filas y columnas.
rpart: genera modelo de árbol de decisión
rpart.plot: genera grafico de árbol de decisión
kknn: genera modelo de vecino más cercano
naivebayes: trabaja el modelo de Naive Bayes
caret,e1071: genera matriz de confusión y soporte vectorial.
RWekajars, RWeka: genera cálculo de ganancia de información
FSelector: selecciona tributos del dataset

PASO 3
Especificamos la ruta donde se guardan los archivos que se importan desde el equipo a la nube y también
la ruta donde se guardan los resultados del trabajo

PASO 4

Cargamos nuestro archivo LISTAUTILES a través del comando, especificando que la primera fila es un título
y separar los ; en columnas.

Con el comando View (datos), nos permite visualizar nuestra base de datos armada.
Para visualizar los datos generados por los patrones se indica:

PASO 5

Para una mejor optimización e interpretación de los datos, eliminamos la primera columna con el comando:

PASO 6
Calculamos la ganancia de información de nuestras variables, es decir, que tanta impureza tiene nuestras
variables. Mientras más cercanas estén a 1, tendrá buena calidad, pero si se acercan 0 serán de mala
calidad.

Se infiere que nuestras todas las variables tienen la misma calidad promedio para ser evaluadas.

Dim(datos)

Para saber la dimensión se utiliza el comando, indicando el nombre de nuestro data frame.

Str(datos)

La función str() se observa la estructura de los datos y la naturaleza de las variables

Names(datos)

Comando que permite ver los nombres de las columnas de nuestra base de datos.

PASO 7
Convertimos nuestra columna resultado Decision_compra en factor.

PASO 8

Fijamos nuestra nueva ruta de trabajo, tomando el 80% de registros al azar.


Estos serán los datos de entrenamiento.

PASO 9

Fijamos nuestros datos de prueba restando nuestra base de datos menos datos_entrenamiento.

PASO 10: MODELOS DE DECISIÓN

Árbol de Decisión

Nos muestra las decisiones de compra considerando todas las variables de nuestra data frame. Con
rpart.plot tenemos la representación de la decisión compra del año 2020.
La decisión de compra fue afirmativa durante el año 2020 en un 72%.
PASO 11

Con el comando Matriz Confusión obtenemos la efectividad de la predicción de nuestro árbol.


De las 5 variables clasificas, 5 fueron decisiones de compra positivas y 3 negativas.
El porcentaje de precisión que nos da como resultado es del 100%, quiere decir que este modelo acertó el
100% la predicción.

Confusion Matrix and Statistics

Reference
Prediction no si
no 3 0
si 0 5

Accuracy : 1
95% CI : (0.6306, 1)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.02328

Kappa : 1
Mcnemar's Test P-Value : NA

Sensitivity : 1.000
Specificity : 1.000
Pos Pred Value : 1.000
Neg Pred Value : 1.000
Prevalence : 0.375
Detection Rate : 0.375
Detection Prevalence : 0.375
Balanced Accuracy : 1.000

'Positive' Class : no

PASO 12: Modelo Naives Bayes

Nuestro factor es Decision_Compra, la cual es indicada en la fórmula, junto con los datos de entrenamiento.
Para mostrar la predicción del modelo, utilizamos la función predict() cargo en ella el modelo, los resultados
de bayes y por último dato prueba

Nuestra matriz de confusión con la función confusiónMatrix(), donde la primera indicación es vector de
predicción y luego datos prueba

Ahora ya estamos en condiciones de ver la matriz de confusión

Confusion Matrix and Statistics

Reference
Prediction no si
no 2 0
si 1 5
Accuracy : 0.875
95% CI : (0.4735, 0.9968)
No Information Rate : 0.625
P-Value [Acc > NIR] : 0.135

Kappa : 0.7143

Mcnemar's Test P-Value : 1.000

Sensitivity : 0.6667
Specificity : 1.0000
Pos Pred Value : 1.0000
Neg Pred Value : 0.8333
Prevalence : 0.3750
Detection Rate : 0.2500
Detection Prevalence : 0.2500
Balanced Accuracy : 0.8333

'Positive' Class : no

Se deduce de las 3 variables, 2 fueron decisión de compra negativas y 1 fue positiva.


De las 6 variables clasificas,0 fueron decisiones de compra negativa y 6 positivas.

El modelo presenta un 87,5% de efectividad.

PASO 13:

Se ingresa el comando ggplot para que se visualice el grafico de costo vs. Error de clasificación.
Se toma como data las gráficos de predicción de Decision_compra.
Se observa que los precios se mantienen constantes y el margen de error es mínimo.
CONCLUSION

Podemos concluir El árbol de decisión tiene un 100% de certeza con una sensibilidad del 100% versus el
modelos de Naives Bayes presenta un 87,5% de certeza en predicción y una sensibiidad del 66,67%.
Por tanto, se recomienda usar el Modelo de Árbol de Decisiones por alcanzar una mayor certeza en la
predicción de decisión de compra lo que genera mayor confiabilidad.

También podría gustarte