Está en la página 1de 13

Trabajo Grupal 3

Análisis predicción calidad del Vino

Asignatura: Análisis de datos

Nombre docente:
Rodrigo Riquelme León.

Nombre estudiante(s):
Grupo N°10
Jeannette Quezada.
Darik Márquez.
Cristian Llanos.
Axell Salazar.
Motivación del estudio

En los últimos años la industria vitivinícola en nuestro país ha experimentado un desarrollo importante.
Chile a nivel mundial se destaca como uno de los principales productores.

Además de la producción de vinos, las empresas vitivinícolas están explorando el turismo asociado al
proceso productivo.
La motivación del presente estudio es poder concluir las variables más relevantes que inciden en la
calidad del vino, a través de modelo de regresión.

La calidad de un vino refleja la dedicación de muchas horas de trabajo de una serie de


profesionales que cuidan el producto desde el campo hasta que llega a tu copa.
Objetivos

Objetivo general: Por medio del análisis de una base de datos de 12 variables independientes y 1
variable dependiente, se pretende aplicar el modelo de regresión a través de la técnica de mínimos
cuadrados y cálculo de betas de ponderación para cada variable y estructurar un modelo de pronóstico
evaluando su asertividad.

Objetivos específicos:
• Realizar un modelo de pronóstico de la calidad del vino, analizando sus propiedades físicas y químicas,
las cuales inciden en su calidad.
• Determinar las variables más influyentes en la calidad del vino.
• Conocer el modelo de pronóstico más efectivo de la presente unidad.
Análisis de variables de estudio

Variable dependiente (Y): La calidad del vino, la cual depende de una serie de variables físicas y químicas
que serán analizadas como variables independientes, puntuación entre 0 y 10, donde 10 es la mejor
evaluación.
Variables independientes (X): Todas son propiedades físico químicas que inciden directamente en la
calidad del vino.
- Acidez fija. - Dióxido de azufre total.
- Acidez volátil. - Densidad.
- Ácido cítrico. - pH  iones hidrogeno
- Azúcar residual. - pOH iones hidróxido
- Cloruros. - Sulfatos.
- Dióxido de azufre libre. - Alcohol.
Análisis Estadístico

• Análisis estadístico variables: A través de la función estadística descriptiva en Excel realizamos el análisis de cada variable.

Azucar Dioxido de Dióxido de


  Acidez fija Acidez volatil Acido citrico residual Cloruros azufre libre azufre total Densidad pH pOH Sulfatos Alcohol Calidad

Media 8.968 0.531 0.317 2.649 0.091 14.708 49.398 0.998 3.278 3.722 0.682 10.164 5.594
Error típico 0.090 0.008 0.009 0.063 0.002 0.438 1.513 0.000 0.007 0.007 0.009 0.047 0.036
Mediana 8.600 0.520 0.300 2.300 0.082 12.000 41.500 0.998 3.280 3.720 0.630 9.800 5.000
Moda 7.800 0.490 0.490 2.000 0.084 6.000 15.000 0.997 3.320 3.680 0.560 9.400 5.000
Desviación estándar 1.997 0.178 0.210 1.403 0.053 9.781 33.760 0.002 0.162 0.162 0.197 1.041 0.805
Varianza de la muestra 3.990 0.032 0.044 1.970 0.003 95.659 1139.705 0.000 0.026 0.026 0.039 1.083 0.648
Curtosis 0.385 1.343 -0.876 21.145 49.638 3.078 0.710 1.117 0.805 0.805 11.984 2.245 0.535
Coeficiente de asimetría 0.744 0.765 0.182 3.791 6.341 1.389 1.172 -0.021 0.289 -0.289 2.687 1.472 0.516
Rango 11.3 1.15 1 14.3 0.577 67 157 0.012 1.16 1.16 1.67 6.5 5
Mínimo 4.6 0.18 0 1.2 0.034 1 8 0.9912 2.74 3.1 0.33 8.4 3
Máximo 15.9 1.33 1 15.5 0.611 68 165 1.0032 3.9 4.26 2 14.9 8
Suma 4465.9 264.535 157.81 1319.1 45.22 7324.5 24600 496.8268 1632.64 1853.36 339.62 5061.5 2786
Cuenta 498 498 498 498 498 498 498 498 498 498 498 498 498

Coef Var. 22% 34% 66% 53% 58% 66% 68% 0% 5% 4% 29% 10% 14%

Por medio del análisis del coeficiente de variación de cada variable visualizamos que la data es de buena calidad, sin embargo se puede
mejorar realizando una limpieza en los valores extremos de las variables (Ácido cítrico, Dióxido de azufre libre y Dióxido de azufre
total), las cuales están cercanas al 70%
Análisis Estadístico
• Tratamiento de valores extremos: Por medio de análisis de histogramas en Excel realizamos limpieza de valores extremos
en las siguientes variables (Ácido cítrico, Dióxido de azufre libre y Dióxido de azufre total)

Como podemos apreciar, sólo se eliminan dos filas de la variable las cuales estaban alejadas del resto de los valores.
Análisis Estadístico

Como podemos apreciar, sólo se eliminan dos filas de la variable las cuales estaban alejadas del resto de los valores.
Análisis Estadístico

Como podemos apreciar, sólo se elimina una fila de la variable la cual estaba alejada del resto de los valores.
Análisis de correlación
A través del análisis de correlación podemos identificar las variables del estudio que tienen mayor relación, la métrica establecida en el
presente es un 75%.

Como podemos apreciar, las variables que presentar mayor correlación son acidez fija y densidad, por lo que se toma la decisión de
eliminar del análisis la variable densidad.
Análisis parsimonia
A través del análisis de parsimonia podemos identificar las variables que tienen menor influencia en el modelo de predicción, esto
fijando un techo de 10% en la probabilidad de cada variable.

Como se aprecia en la imagen, las variables Acidez fija, Ácido cítrico, Azúcar residual, Cloruros y Dióxido de azufre libre tienen menor
influencia por lo que para el análisis del 3er modelo de predicción no serán consideradas.
Análisis modelos
Se realizan 3 modelos para el análisis, el primer análisis se realiza a través de modelo de regresión y mínimos cuadrados, el segundo
análisis se realiza a través de la misma técnica influyendo realizando análisis de correlación, eliminando una variable, finalmente se
realiza análisis de parsimonia eliminando 5 variables.
A continuación el cuadro resumen con los 3 modelos estudiados.

Modelo1 Modelo2 Modelo 3


Explicabilidad R2_Dev 0.35089768 0.34695003 0.33612617
R2_adj_Dev 0.33050703 0.32819403 0.32586008
Ajuste RMSE_Dev 0.4319 0.4345 0.4417
RMSE_Test 0.4208 0.3829 0.3294
Aciertos Acierto_Dev 92% 92% 93%
Acierto_Test 87% 92% 94%
Como se aprecia, los 3 modelos tienen un buen desempeño, presentando una alta asertividad, el mejor modelo en cuando a análisis de
R2 ajustados, aciertos y simplicidad es el modelo 3.
Ecuación de regresión modelo 3

Y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 + b6*x6


Valores betas:
b0: 3,452
b1: -1,19871
b2: -0,00583
b3: 14,89066
b4: -15,04012
b5: 0,80589
b6: 0,30425

Y = 3,452 -1,19871*x1 - 0,00583 *x2 + 14,89066*x3 - 15,04012*x4 + 0,80589*x5 + 0,30425*x6


Sitio video presentación

https://drive.google.com/drive/folders/1SDGoEtXuMdCfc2oNm4j-5E8c
0qHKXqgV?usp=share_link

También podría gustarte