Está en la página 1de 7

PEC 5

UOC

NOMBRE: Luis Ricardo Suárez de Abreu

Introducción
En esta PEC utilizaremos el conjunto de datos ‘winequality-red.csv’ que contiene información técnica y
gustativa de distintos tipos de vino tinto.
Se pueden consultar en https://archive.ics.uci.edu/ml/datasets/Wine+Quality
Las variables que contiene son las siguientes:

• acidez fija
• acidez volátil
• ácido cítrico
• azúcar residual
• cloruros
• dióxido de azufre libre
• dióxido de azufre total
• densidad
• pH
• sulfatos
• alcohol
• calidad

Os puede ser útil consultar el siguiente material:

• Módulos teóricos de Regresión lineal simple, múltiple y ANOVA.


• Actividades resueltas del Reto 5 (regresión lineal simple, múltiple y ANOVA).

Hay que entregar la práctica en fichero pdf o html (exportando el resultado final a pdf o html por ejemplo).
Se recomienda generar el informe con Rmarkdown que genera automáticamente el pdf/html a entregar.
NOTA 1: no es necesario ni limpiar ni preprocesar los datos para este ejercicio
NOTA 2: comprobar que el dataset ha cargado correctamente (vigilar con la separación que se utiliza en el
csv)

## cargar datos
data_pac5<-read.csv("data_pac5.csv", sep=";", header=TRUE)

1
Pregunta 1. (resolver con R). (3 puntos)
La empresa especializada en la creación de vinos de alta calidad está buscando comprender mejor las variables
que influyen en la calidad del vino para optimizar sus estrategias de producción y marketing. Se realizará
un análisis para identificar las características clave que contribuyen a la calidad del vino y determinar el
enfoque para futuras campañas publicitarias.

a) Realiza un gráfico de dispersión entre la variable citric.acid y la variable residual.sugar. ¿Cuál es el


coeficiente de correlación? Interpretad el resultado (1 punto).

Solución:

#Generamos el gráfico de dispersión:


plot(data_pac5$citric.acid ~ data_pac5$residual.sugar)

#Conseguimos el coeficiente de correlación


recta_a<-lm(data_pac5$citric.acid ~ data_pac5$residual.sugar)
summary(recta_a)

##
## Call:
## lm(formula = data_pac5$citric.acid ~ data_pac5$residual.sugar)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.35733 -0.17624 -0.01235 0.15897 0.71194
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.220613 0.009935 22.205 < 2e-16 ***
## data_pac5$residual.sugar 0.019837 0.003422 5.798 8.08e-09 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 0.1928 on 1597 degrees of freedom
## Multiple R-squared: 0.02061, Adjusted R-squared: 0.02
## F-statistic: 33.61 on 1 and 1597 DF, p-value: 8.084e-09

#summary nos da el coeficiente de determinación Rˆ2. Sabiendo que: Rˆ2=rˆ2


r_a<-sqrt(0.02)
#r_a=0.1414.

#Extra: Representamos la recta de regresión:


abline(recta_a)

2
1.0
0.8
data_pac5$citric.acid

0.6
0.4
0.2
0.0

5 10 15

data_pac5$residual.sugar

Figura 1. Gráfico de dispersión junto a su recta de regresión de la variable residual sugar y citric acid. No
se observa ningún tipo de tendencia.
La recta de dispersión sería la siguiente según los datos recogidos por el summary: y=0.2206 + 0.0198x.
El coeficiente de correlación es de 0.1414. Lo que nos indica una relación débil entre las dos variables. Además,
conociendo el coeficiente de determinación igual a 0.02 nos indica que la recta de regresión encontrada explica
solo el 2% de la variabilidad de las observaciones.

b) Encontrad los siguientes dos parámetros del modelo de regresión lineal a estudiar: el intercepto (B0 ) y
la pendiente (B1 ). Nota: Usa citric.acid como variable dependiente y la variable residual.sugar como
predictor (variable independiente) (1 punto).

Solución:

#A partir del summary del apartado anterior a) se puede extraer la ordenada en el origen y la pendiente

#y=0.2206 + 0.0198x, donde:

#Ordenada en el origen (intercepto) = 0.2206


#Pendiente = 0.0198

c) ¿Qué porcentaje de la variación del ácido cítrico no puede ser explicado por los azucares residuales?
(1 punto)

Solución:

3
#Como ya se comentó en el apartado a), el coeficiente de correlación es de 0.1414.
#Lo que nos indica una relación débil entre las dos variables. Además, conociendo
#el coeficiente de determinación igual a 0.02 nos indica que la recta de regresión
#encontrada explica solo el 2% de la variabilidad de las observaciones. Por lo
#tanto, el 98% de la variación del ácido cítrico no puede ser explicada por
#los azúcares residuales.

4
Pregunta 2. (resolver con R). (3 puntos)
Para la creación de la próxima versión mejorada de vinos tintos, se han seleccionado distintos vinos y se han
sometido a diversas catas.
Se procederá inicialmente a analizar los datos obtenidos de la evaluación de la influencia de la cantidad de
sulfatos en la calidad del vino. Se buscará determinar si existen diferencias significativas entre las cantidades
de la variable sulphates para distintos grupos definidos por la calidad (variable Quality_group no disponible
en el dataset).
Si miramos la salida del modelo creado, contestad las preguntas siguientes:

Df Sum Sq Mean Sq F value Pr(>F)

Quality_group 3 2.98 0.9942 36.94 <2e-16 ***

Residuals 1595 42.93 0.0269

Signif. codes: 0 ’’ 0.001 ’’ 0.01 ’’ 0.05 ’.’ 0.1 ’ ’ 1

a) ¿Cuántos grupos y cuántas observaciones hay en el dataset? (1 punto)

Teniendo en cuenta que Df (grados de libertad) = 3 y Df = n-1; n=3+1=4 Hay 4 grupos.


Teniendo en cuenta que el número total de grados de libertad equivale a la suma de los grados de libertad del
factor (Quality_group) y de los residuos, se puede despejar el número de observaciones: Grados de libertad
= n - 1; 1595 + 3 = n - 1; n = 1599 Hay 1599 observaciones.

b) Si se utiliza el nivel de significación α = 0.05, ¿qué valor crítico se debe utilizar para realizar el análisis
de la varianza? (1 punto)

Solución:

df_b1<-3
df_b2<-1595
sign_b<- 0.05
vc_b<-qf(1 - sign_b, df_b1, df_b2)
vc_b

## [1] 2.610481

El valor crítico es de 2.61.

c) ¿Cuál es la conclusión del análisis de la varianza (con un nivel de significación del 5%) en función del
valor crítico? (1 punto)

Solución:
Estadístico de contraste F = 36.94 Valor crítico = 2.61
Como el valor crítico es menor al estadístico de contraste, podemos rechazar con seguridad la hipótesis nula.
Las medias no son iguales –> Hay diferencia significativa entre las cantidades de sulfatos en los vinos.

5
Pregunta 3 (resolver con R). (4 puntos)
Exploraremos un modelo predictivo sobre la calidad del vino utilizando múltiples variables:

a) Escribe la ecuación que se obtiene del modelo de regresión múltiple para predecir la calidad del vino
utilizando las variables de pH, contenido de azúcar residual y sulfatos. (1 punto)

Solución:

#Suponiendo la calidad del vino como única variable dependiente


#y el pH, el contenido de azucar y sulfatos tres variables independientes (explicativas),
#la ecuación que se obtiene sería:
#y=calidad del vino
#b0=ordenada en el origen
#x1=pH
#x2=contenido de azucar
#x3=contenido de sulfatos
#y=b0 + b1x1 + b2x2 + b3x3 + e

#Por lo tanto:

recta_mult<-lm(data_pac5$quality ~ data_pac5$pH + data_pac5$residual.sugar + data_pac5$sulphates, data =


summary(recta_mult)

##
## Call:
## lm(formula = data_pac5$quality ~ data_pac5$pH + data_pac5$residual.sugar +
## data_pac5$sulphates, data = data_pac5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2617 -0.5460 0.1185 0.4541 2.3886
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.967242 0.456120 10.890 <2e-16 ***
## data_pac5$pH -0.039750 0.129763 -0.306 0.759
## data_pac5$residual.sugar 0.006701 0.013932 0.481 0.631
## data_pac5$sulphates 1.190285 0.117755 10.108 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 0.7823 on 1595 degrees of freedom
## Multiple R-squared: 0.06341, Adjusted R-squared: 0.06165
## F-statistic: 35.99 on 3 and 1595 DF, p-value: < 2.2e-16

#Dadas las bi del summary en "Estimate", la ecuación de la recta es:

# y = 4.9672 - 0.0397x1 + 0.0067x2 + 1.1903x3 + e

b) ¿El modelo en su conjunto es significativo con un nivel del 5%? Además, ¿cuál es el coeficiente de
determinación obtenido para este modelo? (1 punto)

6
Solución:
Dado el summary del apartado anterior, el valor p (Intercept, Pr(>mod(t))) es prácticamente cero, lo que
significa significa que hay evidencia significativa para rechazar la hipótesis nula de que todos los coeficientes
son iguales a cero. Por lo tanto, podemos decir que el modelo en su conjunto es significativo a un nivel de
significación del 5%.
El coeficiente de determinación para este modelo es: Rˆ2 = 0.06165.
Por lo tanto, a pesar de que los coeficientes estimados son significativos, el ajuste del modelo es muy pobre
por el tan bajo coeficiente de determinación.

c) Dado un vino con un pH de 3.5, un contenido de azúcar residual de 2.5 y sulfatos de 0.6, ¿cuál sería
su calidad según el modelo establecido? (1 punto)

Solución:

#Ayudándonos de la interpolación, simplemente hay que sustituir estos valores en


#cada x:

calidad<-4.9672 - ((0.0397 * 3.5) + (0.0067 * 2.5) + (1.1903 * 0.6))


calidad

## [1] 4.09732

La calidad del vino sería de 4.097.

d) Si tuvieras que eliminar alguna variable del modelo del apartado a), considerando un nivel de signifi-
cación del 5%, ¿cuál eliminarías y por qué? (1 punto).

Solución:
Eliminaría el pH debido a que es la que tiene mayor p valor, que, de hecho, superior al 5%.

También podría gustarte