Está en la página 1de 9

Análisis de datos sobre el vino rojo

Flores Nathaly, Galárraga Cristina, Valencia Zaskya


26 de septiembre de 2017

Tema: Análisis de datos sobre el vino rojo

Sección 1: Introducción

La palabra alcohol proviene del árabe “Al” que significa “el” y “Kohol” que significa “espíritu”. Por definición,
un compuesto orgánico formado básicamente por moléculas de Hidrógeno, Oxígeno y Carbono. El alcohol
etílico es el único apto para el consumo humano. Se obtiene a partir de un proceso bioquímico en el que los
azúcares se transforman en alcohol y bióxido de carbono por acción de las levaduras. Las bebidas alcohólicas
se pueden distinguir entre: Fermentadas, destiladas, fortificadas y licores.

Fermentadas.

Surgen por un cambio bioquímico producido por la acción de la levadura ante la exposición de productos nat-
urales a ciertas condiciones de humedad, temperatura y tiempo, que se denomina fermentación. Normalmente
se dejan reposar vegetales y frutas que cargan gran contenido de glucosa donde las más frecuentes son:
• Cerveza: Cuyo contenido de alcohol varía entre 4° y 5°.
• Vino: Que posee un grado alcohólico de entre 11º y 14º.

1
Sección 2: Ánalisis de la base de datos.

En el informe realizado, se presenta información sobre los resultados obtenidos de un análisis químico de
vinos de Italia. Usando estos datos se analizó aspectos como: la relación entre la calidad del vino y el pH, el
grado de alcohol, la cantidad total de dióxido de sulfuros, entre otros. Por lo tanto, la información analizada
tiene como objetivo determinar que variables son las mas influyentes en la calidad del vino rojo.
La base de datos esta constituida por las siguientes variables:
## [1] "fixed acidity" "volatile acidity" "citric acid"
## [4] "residual sugar" "chlorides" "free sulfur dioxide"
## [7] "total sulfur dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
La clase de las variables es:
## [1] "tbl_df" "tbl" "data.frame"
Los datos estadísticos de las variables son:
## fixed acidity volatile acidity citric acid residual sugar
## Min. : 4.60 Min. : 0.12 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.: 0.39 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median : 0.52 Median :0.260 Median : 2.200
## Mean : 8.32 Mean : 3.88 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.: 0.64 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1185.00 Max. :1.000 Max. :15.500
##
## chlorides free sulfur dioxide total sulfur dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
##
## density pH sulphates alcohol
## Min. : 0.99 Min. :2.740 Min. :0.3300 Min. : 8.40
## 1st Qu.: 1.00 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50
## Median : 1.00 Median :3.310 Median :0.6200 Median :10.20
## Mean : 1257.36 Mean :3.311 Mean :0.6581 Mean :10.42
## 3rd Qu.: 1.00 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10
## Max. :100369.00 Max. :4.010 Max. :2.0000 Max. :14.90
## NA's :6
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.636
## 3rd Qu.:6.000
## Max. :8.000
##

2
Histogramas.

pH Sulfatos
400

500
300
Frecuencia

Frecuencia

300
200
100

100
0

0
2.8 3.0 3.2 3.4 3.6 3.8 4.0 0.5 1.0 1.5 2.0

pH Sulfatos

Gráfico de caja de la variable: pH Gráfico de caja de la variable: Sulfatos

2.0
4.0

1.5
3.6

1.0
3.2

0.5
2.8

El pH que aparece con mayor frecuencia en el análisis químico está entre 3.3 y 3.4 obteniendose una media de
3.311, mientras que la cantidad de sulfatos que aparece con mayor frecuencia está entre 0.5 y 0.6 obteniendose
una media de 0.6581.

Grados de alcohol Calidad del vino rojo


400

600
300
Frecuencia

Frecuencia

400
200

200
100
0

8 9 10 11 12 13 14 15 3 4 5 6 7 8

Grados de alcohol Calidad

3
Gráfico de caja de la variable: Grados de alcohol Gráfico de caja de la variable: Calidad

8
14

7
6
12

5
10

4
9

3
Los grados de alcohol que aparecen con mayor frecuencia en el análisis químico está entre 9 y 9.5, mientras
que los datos de la calidad del vino rojo aparece con mayor frecuencia entre 4.5 y 5.0.

Modelos esperados

Calidad vs pH

Gráfico de dispersión de calidad vs pH


4.0
3.8
3.6
3.4
pH

3.2
3.0
2.8

3 4 5 6 7 8

Calidad

4
Regresion lineal

Linealizando variables

##
## Call:
## lm(formula = quality ~ pH)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.62884 -0.10975 0.06127 0.07769 0.38307
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.94659 0.09344 20.83 <2e-16 ***
## pH -0.19047 0.07805 -2.44 0.0148 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1453 on 1597 degrees of freedom
## Multiple R-squared: 0.003715, Adjusted R-squared: 0.003091
## F-statistic: 5.955 on 1 and 1597 DF, p-value: 0.01479
La ecuacion obtenida es: y = 1.95 − 0.19x

Grafico de la ecuacion

1.4

1.3
pH

1.2

1.1

1.0

1.25 1.50 1.75 2.00


quality

5
Calidad vs Sulfatos

Gráfico de dispersión de calidad vs sulfatos


2.0
1.5
Sulfatos

1.0
0.5

1.2 1.4 1.6 1.8 2.0

Calidad

Regresion lineal

Linealizando variables

##
## Call:
## lm(formula = quality2 ~ sulphates)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.47776 -0.05053 0.01006 0.05481 0.19615
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.589183 0.004655 126.58 <2e-16 ***
## sulphates 0.115224 0.009343 12.33 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0835 on 1597 degrees of freedom
## Multiple R-squared: 0.08696, Adjusted R-squared: 0.08639
## F-statistic: 152.1 on 1 and 1597 DF, p-value: < 2.2e-16

6
La ecuacion obtenida es: y = 0.59 + 0.12x

Grafico de la ecuacion

0.5

0.0
sulphates

−0.5

−1.0

1.25 1.50 1.75 2.00


quality

7
Calidad vs Grados de alcohol

Gráfico de dispersión de calidad vs grados de alcohol


15
14
Grados de alcohol

13
12
11
10
9

1.2 1.4 1.6 1.8 2.0

Calidad

Regresion lineal

Linealizando variables

##
## Call:
## lm(formula = quality3 ~ alcohol)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.46622 -0.03612 -0.01045 0.05950 0.21616
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.35979 0.04681 -7.686 2.65e-14 ***
## alcohol 0.38369 0.02000 19.188 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07881 on 1591 degrees of freedom
## (6 observations deleted due to missingness)
## Multiple R-squared: 0.1879, Adjusted R-squared: 0.1874
## F-statistic: 368.2 on 1 and 1591 DF, p-value: < 2.2e-16

8
La ecuacion obtenida es: y = −0.36 + 0.38x

Grafico de la ecuacion

2.7

2.6

2.5
alcohol

2.4

2.3

2.2

2.1
1.25 1.50 1.75 2.00
quality

Conclusiones.

También podría gustarte