Objetivos
Utilizar R para trabajar el análisis de la varianza
X Y Z
4.00 4.00 3.00
3.00 4.00 4.00
4.00 5.00 2.00
5.00 5.00 4.00
2.00 4.00 5.00
3.00 5.00 5.00
4.00 4.00 4.00
5.00 4.00 4.00
1
2 1.1 Análisis de la varianza
No hay que olvidar factorizar la variable tomada para asignar profesor a cada
calificación. Escogeremos Datos/Modificar variables del conjunto acti-
vo/Convertir variable numérica en factor, como aparece en la Figura 1.1.
Debemos marcar la casilla Asignar nombres a las variables, para poder asignar al
número identificativo de cada profesor, su nombre, en este caso, x, y, z, como se ve
en la Figura 1.2.
Si visualizamos los datos (Figura 1.3) veremos que en una columna aparecen las
calificaciones y en la de al lado el profesor al que pertenecen.
Práctica 6: Análisis de la varianza. Regresión lineal y correlación. 3
I II III
A 94.00 92.00 90.00
B 89.00 86.00 86.00
C 87.00 86.00 84.00
D 98.00 92.00 82.00
En este caso introducimos los datos como antes, pero teniendo en cuenta que
tendremos que factorizar dos variables, la que contiene la agrupación por tratamientos
(complejos vitamı́nicos) y la que contiene la agrupación por bloques (razas) Después
de hecho, el conjunto de datos nos queda de la forma que aparece en la Figura 1.6.
Para aplicar el ANOVA por bloques completamente aleatorizados, utilizaremos
instrucciones, porque RCommander, por el momento, no nos ofrece la posibilidad de
hacerlo directamente:
> g<-lm(Peso~razas+complejos,data=conejos)
> anova(g)
Response: Peso
Df Sum Sq Mean Sq F value Pr(>F)
razas 3 80.333 26.778 2.4845 0.1580
complejos 2 84.667 42.333 3.9278 0.0812 .
Residuals 6 64.667 10.778
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1.2. Regresión
Se ha tomado una muestra de 15 personas de diversas edades y se ha
calculado su número máximo de pulsaciones, que aparecen recogidas en
la siguiente tabla. Analiza el tipo de relación que existe entre la edad y el
número máximo de pulsaciones.
> Edad_pulsaciones <- data.frame(Edad = c(18, 23, 25, 35, 65, 54,
+ 34, 56, 72, 19, 23, 42, 18, 39, 37), Pulsaciones = c(202,
+ 186, 187, 180, 156, 169, 174, 172, 153, 199, 193, 174, 198,
+ 183, 178))
Utilizando el paquete RCommander introduciremos los datos y los representaremos
gráficamente mediante un diagrama de dispersión o nube de puntos (Figura 1.7).
Especificamos la variable independiente x y la dependiente y, y asignamos etiquetas
a los ejes, si lo consideramos oportuno.
Obtendremos como resultado un gráfico (ver Figura 1.8) en el que aparece dibuja-
da la nube de puntos y la recta de regresión lineal. De esta forma nos podemos hacer
una idea gráfica de cómo se ajustan los puntos a la recta. En nuestro ejemplo podemos
ver que los puntos se ajustan bastante aceptablemente a la recta y que existe entre
ambas variables una relación de tipo negativo (a mayor valor para la variable edad
menor valor para la variable pulsaciones).
Nuestra apreciación visual la podemos confirmar con datos. Podemos calcular el
coeficiente de correlación lineal y la fórmula para la recta de regresión de Y sobre X.
Ello lo haremos también desde RCommander con la la opción Estadı́sticos/Ajuste
de modelos/Regresión lineal. En el menú que se despliega escogemos la variable
explicada (y) y la variable explicativa (x) y aceptamos. Todo este procedimiento lo
podemos ver en la Figura 1.9.
Call:
lm(formula = Pulsaciones ~ Edad, data = Edad_pulsaciones)
Residuals:
Min 1Q Median 3Q Max
-8.9258 -2.5383 0.3879 3.1867 6.6242
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 210.04846 2.86694 73.27 < 2e-16 ***
Edad -0.79773 0.06996 -11.40 3.85e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
q
0,9091 = 0,9534,
lo que nos indica que el ajuste lineal es muy bueno y que hay una fuerte relación
entre ambas variables.
Todo esto lo podemos obtener también, directamente, utilizando las siguientes
instrucciones:
> x<-c(18,23,25,35,65,54,34,56,72,19,23,42,18,39,37)
> y<-c(202,186,187,180,156,169,174,172,153,199,193,174,198,183,178)
> plot(x,y)
> abline(lm(y~x))
> summary(lm(y~x))
10 1.2 Regresión
Call:
lm(formula = y ~ x)
Práctica 6: Análisis de la varianza. Regresión lineal y correlación. 11
Residuals:
Min 1Q Median 3Q Max
-8.9258 -2.5383 0.3879 3.1867 6.6242
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 210.04846 2.86694 73.27 < 2e-16 ***
x -0.79773 0.06996 -11.40 3.85e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
(Intercept) x I(x^2)
217.027345 -1.193037 0.004633
12 1.3 Ejercicios
1.3. Ejercicios
Ejercicio 1
Ejercicio 2
Ejercicio 3