Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Exploratorio de Datos PDF
Analisis Exploratorio de Datos PDF
Se puede realizar:
En forma de grfico
Pruebas de contraste
Ejemplo:
Valores de densidad para 42 probetas de Mureillo
0,79
0,78
0,8
0,82
0,82
0,83
0,84
0,84
0,85
0,85
0,85
0,86
0,86
0,86
0,85
0,84
0,85
0,83
0,84
0,83
0,84
0,81
0,81
0,8
0,84
0,83
0,83
0,83
0,84
0,86
0,86
0,86
0,84
0,85
0,88
0,82
0,82
0,87
0,85
0,88
0,88
0,9
Recuento
0,800
0,825
0,850
0,875
0,900
de nsidad
gl
42
Sig.
,184
ShapiroWilk
Estadstico
,979
gl
42
Sig.
,704
Para chequear la normalidad de los datos suelen aplicarse las pruebas de contraste
Kolmogorov-Smirnov y la de Shapiro-Wilk tal como se muestra en la tabla. En tal
caso el contraste se define de la siguiente manera:
De entre todos los factores que afectan al proceso, cuales influyen ms?,
cmo interaccionan entre ellos?
Efectuar los experimentos con los valores de los factores decididos en el punto
3 para obtener los valores de las respuestas estudiadas.
H 0 : A = B = C = D = E = F = G = H
= j
H a : i 6
Para inferir si se acepta la hiptesis nula H0 o se rechaza (en este caso, se acepta Ha) se
procede a realizar una anlisis de la varianza ANOVA.
Si se rechaza la hiptesis nula, esto significa que hay diferencias significativas entre los
tratamientos. De tal manera, que hay que aplicar una prueba estadstica para determinar
entre cuales tratamientos existe diferencias.
3,2
2,8
1,4
2,4
3,5
2,9
2,5
1,5
1,7
2,7
2,8
3
2,4
1,8
1,6
2,7
2,7
2,5
3,5
2,8
1,9
2,1
2,5
2,2
3,7
1,8
1,8
1,4
2,8
2
3
3,5
3,2
2
2,5
1,6
3
2,7
3,5
2,5
2,9
2,4
1,5
2
1,9
2,8
2,5
2,8
2,7
2,7
2
1,7
3
2,1
2
2,4
3,7
2,2
Media
cuadrtica
Significacin
24,966
,199
125,616
,000
3,0
2,5
2,0
1,5
A
TRAT
H 0 : A = B = C = D
= j par a al menos un par ( i ; j )
H a : i 6
Para Bloques
H 0 : B 1 = B2 = B3 = B 4
H a : al menos una medi a del bloque es di f er ente
Ejemplo:
Ensayo de 6 especies de maderas. Realizar un anlisis de la varianza para un diseo
D.B.C.A, considerando 6 bloques. Se midi la altura de las plntulas en cm:
Especie
Bloques
1
2
3
4
5
6
13,85
12,2
13,05
10,75
12,85
8,05
11,85
13,55
11,5
10,15
13,05
6,85
12,95
11,3
10,65
13,15
8,95
10,5
14,5
15,3
10,85
10,6
12,45
11,15
12,5
8,9
8,85
9,48
9,6
7,23
10,5
10,65
8,5
11,36
9,6
4,7
Intergrupos
Intragrupos
Total
Suma de
cuadrados
,532
gl
3
Media
cuadrtica
,177
50,527
12
4,211
51,059
15
Sig.
,042
,988
Lo que significa que el valor p = 0,988 > = 0,05 (95 %). Por lo tanto, se aceptara H0.
Es decir, no habra diferencia estadsticamente significativa entre las especies.El hecho
de no considerar el factor bloque (cuando hay variabilidad o heterogeneidad) enmascara
la informacin, lo que implica que se realice una mala inferencia estadstica.
Veamos la tabla ANOVA considerando el factor Bloque.
Pruebas de los efectos inter-sujetos
Variable dependiente: ALTURA
Fuente
Suma de
gl
cuadrados
tipo III
Interseccin 4266,702
1
ESPECIES
50,775
5
BLOQUE
74,880
5
Error
53,763
25
Total
4446,120
36
Media
cuadrtica
4266,702 1984,041
10,155
4,722
14,976
6,964
2,151
Significacin
,000
,004
,000
6
6
6
6
6
6
Subconjunto
1
2
9,2183
9,4267
11,1583
11,1583
11,2500
11,2500
11,7917
11,7917
12,4750
,055
,634
ALTURA
DHS de Tukey
N
BLOQUE
6,00
3,00
4,00
5,00
2,00
1,00
Significacin
6
6
6
6
6
6
Subconjunto
1
2
8,0800
10,5667
10,5667
10,9150
11,0833
11,9833
12,6917
,068
,159
Col
II
III
IV
A(1.7) B(3)
II
E(2)
A(3)
III
C(3)
D(3)
B(2.4)
IV
B(3)
C(2.5) D(3)
A(3)
E(2)
E(0.6)
B
D
A
C
E
Col.2
C
E
B
D
A
Col.3
D
A
C
E
B
Col.4
E
Fila I
B
Fila II
D
Fila III
A
Fila IV
C
Fila V
Col.5
El modelo de efectos del cuadrado latino es aditivo, es decir, no hay interacciones entre
las filas, las columnas y los tratamientos.
Hay una sola observacin por celda. Cada tratamiento aparece exactamente una vez en
cada fila y en cada columna.
ANLISIS DE LA VARIANZA
ANEXOS
Diagnosis y adecuacin del modelo
Comprobar que
El anlisis de los residuos constituye una herramienta fundamental en el
estudio de la adecuacin del modelo. Los residuos contienen informacin
sobre la variabilidad no explicada.
HIPOTESIS DE NORMALIDAD
Un histograma de los residuos, un grfico de probabilidad normal de los residuos
y un contraste de normalidad
El anlisis de varianza en el modelo de efectos fijos es robusto a la hiptesis de
normalidad. La falta de normalidad puede afectar a la precisin de la estimacin
de la varianza.
Los grficos de los residuos son de gran ayuda en la deteccin de outliers.
HIPOTESIS DE INDEPENDENCIA
La representacin de los residuos en el orden de recogida de datos ayuda a
detectar correlacin entre los residuos.
Si se identifica dependencia, los clculos sobre la precisin de los
estimadores son errneos
El no cumplimiento de esta hiptesis es un problema serio y difcil de
corregir, por ello es importante prevenir el problema en la fase de recogida de
datos. Una aleatorizacin apropiada es un paso importante para obtener
independencia.