Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SD 21 Estadistica
SD 21 Estadistica
21
CÁTEDRA DE
ESTADÍSTICA O. F.
ANÁLISIS DE LA VARIANCIA
EN EXPERIMENTOS FACTORIALES
Cátedra de Est
adística Forest
al
Febrero 2010
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
INDICE
EXPERIMENTOS FACTORIALES………………………………………………………2
CONCEPTOS BÁSICOS……………………………………………………………………2
INTERACCIÓN...…………………………………………………………………………...4
VENTAJAS Y DESVENTAJAS……………………………………………………………4
EFECTOS PRINCIPALES. EFECTOS SIMPLES……………………………………….5
EFECTOS DE LA INTERACCIÓN……………………………………………………….6
AUSENCIA DE INTERACCIÓN………………………………………………………….7
OTRA FORMA DE INTERACCIÓN……………………………………………………...8
MODELO ESTADÍSTICO……………………………………………………………...…..9
EJEMPLO……………………………………………………………………..……………10
ESPERANZA DE LOS CUADRADOS MEDIOS……………………………………….13
COMPARACIONES MÚLTIPLES…………………………………………………...….14
RESOLUCIÓN DE UN EJEMPLO EMPLEANDO DIFERENTES SOFTWARE
CON INFOSTAT……………………………………………………..…………….16
CON SPSS…………………………………………………………………………..24
CON SAS……………………………………………………………………………40
1
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
A nuestros alumnos
Estos apuntes han sido preparados para facilitar la comprensión de los experimentos
factoriales y su procesamiento mediante la utilización de tres sofwares estadísticos:
INFOSTAT, SPSS y SAS. Es nuestro deseo, que sea éste un aporte para el aprendizaje y
análisis de estos experimentes. El que presentamos a continuación es una versión
actualizada y aumentada de la Serie Didáctica Nº 21 de la Facultad de Ciencias
Forestales, titulada “Análisis de la Variancia en Experimentos Factoriales” y que fuera
publicada por primera vez en el año 2006.
EXPERIMENTOS FACTORIALES
Introducción
Muchas veces, en la práctica forestal es de interés conocer la influencia de dos o más factores
sobre una variable respuesta. Por ejemplo en el estudio de comportamientos de varios clones
de álamos podría ser oportuno estudiar simultáneamente la influencia del distanciamiento
sobre la variable respuesta, por ejemplo, crecimiento en volumen por hectárea y año. En
casos como el mencionado lo adecuado es realizar un experimento factorial: esto significa
que cada tratamiento estará definido por la combinación de los factores: clon y
distanciamientos probados.
Por lo tanto, se puede definir a los experimentos factoriales como aquellos en los que se
comparan o estudian simultáneamente dos o más factores principales, incluyendo los
diferentes niveles o modalidades de cada uno.
El Anova en experimentos factoriales constituye una técnica estadística para analizar el
efecto de dos ó más variables independientes (factores) sobre una variable respuesta. Hasta el
momento se ha estudiado el efecto de un factor sobre la variable respuesta, pero en muchas
situaciones prácticas es necesario investigar el efecto de varios factores.
Como en estos experimentos los tratamientos se forman combinando cada nivel de un factor
con cada uno de los niveles del otro (o de los otros, si hubiere más de dos), este tipo de
experimento permite además evaluar los efectos de las interacciones. Se dice que entre dos
factores hay interacción si los efectos de un nivel de un factor dependen de los niveles del
otro. Dicho con otras palabras la respuesta de un factor es influenciada en forma diferenciada
por los niveles del otro.
La existencia de interacciones indica que los efectos de los factores sobre la respuesta no son
aditivos y por tanto no pueden separarse los efectos de los factores.
Conceptos básicos
Factores son características que involucra a dos o más modalidades, variantes o niveles
diferentes y pueden ser:
a) Cualitativos: Son aquellos en los cuales los niveles definen o expresan una modalidad
particular de las características del factor; cada nivel tiene un interés intrínseco o
independiente de los otros niveles. Estos factores responden a las características de las
variables cualitativas.
Ej: Diferentes métodos de riego (manto, surco, aspersión).
2
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Ej: Variedades de un tratamiento cultural: método de poda, de raleo, forma de aplicación de
productos terapéuticos, etc.
EJ: Variedad de una determinada especie incluye V1, V2 y V3
Factor = Variedad
Niveles = V1, V2, V3
b) Cuantitativos: Son aquellos cuyos valores corresponden a cantidades numéricas, es decir
valores inherentes a una variable cuantitativa.
Ej: Supongamos que en una experiencia se prueba fertilizar con diferentes dosis de
nitrógeno N: 0-10-20-30 Kg/ha.
Factor = Nitrógeno (N)
Niveles = N0, N1, N2, N3 que corresponden a las dosis 0-10-20 y 30
Para simbolizar a los factores se ha generalizado el uso de la letra mayúscula vinculada con
el nombre del factor y esa letra (que puede ser mayúscula o minúscula) con un subíndice
numérico para los niveles.
Ej: Fertilizante nitrogenado con 3 niveles: Factor Nitrógeno: N; Niveles: n1, n2, n3.
Si se incluye al control, sin nitrógeno, se acostumbra designarlo con n0.
Si se opta por la letra mayúscula para representar a los niveles del factor:
Ej: Fertilizante nitrogenado con 3 niveles. Factor Nitrógeno: N; Niveles: N1, N2,
N3, N0.
También se puede utilizar una letra mayúscula para el factor y otras letras para los niveles
que reemplazan los nombres.
Ej.: FactorVariedades: V; Niveles: A, B, C.
3
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
La expresión experimento factorial 2x2: indica que el 1º factor tiene 2 niveles y el 2º. Si se
desea efectuar un diseño Experimental para este factorial 2x2 es decir con k = 4 tratamientos
o combinaciones y r = 5 repeticiones, se puede utilizar cualquiera de los diseños básicos :
Completamente aleatorizado (C.A.), Bloques al Azar (B.AS) o Cuadrado Latino (C.L.).
De igual modo, la expresión experimento factorial 2x3 indica que el 1º factor tiene dos
niveles y el 2º tres. En este caso el número de combinaciones (tratamientos) es 2x3 = 6 los
que se identifican por la simbología que figura en las celdas de la tabla 2.
A medida que aumenta el número de factores y/o los niveles, aumenta sensiblemente el
número de tratamientos y con ello la dificultad de elegir el diseño adecuado, particularmente
cuando se trata de un experimento a campo.
Si es un factorial 3x2x3 es decir de 18 tratamientos se descarta el C.L. Si se piensa en B.A.
este número de tratamientos es algo elevado a lo que se podría agregar que si la especie con
la que se está trabajando exige parcelas grandes entonces el tamaño de los bloques tiene que
ser también grande con la consiguiente dificultad de encontrar sectores de terreno
homogéneos para ubicar los bloques.
El problema subsiste, si se piensa utilizar C.A., pues el experimento ocupa una superficie
grande lo que dificulta la homogeneidad de las unidades experimentales. En esas condiciones
quizá se deba pensar en el uso de otros diseños.
Los experimentos factoriales proporcionan en general una información más completa que los
experimentos comunes, pues posibilita el estudio de factores principales, las combinaciones
de todos los niveles y la interacción de los factores.
En los experimentos factoriales algunos autores hablan de “estructura de tratamientos”
indicando con esto que los tratamientos se forman por combinaciones de factores.
Interacción:
Es el efecto recíproco entre 2 o más factores, o la modificación de efecto de un factor por la
acción de otro u otros. El estudio de la interacción entre los factores es una de las
características importantes en los experimentos factoriales.
La posibilidad de estudios en forma conjunta de dos o más factores con sus correspondientes
niveles, hace a los factoriales muy útiles para investigaciones exploratorias y como un paso
previo para concentrar posteriormente la atención en los aspectos que puedan ser de mayor
interés, de acuerdo a las conclusiones generales que proporcionan estos experimentos.
Ventajas y Desventajas:
Posibilita el estudio simultáneo de dos o más factores
Permite estudiar la posible interacción entre los factores intervinientes, y
consecuentemente con ello el efecto o comportamiento de cada factor en los
diferentes niveles del otro factor.
4
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Son más eficientes que los experimentos simples, donde se estudia un solo factor.
Proporcionan además resultados generales que los hacen útiles en experimentos
exploratorios.
Como se incluyen todas las combinaciones posibles de los diferentes niveles,
proporcionan habitualmente un número elevado de grados de libertad para el error
experimental, con la consiguiente ventaja que esto significa.
Como contrapartida de lo anterior, a medida que se incrementa el número de factores y
niveles se hace mayor el número de tratamientos, aumentando cuando se trata de
experimentos a campo la superficie requerida para todo el experimento y en particular
para cada repetición. Con todo ello aumenta la dificultad de adaptar el diseño más
adecuado al terreno ó al material experimental y se eleva significativamente el costo de
cada repetición. Esta circunstancia obliga algunas veces, a recurrir a otro diseño (bloques
incompletos) o adoptar sistemas “factoriales” en confundido”, cuyo análisis y
planeamiento es más dificultoso, además de la pérdida de información sobre algunas
interacciones.
A pesar de que no todas las combinaciones entre los diferentes niveles son de interés para el
investigador, en estos experimentos no pueden ser excluidos por razones de balanceo que
exige el análisis.
Efecto Principal de N
Es la diferencia entre los tratamientos que tienen nitrógeno (N1) menos los que no lo tienen
(N0): N1 – N0= 14 – 8 = 6
Efecto principal de P = Total P1-Total P0= 12-10 = 2
Efectos Simples
Es la diferencia entre dos niveles de un factor, a un mismo nivel del otro.
Efecto simple del N a un mismo nivel P
Efecto simple de N en P0 = N1P0-N0P0 = 4-6 = -2
Efecto simple de N en P1 = N1P1-N0P1 = 10-2 = 8
De igual forma el efecto simple de P en N0 = N0P1 -N0P0 = 2-6 = - 4
Efecto simple de P en N1 = N1P1-N1P0 = 10-4 = 6
5
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Es fácil advertir que la suma de los efectos simples de un elemento es igual a su efecto
principal. Comprobémoslo para el N:
Efecto de N en P0 + Efecto de N en P1 = (N1P0-N0P0) + (N1P1-N0P1) = -2+8 = 6 = Efecto
Principal
Efecto de la Interacción
Observemos los efectos simples de N a los dos niveles de P
Efecto de N en P1 = N1P1-N0P1 = 10-2 = 8
Efecto de N en P0 = N1P0-N0P0 = 4-6 = -2
Se advierte que el comportamiento del N en presencia del fósforo es diferente: en presencia
del fósforo (P1) el rendimiento aumenta cuando se agrega nitrógeno: N1P1-N1P0 = 10-2 = 8
En cambio en ausencia de fósforo (P0) el rendimiento disminuye cuando se agrega
Nitrógeno:N1P0-N0P0 = 4-6 = -2
Esto muestra que, en este ejemplo, hay interacción entre los dos elementos. La medida de
esta interacción la da la diferencia entre esos valores, es decir la diferencia del
comportamiento del N en presencia de P1 (N1P1-N0P1) menos la diferencia del N en
presencia de P0 (N1P0-N0P0).
Efecto de la interacción NP = (N1P1-N0P1)-(N1P0-N0P0) = N1P1+ N0P0-N1P0-N0P1 = 10+6-4-2
= 10
Resumiendo: la interacción NP = Efecto N en P1- Efecto N en P0
Si se consideran las diferencias en sentido contrario, el resultado debe ser el mismo.
Efecto de esta interacción, que llamaremos PN es el efecto del P en N1 - efecto de P en N0 =
= (N1P1 - N1P0) - (N0P1-N0P0) = = N1P1+ N0P0 - N1P0 - N0P1 = 10 + 6 – 4 – 2 = 10
Interacción NP =diferencia de efectos = 8-(-2)=10
Gráficamente
10
8
Rendimiento
2
0 1
Fósf oro
N0 N1
6
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Se advierte también de esta forma que la existencia de interacción entre los factores y como
en el caso anterior, se puede medir con la diferencia de los efectos simples. Llamaremos a
esta interacción PN
Efecto de la interacción PN=(N0P1-N1P0)-(N0P1-N0P0)=N1P1+ N0P0-N1P0-N0P1=10+6-4-2=10
Interacción NP = diferencia de efectos = 6-(-4)=10. Adviértase que la interacción NP =PN
=10
10
Rendimiento
6
2
0 1
Nitrógeno
P0 P1
Calculemos los efectos simples de N en presencia y ausencia de P, pero con ellos calcular la
interacción NP:
Efecto simple de N en P1= N1P1 -- N0P1= 9-4 = 5
Efecto simple de N en P0= N1P0 -- N0P0= 7-2 = 5
Se advierte que no hay diferencias entre los efectos simples, lo que indica que no hay
interacción entre N y P. El efecto de la interacción es, como sabemos, la diferencia de estos
efectos simples:
Efecto interacción NP = (N1P1 - N0P1) - (N1P0 - N0P0)= N1P1 - N0P1- N1P0 + N0P0 = 9 – 4 -7 +
2= 0
7
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Rendimiento
6
2
0 1
Fósf oro
N0 N1
No necesariamente los segmentos de recta que representan los efectos simples deben
intersectarse cuando existe interacción entre los factores. En las dos situaciones que
presentamos a continuación hay interacción entre los dos factores y la manifestación grafica
es de otro tipo:
Supongamos las tablas de los tratamientos como el cuadro siguiente:
Tabla Nº 5: Otros resultados de un factorial 2 x 2 (cifras entre paréntesis)
10
8
Rendimiento
2
0 1
Fósf oro
No N1
8
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Supongamos ahora los totales de tratamiento que se incluyen en el cuadro siguiente, ver tabla
6:
8
Rendimiento
0
0 1
Fósf oro
N0 N1
9
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Los supuestos sobre la componente aleatoria ijk son: los errores son independientes e
idénticamente distribuidos: ijk N (0, ) . Esta simbología indica que la distribución debe
ser normal con media cero y variancia común.
Ambos factores son fijos y los efectos de los tratamientos se definen como desviaciones de
la media general y deben cumplir la restricción:
i 0 j 0
Se supone que los efectos de la interacción son fijos y se definen como: ij
0
Hay un total de “abn” observaciones: porque los tratamientos son “ab” y se realizan “n”
réplicas.
Tanto el factor A como el factor B tienen el mismo interés. La finalidad consiste en probar
hipótesis de mismo efecto de tratamientos en renglón
Ho= 1 = 2 = … = a = 0
H1 = al menos un i 0
Un Ingeniero diseñó una batería para su uso en un dispositivo que será sometido a ciertas
variaciones extremas de temperatura. El único parámetro de diseño que el puede seleccionar
es la cubierta de la batería y tiene 3 alternativas (factor A, a = 3). Cuando el dispositivo se
manufactura y se envía a campo, el Ingeniero no tiene control sobre los extremos de la Tº a
que será expuesto el dispositivo y sabe por experiencia que es probable que la Tº influya en
la duración efectiva de la batería. Sin embargo es posible controlar la Tº en el laboratorio de
desarrollo de productos para los fines del ensayo.
El Ing. decide probar los 3 niveles de cubierta a tres niveles de Tº ( 15º, 70º y 125º F)
consistentes en el entorno de la cubierta final (factor B, b = 3).
Se prueban 4 baterías ( n = 4) en cada combinación (material de cubierta, Tº ), y las 3 x 3 x 4
= 36 pruebas se ejecutan en orden determinado al azar.
El Ing. quiere contestar las siguientes preguntas:
10
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Este es un diseño con dos factores
La observación Yijk se encuentra en el i- iésimo nivel del factor A(i =1,…,a)
j- ésimo nivel de factor B (i =1,…,b)
k-iésimo rep. de la combinaciones(ij) k = (1,…,n)
Tº Factor B (grados F)
15 Yij• 70 Yij• 125 Yij• Yi••
Factor A: 1 130-155 34-40 20-70
tipo de 70-180 535 80-75 229 85-58 233 997
material 2 150-188 136-122 25-70
159-106 603 106-115 479 58-45 198 1280
3 138-110 174-120 96-104
168-160 576 150-139 583 82-60 342 1501
Y j
1714 1291 773 Y••• =
=3778
a n Y j
Y j = Yijk Y j = i= 1,…, b
i k an
i a j bk n Y
Y••• = Yijk Y ••• = i =1,...,a; j = 1,...,b; k = 1,…,n
i 1 j 1 k 1 abn
Descomposición
11
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Tabla 8: descomposición de los grados de libertad en un experimento factorial
Causas G de L
A a-1
B b-1
Interacción AB (a-1)(b-1)
ERROR ab(n-1)
TOTAL abn-1
12
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Por lo tanto:
SC Interacción = SCCombinación - SCAMaterial - SCBTº =
= 56.979,39 –10.637,39 –37.020,39 = 9.321,61
Por diferencia se obtiene la suma de cuadrados del error:
Grados de Libertad de A = a – 1 = 3 – 1 = 2
Grados de Libertad de B = b – 1 = 3 – 1 = 2
Grados de Libertad de la Interacción AB = G. de Libertad de cada celda (ab-1)
menos los g. de libertad de los 2 efectos principales A y B.
ab-1- (a-1) - (b-1) = (a-1)(b-1) = 2 x 2 = 4
Dentro de cada una de las celdas hay n-1 grados de Libertad entre las n réplicas, por
lo tanto hay
ab(n-1) G. libertad error = 3 x 3 x 3 = 27
2
n
SC AB 2 ij SCE 2
E(CMAB)= E ; E(CME)= E
a 1 b 1 a 1 b 1 ab n 1
Si las hipótesis nulas, que consisten en proponer que no hay efecto de tratamientos de
renglón, columna e interacción son verdaderas, entonces CMA, CMB, CMAB y CME
son estimadores 2 .
Sin embargo, si por ej. existen diferencia entre materiales (filas), entonces CMA será
mayor CME.
En forma similar, si hay efecto de tratamiento de columna (Tº) o de la interacción, la
media de los cuadrados correspondientes serán mayores que CME.
Por lo tanto, para probar el significado de ambos efectos principales así como su
interacción, simplemente deben dividirse las medias de los cuadrados correspondientes
entre la media de Cuadrados del Error.
Si el modelo es adecuado y ij son independientes, con distribuciones normales y con
variancias constantes 2 las razones que se presentan más abajo se distribuyen como
F con los grados de libertad que se indican.
CMA
F a 1; ab n 1
CME
CMB
F b 1; ab n 1
CME
CMAB
F a 1 b 1 ; ab n 1
CME
13
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Tabla 9: Análisis de la variancia de los datos de la tabla 7.
Y Tº
Material 15º 70º 125º
1 535/4=133,75 229/4= 57,25 233/4=58,25
2 603/4=150,75 479/4=119,75 198/4=49,5
3 576/4=144 583/4=145,75 342/4=85,5
175
150
125
100
Duración
75
50
25
0
0 25 50 75 100 125
Temperatura
M1 M2 M3
Comparaciones Múltiples
Si el análisis de las Variancias indica que hay diferencia en el nivel medio de renglones o
columna, resulta de interés llevar a cabo comparaciones medias individuales de renglones o
columna para descubrir diferencias específicas. Pero cuando la interacción es significativa,
las diferencias en los medias de un factor (por ej A) pueden ser ocultadas por la interacción
AB. El enfoque consiste en fijar el factor B en un nivel específico, y aplicar la prueba de
intervalos múltiples de Duncan a las medias del factor A en ese nivel. Por ejemplo si se
desea detectar diferencias en el nivel medio de los tres tipos de material, como la interacción
es significativa, las comparaciones deben realizase en un solo nivel de la temperatura por
separado. Por ejemplo, el gráfico 6 muestra que las diferencias son más marcadas en el nivel
2 (70ºC). Los promedios de los tres tipos de material en el nivel de Tº 70º, organizados en
orden ascendente son:
14
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
__
Y 12 57 ,25 Material tipo 1
__
Y 22 119 ,75 Material tipo 2
__
Y 32 145 ,75 Material tipo 3
Se supone que el mejor estimador de la Variancia del error es MSE obtenido de la tabla de
Análisis de la Variancia. Además, se utiliza la suposición de que la variancia del Error
Experimental es la misma en todas las combinaciones de tratamientos.
__
CME 754,54
S Y 12 13, 73
n 4
El análisis indica que al nivel de temperatura de 70ºC, la duración media de las baterías con
cubiertas de los materiales 2 y 3 es la misma y mientras que a esa temperatura la duración
media con el material 1 es significativamente menor que la de los elementos con cubierta de
materiales 2 y 3.
Cuando la interacción es significativa, el investigador puede comparar las medias de todas
las celdas para determinar en cuales hay diferencias significativas. En este análisis las
diferencias entre las celdas incluyen tanto los efectos principales como el efecto de
interacción. Para completar el análisis de este ejemplo se debe efectuar el análisis que se hizo
para 70º , para los otros niveles de Tº.
15
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
RESOLUCIÓN DEL EJEMPLO ANTERIOR EMPLEANDO DIFERENTES
SOFTWARES
DESARROLLO CON INFOSTAT (V.2008).
Creación del archivo de datos:
Se introducen en una primera columna, los tipos de material: 1, 2, 3 ; en una segunda
columna las temperaturas: 15, 70, 125, y en una tercera columna los valores de la variable,
obteniéndose la siguiente formato de archivo (Figura 1).
16
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
De esta forma el archivo queda con 4 variables: material, temperatura, tiempo y tratamiento.
Una vez completo el archivo se realiza el Anova. Para ello se procede de la siguiente manera
seleccionando el menú: Estadística_Análisis de la varianza. Aparece la pantalla que se
encuentra en la Figura 5 y se marca y pasa con las flechas correspondientes:
La variable tiempo al cuadro variable dependiente y
mat y temp al cuadro variables de clasificación
Figura 5: Selección de las variables y
de los
factores.
Se acepta y se muestra un nuevo cuadro
(Figura 6).
17
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Si se observa la tabla de datos se ve que se crearon nuevas columnas (Figura 7)
correspondiente a las variables, residuos y predichos (RDUO, RABS, RE)
Con estas nuevas variables se realizan las prueba de los supuestos necesarios para que el
ANOVA sea válido:
Prueba de Normalidad de Shapiro Wilks. En esta prueba se trabaja con los residuos del
ANOVA. Para realizarla se utiliza el menú Estadísticas_Inferencia basada en una
muestra, Prueba de Normalidad (Shapiro-Wilks modificado) (Figura 8).
Al aceptar aparece el siguiente cuadro (Figura 9). Para seleccionar la variable con la que se
realizará la prueba de normalidad, se marca RDUO_tiempo y se la pasa al cuadro de
variables.
18
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Con un valor alto (p = 0,7876) no se rechaza la hipótesis nula. No hay evidencias suficientes
para decir que los residuos no tienen distribución normal. También se puede realizar una
prueba gráfica con un qq-plot para la variable RDUO_tiempo.
Para ello se selecciona la opción Gráficos, qq-plot, se acepta, se marca y se pasa la variable
RDUO_tiempo al cuadro de variable y luego se selecciona la Distribución Normal del
siguiente cuadro (Figura 10).
Prueba de Homogeneidad de Levene. Esta prueba consiste en un ANOVA con una causa
de variación (Tratamientos) de los valores absolutos de los residuos. Seleccionar
Estadísticas-Análisis de la varianza considerando como variable dependiente a
RABS_tiempo y como variable de clasificación Tratamientos (Figura 11).
19
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Al aceptar se presentan los resultados de la prueba en la Salida 4.
Salida 4. Resultados de la
prueba de Levene
20
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
4
0
función de predichos.
-1
-2
-3
-4
44,19 73,41 102,63 131,84 161,06
PRED_tiem po
Una vez realizadas las pruebas de cumplimiento de los supuestos, se pueden considerar
válidos los resultados del análisis de la varianza que se presentaron en la salida 1. En este
ejemplo, se examinará primero la interacción para saber si ésta es estadísticamente
significativa.
21
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Al aceptar se obtiene la siguiente salida (Salida 6).
22
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
23
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
180
110
75
40
15 70 125
temp
mat_1 mat_2
mat_3
Muchas veces ocurre que la interacción puede enmascarar la diferencia entre los efectos
principales. Sin embargo, no sucede en este ejemplo.
Si se examina la significación de los efectos principales según los resultados del ANOVA:
Prueba de hipótesis sobre el efecto del factor renglón: Material
H0 = 1= 2 =...= a =0
H1 = al menos un i 0
Con un valor p tan bajo p = 0,0020 se rechaza la hipótesis nula y se concluye que el efecto
del material es diferente de cero, es decir que el tiempo promedio de duración es diferentes
entre al menos dos materiales.
Prueba de hipótesis sobre el efecto del factor columna: Temperatura
H0 : 1 = 2= ...= b= 0
H1: al menos un i 0
Con un valor p tan bajo p < 0,0001 se rechaza la hipótesis nula y se concluye que el efecto de
la temperatura en el tiempo de duración de las baterías es diferente de cero, es decir que el
tiempo promedio de duración es diferente entre al menos dos temperaturas, pero no se las
prueba por haber dado significativa la interacción.
En SPSS cuando se pide archivo nuevo_Datos aparecen dos pestañas en la parte inferior:
Vista de variables y Vista de datos- Se hace clic en la pestaña Vista de variables se poder
poner el nombre, ancho y tipo de variables (figura 17):
24
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Una vez que se completa los cuadros queda la información como se muestra en la Figura 18.
Figura 18:
Información de las
variables del archivo.
Para introducir los
datos, se debe hacer
ahora clic en la pestaña
Vista de datos y se
observa que tenemos la
planilla con el nombre
de las variables en las
columnas (Figura 19).
25
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
.
Se marca simple y se hace clic en definir, aparece la pantalla que se muestra en la figura 23
a.
26
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Se completa el cuadro de
variable, señalando tiempo y
pasándolo con flecha derecha.
De igual forma se pasa la
variable mat al cuadro eje de
categoría (Fig.23 b).
200
100
Se procede igual manera para obtener el
box-plot correspondiente a la variable
50 tiempo según temperatura, el gráfico
puede verse en la Salida 9.
0
1 2 3
mat
200
150
100
temperatura.
Para observar el comportamiento del tiempo de
50
27
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
de caja, aparece la pantalla que se muestra en la figura 24; se señala agrupados_definir y en
pantalla aparece el cuadro que se visualiza en la figura 25.
temp
200
15
70
125
150
tiempo
100
50
1 2 3 4 5 6 7 8 9
trat
28
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Al hacer clic, aparece la pantalla que se muestra en la Figura 27, se marca y pasa la variable
tiempo al cuadro dependiente y al cuadro de Factores fijos los factores: material y
temperatura.
29
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
cada uno de los factores por separados y se los pasa con la flecha al cuadro titulado modelo,
luego se marcan los dos juntos y se los pasa con la flecha y aparece la interacción en el
cuadro titulado Modelo; se marca continuar (figura 29).
Figura 30 a Figura 30 b
Figura 30 c
Figura 30 (a,b,c): Secuencias de pantallas para especificar un gráfico de tiempo para
los diferentes materiales según temperatura
30
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Se hace clic en continuar y se vuelve a la figura 27 y se marca guardar. Esta opción permite
guardar los residuos y los valores estimados para realizar luego las diferentes pruebas de
supuestos gráfica y analíticamente.
Luego de hacer clic en guardar aparece la siguiente pantalla (figura 31).
31
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Se pasa de la forma acostumbrada, los factores y la interacción al cuadro ”mostrar las medias
para: mat, temp y mat*temp y en el cuadro Mostrar se marca estadísticos descriptivos, se
deja nivel de significación en 0,05 o puede cambiarse a 0,01 como se desee.
Continuar, continuar y aparecen en la hoja de resultados los siguientes valores (Salida 12a).
32
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Pruebas de los efectos inter-sujetos
Variable dependiente: tiempo
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo 59416,222(a
8 7427,028 11,000 ,000
corregido )
Intersección 400900,02
400900,028 1 593,739 ,000
8
mat 10683,722 2 5341,861 7,911 ,002
temp 39118,722 2 19559,361 28,968 ,000
mat * temp 9613,778 4 2403,444 3,560 ,019
Error 18230,750 27 675,213
Total 478547,000 36
Total corregida 77646,972 35
a R cuadrado = ,765 (R cuadrado corregida = ,696)
Salida 12 b. Análisis de la variancia
La salida que figura abajo Salida 12 c, corresponde a la salida de la opción en donde se
colocó estadística para factores y para interacción
2. temp
Variable dependiente: tiempo
Intervalo de confianza al
95%.
Límite
temp Media Error típ. Límite inferior superior
15 144,833 7,501 129,442 160,224
70 107,583 7,501 92,192 122,974
125 64,167 7,501 48,776 79,558
3. mat * temp
33
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Para que el análisis de la variancia sea válido, se deben probar los supuestos
1.- Prueba de Normalidad, con la Prueba de Shapiro Wilks-
Seleccionar: Analizar_Estadísticos descriptivos_explorar (figura 34).
34
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Residuo para tiempo 36 100,0% 0 ,0% 36 100,0%
Pruebas de normalidad
Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Residuo para tiempo ,106 36 ,200(*) ,976 36 ,612
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
Como p=0,612 No se rechaza la hipótesis que los residuos siguen una distribución normal.
La figura 37 muestra gráficamente la normalidad ( obtenida en la salida 13).
50
Valor Normal esperado
25
Figura 37: Q-Q plot de distribución normal
para residuos
0
-25
-50
2.-Prueba de homogeneidad
La prueba de homogeneidad de Levene consiste en realizar un ANOVA con los valores
absolutos de los residuos considerando como
factor de clasificación a los tratamientos.
El SPSS no guarda el valor absoluto de los
residuos por lo que se los debe obtener. Para ello
se procede de la siguiente manera: se selcciona
del menú principal Transformar_Calcular
variable(Figura 38) y al hacer clic aparece la
siguiente pantalla (Figura 39).
35
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
En variable destino se coloca la variable a crear que es el residuo en valor absoluto, a la que
se denominará absresi . Pasamos el cursor a Expresión numérica buscamos en Grupo de
funciones las Aritméticas y en Funciones y variables especiales se selecciona Abs, se
aplica doble clic y aparece la función seleccionada en expresiones numéricas de la siguiente
manera ABS(?). Con el cursor se va al
cuadro Tipo y etiqueta y con un doble
clic en la variable RESI_1 se obtiene en
el cuadro de Expresiones numéricas:
ABS(RESI_1) se aceptar, y la variable
creada se visualiza en el archivo de
datos la variable creada (Figura 40).
La variable creada, aparece como una nueva columna en la hoja de datos (figura 41).
36
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
37
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Conclusiónes
La interacción es significativa (p = 0.019; tabla de anova salida 12b). Existen diferencias de
las medias de los tiempos para las diferentes temperaturas en cada nivel del factor material o
viceversa. Existen diferencias entre las medias de los tiempos para las diferentes
temperaturas (p= 0.0001; tabla de anova salida 12b.) Existen diferencias entre las medias de
los tiempos para los diferentes materiales (p= 0.0020; tabla de anova salida 12 b)
38
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Se debe considerar la primera conclusión, los estadísticos deben construirse a mano:
Comparación entre:
CME 675,213
DLS0 ,05 t 27 0 ,05 2,052 2,052* 12,992 26 ,66
n 4
Material 1. hay diferencias significativas entre las medias del tiempo de duración entre la
temperatura de 15 º y las temperaturas de 70º y 125º
No hay diferencias entre las medias del tiempo de duración entre las temperatura 70º La
batería no debe ser expuesta a temperatura de 125º
Material 3
d5 y 31. _ y32. 144 ,00 145 ,75 1,75
d6 y 31.. y33. 144 ,00 85 ,5 58,5*
d7 y32 y3 . 145 ,75 85 ,50 60 ,25*
Para el material 3, se aconseja 125º pues la batería dura más tiempo
39
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
40
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
model z=trat;
run;
La salida es la que se muestra a continuación:
Salida 16: correspondiente al programa detallado arriba
Salida
Sistema SAS
1 1 15 130 1
2 1 15 74 1
3 1 15 155 1
4 1 15 180 1
5 2 15 150 2
6 2 15 188 2
7 2 15 159 2
8 2 15 126 2
9 3 15 138 3
10 3 15 168 3
11 3 15 110 3
12 3 15 160 3
13 1 70 34 4
14 1 70 40 4
15 1 70 80 4
16 1 70 75 4
17 2 70 136 5
18 2 70 122 5
19 2 70 106 5
20 2 70 115 5
21 3 70 174 6
22 3 70 120 6
23 3 70 150 6
24 3 70 139 6
25 1 125 20 7
26 1 125 70 7
27 1 125 82 7
28 1 125 58 7
29 2 125 25 8
30 2 125 70 8
31 2 125 58 8
32 2 125 45 8
33 3 125 96 9
34 3 125 104 9
35 3 125 82 9
36 3 125 60 9
Sistema SAS
Procedimiento GLM
mat 3 1 2 3
temp 3 15 70 125
Sistema SAS
Procedimiento GLM
Suma de Cuadrado de
Fuente DF cuadrados la media F-Valor Pr > F
41
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Cuadrado de
Fuente DF Tipo I SS la media F-Valor Pr > F
Cuadrado de
Fuente DF Tipo III SS la media F-Valor Pr > F
Salida 16 (continuación)
PRUEBA DE SUPUESTOS
Sistema SAS
Procedimiento UNIVARIATE
Variable: resid
Momentos
N 36 Pesos de la suma 36
Media 0 Observaciones de la suma 0
Desviación típica 22.8227643 Varianza 520.878571
Asimetría -0.4635911 Kurtosis 0.09663605
Suma de cuadrados no corregidos 18230.75 Suma de cuadrados corregidos 18230.75
Coeficiente de variación . Media de error estándar 3.80379405
42
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Cuantiles (Definición 5)
Cuantil Estimador
Sistema SAS
Procedimiento UNIVARIATE
Variable: resid
Cuantiles (Definición 5)
Cuantil Estimador
10% -29.750
5% -37.500
1% -60.750
0% Mín -60.750
Observaciones extremas
------Inferior------ ------Superior------
-60.75 2 24.00 10
-37.50 25 24.50 27
-34.00 11 28.25 21
-29.75 8 32.25 6
-25.75 22 45.25 4
43
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Salida 16 (continuación)
Sistema SAS
Procedimiento UNIVARIATE
Variable: resid
Sistema SAS 1
Trazado def resid*dpred. Leyenda: A = 1 obs, B = 2 obs, etc.
„ƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒ†
50 ˆ A ˆ
‚ ‚
‚ A A ‚
‚ A C A A A B ‚
‚ A A A ‚
0 ˆƒƒƒƒƒƒƒƒAƒƒƒƒAƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒAƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒBƒƒƒƒƒƒƒƒƒAƒƒƒƒƒƒAƒƒƒƒƒAƒƒƒƒƒˆ
‚ A AA A ‚
resid ‚ A B ‚
‚ A AA A ‚
‚ A ‚
-50 ˆ ˆ
‚ A ‚
‚ ‚
‚ ‚
‚ ‚
-100 ˆ ˆ
ŠƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒŒ
40 60 80 100 120 140 160
dpred
TEST DE LEVENE
Sistema SAS
Procedimiento ANOVA
Información de nivel de clase
trat 9 1 2 3 4 5 6 7 8 9
Sistema SAS
Procedimiento ANOVA
Variable dependiente: z
44
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
Suma de Cuadrado de
Fuente DF cuadrados la media F-Valor Pr > F
Cuadrado de
Fuente DF Anova SS la media F-Valor Pr > F
Salida 16 (continuación)
Procedimiento GLM
Medias de cuadrados mínimos
tiempo Número
mat temp LSMEAN LSMEAN
1 15 134.750000 1
1 70 57.250000 2
1 125 57.500000 3
2 15 155.750000 4
2 70 119.750000 5
2 125 49.500000 6
3 15 144.000000 7
3 70 145.750000 8
3 125 85.500000 9
Aquí tenemos el primer valor es t y el de abajo es el valor de probabilidad para la H0 planteada. Por ej.
para un p=0.0002 se rechaza la igualdad de medias entre el tratamiento 1 (mat 1 temp 15) y el 2 Mat 1
temp 70).
45
Experimentos Factoriales Febrero 2010
Apuntes de la Cátedra de Estadística
i/j 1 2 3 4 5 6 7 8 9
NOTA: Para asegurar un nivel de protección completo, sólo se deben usar probabilidades asociadas
con comparaciones preplanificadas .
BIBLIOGRAFÍA
Balzarini M.G., Gonzalez L., Tablada M., Casanoves F., Di Rienzo J.A., Robledo C.W.
(2008). Manual del Usuario INFOSTAT. Editorial Brujas, Córdoba, Argentina.
Little, R.; Freund, R.; Spector P.1993.SAS System for linear models. Third edition.329p.
46