Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Esta2 G1 Ta8 Veliz Centeno Christian PDF
Esta2 G1 Ta8 Veliz Centeno Christian PDF
En general, cada conjunto muestral se caracteriza por estar afectado por un tratamiento especifico,
que eventualmente puede influir en los valores que tome la variable objeto de estudio.
Originalmente, el análisis de la varianza se utilizó para determinar si las cosechas, que se obtenían
con distintos tratamientos o niveles de fertilizantes, diferían o no. Así, en este caso, las parcelas
tratadas con un determinado nivel de fertilizantes constituyen una población.
Se denomina factor a la variable que supuestamente ejerce una influencia sobre la variable estudiada
a la que se denomina dependiente. En el caso anterior, el factor es el fertilizante y la variable
dependiente la cosecha.
El modelo teórico de referencia en el análisis de la varianza es muy sencillo, y viene expresado por
cualquiera de las expresiones alternativas que se adjuntas, que son equivalentes:
Yg g g g 1, 2,…, G
Modelos teóricos en el análisis de la varianza: Y g 1, 2,…, G
g g g
En las dos formulaciones, considerando G poblaciones, cada valor de la variable es igual a una media
teórica más una variable aleatoria (g) , que implícitamente tiene de media cero.
1
▪ En el modelo teórico Yg g g la media de cada población es igual a un parámetro (g)
HIPÓTESIS SOBRE LA POBLACIÓN: Para especificar un modelo se requiere establecer hipótesis acerca
de los elementos que aparecen en el mismo. Las hipótesis estadísticas que se adoptan se refieren a la
población y, en consecuencia, al proceso de obtención de la muestra.
▪ Se supone que se ha obtenido una muestra aleatoria independiente de cada una de las G
poblaciones.
MODELO Y H0 : 1 2 … G
g g g H : No todas las son iguales
1 g
MODELO Y H0 : 1 2 … G
g g g H : No todas las son iguales
1 g
En lo sucesivo, en el análisis de la varianza con un solo factor se elige el modelo Yg g g , mientras
que en el análisis de la varianza con dos factores se utilizará la formulación Yg g g
En el análisis de la varianza se distingue entre modelo de efectos fijos y modelo de efectos aleatorios.
• En el modelo de efectos fijos, los grupos, o niveles, del factor o factores investigados se fijan de
antemano. Por ello, las conclusiones que se extraen en el análisis únicamente pueden aplicarse a
los niveles analizados. El modelo de efectos fijos es el más utilizado en el mundo de la empresa.
2
DESCOMPOSICIÓN DE LA VARIANZA DE UN FACTOR
En cada población se pueden extraer muestras de distintos tamaños. En esta línea, ng será el tamaño
de la muestra del grupo g.
El tamaño de la muestra total es (n), que es igual a la suma de los tamaños de las muestras de cada
uno de los grupos: n1 n2 … nG N
La media muestral global se obtiene sumando todos los valores de la muestra y dividiendo por el
tamaño de la muestra total:
G ng
Y gi
Y g1 i1
Dentro de cada grupo se puede obtener la correspondiente media muestral. En este sentido, la media
del grupo g vendrá dada por:
ng
Y gi
Yg i1
ng
La desviación de cada observación con respecto a la media global es (Ygi Y), que puede
descomponerse de la forma:
Si la expresión anterior se suma para todos los grupos y para todos los individuos de cada grupo de la
muestra, se obtiene:
G ng G ng G ng G ng
G ng G ng
el término (Y Y) (Y
g1 i1
g gi Yg ) (Y Y) . (Y
g1
g
i1
gi Yg ) 0
3
Suma cuadrados Suma cuadrados desviación Suma cuadrados desviación
desviación total explicadapor el factor no explicadapor el factor
¸ SCT ˛ ¸ SCF ¸ SCR ˛
G ng G ng G ng
˛
(Y Y) gi
2
(Y Y) g
2
(Y Y ) gi g
2
Y
g1 i1
gi
La restricción viene determinada por el cálculo de Y . Una vez calculada la media global Y
N
se puede obtener un dato (por ejemplo, YGn ) de la siguiente forma:
es decir, al tomar desviaciones respecto a la media, como la suma total de las desviaciones es nula, se
puede calcular una desviación dadas las demás.
La restricción viene dada por el cálculo de Y . Las g medias muestrales son datos independientes con
la salvedad de que vienen sometidos a una restricción de la media general.
n1 Y1 n2 Y2 … nG YG NY
• Grados de libertad (SCR) N G (número total de datos menos número total de grupos)
Dado que la media muestral de cada grupo actúa como una restricción en el cálculo de las
desviaciones de dicho grupo.
MEDIA CUADRÁTICA: En el análisis de la varianza se define una media cuadrática como el cociente
entre cada suma de cuadrados y sus correspondientes grados de libertad, teniendo las siguientes
definiciones:
4
Suma cuadrados Suma cuadrados desviación Suma cuadrados desviación
desviación total explicadapor el factor no explicadapor el factor
¸ SCT ˛ ¸ SCF ¸ SCR ˛
G ng G ng G ng
˛
(Y gi Y)
2
(Yg Y)2 (Y Y ) gi g
2
µ
g1 i1
y µ
g1 i1
y µ
g1 i1
y
(N 1) gl (G 1) gl (N G) gl
G ng
SCT (Y gi Y)2
Media cuadrática total (MCT): MCT g1 i1
N 1 N 1
G ng
SCF (Y g Y)2
Media cuadrática del factor (MCF): MCF g1 i1
G1 G1
G ng
SCR (Y Y ) gi g
2
N G N G
SCF
MCF
F 1∼ F
G
MCR SCR
(G1) , (NG)
N G
MODELO Yg g g H : 2 … G
0 1
H1 : No todas las g son iguales
MCF
No se rechaza H0 si F(G1) , (nG) F , (G1) , (nG)
MCR
REGLA DE DECISIÓN:
MCF
Se rechaza H0 si F(G1) , (nG) F , (G1) , (nG)
MCR
5
El valor de indica la probabilidad de cometer un error
de tipo I, es decir, de rechazar la hipótesis nula cuando
es cierta. Si se rechaza la hipótesis nula con la evidencia
de la información muestral se dice que ese rechazo
implica una conclusión fuerte.
Sin embargo, la aceptación de la hipótesis nula es una
conclusión débil debido a que se desconoce cuál es la
probabilidad de no rechazar la hipótesis nula cuando
debería ser rechazada, es decir, se desconoce la
probabilidad de cometer un error tipo II.
Por este motivo, en lugar de utilizar la expresión de aceptar la hipótesis nula, es más correcto decir
no rechazar la hipótesis nula, ya que cuando se da esta circunstancia lo que realmente ocurre es que
no se dispone de suficiente evidencia empírica para rechazar la hipótesis nula. Si se tiene en cuenta
esta reserva, se puede utilizar de forma indistinta las expresiones de aceptar y no rechazar.
Los programas informáticos suelen ofrecer, junto al estadístico aplicado, el nivel de significación
crítico, al que se denomina ' , asociado a dicho estadístico. Para designar a este valor en algunos
programas se utilizan las expresiones p‐value o significatividad.
En la gráfica se ilustra el cálculo de ' a partir del estadístico F, donde se observa que la operación de
determinar ' es la inversa de buscar el valor de las tablas para un nivel de significación dado.
Determinado ' (p‐value) se rechaza la hipótesis nula para todo nivel de significación tal que
p value ; por el contrario, se acepta la hipótesis nula cuando p value .
El nivel de significación crítico es, pues, un indicador del nivel de admisibilidad de la hipótesis nula,
cuanto mayor sea el nivel de significación crítico (p‐value), mayor confianza se puede depositar en la
hipótesis nula.
6
VALIDACIÓN DEL MODELO
Se analizan dos tipos de cuestiones diferentes:
Los contrastes de las hipótesis básicas se efectúan a partir de los residuos, que se definen:
En tal caso, el estadístico F no se ve muy afectado por el hecho de que no exista homocedasticidad,
siempre que las muestras de los diferentes grupos sean del mismo o similar tamaño. En este
sentido, algunos autores afirman que el no cumplimiento de la hipótesis de homocedasticidad
puede afectar a los contrastes del análisis de la varianza cuando la razón entre los tamaños
muestrales del grupo más grande y el grupo más pequeño es mayor que 2.
7
puntos desviaciones típicas‐medias muestren una tendencia creciente de carácter
aproximadamente lineal.
Sin embargo, cuando los datos se obtienen de forma secuencial puede ocurrir que este supuesto
no se cumpla. Una forma de averiguar si ocurre esta circunstancia es mediante la representación
gráfica de los residuos. Si los residuos siguen una cierta estela, en lugar de estar distribuidos de
forma aleatoria en torno al eje de abscisas, será un indicio de falta de independencia.
b) La variabilidad total explicada por el factor viene dada por la medida de bondad del ajuste.
SCF
Coeficiente de determinación: R
2
(también denominado eta cuadrado 2 )
SCT
Un valor próximo a 1 del coeficiente de determinación indica que la mayor parte de la variabilidad
total puede atribuirse al factor, mientras que un valor próximo a 0 significa que el factor explica
muy poco de esa variabilidad total.
Y1 Y2
t ∼ t(N2)
Estadístico para el contraste en el análisis de la
1 1
varianza con un factor y dos grupos: 2
S
R
N1 N2
Por el contrario, si se rechaza la hipótesis nula de igualdad es conveniente investigar qué grupos han
sido determinantes en ese rechazo. A este tipo de investigación complementaria y posterior a los
contrastes básicos del análisis de la varianza se denomina análisis ex‐post.
En el análisis ex‐post se pueden aplicar dos tipos de procedimientos: (a) Intervalos de confianza
individuales. (b) Comparaciones múltiples.
Con cualquiera de los dos procedimientos se trata de determinar en qué medida difieren las medias
de las distintas poblaciones.
8
Yg g
Y ∼ N , en consecuencia, ∼ N 0 ,1
g g
ng
ng
La media cuadrática residual es un estimador insesgado del parámetro 2 , es decir,
SCR
E S2 E 2
R N G SR2
Yg g Yg g
Al sustituir en la expresión , se tiene: ∼ t(NG)
SR2
ng
ng
t de Student con (N G) grados de libertad que deja a la derecha de la masa probabilística.
2
De este modo se pueden construir intervalos de confianza individuales para cada una de las medias
poblacionales, sin tener en cuenta una visión de conjunto.
H0 : p q
H :
1 p q
ya que la probabilidad del suceso RH, que es la unión de sucesos individuales RHj , debe de ser
menor o igual que la suma de probabilidades de cada uno de los sucesos individuales, pues éstos
no son mutuamente excluyentes.
9
Si es el nivel de significación global deseado para el conjunto de las comparaciones, se verificará
que: c.*
1 1
Xp Xq t * , (NG)
SR2
Np Nq
SCT Y 2
gi
•• eta : SCT
A
g1 i1 N
2 2 SCFA (G 1)MCR
GY Y 2 2 epsilon :
SCF SC Intergrupos
g ••
SCT
SPSS
g1 ng N
10
Ejemplo 1.‐ La tabla refleja las puntuaciones obtenidas por catorce operarios adiestrados en una
determinada técnica, aplicando tres métodos alternativos.
¿Son significativamente diferentes los resultados obtenidos con los tres métodos?.
En este caso existen tres poblaciones distintas, a cada una de las cuales se ha aplicado un método
diferente. Se establecen las hipótesis:
SCF 6
Media cuadrática del factor: MCF 3
G1 31
SCR 6
Media cuadrática residual: MCR 0,545
N G 14 3
MCF 3
El estadístico F que se obtiene: F 5,5
MCR 0,545
11
Para un nivel de significación 0,05 (fiabilidad del 95%), el valor del estadístico teórico F‐Snedecor:
MCF
Siendo, F F 5,5 F F 3,98
(G1) , (NG) (31) , (143) , (G1) , (nG) 0,05; (31) , (143)
MCR
Se rechaza la hipótesis nula, concluyendo que los tres métodos no producen los mismos resultados.
Fuente Suma de
Grados libertad Media cuadrática Estadístico
variación cuadrados
SCF 6
Factor SCF 6 G‐1= 3‐1= 2 MCF 3 MCF 3
G1 2 F 5,5
SCR 6 MCR 0,545
Residual SCR 6 N ‐ G= 14 ‐3= 11 MCR 0,545
N G 11 SCF 6
SCT 12 R2
0,5
Total SCT 12 N ‐ 1 14 ‐ 1 13 MCT 0,92 SCT 12
N 1 13
Por el contrario, para un nivel de significación del 1% ( 0,01) no se rechaza la hipótesis nula,
aceptando que los tres métodos producen idénticos resultados. Adviértase que en este caso,
MCF
F F 5,5 F F 7,20
(G1) , (NG) (31) , (143) , (G1) , (NG) 0,01; (31) , (143)
MCR
Dado que el tamaño de la muestra en los tres grupos es muy similar, el no cumplimiento de la
hipótesis de homoscedasticidad no afectaría de forma importante al contraste realizado.
SCF 6
El coeficiente de determinación que se obtiene: R2 0,5
SCT 12
En el caso de rechazo de la hipótesis nula del análisis de la varianza se procede a realizar un estudio
ex‐post. En este sentido, se construyen intervalos de confianza individuales para cada una de las tres
medias poblacionales y aplicar el método de Bonferroni para comparar las medias de los tres métodos
de entrenamiento tomados dos a dos.
SR2
Los intervalos de confianza vienen dados por la expresión: I Y t
(1) g
2
, (NG)
ng
Con una fiabilidad del 95%, el valor de la t‐Student con n ‐ G= 14 ‐3= 11 grados de libertad, que deja
un 2,5% de masa probabilística a su derecha es: t0,025, 11 2,201 .
: I Y t SR2 7 2,201 0,545 6,188 ; 7,812
1 0 ,95 1 0 ,025, (143)
n1 4
12
: I Y t SR2 8,6 2,201 0,545 7,873 ; 9,327
2 0,95 2 0 ,025, (143)
n2 5
: I Y t SR2 8,2 2,201 0,545 7,473 ; 8,927
3 0,95 3 0 ,025, (143)
n3 5
Se puede observar que entre los intervalos del primer y segundo grupo no existe ningún
solapamiento.
G(G 1) 3(3 1)
Los contrastes múltiples de comparación de medias que se pueden realizar: c 3.
2 2
Las hipótesis a contrastar son las siguientes:
Para realizar estos contrastes múltiples se aplica el procedimiento de Bonferroni, con un nivel de
significación global 0,05 , siendo el nivel de significación crítico * 0,05 3 0,01667 .
El valor de la t‐Student es: t0,01667 , 11 2,82
1 1
Xp Xq t * , (NG)
SR2
Np Nq
1 1 1 1
X1 X2 t0,01667 , 11 SR2 e 7 8,6 1,6 2,82 0,545 1,39
N1 N2 4 5
1 1 1 1
X1 X3 t0,01667 , 11 SR2 e 7 8,2 1,2 < 2,82 0,545 1,39
N1 N3 4 5
13
1 1 1 1
X2 X3 t0,01667 , 11 SR2 e 8,6 8,2 0,4 < 2,82 0,545 1,31
N
2 N 3 5 5
Como conclusión se rechaza la hipótesis de que las medias de los tres grupos son iguales, resultando
las diferencias más significativas entre los grupos 1 y 2. Por el contrario, no existen evidencias para
rechazar la hipótesis de que las medias de los grupos 2 y 3 sean iguales.
14