Está en la página 1de 37

PROBABILIDADES

Y ESTADÍSTICA

Tema IV: Introducción a las Pruebas


de Hipótesis.
Conferencia # 8: Introducción al
análisis de varianza

Facultad 2
Universidad de las Ciencias Informáticas
Sumario

❖ Conceptos básicos.
❖ Clasificación
simple. Diseño
totalmente aleatorizado.
Objetivos

Describir los conceptos básicos y la


metodología para realizar análisis
estadísticos a experimentos donde
inciden un factor mediante la
técnica de Análisis de Varianza de
clasificación simple.
Recordando

¿Para que nos sirven los procedimientos de


Pruebas de Hipótesis hasta ahora vistos?

¿Permiten éstos llegar a conclusiones acerca


de qué factores incidieron en los resultados
obtenidos?
Situación Problémica

Se desea conocer si el tiempo de trabajo de


ciertos programadores en algunas de las
etapas de obtención de un software influyen
en su costo total.
Diseño: 20, 21, 20, 20, 23, 21, 26
Desarrollo: 24, 25, 27, 24, 23, 23, 24, 27, 26, 25
Prueba: 25, 28, 22, 24, 26, 26.
Situación Problémica

a) ¿Tendrá alguna influencia la


etapa de desarrollo del
producto en el costo total del
mismo?
b) ¿Qué etapa es más eficaz?
Análisis de Varianza

Técnica estadística que permite


contrastar la variabilidad de la media de
variables aleatorias bajo la influencia de
una o varias variables controladas.
Consiste en un test de hipótesis para
probar si la media de una variable
aleatoria cambia significativamente bajo
al influencia de uno o más factores.
Supuestos previos

El ANOVA parte de algunos supuestos


que han de cumplirse:
❑ Independencia de las observaciones.
❑ La distribución de la variable
dependiente debe ser Normal.
❑ Homocedasticidad (homogeneidad
de las varianzas).
Tipos de modelos para el
análisis de varianza

1. Modelo de efectos fijos: el investigador


considera todos los posibles valores o
niveles que el factor o variable
independiente puede tomar.
Ejemplo: Si el género del individuo es
un factor, y el investigador ha incluido
tantos individuos masculinos como
femeninos, el género es un factor fijo
en el experimento.
Tipos de modelos para el
análisis de varianza

2. Modelo de efectos aleatorios: el


investigador considera solo una
muestra de los posibles valores que el
factor o variable independiente puede
tomar.
Ejemplo: Se consideran aleatoriamente
3 de los muchos métodos de
enseñanza que existen para medir el
nivel de aprendizaje de estudiantes en
un experimento .
Tipos de modelos para el
análisis de varianza

3. Modelo de efectos mixtos:


experimentos en los que están
presentes ambos tipos de factores:
fijos y aleatorios.
Desarrollo

Cuando en determinado experimento sólo se


estudia la incidencia de un único factor
sobre determinada variable aleatoria,
entonces estamos en presencia de un
Análisis de Varianza de Clasificación
Simple.
Anova de Clasificación Simple
De forma general, supongamos que un
investigador cuenta con los resultados de k
muestras aleatorias independientes, cada
una de tamaño n de k poblaciones
diferentes.
Le interesa probar la hipótesis de que las
medias de las k poblaciones son todas
iguales.
H 0 : 1 =  2 ... =  k
H1 : i   j , para i  j
Anova de Clasificación Simple

Si denotemos la j-ésima observación en la i-


ésima muestra por yij, el esquema general
de un diseño simple quedaría así:
medias
Muestra 1 y11 , y12 ,..., y1n y1
Muestra 2 y 21 , y 22 ,..., y 2n y2
  
Muestra k y k1 , y k2 ,..., y kn yk
y
Anova de Clasificación Simple

Para probar esta hipótesis se pueden


comparar dos estimaciones de σ2 (partiendo
del supuesto de homogeneidad de
varianzas):

1. La que se obtiene a partir de la variabilidad


entre las medias muestrales.
2. La que se obtiene a partir de la variabilidad
de los datos dentro de las muestras.
Anova de Clasificación Simple

La varianza entre las medias muestrales


sabemos que se obtiene a partir de:
k
( yi − y ) 2
S =
2

k −1
x
i =1

y la hipótesis nula será verdadera si esta


expresión nos brinda una estimación de
σ2/n.
Anova de Clasificación Simple
Así, la primera estimación de σ2 (a partir de
la variabilidad de las medias muestrales)
sería:
( yi − y )
k 2
̂ = n  S = n  
2 2

k −1
B x
i =1

Donde k-1 son los grados de libertad.


Anova de Clasificación Simple
La segunda estimación de σ2 (a partir de la
variabilidad dentro de las muestras) puede
obtenerse a partir de:
k 2
S k n ( yij − yi ) 2

̂ 2
= i
=  k ( n − 1)
W
i =1 k i =1 j =1

Donde k(n-1) son los grados de libertad.


Anova de Clasificación Simple
Luego, para probar la hipótesis nula
planteada, podemos emplear la variable
aleatoria:
ˆ 2
F= B
ˆ 2
W

La cual sigue una distribución F (de Fisher)


con k-1 y k(n-1) grados de libertad.
Anova de Clasificación Simple

La región crítica o de rechazo de H0 , está


dada por:

F  F ;k −1;n( k −1)
ya que si la hipótesis nula es verdadera se
espera que:
ˆ  ˆ
2
B
2
W
Anova de Clasificación Simple

Con base en la siguiente identidad:


yij − y = ( yij − yi ) + ( yi − y)
se demuestra que:

k n k n k


i =1
 ij
( y
j =1
− y ) 2
=
i =1
 ij i
( y
j =1
− y ) 2
+ n   i
( y
i =1
− y ) 2

SCT = SCE + SCR


Anova de Clasificación Simple

Teniendo en cuenta estas notaciones, ahora


el estadígrafo F puede escribirse como:

SCR / k − 1
F=
SCE / k (n − 1)
También como:
MSCR
F=
MSCE
Análisis de Varianza de
Clasificación Simple

Estas sumas de cuadrados suelen


calcularse a través de las siguientes
expresiones, que ahorran trabajo:
k n
SCT =   y − C 2
ij
i =1 j =1
k

 i
T 2

SCR = i =1
−C
n
Anova de Clasificación Simple

donde C, denominado término de corrección


está dado por :
2
T
C=
kn
y además Ti es la suma de las n
observaciones en la i-ésima muestra y T es
la suma total de las kn observaciones.
Anova de Clasificación Simple

Tabla ANOVA

Fuente de Grados de Sumas de Cuadrados F


variación libertad cuadrados medios
Residuos(Tr) k-1 SCR SCR/(k-1) MSCR/MSCE
Error k(n-1) SCE SCE/ k(n-1)
Total kn-1 SCT
¡Observación Importante!
Muestras de diferentes tamaños
Si los tamaños de muestras son n1, n2,…,nk,
sólo hay que sustituir en todo lo anterior kn
por: k
N =  ni
i =1
y escribir las expresiones de las sumas de
cuadrados en la forma:
k ni k 2
Ti
SCT =   y − C 2
ij SCR =  −C
i =1 j =1 i =1 ni
Ejemplo 1
Volvamos entonces al problema planteado
inicialmente.
Solución:
En este caso k = 3, y las muestras son de
diferentes tamaños, con N=23.
El planteamiento de las hipótesis sería:
H 0 : 1 =  2 = 3
H1 : i   j , para i  j
Ejemplo 1

Fuente de Grados de Suma de Cuadrado F


variación libertad cuadrados medio

Residuos k-1=2 SCR=55,73 MSCR=27,8 F=7,94

Error N-k=20 SCE=70,09 MSCE=3,5

Total N-1=22 SCT=125,82


Ejemplo 1
Decisión Estadística
Con un nivel de significación 0.05 el valor
crítico de decisión será F0.05; 2; 20 = 3,49. El
valor del estadígrafo F=7,94 pertenece a la
Región Crítica, por lo que se rechaza la
hipótesis nula sobre igualdad de las medias.
Decisión Práctica
Las medias de los tiempos por etapas de
desarrollo no son iguales, por lo que si se ve
afectado el costo del proyecto.
Ejemplo 1

¿Que hacer cuando se rechaza la


hipótesis nula?

Comparación múltiple de medias:


Contrastes POST-HOC
Contraste POST-HOC

Métodos de comparación POST-HOC:


• Intervalos LSD de Fisher
• Corrección de Bonferroni
• Correción de Bonferroni-Holm
• Intervalos HSD de Tukey-Kramer
• Corrección de Dunnett
Diferencia mínima significativa
(LSD) de Fisher

Desarrollada en 1935 por Ronald A Fisher,


para determinar cual(es) de las muestras es
significativamente diferente.
Basado en una prueba t-Student, el LSD
calcula la menor diferencia entre dos medias.
Esto le permite hacer comparaciones directas
entre dos medias de dos grupos individuales.
Cualquier diferencia mayor que el LSD se
considera un resultado significativo.
Diferencia mínima significativa
(LSD) de Fisher

La fórmula para la diferencia mínima


significativa es:
1 1
𝐿𝑆𝐷 = 𝑡𝛼;𝑁−𝑘 𝑀𝑆𝐶𝐸 +
2 𝑛1 𝑛2
Donde:
• t = valor crítico de la distribución t-Student
• MSCE = cuadrado medio dentro del error,
obtenido de los resultados de su prueba ANOVA
• ni = número de elementos de cada muestra.
Diferencia mínima significativa
(LSD) de Fisher

Pasos para el LSD:


1. Ordenar las medias de cada muestra de
menor a mayor o de mayor a menor.
2. Obtener el valor del LSD para el primer
par
3. Obtener el módulo de la diferencia entre
las medias del primer par ( 𝑦ത1 − 𝑦ത2 )
4. Si 𝑦ത1 − 𝑦ത2 > 𝐿𝑆𝐷 , existen diferencias
significativas entre las medias
Diferencia mínima significativa
(LSD) de Fisher

𝑦ത1 = 21.57 𝑦ത2 = 24.8 𝑦ത3 = 25.17

1 1
𝐿𝑆𝐷 = 𝑡0.05 3.5 + = 2.086 0.243 = 1.03
2 ;20 7 10

𝑦ത1 − 𝑦ത2 = 21.57 − 24.8 = 3.23

𝑦ത1 − 𝑦ത2 > LSD ⟹ 𝟑. 𝟐𝟑 > 𝟏. 𝟎𝟑

Existen diferencias entre el diseño (𝑦ത1 ) y la


implementación (𝑦ത2 )
Concluciones
El procedimiento ANOVA es tan solo un
ejemplo de aplicación práctica de pruebas de
hipótesis.
Nos auxiliamos de fórmulas simplificadas y
una tabla para hallar los estadígrafos de
prueba, a diferencia de las pruebas de
hipótesis vistas en clases anteriores, solo con
el objetivo de mejorar la rapidez de los
cálculos.
El procedimiento puede ser extendido a
cualquier número de factores.
FIN

También podría gustarte