Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5 Contrastes PDF
5 Contrastes PDF
"CONTRASTES DE HIPTESIS"
La nica forma de saber con certeza absoluta que una hiptesis estadstica es
verdadera, es examinar toda la poblacin. Pero esto, en la mayora de los casos resulta,
imposible (por falta de medios econmicos, imposibilidades tcnicas, etc.). Por lo tanto,
la decisin debe adoptarse a partir de los resultados de una muestra de la poblacin
(supuesta representativa), que nos inducir a tomar la decisin sobre la verdad o
falsedad de la hiptesis. Pero es difcil sta decisin, porque aunque sepamos
exactamente el valor del parmetro de la poblacin, en las muestras es muy difcil que
se verifique ese valor exacto, por lo que debemos decidir unos lmites de valores del
parmetro en la muestra, que nos puedan llevar a la decisin de aceptar el valor del
parmetro poblacional.
Por ejemplo, si una poblacin es normal N(150, 30), en todas las muestras de
tamao 36, aproximadamente en un 2% de ellas, la media muestral superar las 160
unidades, y en otro 2% aproximadamente ser inferior a las 140 unidades.
Puede surgir de diversos modos (Por discusiones tericas, como modelo terico,
por la experiencia, por intuicin, etc.).
Esta hiptesis nula lleva consigo una hiptesis alternativa, denotada por Ha o
H 1.
x!
Z= " con n > 30
n
sigue una distribucin normal N(0,1), por lo que puede utilizarse sta variable como un
estadstico de contraste, ya que se conoce su distribucin.
Decisin
Aceptar Ho Rechazar Ho
Estos son los conceptos iniciales que deben tenerse en cuenta en un contraste de
hiptesis.
x!
Z= " o
n
seguir, cuando la hiptesis nula sea cierta una distribucin normal estndar N(0,1). Se
puede utilizar as pues sta variable como estadstico de contraste en ste caso.
Regin crtica:
-z!/2 0 z!/2
Regin crtica Regin de Regin crtica
Aceptacin
1- ! nivel de significacin
!
0 z!
Estadgrafo de contraste:
x ! o
Z= s
n
es una variable que sigue una distribucin normal estndar N(0,1), por lo que el
razonamiento es idntico al caso anterior.
MUESTRAS PEQUEAS
Estadgrafo de contraste:
x ! o
t= s
n !1
Regin crtica:
La regin crtica, en ste caso, estar determinada por los valores de la variable t
que sean excesivamente grandes en valor absoluto, si el contraste es bilateral, y para
especificar el nivel de cuando pueden considerarse grandes, teniendo en cuenta la
286
distribucin de la variable t, que sigue una distribucin t con n-1 grados de libertad,
sern aquellos valores mayores que t/2,n-1 en el contraste bilateral, o que t,n-1 en el
contraste unilateral.
nivel de confianza
!/2 !/2
1"!
nivel de significacin
-t !/2 0 t !/2
x1 ! x2
Z=
"12 " 22
+
n1 n 2
288
que, en el caso de que la hiptesis nula sea cierta (1 = 2 ), se distribuye como una
distribucin normal estndar N(0,1), y, por lo tanto, puede utilizarse como estadstico de
contraste, dado que conocemos su distribucin.
Regin crtica:
La regin crtica estar formada por los valores de Z elevados, tanto positivos
como negativos. Para especificar cuando se consideran elevados, teniendo en cuenta la
distribucin de Z, sern aquellos que sean mayores, en valor absoluto, que Z/2, en el
contraste bilateral, o que z en el contraste unilateral.
Estadgrafo de contraste:
( x1 ! x2 ) ! (1 ! 2 )
Z=
1 1
S +
n1 n2
( x1 ! x2 )
Z=
1 1
S +
n1 n 2
289
se distribuye como una distribucin normal estndar, por lo que se puede utilizar como
un estadstico de contraste.
Regin crtica:
La regin crtica se determina igual que en el prrafo anterior, es decir, para los
valores de Z mayores, en valor absoluto, que z/2 (contraste bilateral), o que z
(contraste unilateral).
MUESTRAS PEQUEAS
Estadgrafo de contraste
Pero, si las muestras son pequeas (n1 + n2 < 30), entonces la variable siguiente
(x1 ! x2 ) ! (1 ! 2 )
t=
1 1
S +
n1 n2
(x1 ! x2 )
t=
1 1
S +
n1 n 2
Regin crtica:
La regin crtica viene determinada por los valores de esta variable t, que son
mayores en valor absoluto que t/2 en el contraste bilateral, o bien los valores de t, que
son mayores en valor absoluto que t en el contraste unilateral.
290
Hiptesis de partida
Ho : p = p o
Ha : p po en el contraste bilateral,
o bien Ha : p > po , en el contraste unilateral (tambin Ha : p < po).
Estadgrafo de contraste:
Regin crtica:
La regin crtica, ahora, ser la determinada por los valores de la variable Z que
son mayores en valor absoluto que z/2 , en el contraste bilateral, o bien, mayores que
z , en el contraste unilateral.
Hiptesis de partida:
Ha : p 1 p 2
Estadgrafo de contraste:
Ahora, teniendo en cuenta las propiedades de las distribuciones normales, por las
que se aproximan las binomiales, se verifica que la variable
! !
p1 ! p2
Z= ! ! ! !
p1(1 ! p1) p2 (1 ! p 2 )
+
n1 n2
se distribuye, cuando la hiptesis nula es cierta, como una distribucin normal estndar
N(0,1)
Regin crtica:
292
"CONTRASTES DE HIPTESIS"
4.5 Ampliacin
294
H0 = = 0 = 12.5
La hiptesis nula suele ser la de igualdad del parmetro a un nico valor concreto
o procedente de la hiptesis de trabajo.
Ha = ! 0 = 12.5
RIBERA DE DUERO
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Tabla 4.1: Grado alcohlico de 14 vinos de la denominacin de Ribera de Duero.
La primera cuestin que hemos de tener en cuenta es que la decisin por una
hiptesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de
la informacin de todos los individuos de la poblacin. Trabajaremos con la media
muestral como estimador de la media poblacional desconocida. En el ejemplo la media
muestral es de 12,529, que como ya sabemos no coincide con la media poblacional.
Trataremos de decidir entre las dos hiptesis a partir del valor de la media
muestral pero, si la media muestral no coincide con la media poblacional, ser la
diferencia entre el valor observado y el terico lo suficientemente grande como para
rechazar la hiptesis nula? o la diferencia observada es lo suficientemente pequea
como para ser debida simplemente al azar o al desconocimiento de la poblacin?.
Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones
aprendidos en temas anteriores.
"
x ! N(0 , )
n
x ! N( 0 , " )
n
0 x
x !
P(0 ! a " x " 0 + a) = P(!z# /2 " $ 0 " z #/ 2 ) = 1 ! #
n
tpica. No es lo mismo una diferencia de una unidad en una escala de centmetros que en
una escala de kilmetros.
A los valores de z/2 se les suele denominar valores crticos ya que determinan la
frontera entre la regin crtica y la regin de aceptacin.
El cuadro 4.2 muestra el procedimiento completo con los pasos que se siguen
habitualmente en la construccin de cualquier contraste.
300
Hiptesis
H0 : = 0
Ha : ! 0
Nivel de significacin:
x !
Estadgrafo de contraste: Z = " 0
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.2: Contraste para la media de una poblacin Normal con varianza conocida.
Una vez que hemos determinado la forma general del contraste pasamos a
aplicarlo a los datos del problema inicial que nos ocupa (ver cuadro 4.3).
Hiptesis:
H0 : = 12.5
Ha : ! 12.5
Nivel de significacin: 5% y 1%.
x ! 12.529 ! 12.5
Estadgrafo de contraste: Z = " 0 = 0.5 = 0.217
n 14
Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de
aceptacin, por tanto aceptamos la hiptesis nula.
Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha
modificado significativamente el grado alcohlico.
Cuadro 4.3: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al
problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
Una vez que hemos tomado la decisin final, no sabemos si es correcta o no,
simplemente esperamos que sea del 95% de las muestras en las que aceptamos la
hiptesis correctamente. Si aceptamos la hiptesis nula no quiere decir que sea cierta y
el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sera ms
correcto interpretar que, con la informacin de la que disponemos no hemos encontrado
evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores
muestrales son compatibles con muchos otros posibles valores tericos.
sera cada vez menor y conseguiramos que la pequea diferencia observada sea lo
suficientemente grande como para considerarla significativa. Es por esto por lo que en
Estadstica decimos que es tan malo tener un tamao de muestra demasiado alto como
tenerlo demasiado bajo ya que en el primer caso cualquier pequea diferencia es
considerada como significativa mientras que en el segundo no se declara significacin
incluso en el caso en el que la diferencia sea elevada.
Cual sera la potencia del contraste obtenido para detectar que la media no es 12.5
si en realidad la media fuera 13 (y suponiendo un nivel de significacin del 5%).
Figura 4.17: Clculo de la potencia del contraste para una alternativa predeterminada.
z2 "2
n > !/ 2
x # 0
para el ejemplo del grado alcohlico, n> 1141,97, es decir, para que la diferencia
observada fuera significativa tendramos que haber recogido ms de 1142 observaciones
lo que da una idea de que la diferencia observada es muy pequea y, por tanto es muy
probable que la hiptesis nula sea cierta.
Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) =
0.8285, es decir el p-valor puede considerarse grande. En la prctica se suele adoptar el
criterio de aceptar la hiptesis cuando el p-valor es mayor que el nivel de significacin
fijado en el procedimiento de contraste.
Hiptesis
H0 : = 0
Ha : > 0
Nivel de significacin:
x !
Estadgrafo de contraste: Z = " 0
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.4: Contraste unilateral superior para la media de una poblacin Normal con varianza conocida.
Hiptesis
H0 : = 0
Ha : < 0
Nivel de significacin:
x !
Estadgrafo de contraste: Z = " 0
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z < z !/ 2 }
#
x ! 0 &
p-valor: P% Z > (
"
$ n '
Cuadro 4.5: Contraste unilateral inferior para la media de una poblacin Normal con varianza conocida.
La decisin por el tipo de contraste debe hacerse a priori, antes de tomar los datos.
Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la
modificacin en el proceso de fabricacin, aumenta el grado alcohlico. El
procedimiento de contraste para los datos de la tabla 1 se muestra en el cuadro 4.6.
307
Hiptesis:
H0 : = 12.5
Ha : > 0
Nivel de significacin: 5% y 1%.
x ! 12.529 ! 12.5
Estadgrafo de contraste: Z = " 0 = 0.5 = 0.217
n 14
Valores crticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33
p-valor: 0.4129
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de
aceptacin, por tanto aceptamos la hiptesis nula.
Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha
aumentado significativamente el grado alcohlico.
Cuadro 4.6: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al
problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
x ! 0
"
n x !
t= = 0
(n ! 1)S 2 S
n
"2
(n ! 1)
Hiptesis
H0 : = 0
Ha : ! 0
Nivel de significacin:
x ! 0
Estadgrafo de contraste: t =
S
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1
Regin de aceptacin: {t / t ! t n "1,# }
Regin critica: {t / t > t n !1," } *
Cuadro 4.7: Contraste para la media de una poblacin Normal con varianza desconocida.
x "
t = 0 # t n"1
s 1"!
n
!/2
!/2
-t ! 0 t!
* tn-1, es el valor crtico de la t de Student tal que P(-tn-1, tn-1 tn-1, ) = 1-. Se ha denotado con el
subndice porque es el que se utiliza para buscar el valor correspondiente en la tabla.
310
Hiptesis
H0 : = 0
Ha : > 0
Nivel de significacin:
x ! 0
Estadgrafo de contraste: t =
S
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: tn-1
Regin de aceptacin: {t / t ! t n "1,2# }*
Regin critica: {t / t > t n !1,2" }
Cuadro 4.8: Contraste para la media de una poblacin Normal con varianza desconocida.
Hiptesis:
H0 : = 12.5
Ha : ! 12.5
Nivel de significacin: 5% y 1%.
x ! 0 12.529 ! 12.5
Estadgrafo de contraste: Z = = 0.338 = 0.316
S
n 14
Valores crticos : para el 5% t0.05= 1,96 para el 1% t0.01= 2,57
p-valor : 0,7571
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de
aceptacin, por tanto aceptamos la hiptesis nula.
Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha
modificado significativamente el grado alcohlico.
Cuadro 4.9: Aplicacin del contraste para la media de una poblacin Normal con varianza conocida al
problema de la modificacin en el grado alcohlico del vino de Ribera de Duero
* tn-1,2 es el valor crtico de la t de Student tal que P( tn-1 > tn-1,2 ) = . Se ha denotado con el subndice
2 porque es el que se utiliza para buscar el valor correspondiente en la tabla.
311
H0 : = 0
Hiptesis:
Ha : ! 0
Nivel de significacin:
x ! 0
Estadgrafo de contraste: Z =
S
n
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.10: Contraste para la media de una poblacin Normal con varianza desconocida
cuando la muestra es grande.
312
H0 :1 = 2 (1 ! 2 = 0)
Ha :1 " 2 (1 ! 2 " 0)
para el contraste bilateral. Vemos como el contraste de que las medias son iguales es
equivalente al contraste de que la diferencia de medias vale 0.
Supongamos que los datos obtenidos son los siguientes para muestras aleatorias
313
de tamao n1 = 14 y n2 = 6.
Ribera de Duero
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Toro
13,0 14,0 13,2 13,4 13,2 13,9
Tabla 4.2: Grado alcohlico de 20 vinos de las denominaciones de origen de Ribera y Toro.
Una primera aproximacin a las diferencias entre los dos grupos sera la
construccin de grficos comparativos que muestren la estructura de los mismos, por
ejemplo, un Box-Plot con los grupos separados. (Ver figura 4.17).
Una simple inspeccin visual del grfico nos muestra que hay una clara diferencia
entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy
evidente necesitamos un procedimiento ms formal para establecer si las diferencias
observadas pueden ser consideradas estadsticamente significativas. Construiremos el
procedimiento de contraste en varios supuestos comenzando desde el ms sencillo hasta
los ms complejos.
314
Figura 4.24: Box plot para la comparacin del grado alcohlico de las
denominaciones de Ribera y Toro.
"1
x1 ! N(1, )
n1
"2
x2 ! N(2 , )
n2
#21 # 22
x1 ! x2 " N(1 ! 2 , + )
n1 n2
315
(x1 ! x2 ) ! (1 ! 2 )
Z= # N(0,1)
"21 " 22
+
n1 n2
(x1 ! x2 )
Z= # N(0,1)
"12 " 22
+
n1 n 2
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin:
(x1 ! x2 )
Estadgrafo de contraste: Z =
"12 " 22
+
n1 n 2
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0, 1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z > z !/ 2 }
Cuadro 4.11: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.
Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del
cuadro 4.12.
316
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin: = 0.05 (5%) 0.01 (1%)
(12.529 ! 13.450)
Estadgrafo de contraste: Z = = !10.829
0.25 0.36
+
14 6
Valores crticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica,
por tanto rechazamos la hiptesis nula.
Conclusin no estadstica: La modificacin en el proceso de fabricacin ha aumentado
significativamente el grado alcohlico.
Cuadro 4.12: Contraste para la diferencia de medias de dos poblaciones
normales con varianza desconocida.
(x1 ! x2 ) ! (1 ! 2 )
Z= # N(0,1)
1 1
" +
n1 n 2
(x1 ! x 2 ) ! (1 ! 2 )
1 1
" +
n1 n 2 (x1 ! x2 ) ! (1 ! 2 )
t= =
(n1 ! 1)S 12 + (n2 ! 1)S 22 1 1
S +
"2 n1 n2
n1 + n2 ! 2
(x1 ! x2 )
t= = t n1 +n 2 !2
S 1 + 1
n1 n 2
n1 S12 2 n2 S22 2
2 " # n1 $1 y 2 " # n 2 $1
! !
(x1 ! x2 )
t= = t n1 +n 2 !2
1 1
S +
n1 n 2
n1 S 12 + n2 S 22
con S = . Los dos estadsticos toman exactamente el mismo valor por lo
n1 + n2 ! 2
que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasi-
varianzas porque son estimadores insesgados de la varianza poblacional.
*La demostracin puede encontrarse en cualquier libro de Estadstica Matemtica. No se ha incluido aqu
porqwue supera los propsitos de este trabajo.
318
En este caso es necesario que las varianzas sean iguales para poder despejarlas y
eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad
de varianzas se har posteriormente aunque sea un paso previo a la decisin del tipo de
contraste.
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin:
(x1 ! x2 ) (x1 ! x 2 )
Estadgrafo de contraste: t = t=
1 1 1 1
S + S +
n1 n 2 n1 n 2
(n1 ! 1)S12 + (n 2 ! 1)S 22 n1 S 12 + n2 S 22
con S = S=
n1 + n 2 ! 2 n1 + n2 ! 2
Distribucin del estadgrafo cuando la hiptesis nula es cierta: t de Student
t n1 +n 2 !2
{
Regin de aceptacin: t / t ! t n1 +n 2 "2,# }
{
Regin critica: t / t > t n1 +n 2 !2," }
Cuadro 4.13: Contraste para la diferencia de medias de dos poblaciones normales
con varianzas desconocidas pero iguales.
El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los
siguientes resultados (ver cuadro 4.14).
319
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin: = 0.05 (5%) 0.01 (1%)
(12.529 ! 13.450)
Estadgrafo de contraste: t = = !5.256
1 1
0.359 +
14 6
Valores crticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica,
por tanto rechazamos la hiptesis nula.
Conclusin no estadstica: El grado alcohlico es significativamente diferente en
Ribera de Duero y Toro.
Cuadro 4.14: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales, aplicado a los datos sobre el grado alcohlico.
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin:
S 12 S 22
Estadgrafo de contraste: t = (x1 ! x2 ) +
n1 n2
Distribucin del estadgrafo cuando la hiptesis nula es cierta: t de Student tf donde
f es el entero ms prximo a
! S12 S 22 $ 2
# + &
" n1 n 2 %
f= 2 2 '2
! S12 $ ! S 22 $
# & # &
" n1 % " n2 %
+
n1 + 1 n 2 + 1
Regin de aceptacin: {t / t ! t f," }
Regin critica: {t / t > t f,! }
H0 :1 = 2 (1 ! 2 = 0)
Hiptesis:
Ha :1 " 2 (1 ! 2 " 0)
Nivel de significacin:
S 12 S 22
Estadgrafo de contraste: t = (x1 ! x2 ) +
n1 n2
Distribucin del estadgrafo cuando la hiptesis nula es cierta: N(0,1)
Regin de aceptacin: {Z / Z ! z "/ 2 }
Regin critica: {Z / Z > z !/ 2 }
Individuo 1 2 3 4 5 6 7 8 9 10
Antes 140 165 160 160 175 190 170 175 155 160
Despus 145 150 150 160 170 175 160 165 145 170
Reduccin -5 15 10 0 5 15 10 10 10 -10
Tabla 4.4: datos utilizados en el ejemplo de contraste para datos apareados
Como las variables estn relacionadas, todos los clculos que realizamos en el
caso de datos independientes ya no son vlidos. Para evitar este problema nos
centraremos en una sola variable aleatoria que es la diferencia entre los dos valores
obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento
aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una
distribucin Normal de media d desviacin tpica d . La hiptesis de inters es ahora
que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, d = 0. El
contraste es ahora exactamente igual que el descrito para la media de una poblacin
Normal (ahora la poblacin de las diferencias.
323
H0 : d = 0
Hiptesis:
Ha :d ! 0
Nivel de significacin:
d
Estadgrafo de contraste: t =
Sd
n
Distribucin del estadgrafo cuando h0 es cierta: tn-1
Regin de aceptacin: {t / t ! t n "1,# }
Regin critica: {t / t > t n !1," }
Cuadro 4.17: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.
H0 : d = 0
Hiptesis:
Ha :d ! 0
Nivel de significacin: 5% y 1%
6
Estadgrafo de contraste: t = 8.433 = 2.250
10
Distribucin del estadgrafo cuando h0 es cierta: t9
Valores crticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250
p-valor : 0,0510
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de
aceptacin, por tanto aceptamos la hiptesis nula.
Conclusin no estadstica: Con los datos de los que disponemos no existe una
evidencia significativa de que exista una diferencia entre la presin sistlica antes y
despus de haber dejado de beber.
Cuadro 4.18: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados
aplicado al ejemplo de la reduccin de la tensin arterial en alcohlicos.
324
En muchas situaciones prcticas es difcil aceptar la hiptesis previa de que los datos
son normales al disponerse, por ejemplo, de distribuciones muy asimtricas. En estos
casos los contrastes anteriores no detectan claras diferencias en el comportamiento de
las poblaciones, debido a que la dispersin es muy grande o debido a que la medida de
tendencia central utilizada (la media) no es la correcta porque est afectada por los
valores extremos. Los contrastes paramtricos descritos antes son especialmente
sensibles a valores extremos de la variable.
Me1 x1 x2 Me2
Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hiptesis
de que la mediana de las diferencias es cero. La base del contraste es similar al caso de
muestras independientes.
Est basado en la suma de los rangos de orden de las observaciones de las dos
poblaciones consideradas conjuntamente y consiste bsicamente en calcular la
distribucin muestral a partir de todas las ordenaciones posibles con muestras de los
mismos tamaos en el caso de que las medianas fueran iguales. Cabe esperar que si las
medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de
rangos de orden sean similares en ambos grupos.
327
H 0 : Me1 = Me 2 (Me 1 ! Me 2 = 0)
HIPOTESIS:
H a : Me1 " Me 2 (Me 1 ! Me 2 " 0)
ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango
correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y
R2)
n (n + 1)
U = min(U 1 , U 2 ) U i = n 1n 2 + i i ! Ri
2
n n
U! 1 2
2
Para muestras grandes: Z =
n 1 n 2 (n 1 + n 2 + 1)
12
DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribucin
emprica o N(0,1) para muestras grandes.
{Z / Z > z ! /2 }
Contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste
es similar al caso de muestras independientes.
H 0 : Me d = 0
HIPOTESIS:
H a : Me d ! 0
ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de
ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor
absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las
observaciones positivas y negativas.(T+ y T-)
T = min(T+ , T! )
328
n(n + 1)
T!
4
Para muestras grandes: Z =
n(n + 1)(2n + 1)
24
DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribucin
emprica o N(0,1) para muestras grandes.
H0 :1 = = i = = r
i, j
La hiptesis es cierta si y solo si las hiptesis por parejas H0 : i = j para todas
! r $ r(r & 1)
las k = # = combinaciones posibles de i y de j.
" 2% 2
45
Con 10 poblaciones 1 ! 0. 95 = 1 ! 0. 0994 = 0. 9006 , es decir, con 10
poblaciones, aunque todas las medias fueran iguales tendramos una probabilidad del
90% de encontrar diferencias en alguna de las parejas.
Figura 4.26: Box plot para la comparacin del grado alcohlico de las
331
Para contrastar ms formalmente que las varianzas son iguales se puede construir
un contraste muy simple teniendo en cuenta la distribucin del cociente de varianzas
basado en el cociente de las distribuciones ji-cuadrado asociadas.
El cociente
(n1 ! 1)
"12
(n1 ! 1) S 21 " 22
F == = 2 2
(n 2 ! 1)S 22 S2 "1
" 22
(n2 ! 1)
sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad.
H0 :!12 = !22
Hiptesis:
Ha :!12 " ! 22
Nivel de significacin:
S 2
Estadgrafo de contraste: F = 12
S 2
Distribucin del estadgrafo cuando h0 es cierta: F n1 !1, n 2 !1
{
Regin de aceptacin: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] }
{
Regin critica: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] } *
H0 :!12 = !22
Hiptesis:
Ha :!12 " ! 22
Nivel de significacin: = 5% y 1%
S12
Estadgrafo de contraste: F = 2 = 0.686
S 2
Distribucin del estadgrafo cuando h0 es cierta: F n1 !1, n 2 !1
p-valor : 0.6261
Conclusin : Se acepta la hiptesis nula.
Cuadro 4.20: Contraste de comparacin de las varianzas de dos poblaciones normales aplicado a la
comparacin de la variabilidad del grado alcohlico.
*El valor F n !1,n !1, 1!" /2 es el valor crtico que deja a la derecha un rea de 1 ! " / 2 . En la
1 2
prctica puede calcularse como F n !1,n !1, 1!" /2 = 1 F n !1, n !1, " / 2
1 2 2 1
333
5 Quinta
Unidad Didctica
"TABLAS DE CONTINGENCIA"
5.1.1 Introduccin
La existencia de distintas pruebas estadsticas es consecuencia, en parte, de las
distintas escalas de medida que se utilizan para tratar las variables objeto de una
determinada investigacin.
3) Test de asociacin:
Para comprobar si dos o mas caractersticas cualitativas estn relacionadas
entre s. (Ejemplo: Est la intencin de voto, a un determinado partido
poltico, relacionada con el sexo?).
En el desarrollo del captulo nos vamos a centrar en este ltimo tipo de contrastes.
EJEMPLO 5.1:
Supongamos una muestra de 100 individuos de una poblacin en los que estamos
estudiando el estado civil. Esta variable aleatoria puede tener cuatro categoras:
soltero, casado, viudo y divorciado. Supongamos que el nmero de individuos en
336
Solucin:
Nuestra hiptesis de partida (H0) podra ser que las cuatro categoras estn
igualmente representadas. En este caso cabra esperar que nuestra muestra constara de
25 individuos en cada casilla, que se corresponden con nuestras frecuencias esperadas.
Est claro que si nuestra H0 fuera cierta las frecuencias observadas y las
esperadas discreparan poco y, seran muy diferentes en caso contrario. Se nos plantea
entonces un problema:
En realidad el estadstico con el que vamos a trabajar se basa en esta idea, si bien tiene algunas
correcciones (no trabaja con diferencias sino con diferencias al cuadrado, para evitar problemas de signos,
y trabaja con discrepancias normalizadas, obtenindolas en valores relativos).
Estadgrafo de contraste:
(fo i " fe i )2
!2 = #
i fei
Recurdese que un valor crtico no es ms que un valor de la variable aleatoria que slo es
superado por un porcentaje pequeo, preestablecido de antemano, de individuos cuando la hiptesis nula
es cierta
EJEMPLO 5.2:
Supongamos cuatro tratamientos (Ai) que se piensa efectivos para curar una
determinada enfermedad, estos tratamientos se aplican a enfermos de dicha
enfermedad y se anota el tipo de respuesta que presentan (Bj). La respuesta se clasifica
en tres posibles clases: "peor", "igual", "mejor". Ejemplo tomado de MARTN
ANDRS, A. et al. (1995).
Solucin:
Si denotamos:
En nuestro ejemplo:
Ha: Si condiciona.
( ) ( )
Ho:P Ai ! B j = P(A i ) P B j "i, j
Obtencin de las feij: Como en todo test Ji-cuadrado necesitamos las cantidades
esperadas bajo el supuesto de que H0 se verifique. Fijmonos en una cualquiera de ellas
por ejemplo en la E21: Cantidad de individuos que habiendo recibido el tratamiento 2
empeoran supuestas ambas independientes.
Si Ho es cierta:
fe 21 = f .. P(A2 )P(B1 )
120 f 2.
p(A2 ) = =
560 f..
37 f.1
p(B1 ) = =
560 f ..
340
f f. f f
fe 21 = f .. P (A2 ) P (B1 ) = f .. 2. 1 = 2. .1 = 7.93
f.. f .. f ..
En nuestro caso concreto son 6 los grados de libertad y 12.59 el valor crtico.
"TABLAS DE CONTINGENCIA"
5.2 Ampliacin
343
Para el desarrollo de este apartado utilizaremos el ejemplo visto con los alumnos,
dado que all la conclusin a la que se llegaba era la de relacin entre ambas variables.
La primera idea que se nos ocurre para analizar la situacin es saber lo que
contribuye cada casilla al valor experimental (recordar que el rechazo se obtena para
valores grandes de ste y, que bastaba que una casilla tuviera grandes discrepancias
para producirse este hecho). De esta manera calcularemos la tabla de contribuciones,
donde los valores de cada casilla se obtienen como:
345
(fo i ! fe i )2
fe i
Tabla de contribuciones
(7 ! 9.91) 2
= 0.85
9.91
(28 ! 31.61)2
El primer elemento de la segunda columna como: = 0.41 etc.
31.61
Esto parece sugerir que los tratamientos 1,3,4 son homogneos entre si (la
respuesta es independiente de estos tratamientos) y difieren del 2.
Para llevar a cabo el primero de ellos construimos una subtabla en la que hemos
de eliminar el tratamiento 2 (el aparentemente responsable de la significacin):
T3 10 30 90 130
T4 5 40 115 160
TOTAL 22 98 320 440
Ahora las frecuencias esperadas no van a coincidir con el primer supuesto ya que
los marginales de columnas son distintos (hemos eliminado a los enfermos tratados con
el segundo de los tratamientos), tampoco coincidir el valor experimental ni los grados
de libertad de la tabla.
2
! exp = 5. 04 que hemos de comparar con el correspondiente valor crtico de la
tabla en este caso con 4 grados de libertad, que result ser en este caso
2
! 4;0.05 = 9.488
Como era de esperar hemos llegado a la conclusin de que estos tres tratamientos
eran igualmente efectivos. Por tanto no se trata de tres tratamientos distintos sino de uno
slo que llamaremos a partir de ahora tratamiento (1+3+4).
Para llevar a cabo el segundo de los contrastes, que nos ponga de manifiesto que
es el tratamiento 2 el que difiere del resto necesitamos construir otra subtabla en la que
se disponga de la informacin que nos interesa, es decir el tratamiento 2 y el tratamiento
(1+3+4).
347
tratamientos
1,2,3,4 6 13.87 **
Con esta descomposicin hemos probado que el tratamiento 2 difiere del resto
como pareca intuirse de la tabla de contribuciones, pero esta afirmacin, aunque vlida
no deja de ser incompleta ya que nada nos dice de en qu sentido es diferente, dicho de
otra forma, difiere el tratamiento 2 del resto porque es peor o porque es mejor. Faltara,
348
pues, descomponer la ltima tabla que nos dio significativa, y que tena dos grados
de libertad, en otras dos subtablas de 1 grado de libertad cada una para saber el sentido
de las diferencias.
P I M
T1
P I M T3 NS I M
T1 T4
T2 T2
P I M NS
T3
T4 T2 T1+T2+T3
* P (I+M)
T1+T2+T3
T2
*
T1+T2+T3
ocurrir la paradoja cuando se desagrega para hombres y mujeres, siempre es posible que
exista alguna otra variable, como la edad de los individuos o la intensidad y grado de
avance de la enfermedad, con respecto a la cual la desagregacin podra conducir a una
conclusin directamente opuesta a la indicada por la tabla agregada.