Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5 Contrastes PDF
5 Contrastes PDF
"CONTRASTES DE HIPÓTESIS"
La única forma de saber con certeza absoluta que una hipótesis estadística es
verdadera, es examinar toda la población. Pero esto, en la mayoría de los casos resulta,
imposible (por falta de medios económicos, imposibilidades técnicas, etc.). Por lo tanto,
la decisión debe adoptarse a partir de los resultados de una muestra de la población
(supuesta representativa), que nos inducirá a tomar la decisión sobre la verdad o
falsedad de la hipótesis. Pero es difícil ésta decisión, porque aunque sepamos
exactamente el valor del parámetro de la población, en las muestras es muy difícil que
se verifique ese valor exacto, por lo que debemos decidir unos límites de valores del
parámetro en la muestra, que nos puedan llevar a la decisión de aceptar el valor del
parámetro poblacional.
Por ejemplo, si una población es normal N(150, 30), en todas las muestras de
tamaño 36, aproximadamente en un 2% de ellas, la media muestral superará las 160
unidades, y en otro 2% aproximadamente será inferior a las 140 unidades.
Puede surgir de diversos modos (Por discusiones teóricas, ó como modelo teórico,
ó por la experiencia, ó por intuición, etc.).
Esta hipótesis nula lleva consigo una hipótesis alternativa, denotada por Ha o
H 1.
x!µ
Z= " con n > 30
n
sigue una distribución normal N(0,1), por lo que puede utilizarse ésta variable como un
estadístico de contraste, ya que se conoce su distribución.
Decisión
Aceptar Ho Rechazar Ho
Estos son los conceptos iniciales que deben tenerse en cuenta en un contraste de
hipótesis.
x!µ
Z= " o
n
seguirá, cuando la hipótesis nula sea cierta una distribución normal estándar N(0,1). Se
puede utilizar así pues ésta variable como estadístico de contraste en éste caso.
Región crítica:
-z!/2 0 z!/2
Región crítica Región de Región crítica
Aceptación
1- ! nivel de significación
!
0 z!
Estadígrafo de contraste:
x ! µo
Z= s
n
es una variable que sigue una distribución normal estándar N(0,1), por lo que el
razonamiento es idéntico al caso anterior.
MUESTRAS PEQUEÑAS
Estadígrafo de contraste:
x ! µo
t= s
n !1
Región crítica:
La región crítica, en éste caso, estará determinada por los valores de la variable t
que sean excesivamente grandes en valor absoluto, si el contraste es bilateral, y para
especificar el nivel de cuando pueden considerarse grandes, teniendo en cuenta la
286
distribución de la variable t, que sigue una distribución t con n-1 grados de libertad,
serán aquellos valores mayores que tα/2,n-1 en el contraste bilateral, o que tα,n-1 en el
contraste unilateral.
nivel de confianza
!/2 !/2
1"!
nivel de significación
-t !/2 0 t !/2
x1 ! x2
Z=
"12 " 22
+
n1 n 2
288
que, en el caso de que la hipótesis nula sea cierta (µ1 = µ2 ), se distribuye como una
distribución normal estándar N(0,1), y, por lo tanto, puede utilizarse como estadístico de
contraste, dado que conocemos su distribución.
Región crítica:
La región crítica estará formada por los valores de Z elevados, tanto positivos
como negativos. Para especificar cuando se consideran elevados, teniendo en cuenta la
distribución de Z, serán aquellos que sean mayores, en valor absoluto, que Zα/2, en el
contraste bilateral, o que zα en el contraste unilateral.
Estadígrafo de contraste:
Supongamos ahora que las varianzas son desconocidas pero iguales (σ1 = σ2 = σ).
Si las muestras tienen tamaño grande, aunque no se conozca la varianza poblacional, se
trabaja como si se conociese utilizando en lugar de la varianza poblacional, su
estimador la cuasivarianza muestral, por lo que la distribución de la diferencia de
" 1 1 %'
medias muestrales es ahora N$ µ1 ! µ2 , sˆ + ,
# n1 n2 &
(n1 ! 1)ˆs12 + (n2 ! 1)sˆ22
siendo ˆs = , por lo que la variable tipificada es una normal
n1 + n2 ! 2
estándar
( x1 ! x2 ) ! (µ1 ! µ2 )
Z=
1 1
Sˆ +
n1 n2
( x1 ! x2 )
Z=
1 1
Sˆ +
n1 n 2
289
se distribuye como una distribución normal estándar, por lo que se puede utilizar como
un estadístico de contraste.
Región crítica:
La región crítica se determina igual que en el párrafo anterior, es decir, para los
valores de Z mayores, en valor absoluto, que zα/2 (contraste bilateral), o que zα
(contraste unilateral).
MUESTRAS PEQUEÑAS
Estadígrafo de contraste
Pero, si las muestras son pequeñas (n1 + n2 < 30), entonces la variable siguiente
(x1 ! x2 ) ! (µ1 ! µ 2 )
t=
1 1
Sˆ +
n1 n2
(x1 ! x2 )
t=
1 1
Sˆ +
n1 n 2
Región crítica:
La región crítica viene determinada por los valores de esta variable t, que son
mayores en valor absoluto que tα/2 en el contraste bilateral, o bien los valores de t, que
son mayores en valor absoluto que tα en el contraste unilateral.
290
Hipótesis de partida
Ho : p = p o
Ha : p ≠ po en el contraste bilateral,
o bien Ha : p > po , en el contraste unilateral (también Ha : p < po).
Estadígrafo de contraste:
Región crítica:
La región crítica, ahora, será la determinada por los valores de la variable Z que
son mayores en valor absoluto que zα/2 , en el contraste bilateral, o bien, mayores que
zα , en el contraste unilateral.
Hipótesis de partida:
Ha : p 1 ≠ p 2
Estadígrafo de contraste:
Ahora, teniendo en cuenta las propiedades de las distribuciones normales, por las
que se aproximan las binomiales, se verifica que la variable
! !
p1 ! p2
Z= ! ! ! !
p1(1 ! p1) p2 (1 ! p 2 )
+
n1 n2
se distribuye, cuando la hipótesis nula es cierta, como una distribución normal estándar
N(0,1)
Región crítica:
292
"CONTRASTES DE HIPÓTESIS"
4.5 Ampliación
294
H0 = µ = µ0 = 12.5
La hipótesis nula suele ser la de igualdad del parámetro a un único valor concreto
µo procedente de la hipótesis de trabajo.
Ha = µ ! µ 0 = 12.5
RIBERA DE DUERO
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Tabla 4.1: Grado alcohólico de 14 vinos de la denominación de Ribera de Duero.
La primera cuestión que hemos de tener en cuenta es que la decisión por una
hipótesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de
la información de todos los individuos de la población. Trabajaremos con la media
muestral como estimador de la media poblacional desconocida. En el ejemplo la media
muestral es de 12,529, que como ya sabemos no coincide con la media poblacional.
Trataremos de decidir entre las dos hipótesis a partir del valor de la media
muestral pero, si la media muestral no coincide con la media poblacional, ¿será la
diferencia entre el valor observado y el teórico lo suficientemente grande como para
rechazar la hipótesis nula? o ¿la diferencia observada es lo suficientemente pequeña
como para ser debida simplemente al azar o al desconocimiento de la población?.
Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones
aprendidos en temas anteriores.
"
x ! N(µ0 , )
n
x ! N( µ 0 , " )
n
µ0 x
x !µ
P(µ0 ! a " x " µ0 + a) = P(!z# /2 " $ 0 " z #/ 2 ) = 1 ! #
n
típica. No es lo mismo una diferencia de una unidad en una escala de centímetros que en
una escala de kilómetros.
A los valores de zα/2 se les suele denominar valores críticos ya que determinan la
frontera entre la región crítica y la región de aceptación.
El cuadro 4.2 muestra el procedimiento completo con los pasos que se siguen
habitualmente en la construcción de cualquier contraste.
300
Hipótesis
H0 :µ = µ 0
Ha :µ ! µ 0
Nivel de significación: α
x !µ
Estadígrafo de contraste: Z = " 0
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z > z !/ 2 }
Cuadro 4.2: Contraste para la media de una población Normal con varianza conocida.
Una vez que hemos determinado la forma general del contraste pasamos a
aplicarlo a los datos del problema inicial que nos ocupa (ver cuadro 4.3).
Hipótesis:
H0 :µ = 12.5
Ha :µ ! 12.5
Nivel de significación: 5% y 1%.
x !µ 12.529 ! 12.5
Estadígrafo de contraste: Z = " 0 = 0.5 = 0.217
n 14
Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.
Conclusión no estadística: La modificación en el proceso de fabricación no ha
modificado significativamente el grado alcohólico.
Cuadro 4.3: Aplicación del contraste para la media de una población Normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero
Una vez que hemos tomado la decisión final, no sabemos si es correcta o no,
simplemente esperamos que sea del 95% de las muestras en las que aceptamos la
hipótesis correctamente. Si aceptamos la hipótesis nula no quiere decir que sea cierta y
el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sería más
correcto interpretar que, con la información de la que disponemos no hemos encontrado
evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores
muestrales son compatibles con muchos otros posibles valores teóricos.
sería cada vez menor y conseguiríamos que la pequeña diferencia observada sea lo
suficientemente grande como para considerarla significativa. Es por esto por lo que en
Estadística decimos que es tan malo tener un tamaño de muestra demasiado alto como
tenerlo demasiado bajo ya que en el primer caso cualquier pequeña diferencia es
considerada como significativa mientras que en el segundo no se declara significación
incluso en el caso en el que la diferencia sea elevada.
Cual sería la potencia del contraste obtenido para detectar que la media no es 12.5
si en realidad la media fuera 13 (y suponiendo un nivel de significación del 5%).
Figura 4.17: Cálculo de la potencia del contraste para una alternativa predeterminada.
z2 "2
n > !/ 2
x # µ0
para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la diferencia
observada fuera significativa tendríamos que haber recogido más de 1142 observaciones
lo que da una idea de que la diferencia observada es muy pequeña y, por tanto es muy
probable que la hipótesis nula sea cierta.
Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) =
0.8285, es decir el p-valor puede considerarse grande. En la práctica se suele adoptar el
criterio de aceptar la hipótesis cuando el p-valor es mayor que el nivel de significación
fijado en el procedimiento de contraste.
Hipótesis
H0 :µ = µ 0
Ha :µ > µ 0
Nivel de significación: α
x !µ
Estadígrafo de contraste: Z = " 0
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z > z !/ 2 }
Cuadro 4.4: Contraste unilateral superior para la media de una población Normal con varianza conocida.
Hipótesis
H0 :µ = µ 0
Ha :µ < µ 0
Nivel de significación: α
x !µ
Estadígrafo de contraste: Z = " 0
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z < z !/ 2 }
#
x ! µ0 &
p-valor: P% Z > (
"
$ n '
Cuadro 4.5: Contraste unilateral inferior para la media de una población Normal con varianza conocida.
La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los datos.
Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la
modificación en el proceso de fabricación, aumenta el grado alcohólico. El
procedimiento de contraste para los datos de la tabla 1 se muestra en el cuadro 4.6.
307
Hipótesis:
H0 :µ = 12.5
Ha :µ > µ 0
Nivel de significación: 5% y 1%.
x !µ 12.529 ! 12.5
Estadígrafo de contraste: Z = " 0 = 0.5 = 0.217
n 14
Valores críticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33
p-valor: 0.4129
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.
Conclusión no estadística: La modificación en el proceso de fabricación no ha
aumentado significativamente el grado alcohólico.
Cuadro 4.6: Aplicación del contraste para la media de una población Normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero
x ! µ0
"
n x !µ
t= = ˆ 0
(n ! 1)Sˆ 2 S
n
"2
(n ! 1)
Hipótesis
H0 :µ = µ 0
Ha :µ ! µ 0
Nivel de significación: α
x ! µ0
Estadígrafo de contraste: t =
Sˆ
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: tn-1
Región de aceptación: {t / t ! t n "1,# }
Región critica: {t / t > t n !1," } *
Cuadro 4.7: Contraste para la media de una población Normal con varianza desconocida.
x "µ
t = ˆ 0 # t n"1
s 1"!
n
!/2
!/2
-t ! 0 t!
* tn-1,α es el valor crítico de la t de Student tal que P(-tn-1,α ≤ tn-1 ≤ tn-1,α ) = 1-α. Se ha denotado con el
subíndice α porque es el que se utiliza para buscar el valor correspondiente en la tabla.
310
Hipótesis
H0 :µ = µ 0
Ha :µ > µ 0
Nivel de significación: α
x ! µ0
Estadígrafo de contraste: t =
Sˆ
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: tn-1
Región de aceptación: {t / t ! t n "1,2# }*
Región critica: {t / t > t n !1,2" }
Cuadro 4.8: Contraste para la media de una población Normal con varianza desconocida.
Hipótesis:
H0 :µ = 12.5
Ha :µ ! 12.5
Nivel de significación: 5% y 1%.
x ! µ0 12.529 ! 12.5
Estadígrafo de contraste: Z = = 0.338 = 0.316
Sˆ
n 14
Valores críticos : para el 5% t0.05= 1,96 para el 1% t0.01= 2,57
p-valor : 0,7571
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.
Conclusión no estadística: La modificación en el proceso de fabricación no ha
modificado significativamente el grado alcohólico.
Cuadro 4.9: Aplicación del contraste para la media de una población Normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero
* tn-1,2α es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2α ) = α. Se ha denotado con el subíndice
2α porque es el que se utiliza para buscar el valor correspondiente en la tabla.
311
H0 :µ = µ 0
Hipótesis:
Ha :µ ! µ 0
Nivel de significación: α
x ! µ0
Estadígrafo de contraste: Z =
Sˆ
n
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0, 1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z > z !/ 2 }
Cuadro 4.10: Contraste para la media de una población Normal con varianza desconocida
cuando la muestra es grande.
312
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
para el contraste bilateral. Vemos como el contraste de que las medias son iguales es
equivalente al contraste de que la diferencia de medias vale 0.
Supongamos que los datos obtenidos son los siguientes para muestras aleatorias
313
de tamaño n1 = 14 y n2 = 6.
Ribera de Duero
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Toro
13,0 14,0 13,2 13,4 13,2 13,9
Tabla 4.2: Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro.
Una primera aproximación a las diferencias entre los dos grupos sería la
construcción de gráficos comparativos que muestren la estructura de los mismos, por
ejemplo, un Box-Plot con los grupos separados. (Ver figura 4.17).
Una simple inspección visual del gráfico nos muestra que hay una clara diferencia
entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy
evidente necesitamos un procedimiento más formal para establecer si las diferencias
observadas pueden ser consideradas estadísticamente significativas. Construiremos el
procedimiento de contraste en varios supuestos comenzando desde el más sencillo hasta
los más complejos.
314
Figura 4.24: Box plot para la comparación del grado alcohólico de las
denominaciones de Ribera y Toro.
"1
x1 ! N(µ1, )
n1
"2
x2 ! N(µ2 , )
n2
#21 # 22
x1 ! x2 " N(µ1 ! µ2 , + )
n1 n2
315
(x1 ! x2 ) ! (µ1 ! µ 2 )
Z= # N(0,1)
"21 " 22
+
n1 n2
(x1 ! x2 )
Z= # N(0,1)
"12 " 22
+
n1 n 2
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α
(x1 ! x2 )
Estadígrafo de contraste: Z =
"12 " 22
+
n1 n 2
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0, 1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z > z !/ 2 }
Cuadro 4.11: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.
Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del
cuadro 4.12.
316
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α= 0.05 (5%) ó 0.01 (1%)
(12.529 ! 13.450)
Estadígrafo de contraste: Z = = !10.829
0.25 0.36
+
14 6
Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica,
por tanto rechazamos la hipótesis nula.
Conclusión no estadística: La modificación en el proceso de fabricación ha aumentado
significativamente el grado alcohólico.
Cuadro 4.12: Contraste para la diferencia de medias de dos poblaciones
normales con varianza desconocida.
(x1 ! x2 ) ! (µ1 ! µ 2 )
Z= # N(0,1)
1 1
" +
n1 n 2
(x1 ! x 2 ) ! (µ1 ! µ2 )
1 1
" +
n1 n 2 (x1 ! x2 ) ! (µ1 ! µ 2 )
t= =
(n1 ! 1)Sˆ 12 + (n2 ! 1)Sˆ 22 1 1
Sˆ +
"2 n1 n2
n1 + n2 ! 2
(x1 ! x2 )
t= = t n1 +n 2 !2
ˆS 1 + 1
n1 n 2
n1 S12 2 n2 S22 2
2 " # n1 $1 y 2 " # n 2 $1
! !
(x1 ! x2 )
t= = t n1 +n 2 !2
1 1
S +
n1 n 2
n1 Sˆ 12 + n2 Sˆ 22
con S = . Los dos estadísticos toman exactamente el mismo valor por lo
n1 + n2 ! 2
que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasi-
varianzas porque son estimadores insesgados de la varianza poblacional.
*La demostración puede encontrarse en cualquier libro de Estadística Matemática. No se ha incluido aquí
porqwue supera los propósitos de este trabajo.
318
En este caso es necesario que las varianzas sean iguales para poder despejarlas y
eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la igualdad
de varianzas se hará posteriormente aunque sea un paso previo a la decisión del tipo de
contraste.
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α
(x1 ! x2 ) (x1 ! x 2 )
Estadígrafo de contraste: t = ó t=
1 1 1 1
Sˆ + S +
n1 n 2 n1 n 2
(n1 ! 1)Sˆ12 + (n 2 ! 1)Sˆ 22 n1 Sˆ 12 + n2 Sˆ 22
con Sˆ = ó S=
n1 + n 2 ! 2 n1 + n2 ! 2
Distribución del estadígrafo cuando la hipótesis nula es cierta: t de Student
t n1 +n 2 !2
{
Región de aceptación: t / t ! t n1 +n 2 "2,# }
{
Región critica: t / t > t n1 +n 2 !2," }
Cuadro 4.13: Contraste para la diferencia de medias de dos poblaciones normales
con varianzas desconocidas pero iguales.
El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los
siguientes resultados (ver cuadro 4.14).
319
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α= 0.05 (5%) ó 0.01 (1%)
(12.529 ! 13.450)
Estadígrafo de contraste: t = = !5.256
1 1
0.359 +
14 6
Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región crítica,
por tanto rechazamos la hipótesis nula.
Conclusión no estadística: El grado alcohólico es significativamente diferente en
Ribera de Duero y Toro.
Cuadro 4.14: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales, aplicado a los datos sobre el grado alcohólico.
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α
Sˆ 12 Sˆ 22
Estadígrafo de contraste: t = (x1 ! x2 ) +
n1 n2
Distribución del estadígrafo cuando la hipótesis nula es cierta: t de Student tf donde
f es el entero más próximo a
! Sˆ12 Sˆ 22 $ 2
# + &
" n1 n 2 %
f= 2 2 '2
! Sˆ12 $ ! Sˆ 22 $
# & # &
" n1 % " n2 %
+
n1 + 1 n 2 + 1
Región de aceptación: {t / t ! t f," }
Región critica: {t / t > t f,! }
H0 :µ1 = µ2 (µ1 ! µ 2 = 0)
Hipótesis:
Ha :µ1 " µ 2 (µ1 ! µ2 " 0)
Nivel de significación: α
Sˆ 12 Sˆ 22
Estadígrafo de contraste: t = (x1 ! x2 ) +
n1 n2
Distribución del estadígrafo cuando la hipótesis nula es cierta: N(0,1)
Región de aceptación: {Z / Z ! z "/ 2 }
Región critica: {Z / Z > z !/ 2 }
Individuo 1 2 3 4 5 6 7 8 9 10
Antes 140 165 160 160 175 190 170 175 155 160
Después 145 150 150 160 170 175 160 165 145 170
Reducción -5 15 10 0 5 15 10 10 10 -10
Tabla 4.4: datos utilizados en el ejemplo de contraste para datos apareados
Como las variables están relacionadas, todos los cálculos que realizamos en el
caso de datos independientes ya no son válidos. Para evitar este problema nos
centraremos en una sola variable aleatoria que es la diferencia entre los dos valores
obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento
aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una
distribución Normal de media µd desviación típica σd . La hipótesis de interés es ahora
que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, µd = 0. El
contraste es ahora exactamente igual que el descrito para la media de una población
Normal (ahora la población de las diferencias.
323
H0 :µ d = 0
Hipótesis:
Ha :µd ! 0
Nivel de significación: α
d
Estadígrafo de contraste: t = ˆ
Sd
n
Distribución del estadígrafo cuando h0 es cierta: tn-1
Región de aceptación: {t / t ! t n "1,# }
Región critica: {t / t > t n !1," }
Cuadro 4.17: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.
H0 :µ d = 0
Hipótesis:
Ha :µd ! 0
Nivel de significación: 5% y 1%
6
Estadígrafo de contraste: t = 8.433 = 2.250
10
Distribución del estadígrafo cuando h0 es cierta: t9
Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250
p-valor : 0,0510
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.
Conclusión no estadística: Con los datos de los que disponemos no existe una
evidencia significativa de que exista una diferencia entre la presión sistólica antes y
después de haber dejado de beber.
Cuadro 4.18: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados
aplicado al ejemplo de la reducción de la tensión arterial en alcohólicos.
324
En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los datos
son normales al disponerse, por ejemplo, de distribuciones muy asimétricas. En estos
casos los contrastes anteriores no detectan claras diferencias en el comportamiento de
las poblaciones, debido a que la dispersión es muy grande o debido a que la medida de
tendencia central utilizada (la media) no es la correcta porque está afectada por los
valores extremos. Los contrastes paramétricos descritos antes son especialmente
sensibles a valores extremos de la variable.
Me1 x1 x2 Me2
Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hipótesis
de que la mediana de las diferencias es cero. La base del contraste es similar al caso de
muestras independientes.
Está basado en la suma de los rangos de orden de las observaciones de las dos
poblaciones consideradas conjuntamente y consiste básicamente en calcular la
distribución muestral a partir de todas las ordenaciones posibles con muestras de los
mismos tamaños en el caso de que las medianas fueran iguales. Cabe esperar que si las
medianas de las dos poblaciones son iguales los datos estén mezclados y las sumas de
rangos de orden sean similares en ambos grupos.
327
H 0 : Me1 = Me 2 (Me 1 ! Me 2 = 0)
HIPOTESIS:
H a : Me1 " Me 2 (Me 1 ! Me 2 " 0)
ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango
correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y
R2)
n (n + 1)
U = min(U 1 , U 2 ) U i = n 1n 2 + i i ! Ri
2
n n
U! 1 2
2
Para muestras grandes: Z =
n 1 n 2 (n 1 + n 2 + 1)
12
DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución
empírica o N(0,1) para muestras grandes.
{Z / Z > z ! /2 }
Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del contraste
es similar al caso de muestras independientes.
H 0 : Me d = 0
HIPOTESIS:
H a : Me d ! 0
ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de
ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor
absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las
observaciones positivas y negativas.(T+ y T-)
T = min(T+ , T! )
328
n(n + 1)
T!
4
Para muestras grandes: Z =
n(n + 1)(2n + 1)
24
DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: Distribución
empírica o N(0,1) para muestras grandes.
H0 :µ1 = … = µ i =… = µr
i, j
La hipótesis es cierta si y solo si las hipótesis por parejas H0 :µ i = µ j para todas
! r $ r(r & 1)
las k = # = combinaciones posibles de i y de j.
" 2% 2
45
Con 10 poblaciones 1 ! 0. 95 = 1 ! 0. 0994 = 0. 9006 , es decir, con 10
poblaciones, aunque todas las medias fueran iguales tendríamos una probabilidad del
90% de encontrar diferencias en alguna de las parejas.
Figura 4.26: Box plot para la comparación del grado alcohólico de las
331
Para contrastar más formalmente que las varianzas son iguales se puede construir
un contraste muy simple teniendo en cuenta la distribución del cociente de varianzas
basado en el cociente de las distribuciones ji-cuadrado asociadas.
El cociente
(n1 ! 1)
"12
(n1 ! 1) Sˆ 21 " 22
F == = ˆ2 2
(n 2 ! 1)Sˆ 22 S2 "1
" 22
(n2 ! 1)
sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.
H0 :!12 = !22
Hipótesis:
Ha :!12 " ! 22
Nivel de significación: α
Sˆ 2
Estadígrafo de contraste: F = 12
Sˆ 2
Distribución del estadígrafo cuando h0 es cierta: F n1 !1, n 2 !1
{
Región de aceptación: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] }
{
Región critica: F / F ![Fn 1 "1,n2 "1, 1"#/ 2 ,F n1 "1,n 2 "1, 1"#/ 2 ] } *
H0 :!12 = !22
Hipótesis:
Ha :!12 " ! 22
Nivel de significación: α = 5% y 1%
Sˆ12
Estadígrafo de contraste: F = 2 = 0.686
Sˆ 2
Distribución del estadígrafo cuando h0 es cierta: F n1 !1, n 2 !1
p-valor : 0.6261
Conclusión : Se acepta la hipótesis nula.
Cuadro 4.20: Contraste de comparación de las varianzas de dos poblaciones normales aplicado a la
comparación de la variabilidad del grado alcohólico.
*El valor F n !1,n !1, 1!" /2 es el valor crítico que deja a la derecha un área de 1 ! " / 2 . En la
1 2
práctica puede calcularse como F n !1,n !1, 1!" /2 = 1 F n !1, n !1, " / 2
1 2 2 1
333
5 Quinta
Unidad Didáctica
"TABLAS DE CONTINGENCIA"
5.1.1 Introducción
La existencia de distintas pruebas estadísticas es consecuencia, en parte, de las
distintas escalas de medida que se utilizan para tratar las variables objeto de una
determinada investigación.
3) Test de asociación:
Para comprobar si dos o mas características cualitativas están relacionadas
entre sí. (Ejemplo: ¿Está la intención de voto, a un determinado partido
político, relacionada con el sexo?).
En el desarrollo del capítulo nos vamos a centrar en este último tipo de contrastes.
EJEMPLO 5.1:
Supongamos una muestra de 100 individuos de una población en los que estamos
estudiando el estado civil. Esta variable aleatoria puede tener cuatro categorías:
soltero, casado, viudo y divorciado. Supongamos que el número de individuos en
336
Solución:
Nuestra hipótesis de partida (H0) podría ser que las cuatro categorías están
igualmente representadas. En este caso cabría esperar que nuestra muestra constara de
25 individuos en cada casilla, que se corresponden con nuestras frecuencias esperadas.
Está claro que si nuestra H0 fuera cierta las frecuencias observadas y las
esperadas discreparían poco y, serían muy diferentes en caso contrario. Se nos plantea
entonces un problema:
En realidad el estadístico con el que vamos a trabajar se basa en esta idea, si bien tiene algunas
correcciones (no trabaja con diferencias sino con diferencias al cuadrado, para evitar problemas de signos,
y trabaja con discrepancias normalizadas, obteniéndolas en valores relativos).
Estadígrafo de contraste:
(fo i " fe i )2
!2 = #
i fei
Recuérdese que un valor crítico no es más que un valor de la variable aleatoria que sólo es
superado por un porcentaje pequeño, preestablecido de antemano, de individuos cuando la hipótesis nula
es cierta
EJEMPLO 5.2:
Supongamos cuatro tratamientos (Ai) que se piensa efectivos para curar una
determinada enfermedad, estos tratamientos se aplican a enfermos de dicha
enfermedad y se anota el tipo de respuesta que presentan (Bj). La respuesta se clasifica
en tres posibles clases: "peor", "igual", "mejor". Ejemplo tomado de MARTÍN
ANDRÉS, A. et al. (1995).
Solución:
Si denotamos:
En nuestro ejemplo:
Ha: Si condiciona.
( ) ( )
Ho:P Ai ! B j = P(A i ) P B j "i, j
Obtención de las feij: Como en todo test Ji-cuadrado necesitamos las cantidades
esperadas bajo el supuesto de que H0 se verifique. Fijémonos en una cualquiera de ellas
por ejemplo en la E21: Cantidad de individuos que habiendo recibido el tratamiento 2
empeoran supuestas ambas independientes.
Si Ho es cierta:
fe 21 = f .. P(A2 )P(B1 )
120 f 2.
ˆp(A2 ) = =
560 f..
37 f.1
ˆp(B1 ) = =
560 f ..
340
f f. f f
fe 21 = f .. Pˆ (A2 ) Pˆ (B1 ) = f .. 2. 1 = 2. .1 = 7.93
f.. f .. f ..
comparar nuestro valor experimental con él. Declararemos significación siempre que el
valor experimental supere el valor crítico.
! = (r "1)(s " 1) = 2x3 = 6
2 H
! exp ""o# ! $2 , %
En nuestro caso concreto son 6 los grados de libertad y 12.59 el valor crítico.
"TABLAS DE CONTINGENCIA"
5.2 Ampliación
343
Para el desarrollo de este apartado utilizaremos el ejemplo visto con los alumnos,
dado que allí la conclusión a la que se llegaba era la de relación entre ambas variables.
La primera idea que se nos ocurre para analizar la situación es saber lo que
contribuye cada casilla al valor experimental (recordar que el rechazo se obtenía para
valores grandes de éste y, que bastaba que una casilla tuviera grandes discrepancias
para producirse este hecho). De esta manera calcularemos la tabla de contribuciones,
donde los valores de cada casilla se obtienen como:
345
(fo i ! fe i )2
fe i
Tabla de contribuciones
(7 ! 9.91) 2
= 0.85
9.91
(28 ! 31.61)2
El primer elemento de la segunda columna como: = 0.41 etc.
31.61
Esto parece sugerir que los tratamientos 1,3,4 son homogéneos entre si (la
respuesta es independiente de estos tratamientos) y difieren del 2.
Para llevar a cabo el primero de ellos construimos una subtabla en la que hemos
de eliminar el tratamiento 2 (el aparentemente responsable de la significación):
T3 10 30 90 130
T4 5 40 115 160
TOTAL 22 98 320 440
Ahora las frecuencias esperadas no van a coincidir con el primer supuesto ya que
los marginales de columnas son distintos (hemos eliminado a los enfermos tratados con
el segundo de los tratamientos), tampoco coincidirá el valor experimental ni los grados
de libertad de la tabla.
2
! exp = 5. 04 que hemos de comparar con el correspondiente valor crítico de la
tabla en este caso con 4 grados de libertad, que resultó ser en este caso
2
! 4;0.05 = 9.488
Como era de esperar hemos llegado a la conclusión de que estos tres tratamientos
eran igualmente efectivos. Por tanto no se trata de tres tratamientos distintos sino de uno
sólo que llamaremos a partir de ahora tratamiento (1+3+4).
Para llevar a cabo el segundo de los contrastes, que nos ponga de manifiesto que
es el tratamiento 2 el que difiere del resto necesitamos construir otra subtabla en la que
se disponga de la información que nos interesa, es decir el tratamiento 2 y el tratamiento
(1+3+4).
347
tratamientos
1,2,3,4 6 13.87 **
Con esta descomposición hemos probado que el tratamiento 2 difiere del resto
como parecía intuirse de la tabla de contribuciones, pero esta afirmación, aunque válida
no deja de ser incompleta ya que nada nos dice de en qué sentido es diferente, dicho de
otra forma, difiere el tratamiento 2 del resto porque es peor o porque es mejor. Faltaría,
348
pues, descomponer la última tabla que nos dio significativa, y que tenía dos grados
de libertad, en otras dos subtablas de 1 grado de libertad cada una para saber el sentido
de las diferencias.
P I M
T1
P I M T3 NS I M
T1 T4
T2 T2
P I M NS
T3
T4 T2 T1+T2+T3
* P (I+M)
T1+T2+T3
T2
*
T1+T2+T3
Para investigar la eficacia del nuevo tratamiento más a fondo, se podría comparar
con el tratamiento estándar sólo para los hombres de la muestra y separadamente sólo
para las mujeres. Podríamos pues desagregar esta tabla en otras dos subtablas: la de
hombres y la de mujeres.
ocurrir la paradoja cuando se desagrega para hombres y mujeres, siempre es posible que
exista alguna otra variable, como la edad de los individuos o la intensidad y grado de
avance de la enfermedad, con respecto a la cual la desagregación podría conducir a una
conclusión directamente opuesta a la indicada por la tabla agregada.