Está en la página 1de 26

5.3.

PH relacionadas con dos parámetros


 2 
5.3.1. PH para  12  de dos distribuciones normales
 2 

Para determinar el estimador por IC o realizar una PH para la diferencia de las medias
de dos distribuciones normales en un diseño completamente aleatorizado (DCA) y
desconocidas las varianzas, se necesita verificar estadísticamente el supuesto ¿ 12 =  22
 2 
?. Esto puede realizarse por medio de un IC o con una PH para  12  .
 2 

12
En la unidad 4 se determinó el estimador por IC del 100(1-α)% para de dos
 22
distribuciones normales en un DCA:
S12 12 S12
F(1−  2 ); n 2 −1, n1 −1  2  2 F 2; n 2 −1, n1 −1
S22 2 S2

donde P(Fn2 −1, n1 −1  F 2; n2 −1, n1 −1 ) =  / 2 y P(Fn2 −1, n1 −1  F(1−  2); n2 −1, n1 −1) = 1 − ( / 2) .

Notas:
1. Si el IC incluye al valor uno entonces la razón de las varianzas puede tomar el valor 1,
es decir,  12 =  22 estadísticamente con nivel de confianza 1 −  .
2. El supuesto para el uso correcto del IC es que la variable de estudio se distribuya
normal en ambas poblaciones.

Resumen de la PH para la comparación de las varianzas de dos poblaciones normales


en un DCA

Supuestos
Y11, Y12,…, Y1n1 y Y21, Y22,…, Y2 n 2 m.a.i. de dos distribuciones normales con medias 1 y
2 desconocidas, y varianzas 12 y 22 también desconocidas.

Hipótesis
H0 : 12 =  22 vs H1 : 12   22 (a)
H1 : 12   22 (b)
H1 : 12   22 (c)

Estadístico de prueba
S2
Si H0 es cierta F = 12 ~ Fn1 −1, n 2 −1
S2

144
Región de rechazo
F  F; n1 −1, n2 −1 (a)

A continuación, la RR de los casos (b) y (c).

(b) H1 : 12   22 .
¿Cómo proceder?
Note que se tiene la libertad de identificar a cualquiera de las dos poblaciones como la
población 1. Por lo tanto, si se intercambian las designaciones 1 y 2 de las dos
poblaciones (y los subíndices correspondientes para los tamaños de las muestras, las
varianzas muestrales, etc.) la hipótesis alternativa se convierte en H1 : 12   22 y se
procede de manera similar al caso (a).

(c) H1 : 12   22 .
Como los valores de la cola superior se pueden determinar directamente de la tabla de
la distribución F proporcionada ¿Cómo se determina los valores críticos de la cola
inferior? Para evitar la determinación de los valores críticos de la cola inferior, se procede
de la siguiente manera. Sean nvg y nvp los tamaños muestrales asociados a la varianza
muestral más grande y más pequeña respectivamente. Localice la mayor varianza
muestral en el numerador ( s 2g ) y la menor varianza muestral en el denominador ( sp2 ) de
s2g
F y rechace H0 : 12 =  22 en favor de H1 : 12   22 si f =  F , en donde
sp2 2
; n vg −1, n vp −1

  
F se determina tal que P Fn vg −1, n vp −1  F = .
; n vg −1, n vp −1 ; n vg −1, n vp −1 
2  2  2

Nota. El empleo del IC y la PH para comparar dos varianzas poblacionales se


ejemplificará en la siguiente sección.

145
5.3.2. PH para 𝛍𝟏 − 𝛍𝟐 , tanto para muestras independientes como dependientes

Se tratará la comparación de dos tratamientos (grupos o condiciones) cuando las


muestras son independientes o dependientes.

Casos en una prueba estadística para 𝜇1 − 𝜇2 cuando las muestras aleatorias son
independientes:

(i) Se tienen dos m.a.i: Y11, Y12,…, Y1n1 de una N(µ1, 12 ) y Y21, Y22,…, Y2 n 2 de una
N(µ2,  22 ). Además 12 y  22 son conocidas.
(ii) Se tienen dos m.a.i: Y11, Y12,…, Y1n1 con (µ1, 12 ) y Y21, Y22,…, Y2 n 2 con (µ2,  22
), y se cumplen las condiciones del TLC (con n1≥30 y n2≥30). Además, 12 y
 22 son conocidas; en caso de desconocidas pueden estimarse
(ˆ 12 = S12 y ˆ 22 = S22 ) .
(iii) Se tienen dos m.a.i: Y11, Y12,…, Y1n1 de una N(µ1, 12 ) y Y21, Y22,…, Y2 n 2 de una
N(µ2,  22 ). Además 12 y  22 son desconocidas.

Resumen general de las pruebas de hipótesis para los casos (i) y (ii).

Hipótesis
H0 : 1 −  2 = (1 −  2 )0 = D0
1 −  2  D0 (alternati va de cola superior)

Ha : 1 −  2  D0 (alternati va de cola inferior)
 −   D
 1 2 0 (alternati va de dos colas)

D0: valor hipotético de la diferencia de medias. La situación más usual es suponer que D0
=0

Estadístico de prueba
( Y 1 − Y 2 ) − D0
Si H0 : 1 −  2 = D0 es cierta entonces Z = ~ N(0,1) Caso (i)
12  22
+
n1 n2

( Y 1 − Y 2 ) − D0 •
Si H0 : 1 −  2 = D0 es cierta entonces Z = ~ N(0,1) Caso (ii)
12  22
+
n1 n2
Si no se conocen las varianzas se utilizan ˆ 12 = S12 y ˆ 22 = S22 .

146
z  z (RR de cola sup erior)
 α

Re gión de re chazo: z  −zα (RR d e cola inf erior)


z  z (RR d e dos cola s)
 α
2

z  z   z  z  o z  −z 
2 2 2

Caso (iii): PH para la diferencia de las medias de dos distribuciones normales


desconocidas las varianzas y muestras aleatorias independientes.

Si la variable de respuesta en ambas poblaciones se distribuye normal se utilizaría una


prueba t. En caso contrario, podría emplearse la prueba no parámetrica U de Mann-
Withney.

Al utilizar una prueba de hipótesis t de Student para comparar medias basadas en


muestras independientes, se consideran dos situaciones experimentales:

1. 12 y  22 son desconocidas, pero no difieren significativamente (son iguales


estadísticamente).
Se utiliza un proceso T conjunto independiente o no correlacionado.

2. 12 y  22 son desconocidas, pero difieren significativamente (no son iguales


estadísticamente).
Se utiliza el procedimiento Smith-Satterthwaite.

Supuestos
a) Las dos m.a.i. se obtienen de poblaciones con distribución normal.
b) Probar estadísticamente si 12 = 22 o 12  22 .

Hipótesis
H0: 1 - 2 = D0 vs. H1: 1 - 2 > D0 (a)
vs. H1: 1 - 2 < D0 (b)
vs. H1: 1 - 2  D0 (c)

D0: valor hipotético de la diferencia de medias. La situación más usual es suponer que
D0 = 0

Estadístico de prueba para el caso 12 = 22

Si H0 es cierta entonces

147
( Y 1 − Y 2 ) − D0
T= ~t
1 1 n +n −2
+
1 2
SP
n1 n2
(n1 − 1)S12 + (n2 − 1)S22
donde SP =
n1 + n2 − 2
Y 1 ,  Y 2 son las medias muestrales; S12 y S 22 son las varianzas muestrales.

Región de rechazo
t> t (a)
, n + n − 2
1 2

t < -t (b)
, n + n − 2
1 2

t> t (c)

, n +n −2
2 1 2

Estadístico de prueba para el caso 12   22

Si H0 es cierta entonces

( Y1 − Y 2 ) − D0 •
T= ~ t
S12 S 22
+
n1 n 2

2
 s12 s 22 
 + 
 =  12
n n2 
2
 s12   s 22 
   
 n1  +  n2 
n1 − 1 n2 − 1

 son los g.l. estimados con el procedimiento de Smith-Satterthwaite. El valor de  se


redondea por defecto antes que por exceso para tener una aproximación conservadora.

Nota. Si puede rechazarse H0 con base en la distribución T10, también lo será con base
a la distribución T11. El recíproco no se cumple necesariamente.

Región de rechazo
t > t,  (a)
t < -t,  (b)
t> t/2,  (c)

Ejemplo

148
Un ingeniero en computación está investigando la utilidad de un lenguaje de
programación entre programadores del sexo masculino y femenino. A 24 programadores
expertos (12 hombres) y (12 mujeres) familiarizados en dicho lenguaje se les piden que
codifiquen una función y se registra el tiempo en minutos como puede observarse en la
siguiente tabla:

Tiempo (min)
Hombres Mujeres
17 18
16 14
21 19
14 11
18 23
24 21
16 10
14 13
21 19
23 24
13 15
18 20

¿Difiere el tiempo de programación entre hombres y mujeres? Utilice una prueba de


hipótesis con α=5%.

Solución
Primero se presentan los resultados obtenidos con un software estadístico, luego se
resuelve “a mano” empleando los pasos en una prueba de hipótesis.

Identificación de elementos y supuestos

Variable de respuesta, Yij: tiempo en minutos de programación de la función por el j-ésimo


programador del i-ésimo género; 𝑖 ∈ {𝐻, 𝑀} y 𝑗 ∈ {1, 2, … ,12}.
Diseño: 2 m.a.i con varianzas poblacionales desconocidas.
Parámetros: medias poblacionales.
µH: tiempo promedio en minutos de programación de la función por los hombres.
µM: tiempo promedio en minutos de programación de la función por las mujeres.

Resultados del Statgraphics.

Comparación de Dos Muestras - Hombres & Mujeres


Resumen Estadístico

Hombres Mujeres
------------------------------------------------------------
Frecuencia 12 12
Media 17.9167 17.25
Mediana 17.5 18.5
Varianza 13.1742 21.1136

149
Desviación típica 3.62963 4.59496
Error estándar 1.04779 1.32645
------------------------------------------------------------

Verificación del supuesto de normalidad

Gráfico de Probabilidad Normal

99.9
99
95
porcentaje

80
50
20
5
1
0.1
13 15 17 19 21 23 25
Hombres

Gráfico de Probabilidad Normal

99.9
99
95
porcentaje

80
50
20
5
1
0.1
10 13 16 19 22 25
Mujeres

Nota. Se observa en los dos gráficos de probabilidad normal que los puntos forman
prácticamente una “línea recta”, es decir, el tiempo de programación se ajusta a una
distribución normal en ambas poblaciones.

Verificación del supuesto de igualdad de varianzas


Probar estadísticamente si 12 = 22 o 12  22 .

Hipótesis
𝐻0 : 𝜎12 = 𝜎22 vs 𝐻1 : 𝜎12 ≠ 𝜎22

Comparación de Desviaciones Típicas


-----------------------------------
Hombres Mujeres
------------------------------------------------------------
Desviación Típica 3.62963 4.59496
Varianza 13.1742 21.1136

150
GL 11 11

Cociente de varianzas = 0.623968


95.0% Intervalos de Confianza
Desviación Típica de Hombres: [2.57122,6.16268]
Desviación Típica de Mujeres: [3.25505,7.80168]
Cociente de varianzas: [0.179627,2.16748]

Contrastes F para comparar varianzas


Hipótesis nula: sigma1 = sigma2
(1) Hipótesis alt.: sigma1 <> sigma2
F = 0.623968 P-Valor = 0.446548

Notas:
1) Las varianzas poblacionales no difieren significativamente (F=0.6239,
P=0.4465>0.05).
2) También puede probarse por medio del IC, 0.1796 ≤ 𝜎𝐻2 ⁄𝜎𝑀 2
≤ 2.1675, note que
el IC incluye al uno, es decir, las varianzas no difieren significativamente con un
coeficiente de confianza de 95%

Hipótesis de la comparación de las medias


H0 : H − M = 0 vs H1 : H − M  0
H0 : H = M vs H1 : H  M

Comparación de Medias
---------------------
95.0% intervalo de confianza para la media de Hombres: 17.9167 +/- 2.30616
[15.6105,20.2228]
95.0% intervalo de confianza para la media de Mujeres: 17.25 +/- 2.9195
[14.3305,20.1695]
95.0% intervalos de confianza para la diferencia de medias:
suponiendo varianzas iguales: 0.666667 +/- 3.5056 [-2.83894,4.17227]

contrastes t de comparación de medias


Hipótesis nula: media1 = media2
Hipótesis alt.: media1 <> media2
suponiendo varianzas iguales: t = 0.394393 P-Valor=0.697088

Decisión
Como P=0.697088>0.05 no se rechaza H0 : H = M con α=5%, es decir, el tiempo
promedio de programación de la función no difirió significativamente entre programadores
del sexo masculino y femenino.

Redacción para un reporte técnico o artículo.


El tiempo promedio de programación entre hombres y mujeres no difirió
significativamente (t22=0.394393, P=0.697088>0.05).

Ahora se resuelve “a mano” siguiendo los pasos en una prueba de hipótesis:

151
Identificación de elementos y supuestos

Variable de respuesta, Yij: tiempo en minutos de programación de la función por el j-ésimo


programador del i-ésimo género; 𝑖 ∈ {𝐻, 𝑀} y 𝑗 ∈ {1, 2, … ,12}.
Diseño: 2 m.a.i con varianzas poblacionales desconocidas.
Parámetros: medias poblacionales.
µH: tiempo promedio en minutos de programación de la función por los hombres.
µM: tiempo promedio en minutos de programación de la función por las mujeres.

Nota. Al inicio de la solución se incluyó las gráficas de probabilidad normal para los datos
de los hombres y de las mujeres, en ambas se tiene que el tiempo de programación se
ajusta a una distribución normal. También se verificó que las varianzas poblacionales no
difieren significativamente.

1. Hipótesis de la comparación de medias

H0 : H − M = 0 vs H1 : H − M  0
H0 : H = M vs H1 : H  M

2. Estadístico de prueba
Si H0 es cierta entonces
( YH − YM ) − 0
T= ~t
1 1 22
SP +
12 12
(11)SH2 + (11)SM2
donde SP =
22

3. Cálculo del estadístico

(𝑦̅𝐻 − 𝑦̅𝑀 ) − 0 17.92 − 17.25


𝑡𝑐 = = = 0.3964
1 1 1 1
𝑆𝑃 √12 + 12 (4.14)√12 + 12

4. RR
Con α=5% rechace H0 si t c  t  / 2, 22 = t 0.025 , 22 = 2.0739

5. Decisión
Como tc=0.3964<2.0739 no se rechaza H0 : H = M con α=5%, es decir, el tiempo
promedio de programación de la función no difirió significativamente entre programadores
del sexo masculino y femenino.

Cálculo del valor P con la tabla de la distribución T de Student

152
P=2P(T22 ≥ |tc|)=2P(T22 ≥ 0.3964), P/2=P(T22 ≥ 0.3964).
Como P(T22  0.6858 ) = 0.25 es el valor más grande de α en la tabla entonces:
P
= P(T22  0.3964 )  P(T22  0.6858 ) = 0.25
2
P
 0.25  P  0.50
2
Así, con α=5% se tiene que P>0.05 y H0 no se rechaza H0 : H = M , obteniéndose la
misma decisión.

Ejemplo
En un estudio sobre hábitos de alimentación en murciélagos, se marcan 25 hembras y
11 machos y se les rastrea por radio. Una variable de interés es la distancia que recorren
volando en una pasada en busca de alimento. El experimento proporcionó la siguiente
información (supóngase normalidad):

Hembras Machos

n1 = 25 n 2 = 11
y1 = 205 metros y 2 = 135 metros
s1 = 100 metros s 2 = 90 metros

¿La distancia media recorrida por las hembras es mayor que la de los machos? Utilice
 = 0.05 .

Solución
Identificación de elementos y supuestos

Variable de respuesta, Yij: distancia en metros recorrida en una pasada en busca de


alimento por el j-ésimo murciélago del i-ésimo sexo; 𝑖 ∈ {1: 𝐻𝑒𝑚𝑏𝑟𝑎𝑠, 2: 𝑀𝑎𝑐ℎ𝑜𝑠} y 𝑗 =
1,2, … , 𝑛𝑖
Diseño: 2 m.a.i con varianzas poblacionales desconocidas.
Parámetros: medias poblacionales.
µ1: distancia promedio recorrida (metros) en una pasada en busca de alimento por
las hembras.
µ2: distancia promedio recorrida (metros) en una pasada en busca de alimento por
los machos.
Supuesto de normalidad: Se indica en el ejemplo que se cumple.

A continuación, la prueba de igualdad de varianzas.


Sean 12 y  22 las varianzas poblacionales para el recorrido por las hembras y machos
respectivamente.

1. Hipótesis para comparar las varianzas

153
H0 : 12 =  22 vs. H1 : 12  22

2. Estadístico de prueba
S12
Si H0 es cierta entonces F = 2  Fn1 −1, n2 −1 = F24, 10
S2

3. Cálculo del estadístico


s2 (100 )
2
El valor observado de F es fc = 12 = = 1.235
s2 (90 )2
Note que la varianza más grande se encuentra en el numerador y la más pequeña en el
denominador.

4. RR
s 2g
fc =  F
sp2 2
; nvg −1, nvp −1

Con  = 5% = 0.05 ¿ f  = f0.025 ? con (n1 − 1, n2 − 1) = (24, 10 ) g.l.


2

0.8

= P F  f 
0.6
0.025 =
0.4 2  2 

0.2 = P(F  f0.025 ) con (24, 10) g.l.


0  f0.025; 24,10 = 3.37
00 1 2
f/2 3 4
RR

5. Decisión

Como fc = 1.235  3.37 no se rechaza H0, es decir, no existe suficiente evidencia con
 = 5% para concluir que 12   22 estadísticamente.

Por lo tanto, se utilizará el estadístico T cuando las varianzas son iguales


estadísticamente para determinar si la distancia recorrida por las hembras es mayor que
la recorrida por los machos. Así,

1. Hipótesis para comparar las medias

H0 : 1 −  2 = 0 H1 : 1 −  2  0
vs.
(1 =  2 ) (1   2 )

154
2. Estadístico de prueba
Si H0 es cierta entonces

T=
(Y − Y ) − 0
1 2
 t con n1 + n 2 − 2 = 25 + 11 − 2 = 34 g.l.
1 1
Sp +
n1 n2

3. Cálculo del estadístico de prueba


El valor observado de T es:

y1 − y 2 205 − 135
tc = = = 1.991
1 1 1 1
sp + sp +
n1 n 2 25 11

24(100 ) + 10(90 )
2 2
sp2 = = 9441 .176  sp = 97.166
34

4. RR
Rechace H0 si t c  t , 34 con  = 0.05 ¿ t , 34 = t 0.05, 34 ?

0.4

0.3

0.2

0.1

0
-3.5 -1.5 0.5 2.5 4.5
0 t t
RR

 = 0.05 = P(T  t 0.05, 34 )  t 0.05,34 = 1.6909

5. Decisión
Como t c = 1.991  1.6909 rechace H0 con  = 0.05 y decida por Ha : 1   2 , es
decir, la distancia media recorrida por las hembras en una pasada en busca de
alimento resultó significativamente mayor que la recorrida por los machos.

Cálculo del valor P con la tabla de la distribución T de Student

P=P(T34 ≥ tc)=P(T34 ≥ 1.991).


De la tabla de la distribución T con 34 g.l. se tiene que 0.025 = P(T34  2.0322) y
0.05 = P(T34  1.6909) , por lo que:
0.025  P(T34  1.991)  0.05
0.025  P  0.05
Como P<0.05 rechace H0 con α=5% y decida por H1 : 1   2 , obteniéndose la misma
decisión.

155
Ejemplo
En un estudio de metabolismo de carbohidratos, se compara el crecimiento de la raíz en
guisantes cultivados en agua a 6 °C con el de las plantas cultivadas en una solución
fructuosa a la misma temperatura. Se dispone de la siguiente información (supóngase
normalidad):

Cultivo en agua Cultivo en fructosa


n1 = 16 n 2 = 25
y1 = 9.48 mm/120h y 2 = 9.46 mm/120h
s1 = 0.53 s 2 = 0.25

¿Hay pruebas de alguna diferencia entre los crecimientos medios?

Solución
Identificación de elementos y supuestos

Variable de respuesta, Yij: crecimiento en mm de la raíz del j-ésimo guisante cultivado en


el i-ésimo tratamiento a 6 °C; 𝑖 ∈ {1: 𝑎𝑔𝑢𝑎, 2: 𝑓𝑟𝑢𝑐𝑡𝑢𝑜𝑠𝑎} y 𝑗 = 1,2, … , 𝑛𝑖 .
Diseño: 2 m.a.i con varianzas poblacionales desconocidas.
Parámetros: medias poblacionales.
µ1: crecimiento promedio en mm de guisantes cultivados en agua a 6 °C.
µ2: crecimiento promedio en mm de guisantes cultivados en fructuosa a 6 °C
Supuesto de normalidad: Se indica en el ejemplo que se cumple.

A continuación, la prueba de igualdad de varianzas.


Sean 12 y  22 las varianzas poblacionales para el crecimiento de la raíz en guisantes
cultivados en agua y fructosa respectivamente.

1. Hipótesis para comparar las varianzas


H0 : 12 =  22 vs. H1 : 12   22

2. Estadístico de prueba
S12
Si H0 es cierta entonces F =  Fn1 −1, n2 −1 = F15, 24
S 22

3. Cálculo del estadístico de prueba

El valor observado de F es fc =
(0.53)2 = 4.494
(0.25)2
Note que la varianza más grande se encuentra en el numerador y la más pequeña
en el denominador.

156
4. RR
Con  = 0.05 ¿ f  = f0.025 con (n1 − 1, n2 − 1) = (15, 24 ) g.l.?
2

 f0.025 ;15, 24 = 2.44

5. Decisión
Como fc = 4.494  2.44 rechace H0 con  = 0.05 y decida por H1 : 12   22

Por lo tanto, el estadístico de prueba t a emplear es cuando las varianzas son diferentes.

¿Hay diferencia entre los crecimientos medios?

1. Hipótesis para comparar las medias

H0 : 1 −  2 = 0 vs. H1 : 1 −  2  0
( 1 =  2 ) ( 1   2 )

2. Estadístico de prueba
Si H0 es cierta entonces

T=
(Y 1 )
− Y 2 − D0
=
Y1 − Y 2 •
~ t (aproximadamente t con  gl)
S12 S22 S12 S22
+ +
n1 n2 n1 n2

El valor de  es:
 (0.53 )2 (0.25 )2 
2

 + 
 16 25  4.0225316 x 10 − 4
= = = 19 .331153  19
 (0.53 )2 
2
 (0.25 )2 
2
2.0808544 x 10 − 5
   
 16  +  25 
15 24

3. Cálculo del estadístico de prueba


El valor observado de T es

y1 − y 2 9.48 − 9.46
tc = = = 0.141
S12 S22
+
(0.53 )2 + (0.25 )2
16 25 16 25

4. RR
Con  = 0.05 rechace H0 si t c  t 
,
2

157
0.4


= 0.025 = P(T  t 0.025 ,  )
0.3

0.2

0.1 2
0
-3.5 -1.5 0.5 2.5
- t/2 0 t/2 t
RR RR

 t 0.025 , 19 = 2.093
Rechace H0 si t c = 0.141 = 0.141  t 0.025 , 19 = 2.093

5. Decisión
Como t c = 0.141  2.093 no se rechaza H0 con  = 5% , es decir, los datos no
presentan suficiente evidencia de diferencia estadística significativa entre los
crecimientos medios de la raíz en guisantes cultivados en agua y fructosa.

Cálculo del valor P con la tabla de la distribución T de Student

P=2P(T19 ≥ |tc|)=2P(T19 ≥ 0.141), P/2=P(T19 ≥ 0.141).


Como P(T19  0.6876) = 0.25 es el valor más grande de α en la tabla entonces:
P
= P(T19  0.141)  P(T19  0.6876 ) = 0.25
2
P
 0.25  P  0.50
2
Así, con α=5% se tiene que P>0.05 y H0 no se rechaza, es decir, entre los dos tipos de
cultivo no difiere significativamente el crecimiento promedio de las raíces de los
guisantes.

5.3.3. Prueba U de Mann – Whitney

Nota. Se proporcionó un archivo que contiene la prueba U.

158
PH para comparar dos medias cuando las muestras son dependientes o pareadas

Muestras relacionadas
Cuando los mismos sujetos son expuestos a dos tratamientos, las comparaciones entre
tratamientos no son independientes debido a que en las dos condiciones se usan los
mismos sujetos.

Con el fin de eliminar la variación de factores ajenos al de interés, se usa una muestra
como su propio grupo control, haciendo una prueba antes y otra después del tratamiento
al mismo grupo. Así, los pares de observaciones son similares respecto a muchas
variables excepto la variable que se está midiendo.

Ejemplo
Doce sujetos participaron en un experimento para estudiar la efectividad de cierta dieta,
combinada con un programa de ejercicio, en la reducción de los niveles de colesterol en
el suero. La tabla siguiente muestra los niveles de colesterol en el suero para los doce
sujetos al principio del programa (Antes) y al final del programa (Después).
Y
X
Sujeto Después
Antes mg/dl
mg/dl
1 201 200
2 231 236
3 221 216
4 260 233
5 228 224
6 237 216
7 326 296
8 235 195
9 240 207
10 267 247
11 284 210
12 201 209

¿El programa dieta ejercicio es efectivo en la reducción de los niveles de colesterol en el


suero? Use  = 5% .

Ejemplo
Una empresa opera 24 horas al día, cinco días a la semana. Los trabajadores cambian
de turno cada semana. La gerencia está interesada en saber si hay alguna diferencia en
el número de unidades producidas cuando los empleados laboran en dos turnos. Se
seleccionó a 14 obreros y se registró su producción en cada turno. Cada empleado es un
bloque porque se espera que las mediciones del mismo empleado sean más parecidas
entre sí que las mediciones de varios empleados. Al nivel de significancia 0.05, ¿puede
concluirse diferencias en la producción por turno?

Empleado Mañana Noche

159
1 31 35
2 33 33
3 28 30
4 30 28
5 28 27
6 25 26
7 32 30
8 31 24
9 29 28
10 27 26
11 33 34
12 34 31
13 30 29
14 29 32

Otro ejemplo, al comparar dos métodos de análisis, el material a analizar puede ser
dividido en dos partes iguales de tal forma que cada mitad se asigne aleatoriamente a
cada método.

Nota. Cuando se tienen muestras pareadas se trabaja con las diferencias de los pares
de observaciones en vez de las observaciones individuales. La figura de abajo muestra
el diseño.
Población de
diferencias
Muestras de D=X-Y
Población I
Población II tamaño n
Muestra de Muestra
tamaño n paralela de
tamaño n D1=X1-Y1
X1 Y1
D2=X2-Y2
X2 Y2 .
. . .
. . .
. .
Xn Pares naturales Yn Dn=Xn-Yn

x = ?x − y = ? = ?  =?
 y
Datos Emparejados
D = ?

 
Datos emparejado s generadore s
de una población de diferencia s

Nótese que hay asociada con esta situación una población de diferencias D = X − Y y
una m.a. de diferencias que se seleccionan de esta población, D i = X i − Yi , i = 1,2,,n.

Observe que  X −  Y = E( X) − E( Y ) = E( X − Y ) = E(D) =  D .

Así, la pregunta original ¿qué es  X −  Y ?, es equivalente a ¿qué es  D ?.


Se ha reducido el problema original de dos muestras al problema de una muestra que
consiste en hacer inferencia sobre la media de la población de diferencias.

Supuestos

160
D=X-Y se distribuye normal con media D .

Hipótesis
Ha : D  0 (X −  Y  0;  X   Y ) (a )
H0 : D =  X −  Y = 0 = D0
vs. D  0 (X −  Y  0;  X   Y ) (b)
( X = Y ) D  0 (X −  Y  0;  X   Y ) (c )

𝜇𝐷0 no necesariamente es cero, puede ser D0 = k donde k es una constante elegida por
el investigador, siendo común que k sea cero.

Estadístico de prueba
D − D 0
Si H0 : D =  X −  Y = D0 es cierta entonces T =  tn-1
SD
n
Región de rechazo
t  t , n −1 (a )
t  −t , n −1 (b)
t  t (c )
, n −1
2

Ejemplo
Doce sujetos participaron en un experimento para estudiar la efectividad de cierta dieta,
combinada con un programa de ejercicio, en la reducción de los niveles de colesterol en
el suero. La tabla siguiente muestra los niveles de colesterol en el suero para los doce
sujetos al principio del programa (Antes) y al final del programa (Después).

Y
X Diferencia
Sujeto Después
Antes mg/dl (X-Y)
mg/dl
1 201 200 1
2 231 236 -5
3 221 216 5
4 260 233 27
5 228 224 4
6 237 216 21
7 326 296 30
8 235 195 40
9 240 207 33
10 267 247 20
11 284 210 74
12 201 209 -8

161
¿El programa dieta ejercicio es efectivo en la reducción de los niveles de colesterol en el
suero? Use  = 5% .

Solución
Identificación de elementos y supuestos
Variable de respuesta
Xi: nivel de colesterol en el suero del i-ésimo sujeto antes del programa dieta-ejercicio.
Yi: nivel de colesterol en el suero del i-ésimo sujeto después del programa dieta-ejercicio,
i=1, 2,…,12.
Parámetros: medias poblacionales.
Sean  X y  Y los niveles medios de colesterol en el suero de los sujetos antes y después
del programa dieta-ejercicio respectivamente.
Sea D = X − Y y D =  x −  y

Verificación del supuesto de normalidad


Del gráfico de probabilidad normal se tiene que los puntos no se alejan demasiado de la
línea de referencia, por lo que la variable de las diferencias puede modelarse con la
distribución normal.

Gráfico de Probabilidad Normal

99.9
n:12
99 Mediana:20.5
Sigma:21.4815
95

80
porcentaje

50

20

5
1

0.1
-8 12 32 52 72 92
X-Y

1. Hipótesis

𝐻0 : 𝜇𝐷 = 𝜇𝑋 − 𝜇𝑌 = 0 𝑣𝑠 𝐻1 : 𝜇𝐷 = 𝜇𝑋 − 𝜇𝑌 > 0 (𝜇𝑋 > 𝜇𝑌 ⇔ 𝜇𝑌 < 𝜇𝑋 )

2. Estadístico de prueba
D − D 0 D − 0
Si 𝐻0 : 𝜇𝐷 = 𝜇𝑋 − 𝜇𝑌 = 0 es verdadera entonces T = =  t11
SD SD
n 12

3. Cálculo del estadístico de prueba

162
d − 0 20 .167 − 0
El valor observado de T es t c = = = 3.020
sd 23 .131
n 12
4. RR
RR = t  t , n −1 ¿ t , n −1 ?
P(Tn −1  t , n −1) =   P(T11  t 0.05, 11 ) = 0.05
t 0.05,11 = 1.796  RR = t  1.796

5. Decisión
Como t c = 3.02  1.796 se rechaza 𝐻0 : 𝜇𝐷 = 𝜇𝑋 − 𝜇𝑌 = 0 y se decide por H1 : D  0
, es decir, los datos presentan suficiente evidencia con  = 5% de que el programa
dieta-ejercicio es efectivo en la reducción de los niveles de colesterol en el suero.

Cálculo del valor P con la tabla de la distribución T de Student

P=P(T11 ≥ tc)=P(T11 ≥ 3.02).


De la tabla de la distribución T con 11 g.l. se tiene que 0.005 = P(T11  3.1058 ) y
0.01 = P(T11  2.7181) , por lo que:
0.005  P(T11  3.02 )  0.01
0.005  P  0.01
Como P<0.01<0.05 rechace H0 con α=5% y decida por H1 : D =  x −  y  0 ,
obteniéndose la misma decisión.

Resultados del Statgraphics.


Muestras Pareadas - Antes & Después
Resumen Estadístico para Antes-Después
Frecuencia = 12
Media = 20.1667
Desviación típica = 23.1314

163
Gráfico de Probabilidad Normal

99.9
n:12
99 Mediana:20.5
Sigma:21.4815
95

80
porcentaje

50

20

5
1

0.1
-8 12 32 52 72 92
X-Y

Intervalos de Confianza para Antes-Después


------------------------------------------
95.0% intervalo de confianza para la media: 20.1667 +/- 14.697
[5.46966,34.8637]
95.0% intervalo de confianza para la desviación típica:
[16.3862,39.2743]

Nota. El IC para  D está dado por


𝑆𝐷 𝑆𝐷
̅ − (𝑡𝛼⁄2,𝑛−1 )
𝐷 ̅ + (𝑡𝛼⁄2,𝑛−1 )
≤ 𝜇𝐷 ≤ 𝐷
√𝑛 √𝑛
Así, el IC estimado de 95% de confianza es
5.47  D  34 .86

Contraste de Hipótesis para Antes-Después


Media muestral = 20.1667
Mediana muestral = 20.5
contraste t
Hipótesis nula: media = 0.0
Alternativa: mayor que
Estadístico t = 3.02011
P-valor = 0.00582683

Decisión. El programa dieta-ejercicio es efectivo en la reducción del nivel de colesterol


promedio en el suero (t11=3.0201, P=0.0058<0.05).

Notas:
1. Aunque en cierto sentido se tienen dos muestras, los niveles antes y los niveles
después, no tiene que preocuparse por la igualdad de las varianzas como en las
muestras independientes, ya que la variable es la diferencia entre lecturas en el
mismo individuo y, por tanto, sólo interviene una varianza.

164
2. Si se conociera la varianza de la población de las diferencias, la estadística de
D − D
prueba apropiada habría sido Z = . En la práctica, es improbable que se
D
n
conozca  D .

3. Si no puede hacerse la suposición de las Di normalmente distribuidas, puede


emplearse el TLC si n es grande. La estadística de la prueba sería
D − D •
Z= ~ N(0,1) ; usando a SD para estimar  D .
D
n
D − D
4. Si D=X-Y se distribuye normal con media D entonces T =  tn-1 es la
SD
n
expresión pivote que se utiliza para determinar el estimador por IC del 100(1-)%
para  X −  Y =  D :
 
 t  (SD )
 , n −1 
D  2 
n
𝑆 𝑆
̅ − (𝑡𝛼⁄2,𝑛−1 ) 𝐷 ≤ 𝜇𝐷 ≤ 𝐷
𝐷 ̅ + (𝑡𝛼⁄2,𝑛−1 ) 𝐷
√𝑛 √𝑛

donde D y S D son la media muestral y la desviación estándar muestral de la


muestra de diferencias respectivamente y t  se obtiene tal que
, n −1
2

  
P Tn −1  t   = .
, n −1
 2  2

5.3.4. Prueba del signo y prueba de rangos con signo de Wilcoxon (cuando las
muestras son dependientes)

Nota. Se proporcionó un archivo que contiene las dos pruebas.

165
5.3.5. Prueba de hipótesis para una diferencia de proporciones (𝒑𝟏 − 𝒑𝟐 ).

PH para comparar dos proporciones (muestras grandes)

Situación:
Hay dos poblaciones de interés, en cada población se estudia el mismo rasgo o
característica, cada miembro de cada población puede clasificarse en función a tener el
rasgo o a no tenerlo y en cada población es desconocida la proporción de los que tienen
el rasgo.

Población I Población II

Con el rasgo Con el rasgo


Sin el rasgo p1? p2?
Sin el rasgo
(1 – p1) (1 – p2)

Y1 ~ B(n1, p1) Y2 ~ B(n2, p2)

La variable de respuesta es Yi: número de unidades experimentales con el rasgo en la


muestra de la población i.

Supuestos
Dos m.a.i y se cumplen condiciones del TLC para p̂1 y p̂2 (
n1 p1  5, n1 q1  5 y n2 p2  5, n2 q2  5 ). Mendenhall et al. (2010) indican utilizar las
estimaciones de p1 y p2, es decir, ni(yi/ni)=yi>5 y ni(1-(yi/ni))=ni-yi>5 para i=1, 2. Sin
embargo, Triola (2004) señala para el Caso ii) H0 : p1 − p2 = (p1 − p2 )0 = 0 , verificar nip>5
𝑌 +𝑌
y niq>5 para i=1, 2 (ambas muestras) con p estimada por medio de 𝑝̂ = 𝑛1 +𝑛2 y q
1 2
𝑌1 +𝑌2
estimada con 𝑞̂ = 1 − 𝑝̂ = 𝑛 .
1 +𝑛2

Hipótesis
H0 : p1 − p 2 = (p1 − p 2 )0 vs H1 : p1 − p 2  (p1 − p 2 )0 (a)
H1 : p1 − p 2  (p1 − p 2 )0 (b)
H1 : p1 − p 2  (p1 − p 2 )0 (c)

El valor de (p1-p2)0 que más comúnmente se encuentra en la práctica es el cero. En este


caso las hipótesis comparan p1 con p2:

H0 : p1 − p 2 = 0 vs H1 : p1 − p 2  0 ; p1  p 2 (a)
(p1 = p 2 ) p1 − p 2  0 ; p1  p 2 (b)
p1 − p 2  0 ; p1  p 2 (c)

Estadístico de prueba

166
Caso i) cuando H0 : p1 − p2 = (p1 − p2 )0 donde (p1 − p2 )0  0

(p̂1 − p̂2 ) − (p1 − p2 )0 •


Si H0 es cierta entonces Z = ~ N(0,1)
p̂1q̂1 p̂2q̂2
+
n1 n2

Caso ii) cuando H0 : p1 − p2 = (p1 − p2 )0 = 0

Equivalente a H0 : p1 = p2 = p sea verdadera, esto se utiliza para justificar la


combinación de los resultados de las dos muestras y obtener una estimación ponderada
de la proporción común supuesta (p):

Número total de éxitos Y + Y2


p̂ = = 1
Número total de ensayos n1 + n2

Así, el estadístico de prueba con H0 : p1 = p2 = p verdadera es:

(p̂1 − p̂2 ) − 0 p̂1 − p̂2 •


Z= = ~ N(0,1)
p̂q̂ p̂q̂ 1 1
+ p̂q̂ + 
n1 n2  n1 n2 

Región de rechazo z  z (a)


z  −z  (b)
z  z 2 (c)

Nota. Esta prueba (caso ii) resulta equivalente a la prueba de homogeneidad (tabla de
contingencia 2x2) de dos poblaciones binomiales (Christensen, 1997).

Ejemplo
En un estudio diseñado para comparar un nuevo tratamiento para la migraña con el
tratamiento estándar, 78 de los 100 individuos que recibieron el tratamiento estándar
respondieron favorablemente. De los 100 individuos que recibieron el nuevo tratamiento,
90 de ellos respondieron satisfactoriamente. ¿El nuevo tratamiento es más efectivo que
el estándar? Utilice α=5%.

Solución
Identificación de elementos y supuestos
Variable de respuesta Yi: número de personas que respondieron favorablemente el i-
ésimo tratamiento, 𝑖 ∈ {1: 𝐸𝑠𝑡á𝑛𝑑𝑎𝑟, 2: 𝑁𝑢𝑒𝑣𝑜}.
Parámetros: proporciones poblacionales.
p1: proporción de personas que respondieron favorablemente al tratamiento estándar.
p2: proporción de personas que respondieron favorablemente al tratamiento nuevo.

167
Verificación del supuesto de muestras grandes ( n1 p1  5, n1 q1  5 y n2 p2  5, n2 q2  5 ).
Como se desconocen p1 y p2, utilice sus estimadores para obtener las estimaciones. Así,
n1(y1/n1)=y1=78>5, n1(1-(y1/n1))=n1-y1=100-78=22>5 y n2(y2/n2)=y2=90>5, n2(1-
(y2/n2))=n2-y2=100-90=10>5. Por lo tanto, se satisfacen las condiciones del TLC.

1. Hipótesis
H0 : p1 − p 2 = 0 vs H1 : p1 − p 2  0 ; p1  p 2

2. Estadístico de prueba
(p̂1 − p̂2 ) − 0 p̂1 − p̂2 •
Si H0 : p1 = p2 es cierta entonces Z = = ~ N(0,1)
p̂q̂ p̂q̂ 1 1
+ p̂q̂ + 
n1 n2  n1 n2 
3. Cálculo del estadístico de prueba
Un valor observado de Z es
y1 y 2 78 90
− −
n1 n2 100 100
zc = =
 y1 + y 2  y1 + y 2  1 1   78 + 90  78 + 90  1 1 
 1 −  +   1 −  + 
 n1 + n2  n1 + n2  n1 n2   100 + 100  100 + 100  100 100 

− 0.12
zc = = −2.3146
(0.84 )(0.16 )(0.02)

4. RR
Con α=0.05, zc  −z = −z0.05 = −1.645

5. Decisión
Como zc = −2.3146  −1.645 rechace H0 con α=0.05 y decida por H1 : p1  p2 , es decir,
la proporción de personas que respondieron favorablemente con el tratamiento estándar
resultó significativamente menor que con el tratamiento nuevo, por lo que el tratamiento
nuevo es más efectivo que el estándar.

Cálculo del valor P con la tabla de la distribución normal estándar.

P = P(Z  zc ) = P(Z  −2.31) = P(Z  2.31) = 0.0104


Como P=0.0104<0.05 rechace H0 con α=0.05 y decida por H1, obteniéndose la misma
decisión.

Resultados del Statgraphics.


Contraste de Hipótesis
----------------------
Proporciones de la Muestra = 0.78 y 0.9

168
Tamaños de la Muestra = 100 y 100
Hipótesis Nula: diferencia entre proporciones = 0.0
Alternativa: menor que
Estadístico z calculado = -2.31455
p-Valor = 0.0103187
Advertencia: la aproximación normal no es apropiada para muestra de
pequeño tamaño.

Decisión (redacción en un reporte técnico)


El tratamiento nuevo para la migraña es más efectivo que el estándar (z=-2.3146,
P=0.0103<0.05).

169

También podría gustarte