Está en la página 1de 18

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS

USO DEL PAQUETE SAS


MUESTRAS GRANDES.
Para todos los casos suponemos que
1 2 n
X , X , , X L
es una muestra aleatoria de una poblacin o distribucin con
media
X

y varianza
2
X
y que
1 2 m
Y , Y , , Y L
es otra muestra aleatoria de otra poblacin con media
Y

y
varianza
2
Y
, ambas muestras independientes entre si.
Pruebas de Hiptesis para Medias.
Sea
1 2 n
X , X , , X L
una muestra aleatoria de una de una poblacin con media
X

y varianza
2
X
. Si el tamao
de la muestra es grande y
2
X
es conocida, el Teorema Central del Lmite garantiza que

( )
X
n
X
X
aprox n 0, 1
n
+

.
Y de esta manera un Intervalo de confianza aproximado al ( ) 100 1 % para
X

es de la forma:
2
X
x z
n

t , donde
2 2
P Z z

_
>

,
.
Si
2
X
es desconocida, esta es estimada usando la varianza Muestral: ( )
2
2
1
1
1
n
X i
i
S x x
n


y un Intervalo de
Confianza aproximado al ( ) 100 1 % para
X

es de la forma:
2
X
s
x z
n

t .
Si
0

es un valor particular para


X

, podemos establecer tres hiptesis alternativas respecto al valor real de

:
0 0 X
H :
vs
0
0
0
a X
a X
a X
H :
H :
H :
<

>
'

. Estadstico de Prueba:
X
C
X
x
Z
s n

.
{ }
{ }
2
R.C.
R.C.
R.C.
C C
C C
C C
Z | Z z
Z | Z z
Z | Z z

<
>

<
' ;

Usando la parte interactiva del SAS se pueden calcular
X
y
2
X
S para ser usados en la inferencia respecto a la
media de la poblacin. Cabe Anotar que la parte interactiva del SAS asume que las poblaciones involucradas SON
NORMALES independiente del tamao de la muestra. Si las poblaciones no son normales, para realizar pruebas de
hiptesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa para la diferencia de
medias de dos poblaciones con muestras grandes.
Ejemplo 1: Se tom una muestra aleatoria de 213 estudiantes de una universidad a los cuales se les registr: Estrato
Socioeconmico (EST), Nmero de horas dedicadas semanalmente a estudiar (HORAS), su EDAD, si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos se muestra a
continuacin. Observe que en este caso no se sabe nada acerca de la distribucin de las variables EDAD Y PROM.
Suponga que se desea probar si la edad promedio real de un estudiante en dicha comunidad es superior a los 24
aos con base en esta muestra aleatoria.
Las hiptesis a probar son:
0
24 H :
vs
24
a
H : >
.
Como el tamao de la muestra es grande, el estadstico de prueba ser:
24
213
C
X
x
Z
s

.
1
data est;
infile " c:\Estadistica I\datos\induc.txt" firstobs=2;
input est horas edad trab$ prom;
run;
Usando la parte interactiva del SAS se obtienen los siguientes resultados:
Analysis Variable EDAD
N Mean Std Dev

213 24.6807512 5.0330470

Por notacin: 24 68 x . ,
5 033
X
s .
, 213 n
Parte de la Base de Datos de los 213 estudiantes encuestados
EST HORAS EDAD TRAB PROM EST HORAS EDAD TRAB PROM EST HORAS EDAD TRAB PROM
1 28 20 NO 3.8 2 15 26 NO 3.7 2 24 29 SI 2.8
1 22 21 NO 3.5 2 30 21 NO 3.9 2 16 24 SI 3.0
1 25 24 SI 3.8 2 15 22 NO 3.1 2 18 25 SI 3.2
1 24 28 SI 3.7 2 10 21 NO 4.0 2 24 26 SI 2.8
1 21 30 NO 3.2 2 25 26 NO 3.0 2 18 24 SI 3.5
2 12 35 NO 3.0 2 15 22 NO 3.0 2 16 40 SI 2.8
2 30 26 NO 3.2 2 20 21 NO 3.0 2 14 27 SI 2.8
2 4 32 NO 2.9 2 16 22 NO 3.2 3 20 30 NO 3.7
2 9 26 NO 3.4 2 8 19 NO 2.9 3 30 36 NO 3.3
2 72 25 NO 3.2 2 40 37 SI 2.9 3 20 27 NO 3.2
2 12 25 NO 3.1 2 20 29 SI 3.3 3 30 27 NO 2.8
De esta manera
24 68 24
1 97
5 033 213
C
.
Z .
.


. Para un 0 05 . , tenemos que
0 05
1 645
.
z z .

. La Regin de
Rechazo es: { }
R.C. 1 645
C C
Z | Z . > . Como
0 05
1 645
C .
Z z . >
, entonces rechazamos la hiptesis Nula y
concluimos que segn la informacin suministrada, la edad promedio real de los estudiantes en dicha universidad es
superior a los 24 aos. Observe que el valor p de la prueba se calcula como:
( ) ( ) 1 97 1 1 97
1 0 9756
0 0244
Vp P Z . P Z .
.
.
>

.
Ejemplo 2. Suponga que se tiene la creencia de que el promedio obtenido por los estudiantes que no trabajan es
superior al promedio de los que si trabajan. Para resolver esta pregunta primero expliquemos el procedimiento general
de la prueba para diferencia de medias con muestras grandes.
Suponga que
1 2 n
X , X , , X L
representa los promedios de quienes no trabajan y que
1 2 m
Y , Y , , Y L
los
promedios de quienes trabajan. Asuma que
i X
E X 1
]
,
2
i X
V X 1
]
, 1 2 i , , , n L , y que
j Y
E Y 1
]
,
2
j Y
V Y 1
]
, 1 2 j , , , m L . Ambas muestras son independientes entre si.
Las hiptesis a probar son:
0
0
X Y
H :
vs
0
0
0
X Y
a X Y
X Y
H :
<

>
'

.
2
De la teora vista sabemos que un estimador puntual para
X Y

es
X Y
. Como los tamaos de cada muestra
son apreciables, podemos usar el Teorema Central del Lmite para hallar la distribucin de la diferencia entre las
medias muestrales:
( )
( )
2 2
0 1
X Y
n
X Y
X Y
aprox n ,
S S
n m
+

+
uuuuuur
.
El estadstico de Prueba para esta hiptesis es:
( )
2 2
X Y
C
X Y
X Y
Z
S S
n m

+
y la regin de rechazo es de la forma: R.C. =
2
C C
C C
C C
Z | Z z
Z | Z z
Z | Z z

<

>
'

>

dado.
Para el Ejemplo en concreto se desea probar:
0
0
X Y
H :
vs
0
a X Y
H : >
.
De los resultados muestrales se obtuvo:
Usando la notacin esto es equivalente a: 3 41 x . ,
0 382
x
s .
, 139 n . 3 33 y . ,
0 447
Y
s .
, 74 m .
El valor del estadstico de prueba es:
2 2
3 41 3 33 0
1 306
0 382 0 447
139 74
C
. .
Z .
. .


+
El valor P de la prueba ser: ( ) ( ) 1 306 1 1 31 1 0 9049 0 0951 Vp P Z . P Z . . . > . Como este valor es
grande no podemos rechazar la hiptesis Nula, es decir, que segn la informacin suministrada, no existe suficiente
evidencia para afirmar que la nota promedio de los que NO trabajan sea superior a la nota promedio de los que
trabaja: Pueden asumirse iguales.
Prueba de Hiptesis para Proporciones
Suponga que X e Y son variables aleatorias Independientes tales que ( )
1
X bin n, p : y ( )
2
Y bin m, p : . Las
pruebas de hiptesis para proporciones asumen que los tamaos n o m son grandes para utilizar la aproximacin
dada por el TLC. Sea
0
p
un valor particular de
1
p
. Se desea probar alguna de las siguientes hiptesis:
0 1 0
H : p p
vs
1 0
1 0
1 0
a
p p
H : p p
p p
<

>
'

.
El estadstico de prueba y las regiones de rechazo respectivas son:
3
$
( )
0
0 0
1
C
p p
Z
p p
n

y R.C. =
2
C C
C C
C C
Z | Z z
Z | Z z
Z | Z z

<

>
'

>

dado
Ejemplo 3. Usando la base de datos anterior, suponga que se tiene la creencia de que ms del 20% de los
estudiantes en dicha universidad Trabajan. Es cierta dicha afirmacin?
Sea X: Nmero de Estudiantes en la muestra de 213 que trabajan. Entonces ( ) X bin n, p : , con p desconocida.
Las hiptesis a probar son:
0
0 2 H : p .
vs
0 2
a
H : p . >
. Veamos como probar esta hiptesis usando la parte
interactiva del SAS. Ingresamos al mdulo Analyst
Cargamos el archivo de datos que se encuentra en la librera WORK y cuyo nombre es EST.
En el men seleccionamos Statistics Hyptesis Test y se obtiene el siguiente men:
4
Las pruebas de hiptesis para medias y diferencia de medias aqu relacionadas asumen que las respectivas
poblaciones son Normales.
- La primera es una prueba de hiptesis para la media de una poblacin Normal con varianza conocida
- La segunda es una prueba de hiptesis para la media de una poblacin Normal con varianza desconocida
- La tercera es prueba de hiptesis para una proporcin poblacional. Se asume un tamao de muestra grande
- La cuarta es prueba de hiptesis para la varianza de una poblacin Normal
- La quinta prueba de hiptesis para diferencia de medias de dos poblaciones Normales con varianzas
desconocidas. Aqu se relacionan dos casos: Varianzas Iguales o Varianzas desiguales
- La sexta es una prueba de medias para datos Pareados
- La sptima es una prueba de hiptesis para la diferencia entre dos proporciones de dos poblaciones
diferentes. Se asumen tamaos de muestra grandes
- La ltima es una prueba de hiptesis para igualdad entre varianzas de dos poblaciones normales.
Retomando el ejemplo 3, escogemos la opcin 3: Prueba para una proporcin: Aparece un recuadro donde se puede
seleccionar el tipo de hiptesis alterna. Seleccionamos la variable TRAB. El aspecto que nos interesa medir es los que
trabajan. Seleccionamos la opcin level of interest y hacemos click en SI. El valor de
0
p
y la alternativa se colocan
en Hypotheses Nula y Alternate respectivamente:
En la opcin Intervals puede pedirle al programa que calcule un Intervalo de Confianza al nivel preferido para p.
Podemos calcular un Intervalo de Confianza al 95% para p.
5
Los resultados arrojados por el SAS son:
As, tanto el valor P (inferior a 0.0001) como el intervalo de confianza ( ) 0 283 0 411 . , . , permiten concluir que la
proporcin de estudiantes que trabajan en dicha universidad es superior al 20%.
Ejemplo 4. Usando la base de datos anterior. El profesor de Estadstica afirma que para los estudiantes mayores de
22 aos, la proporcin de estudiantes que no trabajan es diferente a la proporcin de estudiantes que trabajan. Es
cierta dicha afirmacin?
Sea X: Nmero de estudiantes que No trabajan en la muestra y sea Y: Nmero de estudiantes que trabajan en la
muestra. Suponga que ( )
1
X bin n, p : y ( )
2
Y bin m, p : , donde
1
p
y
2
p
, son las proporciones de estudiantes
en la universidad mayores de 22 aos que No trabajan y Trabajan respectivamente, n y m son los tamaos de
muestra respectivos. X e Y son variables aleatorias Estadsticamente Independientes.
Las hiptesis que se desea contrastar son:
0 1 2
0 H : p p
vs
1 2
0
a
H : p p
. El estadstico de Prueba en este
caso es:
6
$ $
( ) ( )
( )
1 2
1 1 2 2
0
0 1
1 1
C
n , m
p p
Z aprox n ,
p p p p
n m
+


+
uuuuuur
Como
1
p
y
2
p
son desconocidos, no podemos evaluar directamente este estadstico de prueba. Dos alternativas
pueden ser propuestas para resolver este problema.
1. Cambiar
1
p
y
2
p
por sus estimadores de mxima verosimilitud:
$
1
x
p
n
y
$
2
y
p
m
. As el estadstico de
prueba ser:
$ $
$ $
( )
$ $
( )
( )
1 2
1 1 2 2
0
0 1
1 1
C
n , m
p p
Z aprox n ,
p p p p
n m
+


+
uuuuuur
2. Bajo la hiptesis nula sabemos que
1
p
y
2
p
son iguales. Al reemplazar a
1
p
y
2
p
por el valor comn p, el
estadstico de prueba ser:
$ $
( )
( )
1 2
0
0 1
1 1
1
C
n , m
p p
Z aprox n ,
p p
n m
+

1
+
1
]
uuuuuur
.
Como p tambin es desconocido puede ser estimado por usando un promedio ponderado de
$
1
p y
$
2
p :
$ $ $
1 1
n m x y
p p p
n m n m n m
+
+
+ + +
. As, el estadstico de Prueba ser:
$ $
$ $
( )
( )
1 2
0
0 1
1 1
1
C
n , m
p p
Z aprox n ,
p p
n m
+

1
+
1
]
uuuuuur
.
Para aplicar el procedimiento en la parte interactiva del SAS primero debemos crear una variable categrica que
indique si el estudiante es mayor o menor de 22 aos. En el Paso DATA creamos la variable MAYOR:
data est;
infile " c:\rana\estadistica I\datos\induc.txt" firstobs=2;
input est horas edad trab$ prom;
if edad>22 then mayor="SI"; else mayor="NO";
run;
Ejecutamos el programa y volvemos a la parte interactiva.
7
En el men de pruebas de Hiptesis seleccionamos la opcin Two Smaples Test for Proportions.
Los estudiantes que nos interesan son los mayores de 22 aos. El en cuadro de dilogo que aparece la opcin
Groups are In aparece por defecto: One variable. En el cuadro Dependent seleccionamos la variable MAYOR, y el
recuadro Group seleccionamos la variable TRAB. El nivel de inters para la variable MAYOR es los que SI son
mayores de 22 aos. Por ltimo seleccionamos la hiptesis nula y la alterna respectivas. La opcin intervals permite
hallar el respectivo intervalo de Confianza para
1 2
p p
.
8
Los resultados del procedimiento son:
Tanto el Valor P de la Prueba como el Intervalo de Confianza para
1 2
p p
indica que las proporciones son
diferentes. Ms an, que para los estudiantes mayores de 22 aos es mayor la proporcin de los que trabajan que la
proporcin de los que no trabajan. (Hay ms estudiantes que trabajan que los que no trabajan mayores de 22 aos).
MUESTRAS PEQUEAS (Poblaciones Normales).
Para realizar pruebas de hiptesis acerca de la media o de la diferencia entre medias cuando los tamaos de las
muestras son pequeos, es necesario el supuesto de normalidad en las muestras. Supongamos que
1 2 n
X , X , , X L
es una muestra aleatoria de una poblacin normal con media
X

y varianza
2
X
y que
1 2 m
Y , Y , , Y L
es otra muestra aleatoria de otra poblacin normal con media
Y

y varianza
2
Y
, ambas muestras
independientes entre si.
De la teora de distribuciones muestrales sabemos que si
2
X
es conocida entonces ( ) 0 1
X
X
X
~ n ,
n

.
Si
2
X
es desconocida, entonces ( ) 1
X
X
X
~ t n
s n

.
Sea
0

un valor particular para


X

. Tres hiptesis puedes ser planteadas respecto a


X

:
0 0 X
H :
vs
0
0
0
a X
a X
a X
H :
H :
H :
<

>
'

.
9
Si
2
X
es conocida entonces, el estadstico de prueba y la Regin Crtica para un valor dado de

son:
( ) 0 1
X
C
X
X
Z ~ n ,
n

y R.C. =
2
C C
C C
C C
Z | Z z
Z | Z z
Z | Z z

<

>
'

>

.
Si
2
X
es desconocida entonces, el estadstico de prueba y la Regin Crtica para un valor dado de

son:
( ) 1
X
C
X
X
T ~ t n
s n


y R.C. =
( )
( )
( )
2
1
1
1
C C
C C
C C
T | T t n
T | T t n
T | T t n

<

>
'

>

, donde ( ) ( ) ( )
1 1 P t n t n

> .
Ejemplo 5. Se tiene informacin acerca del consumo de gasolina de 25 automviles (fuente, Revista Motor Trend,
1975) donde: Y: Millas por galn, X1: Desplazamiento (
3
plg ), X2: Caballos de fuerza (pie-libra), X3: Torque (pie-
libra), X4: Razn de compresin, X5: Relacin de puente trasero, X6: Carburador (nmero de gargantas), X7: Nmero
de velocidades de transmisin, X8: Longitud total (pulgadas), X9: Ancho (pulgadas), X10: Peso (libras), TIPO: Tipo de
transmisin (A: Automtica, M: Manual)
Los datos registrados son:
Automovil Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 TIPO
Apollo 18.90 350 165 260 8.0:1 2.56:1 4 3 200.3 69.9 3910 A
Nova 20.00 250 105 185 8.25:1 2.73:1 1 3 196.7 72.2 3510 A
Mo.rch 18.25 351 143 255 8.0:1 3.00:1 2 3 199.9 74.0 3890 A
Duster 20.07 225 95 170 8.4:1 2.76:1 1 3 194.1 71.8 3365 M
Jenson_Conv. 11.2 440 215 330 8.2:1 2.88:1 4 3 184.5 69 4215 A
Skyhawk 22.12 231 110 175 8.0:1 2.56:1 2 3 179.3 65.4 3020 A
Scirocco 34.70 89.7 70 81 8.2:1 3.90:1 2 4 155.7 64 1905 M
Corolla_SR-5 30.40 96.9 75 83 9.0:1 4.30:1 2 5 165.2 65 2320 M
Camaro 16.50 350 155 250 8.5:1 3.08:1 4 3 195.4 74.4 3885 A
Datsun_B210 36.50 85.3 80 83 8.5:1 3.89:1 2 4 160.6 62.2 2009 M
Capri_II 21.50 171 109 146 8.2:1 3.22:1 2 4 170.4 66.9 2655 M
Pacer 19.70 258 110 195 8.0:1 3.08:1 1 3 171.5 77 3375 A
Gra.da 17.80 302 129 220 8.0:1 3.0:1 2 3 199.9 74 3890 A
El_dorado 14.39 500 190 360 8.5:1 2.73:1 4 3 224.1 79.8 5290 A
Imperial 14.89 440 215 330 8.2:1 2.71:1 4 3 231.0 79.7 5185 A
Nova_LN 17.80 350 155 250 8.5:1 3.08:1 4 3 196.7 72.2 3910 A
Starfire 23.54 231 110 175 8.0:1 2.56:1 2 3 179.3 65.4 3050 A
Cordoba 21.47 360 180 290 8.4:1 2.45:1 2 3 214.2 76.3 4250 A
Trans_Am 16.59 400 185 . 7.6:1 3.08:1 4 3 196 73 3850 A
Corolla_E-5 31.90 96.9 75 83 9.0:1 4.30:1 2 5 165.2 61.8 2275 M
Mark_IV 13.27 460 223 366 8.0:1 3.00:1 4 3 228 79.8 5430 A
Celica_GT 23.90 133.6 96 120 8.4:1 3.91:1 2 5 171.5 63.4 2535 M
Charger_SE 19.73 318 140 255 8.5:1 2.71:1 2 3 215.3 76.3 4370 A
Cougar 13.90 351 148 243 8.0:1 3.25:1 2 3 215.5 78.5 4540 A
Corvette 16.50 350 165 255 8.5:1 2.73:1 4 3 185.2 69 3660 A
Se tiene la creencia de que el consumo de gasolina (Millas por Galn) es superior a 25
millas/galn. Es cierta esta afirmacin? Asuma que el consumo de gasolina se distribuye
aproximadamente normal sin importar el tipo de automvil.
10
Suponga que
1 2 25
X , X , , X L
es una muestra aleatoria que representa los consumos de gasolina en millas por
galn para los 25 automviles considerados en el estudio. Suponemos que cada
i
X
es una variable aleatoria normal
con media
X

y varianza
2
X
. As, cada ( )
2
i X X
X n , : 1 2 25 i , , , L . Las hiptesis a ser probada es:
0
20
X
H :
vs
20
a X
H : >
.
Como
2
X
es desconocida y la muestra proviene de una distribucin normal, entonces el estadstico de prueba y la
respectiva regin crtica para un

dado son:
( )
20
25 1
25
C
X
X
T ~ t
s


y R.C. = ( ) { }
1
C C
T | T t n

> .
El valor P de esta prueba se calcula como: ( ) ( )
24
C
Vp P t T > . En SAS.
DATA AUTO;
INFILE "C:\RANA\ESTADISTICA II\SEM 01_2003\DATOS\ejer10-5_Mont_Run.txt" FIRSTOBS=2;
INPUT AUTO $ Y X1 X2 X3 X4 $ X5 $ X6-X10 TIPO $;
RUN;
El en cuadro de opciones, al igual que el en caso de proporciones, seleccionamos la variable de Inters (Y: Consumo
de Gasolina), el valor de la hiptesis Nula (
0
20
X
H :
) y la respectiva alternativa (
20
a X
H : >
). Adems
podemos indicar el clculo de un Intervalo de Confianza al 95% para
X

.
Esta opcin del SAS asume que los consumos de Gasolina estn distribuidos Normalmente.
11
Los resultados obtenidos son:
Como el Valor P es grande, ( ) ( )
24 0 473 0 3202 Vp P t . . > , No tenemos suficiente evidencia para rechazar Ho,
es decir el consumo promedio de gasolina puede ser inferior o igual a 20 millas/galn.
12
Para Diferencia de Medias.
Si lo que se desea es comparar el comportamiento promedio de una misma caracterstica en dos poblaciones
diferentes, cuando los tamaos de muestra son pequeos, no podemos usar el Teorema Central del Lmite para
construir un Estadstico de Prueba adecuado.
De nuevo, supongamos que
1 2 n
X , X , , X L
es una muestra aleatoria de una poblacin normal con media
X

y
varianza
2
X
y que
1 2 m
Y , Y , , Y L
es otra muestra aleatoria de otra poblacin normal con media
Y

y varianza
2
Y
, donde
2
X
y
2
Y
son desconocidas y ambas muestras independientes entre si.
Un estimador insesgado para
X Y

es
X Y
, pero Cul es la distribucin Muestral de
X Y
?
Consideremos dos casos:
Caso I:
2 2 2
X Y

Bajo el supuesto de Normalidad,
( )
( )
2
2
2
1
1
X
X
n S
n

:
y
( )
( )
2
2
2
1
1
Y
Y
m S
m

:
. Y como ambas variables son
independientes entre si y
2 2 2
X Y
, entonces:
( ) ( )
( )
2 2
2
2 2
1 1
2
X Y
n S m S
n m

+ +

:
. Adems:
( ) ( ) ( ) ( )
( )
2 2
0 1
1 1
X y X y
X Y X Y
Z n ,
n m
n m



+
+
:
. Entonces:
( ) ( )
( ) ( )
( )
( ) ( )
( )
2 2
2
1 1
2
1 1
1 1
2
X y
X y
X Y
p
X Y
X Y
n m
T t n m
n S m S
S
n m
n m

+

+
+
+

+
:
, donde
( ) ( )
2 2
2
1 1
2
X Y
p
n S m S
S
n m
+

+
.
Caso I:
2 2
X Y
. Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:
( ) ( )
( )
2 2 aprox
X y
X Y
X Y
T t
n m



+
:
, donde
2
2 2
2 2
2 2
2
1 1
X Y
X X
S S
n m
S S
n m
n m
_
+


,

_ _


, ,
+
+ +
.
La demostracin de este hecho es un poco ms elaborada y por eso no se presentar aqu. Las hiptesis a probar
son entonces:
Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean desconocidas, podemos usar
un Intervalo de Confianza al ( ) 100 1 % para el cociente de las varianzas poblacionales, es decir para
2
2
X
Y

.
13
Si dicho intervalo contiene el nmero 1, podemos afirmar que posiblemente las varianzas sean iguales. Si no contiene
el nmero 1, podemos asumir que las varianzas son diferentes. Un Intervalo de Confianza al ( ) 100 1 % para
2
2
X
Y

est basado en la distribucin F de Snedecor. Se puede mostrar que ( )


2 2
2 2
1 1
Y X
X Y
S
f n , m
S

:
. As, un
Intervalo de Confianza al ( ) 100 1 % para
2
2
X
Y

es de la forma:
( )
( )
2 2
2 2
1
1 1
1 1
X X
Y Y
S S
, f m , n
S f n , m S

_



,
, donde ( ) ( ) ( )
1 1 1 1 P f n , m f m , n

> .
Los valores para ( ) 1 1 f m , n

se encuentran tabulados, para valores pequeos de

. Usualmente se toman
valores de

iguales a 0.05, 0.025, 0.01 (que corresponden a Intervalos de Confianza del 90%, 95% y 98%).
Tambin se puede realizar una prueba de hiptesis para igualdad de Varianzas:
2
0 2
1
X
Y
H :

vs
2
0 2
1
X
Y
H :

.
Estadstico de Prueba: ( )
2
2
1 1
X
C
Y
S
F f n , m
S
:
. R.C. = ( ) { }
1 1
C C
F | F f n , m

> ,

dado.
Si la hiptesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En caso contrario
podemos asumir que las varianzas poblacionales son iguales.
Las hiptesis de inters a ser probadas son:
0 0 X Y
H :
vs
0
0
0
X Y
a X Y
X Y
H :
<

>
'

, donde
0

es un valor particular.
Usualmente
0

se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.


Caso I:
2 2 2
X Y
. El estadstico de prueba es:
( ) ( )
( ) 2
1 1
X y
C
p
X Y
T t n m
S
n m

+
+
:
.
La regin crtica es similar al caso de una muestra aleatoria: R.C. = ( ) { }
2
C C
T | T t n m

> + ,

dado. El valor P
de esta prueba se calcula como: ( ) ( )
2
C
Vp P t n m T + > .
Caso II:
2 2
X Y
. El estadstico de Prueba es:
( ) ( )
( )
2 2
X y
C
X Y
X Y
T t
S S
n m


+
:
.
14
La regin crtica es similar al caso anterior: R.C. = ( ) { }
C C
T | T t

> ,

dado. El valor P de esta prueba se calcula


como: ( ) ( )
2
C
Vp P t n m T + > .
Ejemplo 6. Suponga que se cree que los automviles con transmisin Mecnica consumen en promedio ms gasolina
que los automviles con transmisin Automtica. Usando la base de datos anterior, es cierta esta afirmacin?
Usando la parte interactiva del SAS podemos obtener unas estadsticas descriptivas bsicas respecto al Consumo de
Gasolina en autos con ambos tipos de transmisiones:
Tenemos 18 automviles con transmisin automtica y 7 con transmisin mecnica. De nuevo, supongamos que
1 2 7
X , X , , X L
es una muestra aleatoria que representa los consumos de gasolina de los autos con transmisin
mecnica, asumamos que estos consumos se distribuyen normalmente con media
X

y varianza
2
X
y que
1 2 18
Y , Y , , Y L
es otra muestra aleatoria que representa los consumos de gasolina de los autos con transmisin
automtica, asumamos que estos consumos se distribuyen normalmente con media
Y

y varianza
2
Y
, donde
2
X

y
2
Y
son desconocidas y ambas muestras independientes entre si.
Las hiptesis a probar son:
0
0
X Y
H :
vs
0
a X Y
H : >
. Primero calculamos un Intervalo de
Confianza al 95% para el cociente de las varianzas
2
2
X
Y

. En SAS elegimos la opcin: Hiptesis Test Two Sample


Test for Variantes.
Aparece un recuadro con un men de opciones. Seleccionamos grupos en una variable, variable dependiente Y,
grupo la variable TIPO. La variable TIPO permite identificar la poblacin. En este caso la Poblacin 1, ser los autos
con transmisin Automtica y la Poblacin 2, ser los autos con transmisin mecnica (esto debido a que el SAS
organiza en orden alfabtico). Esto no Importa lo que interesa es determinar si el Intervalo de Confianza contiene o no
el nmero uno o el resultado de la Prueba de Hiptesis. Las hiptesis a probar son:
2
0 2
1
X
Y
H :

vs
2
0 2
1
X
Y
H :

.
Seleccionamos la opcin Intervals, escogemos un nivel de confianza del 95% y la opcin Interval. Los resultados
obtenidos son:
15
Observe que la Hiptesis Nula es rechazada, pues el valor P es pequeo. Al mismo tiempo el Intervalo de Confianza
para
2
2
Y
X

NO contiene el nmero uno. Ambos resultados permiten concluir que las varianzas poblacionales No son
Iguales. As, para probar la hiptesis inicial acerca del consumo de gasolina, debemos asumir que
2 2
X Y
.
El estadstico de Prueba es:
( ) ( )
( )
2 2 2 2
28 42 17 57 0
4 17
6 568 3 273
7 18
X y
C
X Y
X Y
. .
T .
S S . .
n m



+
+
16
En SAS seleccionamos las opciones: Hyptesis Test Two-Sample t-test for Means.
En el recuadro que aparece seleccionamos la variable dependiente Y, el grupo la variable TIPO, la hiptesis Nula
0
0
, la hiptesis alternativa es Mean 1 Mean 2 < 0, pues los grupos a comparar aparecen primero Automtica y
Luego Manual, al revs de lo planteado en la Hiptesis alterna inicial:
0
a X Y
H : >
Los resultados obtenidos muestran las hiptesis tanto para varianzas iguales como para varianzas diferentes:
17
Observe que el valor del estadstico de Prueba para Varianzas diferentes es negativo, esto es porque para el SAS la
poblacin 1 son los consumos de los autos con transmisin Automtica y la Poblacin 2 los autos con transmisin
Mecnica.
La conclusin de la prueba, usando el Intervalo de Confianza o el Valor P, permite afirmar que el consumo de gasolina
para los autos con transmisin Mecnica es SUPERIOR al consumo de gasolina para autos con transmisin
Automtica.
El siguiente grfico nos muestra evidencia inicial de que esta afirmacin es cierta.

18

También podría gustarte