Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad IV Pruebas de Hipotesis Con Dos Muestras y Varias Muestras de Datos Numericos
Unidad IV Pruebas de Hipotesis Con Dos Muestras y Varias Muestras de Datos Numericos
\
|
+ =
M H
p
n n
P P s
m h
1 1
) 1 (
donde:
M H
M M H H
n n
P n P n
P
+
+
=
P
H
= proporcin muestra de hombres (H)
P
M
= proporcin muestra de mujeres (M)
N
H
= tamao de muestra hombres
N
M
= tamao de muestra mujeres
Por lo tanto:
48 . 0
71 45
) 42 (. 71 ) 58 (. 45
=
+
+
= P
y
10 . 0
71
1
45
1
) 48 . 1 ( 48 . =
|
.
|
\
|
+ =
m h
p
s
4. Calcula de prueba estadstica:
m h
p
o
s
H es proporcion entre diferencia observadas es proporcion entre diferencia
Z
=
) _ _ _ ( ) _ _ _ (
60 . 1
10 .
) 0 ( ) 42 . 58 (.
=
= Z
La hiptesis nula es aceptada porque el valor de la Z calculada es menor que el valor
crtico Z. La administracin no puede concluir con un 95 por ciento de confianza que la
proporcin de hombres que visita 9 o ms veces los Oxxo es mayor que la proporcin de
mujeres.
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.
Una distribucin poblacional representa la distribucin de valores de una poblacin y una
distribucin muestral representa la distribucin de los valores de una muestra. En
contraste con las distribuciones de mediciones individuales, una distribucin muestral es
una distribucin de probabilidad que se aplica a los valores posibles de una estadstica
muestral. As, la distribucin muestral de la media es la distribucin de probabilidad de los
valores posibles de la media muestral con base en un determinado tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los
valores de la media muestralvaran de una muestra a otra. Esta variabilidad sirve de base
para la distribucin muestral. La distribucin muestral de la media se describe
determinando el valor esperado E () o media, de la distribucin y la desviacin estndar
de la distribucin de las medias, . Como esta desviacin estndar indica la precisin de la
media muestral como estimador puntual, por lo general se le denomina error estndar de
la media.
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la funcin elctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas.
Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores de
discos compactos de la poblacin que no pasan todas las pruebas.
Solucin:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporcin de discos
defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporcin p de pilas defectuosas en esa muestra se
usa para estimar P, que vendr a ser la proporcin verdadera de todas las pilas
defectuosas tipo B fabricadas por la Everlast Company, encuentre el mximo error de
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
estimacin tal que se pueda tener un 95% de confianza en que P dista menos
de de p.
Solucin:
p=x/n = 20/400=0.05
z(0.95)=1.96
Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista
menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error mximo
de estimacin ser aproximadamente 0.021 con un nivel de confianza del 95%
Para calcular el intervalo de confianza se tendra:
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporcin de pulas defectuosas de esta compaa est entre 0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza slo se necesita aumentar
el tamao de la muestra.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relacin con
otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna
situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico
obtenidos de la fabulacin de datos o de pronsticos por medio de frmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as
obtener datos comparativos que son determinantes en la decisin de independencia.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la
hiptesis nula es ji cuadrado, X
2
(X
es la letra griega ji minscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
X
2
= (Oi ei)
2
i ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X
2
toma valores no negativos; es decir, puede ser cero o positiva.
X
2
no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X
2
como en el caso de la distribucin t, hay una
distribucin,
X
2
diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una. En
la tabla de contingencia estn implicados dos factores (o variables), y la pregunta comn
en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntndosele si prefera recibir cursos en el rea de matemticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categoras. Presenta esta tabla la evidencia
suficiente para rechazar la hiptesis nula la preferencia por las matemticas, ciencias
sociales o humanidades es independiente del sexo de un alumno, al nivel de significancia
del 0.05?
Solucin:
Paso 1
Ho: La preferencia por matemticas, ciencias sociales o humanidades es independiente
del sexo de los estudiantes de la escuela.
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
Ha: La preferencia por las reas es no independiente del sexo de los estudiantes.
Pas 2
Para determinar el valor crtico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este nmero es exactamente el nmero
de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.
Estos ltimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras
celdas de la primera fila (vase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no
sern correctos. En consecuencia, para este problema existen dos selecciones libres.
Cada una de estas corresponde a un grado de libertad. As, el nmero de grados de
libertada en este ejemplo es 2 (v=2). Por esta razn, si se utiliza =0.05, el valor critico
es X
2
(2, 0.05) = 6. Vase la siguiente figura.
Pas 3
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hiptesis nula, la cual
asevera que estos factores son independientes. En consecuencia, se espera que los
valores estn distribuidos en proporcin a los totales marginales. Hay 122 hombres; se
espera que estn distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y
115. As, para los hombres las cuentas esperadas de celda son:
72/300 x 122 113/300 x 122 115/300 x 122
Similarmente, se esperan:
72/300 x 178 113/300 x 178 115/300 x 178
Para las mujeres. Entonces los valores esperados son como se indica en la tabla
siguiente (siempre verifquense los totales nuevos contra los antiguos.)
M CS H Total
29.28 45.95 46.77 122
42.72 67.05 68.23 178
Total 72.00 113.00 115.00 300.00
Nota
El clculo de los valores esperados puede verse de manera alternativa. Recurdese que
la hiptesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo
hecho este supuesto en el ejemplo, de hecho s est afirmando que son independientes
los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante
elegido al azar prefiere cursos de matemticas. El estimador puntual para la probabilidad
de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante
prefiera los cursos de matemtica es 72/300. En consecuencia, la probabilidad de que
ocurran ambos eventos es el producto de las probabilidades.
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Sin depresin Con depresin
Deportista 38 9 47
No deportista 31 22 53
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
69 31 100
L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%,
admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.
Ejemplo: Ilustraremos esta tcnica con el estudio que realiz Cervecera Modelo, la cual
fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un anlisis de
segmentacin de mercado para las tres cervezas, el grupo de investigacin encargado ha
planteado la duda de si la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente
del gnero del consumidor, se iniciara una campaa de publicidad para todas las
cervezas Modelo. Sin embargo, si la preferencia depende del gnero del consumidor, se
ajustaran las promociones para tener en cuenta los distintos mercados meta.
Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,
clara y oscura) es independiente del gnero del consumidor (hombre, mujer). Las
hiptesis para esta prueba de independencia son:
Ho: La preferencia de la cerveza es independiente del gnero del consumidor
Ha: La preferencia de la cerveza no es independiente del gnero del consumidor
Podemos usar una tabla como la 1 para describir el caso que se estudia. Despus de
identificar a la poblacin, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificar en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y as sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predileccin de cerveza y gnero, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de
cerveza. Despus de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulacin cruzada de la siguiente tabla 2 resume las respuestas
Cerveza preferida
Ligera Clara Oscura
Gnero Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Mujer Celda (2,1) Celda (2,2) Celda (2,3)
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en
trminos de cantidades o frecuencias para cada celda o categora. De las 150 personas
de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y as
sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categoras.
Si podemos determinar las
frecuencias esperadas bajo la
hiptesis de independencia entre la
preferencia de cerveza y el gnero
del consumidor, podemos usar la
distribucin ji cuadrada para
determinar si existe una diferencia
significativa entre la frecuencia
observada y la esperada.
Las frecuencias esperadas en las
celdas de la tabla de contingencia se
basan en el siguiente razonamiento.
Primero suponemos que es
verdadera la hiptesis nula, de
independencia entre la cerveza
preferida y el gnero del
consumidor. A continuacin
observamos que en toda la muestra
de 150 consumidores, hay 50 que prefieren la cerveza ligera, 70 la cerveza clara y 30 la
cerveza oscura. Expresada en fraccin, la conclusin es que de 50/150 = 1/3 de los
consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la clara y 30/150 = 1/5 la
oscura. Si es vlida la hiptesis de independencia, decimos que estas fracciones se
deben de aplicar por igual a los consumidores hombres y mujeres. As bajo la hiptesis de
independencia, esperaramos que la muestra de 80 consumidores hombres indicara que
(1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33 la clara y (1/5) 80 = 16 la
oscura. La aplicacin de las mismas fracciones a las 70 consumidoras mujeres produce
las frecuencias esperadas que aparecen en la tabla.
Sea la frecuencia esperada en la categora del rengln i y la columna j de la tabla de
contingencia. Con esta notacin reconsideremos el clculo de la frecuencia esperada para
los hombres (rengln i = 1) que prefieren la cerveza clara (columna j = 2) esto es, la
frecuencia esperada . Apegndonos al esquema anterior para el clculo de las
frecuencias esperadas, podemos demostrar que
= (7/15) 80 = 37.33
Esta ecuacin se puede escribir como sigue
ij
e
2 , 1
e
2 , 1
e
Cerveza preferida
Gnero
Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
Cerveza preferida
Gnero
Ligera Clara Oscura Total
Hombre 26.67 37.33 16.00 80
Mujer 23.33 32.67 14.00 70
Total 50.00 70.00 30.00 150
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del rengln 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamao de la muestra total. En consecuencia vemos
Al generalizar la ecuacin vemos que la frmula siguiente determina las frecuencias
esperadas de una tabla de contingencias para la prueba de independencia.
Frecuencias esperadas en la tabla de contingencia suponiendo independencia
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias
esperadas, se parece a los clculos de bondad de ajuste. Especficamente, el valor de
basados en las frecuencias observadas y esperadas se calcula como sigue:
O
i
= Valor observado en la i-simo celda.
E
i
= Valor esperado en la i-simo celda.
K = Categoras o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadstico de prueba tiene
una distribucin ji cuadrada con (n 1) (m 1) grados de libertad, siempre y cuando las
2 , 1
e
muestra la de tamao
columna la de total rengln del total
e
) 2 ( ) 1 (
2 , 1
=
muestra la de tamao
j columna la de total i rengln del Total
e
ij
) ( ) (
=
2
_
| |
=
k
i e
e o
i
i i
f
f f
1
2
2
_
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
TRABAJO EN EQUIPO
frecuencias esperadas sean 5 o ms para todas las categoras. En consecuencia
proseguimos con el clculo de la estadstica de prueba ji cuadrada.
Los clculos necesarios para determinar el estadstica ji cuadrada y ver si la preferencia
de cerveza es independiente del gnero de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribucin ji cuadrada adecuada se determina
multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 1) (3 1) = (1) (2) = 2
grados de libertad para la prueba de independencia entre cerveza y gnero del
consumidor. Con = .05 como nivel de significancia de la prueba, buscamos en la tabla
de ji cuadrada y nos da un valor = 5.99. Observe que estamos usando el valor de
la cola superior, porque rechazaremos la hiptesis nula slo si las diferencias entre
frecuencias observadas y esperadas producen un valor grande de . En el ejemplo
=6.13 es mayor que = 5.99. Por consiguiente, rechazaremos la hiptesis nula de
independencia y concluimos que la, la preferencia cerveza preferida no es independiente
del gnero del consumidor, es decir para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecera Modelo deber estratificar a
los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas
diferencias.
o
2
05 .
_
2
_
2
_
2
_
Gnero Cerveza
Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
o
f
e
f ) (
e o
f f
2
) (
e o
f f
ij e o
e f f / ) (
2