Unidad Vi Tema 2 Pruebas de Proporciones

TEMA 2
PRUEBA DE HIPOTESIS SOBRE MAS DE DOS

PROPORCIONES
En este tema estudiaremos dos métodos estadísticos para la

comparación de dos o más proporciones. Dividiremos nuestro estudio en dos
partes. En la primera veremos el caso en el que se consideran dos variables
categóricas en un mismo conjunto de individuos, objetos o entidades; nos
interesará saber si se puede considerar que la ocurrencia, en la población de
cada valor de una variable es independiente de la ocurrencia de los valores
de la otra variable. Le recomendamos aquí que revise el concepto de
independencia estudiado en el tema 2 de la unidad III*. En la segunda parte
de este tema veremos el caso en el que se considera una sola variable
categórica en dos o más conjuntos de individuos, objetos o entidades; nos
interesará comparar la proporción con la que ocurre cada valor de la variable
en las distintas poblaciones.
Prueba de independencia
Cuando en una población se consideran dos variables categóricas,

uno de los problemas usuales en investigación es conocer si dichas variables
son independientes o no lo son. Veamos, a través de un ejemplo, como
puede plantearse un problema de esta índole y cómo se puede resolver
estadísticamente.
Ejemplo 2.1
El director de una escuela preparatoria en una ciudad sostiene que, en

la ciudad, el nivel socioeconómico de los alumnos de preparatoria tiene
influencia en su rendimiento escolar. Para ver esto, decide medir este
rendimiento escolar mediante la calificación final de cada alumno en el curso
de Historia de México.
Tenemos así dos variables categóricas: el nivel socioeconómico,

cuyos valores serán “bajo” (b), “medio” (m) y “alto” (a), y la calificación cuyos
valores serán, en este caso, “no acreditado”(NA), “suficiente” (S), “bien” (B), y
“muy bien” (MB). La hipótesis del director de la escuela es que estas
variables no son independientes.
*
Ver Vol. 1, Introducción a los métodos estadísticos, SEAD, UPN, México, 1981
Ahora bien, cada uno de los valores de estas variables define un
evento. Entonces parece natural decir que si las dos variables son
independientes, cada uno de los eventos definidos por una variable es
independiente de cada uno de los eventos definidos por la otra variable. Así
por ejemplo, si la calificación es independiente del nivel socioeconómico,
esperamos que sean independientes los eventos:
“calificación de NA” y “nivel socioeconómico bajo”,

“calificación de NA” y “nivel socioeconómico medio”,
“calificación de NA” y “nivel socioeconómico alto”,
“calificación de S” y “nivel socioeconómico bajo”,
“calificación de S” y “nivel socioeconómico medio”, etc.
Por otra parte, sabemos que dos eventos A y B son independientes si

la probabilidad de que ocurra A dado que ocurre B es igual a la probabilidad
de que ocurra A*. Por tanto, si los eventos “calificación de NA” y “nivel
socioeconómico bajo” fueran independientes, entonces la probabilidad de
que un alumno tenga NA dado que es de nivel socioeconómico bajo sería la
misma que la probabilidad de que una alumno no tenga NA; esto es, la
probabilidad de que un alumno tenga NA sería la misma independientemente
de su nivel socioeconómico. Lo mismo ocurriría con todos los demás eventos
definidos por estas variables.
Así, para ver si las variables nivel socioeconómico y calificación son

independientes, el director de nuestro ejemplo podría comparar las
probabilidades con las que ocurren en su población los eventos
mencionados.
Sin embargo, el director no puede conocer el nivel socioeconómico y

la calificación final de Historia de México de todos los alumnos de
preparatoria de su ciudad. Entonces, selecciona aleatoriamente a 115
alumnos de preparatoria, a los cuales se les practica un estudio
socioeconómico y de rendimiento escolar. Con esta muestra, el director debe
estimar las probabilidades mencionadas y, a partir de ello, someter a prueba
su hipótesis.
Supongamos que los resultados obtenidos son los siguientes:

Con respecto al nivel socioeconómico:
41 alumnos tienen nivel socioeconómico bajo (b)

45 alumnos tienen nivel socioeconómico medio (m)
29 alumnos tienen nivel socioeconómico alto (a)
*
Ver tema 2, Unidad III, Vol. 1 Introducción a los métodos estadísticos, SEAD, UPN, México,
1981.
Y, con respecto a la calificación:
23 alumnos tienen “no acreditado” (NA)

38 alumnos tienen “suficiente” (S)
34 alumnos tienen “bien” (B)
20 alumnos tienen “muy bien” (MB)
Entonces, podemos obtener las estimaciones de las probabilidades

correspondientes a los eventos definidos por los valores de las variables:
41 23
Ρ(b) = Ρ(ΝΑ) =
115 115
45 38
Ρ(m) = Ρ(S ) =
115 115
29 34
Ρ( a) = Ρ(Β) =
115 115
20
Ρ(ΜΒ ) =
115
Sin embargo, esta información no permite saber si los alumnos con

nivel socioeconómico bajo tienen la misma probabilidad de tener NA que los
de nivel socioeconómico medio o alto, ni si tienen la misma probabilidad de
tener S ó B ó MB que los de nivel socioeconómico medio o alto. Para poder
contestar esto, necesitaríamos saber cuántos de los 41 alumnos con nivel
socioeconómico bajo tienen NA, cuántos S, cuántos B y cuántos MB, y
análogamente para los de niveles socioeconómicos medio y alto.
Supongamos que los resultados fueron los que se presentan en la siguiente
tabla de doble entrada:
Calificación
Nivel
NA S B MB Total
socioeconómico
Bajo 9 15 10 7 41
Medio 11 12 14 8 45
Alto 3 11 10 5 29
Total 23 38 34 20 115
Una tabla de este tipo recibe el nombre de tabla de contingencia.
Con base en ella podemos estimar todas las probabilidades que nos
interesen con respecto a las combinaciones de valores de las dos variables.
Por ejemplo, la probabilidad de que un alumno de nivel

socioeconómico medio tenga NA es estimada por la proporción 9/41, la
probabilidad de que un alumno de nivel socioeconómico medio tenga NA es
estimada por la proporción 11/45; la probabilidad de que un alumno de nivel
socioeconómico alto tenga NA es estimada por la proporción 3/29, etc.
Es claro que los números 9/41, 11/45 y 3/29 son distintos y que
difieren de 23/115, que es la estimación de la probabilidad de que un alumno
cualquiera tenga NA. ¿Puede decirse entonces que el hecho de que un
alumno tenga NA no es independiente de su nivel socioeconómico? Esta
misma pregunta puede surgir con respecto a los demás valores de
calificación: por ser 15/41, 12/45 y 11/29 distintos de 38/115, ¿se puede decir
que el hecho de que un alumno tenga S no es independiente de su nivel
socioeconómico?; por ser 10/41, 14/45 y 10/29 distintos de 38/115, ¿se
puede decir que el hecho de que un alumno tenga B no es independiente de
su nivel socioeconómico?; por ser 7/41, 8/45 y 5/29 distintos de 20/115. ¿Se
puede decir que el hecho de que un alumno tenga MB no es independiente
de su nivel socioeconómico?
Recordemos que todas estas proporciones solamente son

estimaciones de las probabilidades con las que ocurren los eventos en la
población de todos los alumnos de preparatoria de la ciudad. Si el director
hubiera obtenido otra muestra, estas proporciones habrían sido cuando
menos ligeramente distintas. Cabe entonces preguntarse si las diferencias
observadas se deben a que efectivamente las dos variables bajo estudio no
son independientes o si se deben a que las proporciones observadas son
estimaciones de una misma proporción poblacional, y por ende sujetas a una
variación muestral. Necesitamos un criterio que nos permita contestar esta
pregunta.
Antes de seguir adelante, conviene que especifiquemos las hipótesis

con las que estamos trabajando. Como habíamos dicho antes, la hipótesis de
investigación del director es que el nivel socioeconómico y la calificación no
son independientes. La hipótesis nula es entonces:
Η 0 : el nivel socioeconómico y la calificación son independientes.

Y la hipótesis alternativa es:
Η 1 : el nivel socioeconómico y la calificación no son independientes*.
*
Aquí no damos Η 0 y Η 1 en forma simbólica, ya que resultaría muy complicado
En adelante simplemente escribiremos
Η 0 : hay independencia
Η 1 : no hay independencia
Como lo hemos venido haciendo, aceptaremos como verdadera la

hipótesis de investigación sólo si la muestra proporciona evidencia en contra
de la hipótesis nula. Para ello, veremos a continuación lo que puede querer
decir considerar cierta esta hipótesis nula.
Supongamos que la hipótesis nula es cierta; esto es, supongamos que

en la población la probabilidad (proporción) con al que un alumno tiene NA,
S, B ó MB es la misma independientemente de su nivel socioeconómico. Si
nuestra muestra reflejara con exactitud esta característica de la población
especificaríamos que las proporciones se conservaran. Es decir, como hay
23/115 de alumnos con calificaciones NA esperaríamos que:
23/115 de los 41 alumnos de nivel socioeconómico bajo tuvieran NA, o sea

 23 
115  41
23/115 de los 45 alumnos de nivel socioeconómico medio tuvieran NA, o sea

 23 
115  45 ; y que
23/115 de los 29 alumnos de nivel socioeconómico alto tuvieran NA, o sea

 23 
115  29 .
Lo mismo ocurriría con los demás valores de la variable calificación,

por lo que, bajo el supuesto de que la hipótesis nula Η 0 es cierta, si la
muestra reflejara con exactitud lo que sucede en la población tendría las
frecuencias que se exponen en la siguiente tabla:
Calificación
Nivel
NA S B MB Total
socioeconómico
 23   38   34   20 
Bajo 115  41 115  41 115  41 115  41 41
 23   38   34   20 
Medio 115  45 115  45 115  45 115  45 45
 23   38   34   20 
Alto 115  29 115  29 115  29 115  29 29
Total 23 38 34 20 115
A las frecuencias que hemos calculado bajo el supuesto de que Η 0 es

cierta las llamaremos frecuencias esperadas (observe que, como en el caso
 23 
de  41 = 8.2 , estas frecuencias pueden no ser números enteros).
 115 
Podemos denotar las operaciones que aparecen en los cuadros de la

tabla de una manera ligeramente distinta.
Calificación
Nivel
NA S B MB Total
socioeconómico
(23)(41) (38)(41) (34)(41) (20 )(41)
Bajo 41
115 115 115 115
(23)(45) (38)(45) (34)(45) (20 )(45)
Medio 45
115 115 115 115
(23)(29) (38)(29 ) (34)(29) (20 )(29 )
Alto 29
115 115 115 115
Total 23 38 34 20 115
Encontramos así que para calcular cada frecuencia esperada, basta

multiplicar los totales de las categorías correspondientes (llamados totales
parciales o marginales) y dividir entre el tamaño de la muestra (en este caso,
n = 115 ).
Ahora bien, aún siendo cierta la hipótesis nula, podría suceder que,
por las fluctuaciones del muestreo aleatorio, las frecuencias que se
observaran discreparan “ligeramente” de las que acabamos de calcular.
También podría suceder que dichas frecuencias observadas (que son las
que se reportan en la primera tabla) discreparan “mucho” de las frecuencias
esperadas. En este caso consideraríamos que la información contenida en la
muestra entra en contradicción con el supuesto de que la hipótesis nula (de
independencia) es cierta. Así, pues, el criterio que necesitamos nos debe
decir si la discrepancia entre las frecuencias observadas (o sea, las
obtenidas en la muestra) y las frecuencias esperadas (o sea, las que se
tendrían bajo el supuesto de que todos los datos concuerdan con la hipótesis
nula, o si debe ser considerada lo suficientemente “grande” como para
rechazar la hipótesis nula, o si debe ser considerada lo suficientemente
“pequeña” como para no rechazar la hipótesis nula. El criterio que nos
permitirá medir estas discrepancias será como en los temas anteriores, un
estadístico de prueba.
Escribamos ahora las frecuencias observadas y las esperadas en una

misma tabla. En ella hemos ya realizado los cálculos indicados para las
frecuencias esperadas:
Calificación
NA S B observadas MB Total
observadas
observadas
observadas
esperadas
esperadas
esperadas
Nivel esperadas
socio-
económico
Bajo 9 8.2000 15 13.5478 10 12.1217 7 7.13.04 41
Medio 11 9.0000 12 14.8696 14 13.3043 8 7.8261 45
Alto 3 5.8000 11 9.5826 10 8.5739 5 5.0435 29
Total 23 38 34 20 115
Es claro que hay discrepancia entre las frecuencias observadas y las

esperadas, pero a simple vista no podemos decir si es “grande” o “pequeña”.
El estadístico de prueba que necesitamos considerará cuánto difiere cada
frecuencia observada de la correspondiente frecuencia esperada, con
respecto a la misma frecuencia esperada. Veamos cómo es esto.
Numeremos las frecuencias observadas y las frecuencias esperadas
desde 1 hasta k , donde k es el número de cuadros de la tabla en nuestro
ejemplo, k = (3)(4 ) = 12 y denotemos con oi a la i-ésima frecuencia observada
y con ei a la i-ésima frecuencia esperada (por ejemplo, oi = 9 , ei = 8.2000 ,
oi 2 = 5 y ei 2 = 5.0435 ). En el i-ésimo cuadro de la tabla, oi − ei es la diferencia
entre la frecuencia observada y la esperada; como algunas de estas
diferencias son positivas y otras negativas (y la suma, como usted puede
verificar, es cero), consideremos los cuadros de estas diferencias, (oi − ei ) .
2
Además, para considerar el cuadrado de cada una de esas diferencias con

respecto a la frecuencia esperada, lo dividiremos entre ei . Tenemos así, para
el total de cuadros de la tabla:
k
(oi − ei )2
∑i =1 ei
k
(oi − ei )2
En cada muestra, el número ∑
ei
i =1
es tanto mayor mientras más
grande sea la discrepancia entre las frecuencias esperadas según la

hipótesis nula de independencia y las frecuencias observadas en la muestra.
Pero, si la hipótesis nula es cierta, ¿qué tan grande puede ser este número?
La respuesta a esta pregunta está dada por la distribución de los valores de
k
(oi − ei )2
∑
i =1 ei
en distintas muestras bajo el supuesto de que Η 0 es cierta.
Abriremos un paréntesis en nuestra discusión para presentar esta

distribución.
k
(oi − ei )2
La distribución de los valores de ∑ , bajo el supuesto de que
i =1 ei
la hipótesis de independencia, Η 0 es cierta, se llama distribución “ji-
cuadrada” y se denota x 2 ( x es la letra griega ji)* señalaremos algunas
propiedades de esta distribución:
I) Como en el caso de la distribución (“t de Student”, ésta es una familia de

distribuciones. Cada una de esas distribuciones “ji-cuadrada” está
determinada por sus grados de libertad que, en este caso, están
determinados a su vez por el número de cuadros en la tabla de
frecuencias. La figura 2.1 muestra algunas de las distribuciones de la
familia:
*
Algunos autores la llaman también “chi-cuadrada”
g.l.=1
g.l.=2
g.l.=3
g.l.=4
g.l.=5
g.l.=6
x2
0
Fig. 2.1
II) Las distribuciones “ji-cuadrada” no son simétricas.
III) Todos los valores de las distribuciones “ji-cuadrada” son positivos.

En seguida se presenta una tabla ** de la distribución “ji-cuadrada”
parecida a las que se han presentado anteriormente para las
distribuciones normal estándar y “t-student”. Como la distribución “ji-
cuadrada” no es simétrica, para un área central dada se tendrían dos
valores distintos. Por ello sólo presentamos los valores de α en una cola.
De hecho, sólo requeriremos valores de α en la cola derecha: todas las

pruebas cuyo estadístico de prueba tenga una distribución “ji-cuadrada”
tendrán la región de rechazo en la cola derecha de la distribución.
**
Esta tabla se incluye también al final del volumen (tabla D)
Valores de x 2 para algunas probabilidades
α en una cola .10 .05 .025 .01 .005

Grados de
libertad Valores de x2
1 2.706 3.841 5.024 6.635 7.879
2 4.605 5.991 7.378 9.210 10.597
3 6.251 7.815 9.348 11.345 12.838
4 7.779 9.488 11.143 13.277 14.860
5 9.236 11.070 12.832 15.086 16.750

6 10.645 12.592 14.4489 16.812 18.548
7 12.017 14.067 16.013 18.475 20.278
8 13.362 15.507 17.535 20.090 21.955
9 14.684 16.919 19.023 21.666 23.589
10 15.987 18.307 20.483 23.209 25.188

11 17.275 19.675 21.920 24.725 26.757
12 18.549 21.026 23.336 26.217 28.300
13 19.812 22.362 24.736 27.688 29.819
14 21.064 23.685 26.119 29.141 31.319
15 22.307 24.996 27.488 30.578 32.801

16 23.542 26.296 28.845 32.000 34.267
17 24.769 27.587 30.191 33.409 35.718
18 25.989 28.869 31.526 34.805 37.156
19 27.204 30.144 32.852 36.191 38.582
20 28.412 31.410 34.170 37.566 39.997

21 29.615 32.671 35.479 38.932 41.401
22 30.813 33.924 36.781 40.289 42.796
23 32.007 35.172 38.076 41.638 44.181
24 33.196 36.415 39.364 42.980 45.558
25 34.382 37.652 40.646 44.314 46.928

26 35.563 38.885 41.923 45.642 48.290
27 36.741 40.113 43.194 46.963 49.645
28 37.916 41.337 44.461 48.278 50.993
29 39.087 42.557 45.722 49.588 52.336
30 40.256 43.773 46.979 50.892 53.672

35 46.059 49.802 53.203 57.342 60.275
40 51.805 55.758 59.342 63.691 66.766
45 57.505 61.656 65.410 69.957 73.166
50 63.167 67.505 71.420 76.154 79.490
60 74.397 79.082 83.298 88.379 91.952

70 85.527 90.531 95.023 100.425 104.215
80 96.578 101.879 106.629 112.329 116.321
90 107.565 113.145 118.136 124.116 128.299
100 118.498 124.342 129.561 135.807 140.169
TABLA 2.1
Supongamos que desea encontrar el valor de x 2 que corresponde a
24 grados de libertad para α = .025 . Para ello, consultamos la tabla como la
de “t-Student”: localizamos el valor .025 en el primer renglón y el valor 24 en
la primera columna; el número buscado será el valor del vigésimo cuarto
renglón que está debajo de .025; esto es, x 2 ( 24) = 39.364 . Esto en símbolos
puede interpretarse así:
( )
Ρ x 2 > 39.364 = .025 (ver la figura 2.2*):
α = .025
x 2 ( 24)
0
Fig. 2.2 39.364
2.1 Encuentre los valores de la distribución “ji-cuadrada”

para los grados de libertad y las probabilidades
señaladas.
a) x 2 ( 24 ) = .10
ACTIVIDAD b) x 2 (30 ) = .005

DE
ESTUDIO c) x 2 (17 ) = .01
d) x 2 ( 6) = .05
*
En adelante representaremos todas las distribuciones “ji-cuadrada” con el contorno que
tiene la figura 2.2, independientemente de sus grados de libertad. Esto es, las
representaciones gráficas de las distribuciones “ji-cuadrada” ilustran las áreas señaladas
pero no el contorno exacto de cada distribución
Regresemos ahora a nuestro problema. Queríamos someter a prueba
la hipótesis de que las variables nivel socioeconómico y calificación no son
independientes. Para ello, calculamos ya las frecuencias que se esperarían
en una muestra que reflejara exactamente a la población y bajo el supuesto
de que la hipótesis nula de independencia es cierta. Vimos también que
podremos medir el grado de discrepancia entre las k frecuencias observadas
(oi ) y las k frecuencias esperadas (ei ) mediante la expresión
k
(oi − ei )2
∑
i =1 ei
Esta expresión será nuestro estadístico de prueba y lo denotaremos

2
por x c . Esto es:
k
(oi − ei )2
x 2c = ∑
i =1 ei
2
Si la hipótesis nula es cierta, x c tiene una distribución “ji-cuadrada” con los
siguientes grados de libertad: g.l.= (r − 1)(m − 1) , donde r es el número de
renglones y m es el número de columnas en la tabla de contingencia*.
En nuestro ejemplo tenemos r = 3 y m = 4 ; entonces los grados de

libertad son g.l. (2 )(3) = 6 , supongamos que queremos usar en la prueba un
nivel de significancia de 5%. Entonces tenemos x 2 (6 ) = 12.592 , o sea que si la
hipótesis nula es cierta, la probabilidad de que x 2 c sea menor que 12.592 es
.95 y la probabilidad de que x 2 c sea mayor o igual que 12.592 es .05. si con
los datos de la muestra que tenemos, obtenemos un valor de x 2 c mayor o
igual que 12.592, la información contenida en la muestra contradice la
hipótesis nula y entonces rechazaremos Η 0 (tenemos como riesgo de
equivocarnos una probabilidad de α = .05 ).
Ahora podemos efectuar la prueba de hipótesis. Utilizaremos para ello

los seis pasos que hemos venido utilizando.
1) Planteamiento de hipótesis
La hipótesis de investigación del director de la escuela preparatoria es

que el nivel socioeconómico y la calificación están relacionados.
* 2
para el uso de x c cómo estadístico de prueba se requieren ciertas condiciones que se
enunciarán más adelante y que se cumplen en nuestro problema.
Η inv : la calificación y el nivel socioeconómico de los alumnos no son
independientes.
Las hipótesis estadísticas son:
Η 0 : Hay independencia
Η 1 : No hay independencia
2) Estadístico de prueba y condiciones para su uso
El estadístico de prueba que usaremos es:
k
(oi − ei )2
x 2
c =∑
i =1 ei
Que, bajo el supuesto de que Η 0 es cierta, tiene una distribución ”ji-

cuadrada” con (r − 1)(m − 1) = (2)(3) = 6 grados de libertad, donde r es
el número de renglones de la tabal de contingencia y m es el número
de columnas de la misma tabla.
La condición para el uso de x 2 c como estadístico de prueba es

que al menos el 80% de los cuadros de la tabla de contingencia
tengan frecuencias esperadas mayores o iguales que 5 y que no haya
ninguna frecuencia esperada menor que 1. Como se puede ver en la
tabla donde presentamos las frecuencias esperadas, en nuestro
ejemplo esta condición se cumple.
3) Regla de decisión
Utilicemos α = .05 en esta prueba; es decir, fijemos en .05 la

probabilidad de cometer el error de tipo I. tratándose de la distribución
“ji-cuadrada” se tiene α = .05 en una cola. El valor en la tabla de la
distribución “ji-cuadrada” con 6 grados de libertad es x 2 (6 ) = 12.592 . A
partir de este valor se definen las regiones de rechazo y no rechazo de
Η 0 , como sigue (ver la figura 2.3):
No se rechaza Η 0 si x 2 c ∈ [0,12.592 >
Se rechaza Η 0 si x 2 c ∈ [12.592, ∞ >
α = .025
x 2 (6)
0
12.592
Región de no rechazo de Η 0 Región de rechazo de Η 0
Fig. 2.3
4) Cálculos
Ya hemos calculado las frecuencias esperadas ei , por lo que

podemos proceder al cálculo de x 2 c para los datos de nuestra
muestra:
12
(oi − ei )2 (9 − 8.2000 )
2
(5 − 5.0435)
2
x 2
c =∑ = + ... + =
i =1 ei 8.200 5.0435
.6400 .0019
= + ... + = 3.445
.8200 5.0435
5) Decisión estadística
Como 3.445 ∈ [0,12.592 > , no se rechaza Η 0 .
6) Interpretación de los resultados
No existe evidencia suficiente para afirmar, con un 95% de confianza,

que haya algún tipo de relación entre el nivel socioeconómico y el
rendimiento escolar (o la calificación).
Ahora generalizaremos el método:
Si en una misma población se consideran dos variables categóricas, y si se

tiene la siguiente hipótesis nula con referencia a ellas:
Entonces un estadístico de prueba es:
k
(oi − ei )2
x 2
c =∑
i =1 ei
Donde las oi son las k frecuencias observadas y las ei son las k

frecuencias esperadas. Si ei > 5 por lo menos en el 80% de los casos y
ei > 1 en todos los casos, y si Η 0 es cierta, la distribución de x 2 c es la
distribución “ji-cuadrada” con (r − 1)(m − 1) grados de libertad, donde r y
m son el número de renglones y columnas de la tabla de contingencia.
Para una α determinada, la regla de decisión está dada por la siguiente

región de rechazo de Η 0 :
x 2 (( r −1)( m−1))
Donde x 2 (( r −1)( m−1)) es el valor en la tabla de la distribución “ji-cuadrada” con
α en una cola y (r − 1)(m − 1) grados de libertad.
Observación: si r = m = 2 , el estadístico de prueba se que utiliza es ligeramente distinto. Más

adelante veremos este caso.
Ejemplo 2.2
Se sospecha que el orden de nacimiento de los hijos en la familia

influye en la exigencia de atención de éstos a sus maestros. Para probar esta
hipótesis se tomó una muestra aleatoria de 200 niños y se les clasificó según
dos criterios: el orden que ocupan como hijos en la familia, y la exigencia de
atención del maestro. Los datos se presentan en la siguiente tabla:
Exigencia de Orden que ocupa como hijo
atención Mayor Medio Menor total
Poca 7 48 6 61
Regular 37 32 16 85
Mucha 12 11 31 54
Total 56 91 53 200
¿Proporciona esta muestra evidencia suficiente para apoyar la hipótesis de

investigación?
1) Planteamiento de las hipótesis
La hipótesis de investigación es que el lugar que ocupa cada hijo en la

familia influye en la exigencia de atención de éste a su maestro. Esto
es,
Η inv : el orden de nacimiento y la exigencia de atención no son

independientes.

2) Estadístico de prueba y condiciones de uso
El estadístico de prueba que utilizaremos es:
k
(oi − ei )2
x 2
c =∑
i =1 ei
Que, bajo el supuesto de que Η 0 es verdadera, tiene una distribución

“ji-cuadrada” con (r − 1)(m − 1) =(2)(2)=4 grados de libertad.
La condición para el uso de x 2 c como estadístico de prueba es que al
menos el 80% de los cuadrados de la tabla de contingencia tengan
frecuencia esperadas mayores que 5 y que no haya ninguna
frecuencia esperada menor que 1. Verificaremos si esto se cumple en
el paso 4.
Utilicemos α = .05 . El valor en la tabla de la distribución “ji-cuadrada”

con (r − 1)(m − 1) =(3-1)(3-1)=4 grados de libertad es x 2 ( 4) = 9.448 . A
Η 0 como sigue (ver la figura 2.4):

Se rechaza Η 0 si x 2 c ∈ [9.488, ∞ >
α = .05
x 2 ( 4)
0
9.488
Fig. 2.4
4) Cálculos
Empecemos por calcular las frecuencias esperadas al suponer que Η 0

es cierta. En la siguiente tabla se presentan tanto las frecuencias
esperadas como las observadas.
Orden que ocupa como hijo de la familia
Mayor Medio Menor
Exigencia
observadas
observadas
observadas
Esperadas
esperadas
esperadas
de
Total
atención
Poca 7 17.080 48 27.755 6 16.165 61

Regular 37 23.800 32 38.675 16 22.525 85
Mucha 12 15.120 11 24.570 31 14.310 54
Total 56 91 53 200
Note que todas las frecuencias esperadas son mayores de 5 y por lo
tanto se satisface la condición para el uso del estadístico x 2 c .
Una vez establecidas las frecuencias esperadas, procedemos al

cálculo del estadístico de prueba:
9
(oi − ei ) (7 − 17.08)2 (31 − 14.31)
2
x 2
c =∑ = + ... + = 65.076
i =1 ei 17.08 14.31
Como x 2 c ∈ [9.488, ∞ > , se rechaza Η 0
Como se rechazó Η 0 , hay evidencia suficiente para considerar, con

una confianza de 95%, que el lugar que ocupa un hijo en la familia y el
grado con el que exig3e atención del maestro no son independientes.
Hasta ahora hemos visto, en el ejemplo 2.1, una tabla de contingencia

de 3 x 4(r = 3, m = 4) , y en el ejemplo 2.2, una tabla de contingencia de
3 x3(r = 3, m = 3) . En el caso de las tablas de contingencia de 2 x 2 (dos
renglones y dos columnas) requiere un tratamiento ligeramente
distinto. En este caso la expresión del estadístico de prueba es
distinta. A continuación presentamos el método, y posteriormente lo
ejemplificaremos.
Si en una misma población se consideran dos variables categóricas, cada
una con dos valores, y si se tiene la siguiente hipótesis nula:
2
 1 
n sv − tu − n 
x 2c =  2 
(s + t )(u + v )(s + u )(t + v )
Donde n, s, v, t y u son valores que se encuentran en la tabla de
contingencia como sigue:
Primera variable Total
s t s s+t
Segunda
Variable
u v u+v
Total s+u t +v n
Si las frecuencias esperadas son mayores que 5 y si Η 0 es cierta, la

distribución de x 2 c es la distribución “ji-cuadrada” con 1 grado de libertad.

x 2 (1)3 ∞ >
Donde x 2 (1) es el valor en la tabla de la distribución “ji-cuadrada” con α en
una cola y un grado de libertad.
Ejemplo 2.3
Se cree que en una ciudad, las familias con alto ingreso generalmente
envían a sus hijos a escuelas particulares en tanto que las familias de bajo
ingreso los envían a escuelas oficiales. Con objeto de someter a prueba esta
hipótesis, se escogen 150 familias al azar y se obtienen los siguientes datos.
Ingreso Tipo de escuela

familiar particular oficial Total
Bajo 13 91 104
Alto 38 8 46
total 51 99 150
Hagamos la prueba de hipótesis como la hemos venido haciendo:
1) Planteamiento de las hipótesis:
La hipótesis de investigación es que el monto de ingreso familiar y el tipo

de escuela a la que se envían los hijos están estrechamente
relacionados, es decir, no son independientes, de modo que:
Η inv : El monto del ingreso familiar y el tipo de escuela a la que se envía a

los hijos no son independientes.
2) Estadístico de prueba y condiciones de uso
El estadístico de prueba que usaremos es:
2
 1 
n sv − tu − n 
x 2c =  2 
(s + t )(u + v )(s + u )(t + v )
que bajo el supuesto de que Η 0 es cierta, tiene una distribución “ji-
cuadrada” con un grado de libertad.
La condición para el uso de x 2 c como estadístico de prueba es que
todas las frecuencias esperadas sean mayores que 5. Observe que aquí
la menor frecuencia esperada es
(51)(46 ) > 5 , por lo que la condición se
150
cumple.
Regla de decisión
Utilicemos α = .01 en esta prueba, es decir, fijemos en .01 la

probabilidad de cometer el error de tipo I. El valor en la tabla de la
distribución “ji-cuadrada” con un grado de libertad es x 2 (1) = 6.635 . A
Η 0 como sigue (ver la figura 2.5*):
No se rechaza Η 0 si x 2 c ∈[0,6.635 >

Se rechaza Η 0 si x 2 c ∈[6.635, ∞ >
α = .01
x 2 (1)
0
6.635
Fig. 2.5
4) Cálculos
Como n = 150, s = 13, t = 91, u = 38 y v = 8 , tenemos:
*
Recuerde que las figuras de las distribuciones “i-cuadrada” no representan con exactitud el contorno
de cada distribución (ver las figuras 2.1 y 2.2), pero si el área señalada.
2
 1 
2
 1 
n sv − tu − n  150  (13)(8) − (91)(38) − (150)
x2c =  2 
=  2  =
(s + t )(u + v )(s + u )(t + v ) (13 + 91)(38 + 8)(13 + 38)(91 + 8)
=
[
150 − 3354 − 75
=
] 150[3279]
2
2
= 66.769
(104)(46)(51)(99) (104)(46)(51)(99)
Como 66.769 ∈ [6.635, ∞ > , se rechaza Η 0 .
Se puede decir, con 99% de confianza, que no son independientes el

monto del ingreso familiar y tipo de escuela al que se envía a los hijos.
En las siguientes actividades, realice la prueba de hipótesis
correspondiente usando el esquema de seis pasos.
2.2. En el tema 2 de la Unidad III* se trabajó con un

ejemplo similar al ejemplo 2.1 de este tema: en una
escuela técnica se hacía un estudio sobre el
promedio de calificaciones de los alumnos que no
habían reprobado materias. Una de las preguntas que
se podían plantear era si la calificación promedio era
independiente del nivel socioeconómico. En el primer
año del estudio se obtuvieron las siguientes ACTIVIDADES
frecuencias: DE
ESTUDIO
Calificación
Nivel promedio 6 7 8 9 10
socioeconómico
Bajo 20 54 68 26 7
Medio 11 31 62 46 9
Alto 7 16 26 12 5
a) Someta a prueba la hipótesis de que las dos

variables no son independientes, usando α = .10
b) Compare sus resultados con los que obtuvo en la

actividad de estudio 2.12 del tema citado.
*
Ver Vol. 1, Introducción a los métodos estadísticos, SEAD, UPN, México , 1981.
2.3 Un sociólogo que hace una investigación en un sector escolar toma una
muestra representativa de 300 padres de familia, y los clasifica según
dos criterios; el ingreso familiar y el grado de participación en las
actividades de la escuela a la que asisten sus hijos. La tabla siguiente
concentra los datos.
Participación en las Ingreso familiar

actividades
Bajo Medio Alto Total
Muy escasa 39 45 17 101
Ocasional 31 51 15 97
Sistemática 24 74 4 102
Total 94 170 36 300
¿Sé puede decir que el ingreso familiar tiene relación con el grado de
participación de los padres en las actividades escolares? Pruebe la hipótesis
correspondiente utilizando un nivel de significancia del 1%.
2.4 Un psicólogo sostiene que en los adolescentes hay una relación muy
estrecha entre sus promedios de calificación y la opinión que tienen de
sí mismos; para someter a prueba su hipótesis toma una muestra de
210 alumnos y los clasifica según estos dos criterios con los datos que
aparecen la siguiente tabla:
Opinión de sí mismos Promedio
Alto Bajo Total
Buena 77 28 105
Mala 42 63 105
Total 119 91 210
Haga la hipótesis correspondiente:
a) para α = .05
b) para α = .01
Prueba de homogeneidad
Una variable de la prueba de independencia es la llamada prueba de

homogeneidad, que se utiliza para comparar las proporciones con las que
ocurren los valores de una sola variable categórica en varias poblaciones
distintas.
Veamos un ejemplo de este tipo de prueba:
Ejemplo 2.4
Para averiguar si en cierta entidad de la república los profesionistas,

los comerciantes y los campesinos difieren en su opinión acerca del S.A.M.,
se seleccionan aleatoriamente 58 profesionistas, 55 comerciantes y 63
campesinos, a los que se les aplica un cuestionario para saber su opinión
acerca de la política del S.A.M.
Los datos obtenidos se agrupan en la siguiente tabla:
Ocupación Opinión acerca del S.A.M.
A favor En contra Indiferente Total
Profesionista 40 11 7 58
Comerciante 36 8 11 55
Campesino 35 15 13 63
Total 111 34 31 176
En este caso tenemos una variable categórica, la variable opinión

acerca del S.A.M., y tres poblaciones, que son las conformadas por
profesionistas, por comerciantes y por campesino.
La hipótesis de investigación es que estas tres poblaciones difieren en

su opinión; esto es que la manera en que se distribuyen los profesionistas en
su opinión no es la misma que la de los comerciantes o la de los campesinos.
La hipótesis nula contradice a la hipótesis de investigación; esto es,

afirma que las tres poblaciones se distribuyen homogéneamente en los
distintos valores de la variable opinión. Por tanto, la hipótesis nula es que las
proporciones de profesionistas, comerciantes y campesinos a favor del
S.A.M. son iguales y las proporciones de profesionistas, comerciantes y
campesinos en contra del S.A.M. son iguales y las proporciones de
profesionistas, comerciantes y campesinos indiferentes al S.A.M. son iguales.
Es por esto que la prueba se lleva a cabo de manera análoga a la

prueba de independencia. El estadístico de prueba es el mismo:
k
(oi − ei )2
x 2c = ∑
i =1 ei
Y el resto de la prueba también es idéntico. Procedamos pues a efectuar la

prueba correspondiente.
La hipótesis de investigación es que las tres poblaciones no son

homogéneas con respecto a su opinión sobre el S.A.M.
Η inv : Las tres poblaciones no son homogéneas con respecto a la

opinión.
Η 0 : Hay homogeneidad
Η 1 : No hay homogeneidad
El estadístico de prueba que usaremos es
k
(oi − ei )2
x 2c = ∑
i =1 ei
que, bajo el supuesto de que Η 0 es cierta tiene una distribución “ji-

cuadrada” con (r − 1)(m − 1) grados de libertad, donde r es el número
de renglones y m
el número de columnas en la tabla de contingencia.
Las condiciones para el uso de x 2 c como estadístico de prueba son
que al menos el 80% de las frecuencias esperadas sean mayores que
5 y que no haya ninguna frecuencia esperada menor que 1.
Verificaremos si esto se cumple en el paso 4 de la prueba.

con (r − 1)(m − 1) = (3 − 1)(3 − 1) = 4 grados de libertad es x 2 ( 4) = 9.488 . A
Η 0 como sigue (ver la figura 2.6):

Se rechaza Η 0 si x 2 c ∈ [9.488, ∞ >
α = .05
x 2 ( 4)
0
9.488
Fig. 2.6
4) Cálculos
Primero calculamos las frecuencias esperadas y las presentamos con

las frecuencias observadas en la siguiente tabla:
Opinión acerca del S.A.M.
A favor En contra Indiferente Total
observadas
observadas
observadas
esperadas
esperadas
esperadas
Ocupación
Profesionista 40 36.5795 11 11.2045 7 10.2159 58

Comerciante 36 34.6875 8 10.6250 11 9.6875 55
Campesino 35 39.7330 15 12.1705 13 11.0966 63
Total 111 34 31 176
Observa que todas las frecuencias esperadas son mayores que 5; por
lo tanto, se cumplen las condiciones para utilizar el estadístico x 2 c .
Una vez encontradas las frecuencias esperadas, calculamos
9
(oi − ei )2 (40 − 36.5795) 2 + ... + (13 − 11.0966 ) 2 = 3.76
x 2c = ∑ =
i =1 ei 36.5797 11.0966
Como 3.76 ∈ [0,9.488 > , no se rechaza Η 0
Como no se rechazó Η 0 , no hay evidencia suficiente para considerar,

con una confiabilidad de 95% que las opiniones acerca al S.A.M.
difieran en las tres poblaciones consideradas.
A continuación se generaliza lo que hemos planteado:

Si en dos o más poblaciones se considera una misma variable categórica, y
si se tiene la siguiente hipótesis nula acerca de la distribución de los valores
de la variable en las poblaciones:
a) En el caso en el que hay más de dos poblaciones o más de dos

valores de la variable:
k
(oi − ei )2
x c =∑
2
i =1 ei
Donde las oi son los k frecuencias observadas y las ei son las k
frecuencias esperadas. Para usar este estadístico se requiere que ei > 5
Por lo menos en el 80% de los casos y que ei > 1 en todos los casos.
b) En el caso en el que hay dos poblaciones y dos valores de la

variable:
2
 1 
n sv − tu − n 
x 2c =  2 
(s + t )(u + v )(s + u )(t + v )
Donde el primer valor de la variable ocurre con frecuencias s y t , y el
segundo valor con frecuencias u y v respectivamente en las dos
muestras, y n es la suma de todas las frecuencias anteriores
(n = s + t + u + v ) . Para usar este estadístico se requiere que todas las
frecuencias esperadas sean mayores que 5.
Si Η 0 es cierta x 2 c tiene una distribución “ji-cuadrada” con (r − 1)(m − 1)

grados de libertad, donde r y m son el número de renglones y columnas
de la tabla de contigencia.

[ x 2 (( r −1)( m−1)) , ∞ >
Donde x 2 (( r −1)(m−1)) es el valor en la tabla de la distribución “ji-cuadrada” con
α en una cola y (r − 1)(m − 1) grados de libertad.

Ejemplo 2.5
Se piensa que las poblaciones de dos escuelas para adultos no son

homogéneas con respecto a las proporciones de estudiantes que trabajan y
de estudiantes que no trabajan. Para averiguar si en realidad no son
homogéneas se tomó una muestra de 100 alumnos de una escuela y una
muestra de 150 alumnos de la otra, y se clasificó a todas las personas de
cada muestra en dos grupos: los que trabajan y los que no trabajan. En la
siguiente se concentran los datos que se obtuvieron.
Alumnos de la Alumnos de la
Total
escuela A escuela B
Trabajan 65 112 177
No trabajan 35 38 73
Total 100 150 250
¿Se puede decir que las poblaciones no son homogéneas con

respecto a las proporciones de los estudiantes que trabajan y de los que no
trabajan?
Hagamos la prueba de hipótesis correspondiente.
La hipótesis de investigación es:
Η inv : Las dos poblaciones no son homogéneas en lo que respecta las

proporciones de estudiantes que trabajan y de estudiantes que
no trabajan.
Η 1 : No hay homogeneidad
Como tenemos dos poblaciones y una variable categórica con dos

valores, el estadístico de prueba que usaremos es:
2
 1 
n sv − tu − n 
x 2c =  2 
(s + t )(u + v )(s + u )(t + v )
Que, bajo el supuesto de que Η 0 es cierta, tiene una distribución “ji-
cuadrada” con un grado de libertad.
La condición para poder usar el estadístico x 2 c es que todas las frecuencias

esperadas sean mayores que cinco. Aquí la menor frecuencia esperada al
(73)(100)
suponer que Η 0 es cierta es = 29.2 ; por lo tanto se cumple la
250
condición y podemos usar el estadístico.

con un grado de libertad y α = .05 es x 2 (1) = 3.841 . A partir de este
valor se definen las regiones de rechazo y no rechazo de Η 0 como
sigue (ver la figura 2.7):

Se rechaza Η 0 si x 2 c ∈ [3.841, ∞ >
α = .05
x 2 (1)
0
3.841
Fig. 2.7
4) Cálculos
Como n = 250 , s = 65 , t = 35 , u = 112 y v = 38 tenemos:
2
 1 
2
 250 
n sv − tu − n  250  (65)(38) − (35)(112) − 
x 2c =  2 
=  2 
= 2.265
(s + t )(u + v )(s + u )(t + v ) (65 + 35)(112 + 38)(65 + 112)(35 + 38)
Como 2.265 ∈ [0,3.841 > , no se rechaza Η 0 .
Como no se rechazó Η 0 , no hay evidencia suficiente para considerar,

con una confianza de 95%, que las poblaciones no sean homogéneas
con respecto a las proporciones de estudiantes que trabajan y
estudiantes que no trabajan.
En las siguientes actividades, utilice el esquema de seis
pasos para resolver los problemas planteados.
2.5. En un estudio se tomaron tres muestras aleatorias de

matrimonios recientes en tres estados de la república.
Se les pregunto cuál es el grado mínimo de
escolaridad que desearían que sus hijos alcanzaran y
se les clasificó de acuerdo a su respuesta. Los
resultados se encuentran en la siguiente tabla:
Mínimo
Matrimonios Matrimonios Matrimonios
grado de
ACTIVIDADES en el estado en el estado en el estado Total
escolaridad
A B C
DE deseado
ESTUDIO
Primaria 48 45 38 131
Secundaria 48 30 74 152
Profesional 144 125 208 477
Total 240 200 320 760
¿Sé puede decir, con α = .10 , que las opiniones de

los matrimonios con respecto a la educación deseada
para sus hijos son no homogéneas en los tres
estados?
2.6 Para averiguar si los estudiantes de cuatro diferentes carreras de una
universidad (Medicina, Leyes, Ingeniería y Filosofía) tenían diferente
condición física, se tomaron muestras representativas de tamaño 50 de
cada carrera, y se les clasificó según su condición física. Los resultados
se ven en la tabla siguiente:
Condición Carrera
física Medicina Leyes Ingeniería Filosofía
Alta 14 15 17 13
Media 20 19 21 22
Baja 16 16 12 15
Total 50 50 50 50
Prueba la hipótesis correspondiente con α = .05 .

2.7 En un estado de la república, se desea averiguar si las escuelas unitarias
reciben apoyo satisfactorio de la Secretaría de Salubridad y Asistencia en
la misma proporción que las escuelas rurales de organización completa.
Para ello, se tomaron muestras aleatorias de 80 escuelas de cada tipo,
con los siguientes resultados:
Escuelas de
Apoyo de la Escuelas
organización Total
S.S.A. unitarias
completa
Satisfactorio 42 57 99
No satisfactorio 38 23 61
Total 80 80 160
a) ¿Se puede afirmar que en ese estado la población de escuelas

unitarias y la de escuelas de organización completa no son
homogéneas con respecto al apoyo que reciben de la S.S.A., con
α = .05 ?
b) ¿Y con α = .01 ?
¿Se puede afirmar, con 95% de confianza, que el tipo de servicios con que
cuenta la casa de jefes de familia está relacionado con su nivel máximo de
estudios?
2.9 Con base en su experiencia, un maestro de matemáticas sospecha que
los niños zurdos tienen distinta capacidad de abstracción que los niños
diestros. Para poner a prueba su hipótesis, toma dos muestras aleatorias,
una de niños diestros y otra de niños zurdos, y les plantea un problema
cuya solución requiere cierta abstracción. Obtiene los siguientes
resultados:
Diestros Zurdos
No resuelven el problema 41 22
Resuelven el problema 73 58
Pruebe la hipótesis correspondiente, usando α = .10 .

2.10 Con el fin de averiguar si la asistencia a un jardín de niños apoya el
desarrollo de la coordinación motora de los niños, una maestra toma
una muestra de niños que ingresan a la primaria y con una serie de
actividades mide su coordinación motora. Los resultados obtenidos
son los siguientes:
Asistencia a algún Coordinación motora

jardín de niños Buena Insuficiente
Sí 58 26
No 39 57
¿Puede afirmarse que la asistencia a algún jardín de niños tiene relación con
la coordinación motora? (use α = .01 ).
2.11 Una universidad patrocina un programa dominical de radio. Para saber
si las opiniones de los estudiantes de cuatro licenciaturas difieren
respecto del programa, se toma una muestra representativa de 100
estudiantes de cada licenciatura y se les clasifica según su opinión
acerca del programa de radio. Su resultado se muestra en la tabla
correspondiente:
Opinión
Licenciatura
Favorable Desfavorable Total
A 60 40 100
B 65 35 100
C 71 29 100
D 77 23 100
¿Se puede decir, con α = .05 , que la opinión que del programa tienen los
alumnos es diferente en cada licenciatura?
2.12 Se puede demostrar que en el caso de una tabla de contingencia de
2x2. la prueba de homogeneidad es equivalente a la prueba de
comparación de proporciones (con Η 0 : ρ1 − ρ 2 = 0 ) estudiada en el
tema anterior. Para verificar esto, use la prueba de comparación de
proporciones para probar, con los datos de la actividad de estudio 2.7,
la hipótesis de que en el estado considerado las escuelas unitarias
reciben apoyo satisfactorio de la S.S.A. en distinta proporción que las
escuelas de organización completa,
a) con α = .05
b) con α = .01
c) Compare sus conclusiones con las obtenidas en la actividad 2.7; ¿qué
observa?
GUIA DE AUTOEVALUACIÓN
1. En cierto estado se sospecha que la proporción de alumnas de

secundaria que desean proseguir sus estudios en una escuela normal o
en una preparatoria es menor que la de alumnos de secundaria que tienen
las mismas aspiraciones. Se toman dos muestras aleatorias, y se
encuentra que 40 de 100 alumnas y 62 de 150 alumnos desean proseguir
sus estudios en una escuela normal o en una preparatoria. Con un nivel se
significancia de 5%, ¿se puede considerar que la sospecha coincide con la
realidad?
2. Se sospecha que existe una estrecha relación entre las calificaciones que
obtienen los alumnos de secundaria y la ocupación de sus padres. Para
ver si esto puede ser considerado como verdadero, se tomó una muestra
aleatoria de 900 estudiantes, a los que se clasificó según la moda* de sus
calificaciones y según la ocupación de sus padres. Los resultados
obtenidos se muestran en la siguiente tabla.
Ocupación Calificación (moda)

del padre NA S B MB Total
Algún oficio 86 44 132 23 285
Técnico 61 112 179 50 402
Profesionista 15 57 109 32 213
Total 162 213 420 105 900
Con un nivel de significancia de 5%, ¿puede afirmarse que la moda de

calificación de los alumnos está relacionada con la ocupación de sus padres?
*
Recuerde que la moda es la categoría de mayor frecuencia. Ver el tema 3 de la Unidad II,
Vo.. 1 de Introducción a los métodos estadísticos, SEAD, UPN, México, 1981.
3. Se tomó una muestra aleatoria de 30 adolescentes que practican con
asiduidad algún deporte, una muestra aleatoria de 45 adolescentes que
practican esporádicamente algún deporte, y una muestra aleatoria de 25
adolescentes que no practican ningún deporte. Todos los adolescentes
fueron clasificados mediante una prueba en tres niveles según su
agresividad. Los resultados se muestran en la siguiente tabla.
Adolescentes
Adolescentes
que practican Adolescentes
que no
Nivel de con que practican
practican Total
agresividad asiduidad esporádicamente
ningún
algún algún deporte
deporte
deporte
Bajo 17 15 5 37
Medio 9 17 6 32
Alto 4 13 14 31
Total 30 45 25 100
Con un nivel de significancia de 1%. ¿Se puede decir que los niveles de
agresividad difieren en las tres poblaciones de adolescentes?

Unidad Vi Tema 2 Pruebas de Proporciones

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad Vi Tema 2 Pruebas de Proporciones

Cargado por

Copyright:

Formatos disponibles

TEMA 2

PRUEBA DE HIPOTESIS SOBRE MAS DE DOS

En este tema estudiaremos dos métodos estadísticos para la

Cuando en una población se consideran dos variables categóricas,

El director de una escuela preparatoria en una ciudad sostiene que, en

Tenemos así dos variables categóricas: el nivel socioeconómico,

“calificación de NA” y “nivel socioeconómico bajo”,

Por otra parte, sabemos que dos eventos A y B son independientes si

Así, para ver si las variables nivel socioeconómico y calificación son

Sin embargo, el director no puede conocer el nivel socioeconómico y

Supongamos que los resultados obtenidos son los siguientes:

41 alumnos tienen nivel socioeconómico bajo (b)

23 alumnos tienen “no acreditado” (NA)

Entonces, podemos obtener las estimaciones de las probabilidades

Sin embargo, esta información no permite saber si los alumnos con

Por ejemplo, la probabilidad de que un alumno de nivel

Recordemos que todas estas proporciones solamente son

Antes de seguir adelante, conviene que especifiquemos las hipótesis

Η 0 : el nivel socioeconómico y la calificación son independientes.

Como lo hemos venido haciendo, aceptaremos como verdadera la

Supongamos que la hipótesis nula es cierta; esto es, supongamos que

23/115 de los 41 alumnos de nivel socioeconómico bajo tuvieran NA, o sea

23/115 de los 45 alumnos de nivel socioeconómico medio tuvieran NA, o sea

23/115 de los 29 alumnos de nivel socioeconómico alto tuvieran NA, o sea

Lo mismo ocurriría con los demás valores de la variable calificación,

A las frecuencias que hemos calculado bajo el supuesto de que Η 0 es

Podemos denotar las operaciones que aparecen en los cuadros de la

Encontramos así que para calcular cada frecuencia esperada, basta

Escribamos ahora las frecuencias observadas y las esperadas en una

Bajo 9 8.2000 15 13.5478 10 12.1217 7 7.13.04 41

Medio 11 9.0000 12 14.8696 14 13.3043 8 7.8261 45

Alto 3 5.8000 11 9.5826 10 8.5739 5 5.0435 29

Es claro que hay discrepancia entre las frecuencias observadas y las

Además, para considerar el cuadrado de cada una de esas diferencias con

grande sea la discrepancia entre las frecuencias esperadas según la

Abriremos un paréntesis en nuestra discusión para presentar esta

I) Como en el caso de la distribución (“t de Student”, ésta es una familia de

II) Las distribuciones “ji-cuadrada” no son simétricas.

III) Todos los valores de las distribuciones “ji-cuadrada” son positivos.

De hecho, sólo requeriremos valores de α en la cola derecha: todas las

α en una cola .10 .05 .025 .01 .005

5 9.236 11.070 12.832 15.086 16.750

10 15.987 18.307 20.483 23.209 25.188

15 22.307 24.996 27.488 30.578 32.801

20 28.412 31.410 34.170 37.566 39.997

25 34.382 37.652 40.646 44.314 46.928

30 40.256 43.773 46.979 50.892 53.672

60 74.397 79.082 83.298 88.379 91.952

2.1 Encuentre los valores de la distribución “ji-cuadrada”

ACTIVIDAD b) x 2 (30 ) = .005

Esta expresión será nuestro estadístico de prueba y lo denotaremos

En nuestro ejemplo tenemos r = 3 y m = 4 ; entonces los grados de

Ahora podemos efectuar la prueba de hipótesis. Utilizaremos para ello

La hipótesis de investigación del director de la escuela preparatoria es

Las hipótesis estadísticas son:

2) Estadístico de prueba y condiciones para su uso

El estadístico de prueba que usaremos es:

Que, bajo el supuesto de que Η 0 es cierta, tiene una distribución ”ji-

La condición para el uso de x 2 c como estadístico de prueba es

Utilicemos α = .05 en esta prueba; es decir, fijemos en .05 la

Región de no rechazo de Η 0 Región de rechazo de Η 0

Ya hemos calculado las frecuencias esperadas ei , por lo que