Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ji Cuadrado PDF
Ji Cuadrado PDF
TEMA
12.1. INTRODUCCIN
Este captulo est destinado a presentar un grupo de pruebas estadsticas, que tienen como
denominador comn la utilizacin de un estadgrafo de prueba denominado Ji cuadrado, simbolizado por
tradicin con la letra griega Ji elevada al cuadrado, esto es 2 . En el muestreo repetitivo, el
estadgrafo 2 se comporta como una variable aleatoria denominada Ji cuadrado, que por consistencia
con lo indicado para variables aleatorias se simbolizar como X2. El comportamiento del estadgrafo Ji
cuadrado en el muestreo, as como el de una variable aleatoria X2 es modelado por una distribucin
continua de probabilidades, denominada distribucin Ji cuadrado.
Las pruebas de hiptesis Ji cuadrado son aplicables a variadas situaciones problemticas, Los
cuatro tipos de pruebas Ji cuadrado que se abordarn, en correspondencia a las preguntas que llevarn
a su empleo, son los siguientes:
1) Prueba para una varianza: una varianza poblacional es igual a otra de valor conocido?
2) Prueba de bondad de ajuste: una distribucin de frecuencias empricas es significativamente
diferente de la distribucin esperada?
3) Prueba de independencia: la clasificacin de acuerdo a un atributo es independiente de la
clasificacin con respecto a otro?
4) Prueba de homogeneidad: se puede considerar que un grupo de k muestras procede de una
misma poblacin?
PRUEBAS NO PARAMTRICAS
Prueba para
una distribucin
de frecuencias
emprica
(1 variable)
Prueba para
una varianza
Prueba de
bondad de
ajuste
Prueba de
independencia
Prueba de
homogeneidad
196
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2015
x 21 e
x
2
; 0 2
2
2
2
0, en cualquier otro caso
Donde:
es la funcin gamma y
La funcin f(x2; ) es 0.
Por ser una funcin de densidad, el rea bajo una curva Ji cuadrado y sobre el eje horizontal tiene
un valor unitario.
Adems, como se muestra grficamente, la
f(x2;
f ()2 )
funcin de densidad de probabilidad de una
variable aleatoria Ji cuadrado, 2 , es:
a) unimodal,
b) marcadamente
asimtrica
con
sesgo
positivo, es decir con cola a la derecha, cuando
el nmero de grados de libertad es muy
pequeo. Conforme aumentan los grados de
libertad, se hace menos sesgada y para 20
grados de libertad resulta bastante simtrica. A
x2
partir de Para 30, la distribucin se
considera aproximadamente normal.
Familia de distribuciones Ji cuadrado,
2)
3)
197
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
Objetivo
Interesa determinar si una varianza
poblacional es igual a otra conocida.
Hiptesis
a)
P.
unilateral
derecha(izquierda)
por
H 0 : 2 = 02
H 1 : 2 > o2 (o bien H 1 : 2 < o2 )
b) P. bilateral
H 0 : 2 = 02
Caso a: Interesa determinar si los datos
disponibles de una muestra aleatoria
univariada de tamao n provienen de una
poblacin que tiene una distribucin de
probabilidad conocida.
H 1 : 2 o2
a) Distribucin binomial
H 0 : B x;c,
P. de bondad de ajuste
H 0 : N x; , 2
H 0 : 1 : 2 : ... : k
Por ejemplo:
H0 :
9 3 3 1
: : :
16 16 16 16
H 1 : las k probabilidades
interrelacionan de otra manera
P. de independencia
P. de homogeneidad
se
Interesa
determinar
si
los
datos
correspondientes a dos o ms muestras
aleatorias, clasificadas segn dos variables,
se distribuyen probabilsticamente de la
misma manera.
un (i,j)
H 1 : al menos un ij diferente
198
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
Al realizar una prueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
estadgrafo diferencia de medias, tiene en el muestreo repetitivo una distribucin probabilstica que es
conocida. Esto no ocurre en el caso de la varianza.
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media
n
, se conoce que la varianza muestral, s2, calculada como xi x / n-1, puede ser
i =1
varianza
(n 1) s 2
, donde n es el
2
es la varianza muestral y 2 es la varianza hipottica de la
El estadgrafo definido, tiene una distribucin muestral que sigue la distribucin Ji cuadrado con n-1
n
grados de libertad,, por lo que se lo denomina estadgrafo
estadgrafo Ji cuadrado,
Estadgrafo Ji cuadrado
para la prueba de hiptesis
de la varianza
(
n 1) s 2
=
, donde
2 .
2 se
aleatoria X2
Los valores crticos para el estadgrafo Ji cuadrado, c , se obtienen en la Tabla de la funcin F(x2; ),
ingresando por filas con los grados de libertad ( = n-1) y,, por columnas con la probabilidad 1- siendo
= P 2 > c2
).
Es importante advertir acerca de que este tipo de prueba de hiptesis presupone que los datos de la
poblacin se distribuyen de forma normal. Lamentablemente, esta prueba es sensible a desvi
desviaciones
aciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
de tamao pequeo, la exactitud de la prueba puede resultar seriamente afectada.
b)
Pruebas con
on datos de frecuencias
En pruebas de hiptesis
hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
prueba Ji cuadrado,
(n i n i )2
=
n i
i =1
siendo i= 1, 2, ,k.
numerador de un cociente.
199
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2015
Estadgrafo Ji cuadrado
para pruebas de hiptesis
con datos de frecuencias de
una muestra
(n i n i )2
, donde
n i
2 =
i =1
aleatoria X2
jc (x2; )
Los valores crticos para el estadgrafo Ji cuadrado, c , se obtienen como en el caso anterior de la
Tabla de la funcin F(x2; ), ingresando por filas con los grados de libertad ( ) y, por columnas con la
probabilidad 1- siendo
es la siguiente:
=kp1;
= P 2 > c2
En el cuadro 12.2. se presenta un resumen para cada caso en particular en el Cuadro 12.2. Anlisis
comparativo para el clculo de los grados de libertad en las Pruebas de Ji cuadrado.
Prueba de
la varianza
Prueba de
bondad de ajuste
= k p 1 = k-0-1= k-1
b) parmetro desconocido
= k p 1 = k-1-1= k-2
=n1
= k p 1 = k-0-1= k-1
b) parmetro desconocido
= k p 1 = k-1-1= k-2
= (r-1)(c-1)
r: n de filas
c: n de columnas
= (r-1)(c-1)
r: n de filas
c: n de columnas
= k p 1 = k-0-1= k-1
= k p 1 = k-1-1= k-2
= k p 1 = k-2-1= k-3
200
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
(n 1) 2
E s2 =
,
n
[ ]
sea que el valor esperado de la varianza muestral no coincide con el valor deseado que es la varianza
poblacional, E[s2] 2 , adems tiene asimetra positiva, y depende del tamao muestral. Pero resulta
_ 2
X X
i
n
2
2
i =1
=
tiene una distribucin conocida, que es tipo Ji cuadrado con = n-1, esto es (
n 1 )
( n 1 ) S 2
que est tabulada para varios valores de reas en las colas asimtricas de la distribucin.
Las pruebas de hiptesis para la varianza poblacional, pueden responder a alguno de los tres siguientes
casos
Caso 1: Prueba de dos colas
201
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
1-
xc 2
0
2
x2
2
Valores de c que
determinan la
aceptacin de la H0
Valores de c que
determinan el
rechazo de la H0
c2 = 2 ,
= 36, 415. Luego si resultara m < c , es decir, m < 36,415 , se deber aceptar la Ho, en tanto que
2
valor crtico, 31,92 <36,415.. La decisin estadstica es: no corresponde rechazar la H0, para un = 0,05
. Luego, en trminos del problema se concluye que: no hay evidencia emprica de que haya aumentado
la variabilidad del proceso por encima de 15 gramos, para el nivel de significancia fijado.
Ejemplo 12.2.. Este ejemplo se utilizar para ilustrar un caso de prueba de hiptesis bilateral para la
varianza. En una agroindustria, el contenido de azcar del almbar de los duraznos enlatados se
distribuye normalmente, y se por datos histricos se considera que la varianza es 2 = 18 mg2. Se ha
tomado una muestra de 10 latas obtenindose una desviacin tpica de 4,8
8 mg. Muestran estos datos
suficiente evidencia para decir que la varianza ha cambiado?. Use = 0.05 y responda teniendo en
cuenta el p-valor.
Solucin:: segn la informacin dada, las hiptesis de inters son
Hc: la varianza de lo producido tiene
tiene un valor numrico diferente al valor histrico.
H 0 : 2 = 02 ; donde 02 = 23,0 mg 2
H 1 : 2 02
La regla de decisin es la siguiente:
siguiente
reas de probabilidad
2
f(x )
1-
0
x2
202
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2015
m2
<2.7 si
m2
m2
2
(
n 1) s 2
=
que se distribuye
2
como una ji(x ;
Solucin: a partir de los datos muestrales se obtiene una estimacin puntual de la varianza. Para esto,
primeramente se calculan los estadgrafos media y varianza:
203
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2015
(0,025;9)
= 2,70
(0,975;9)
= 19,03
2
Distribucin de probabilidad X
jc(x ;
12.7.2.
2. Pruebas de hiptesis para datos de frecuencias
Segn se ha anticipado en la clasificacin de las pruebas de hiptesis de Ji cuadrado, en general
puede decirse que hay dos situaciones de problemas relacionados con datos de frecuencia:
a)
Prueba de hiptesis
is para la bondad de ajuste: la situacin problema se refiere a que se tiene una
distribucin de frecuencias empricas (ni) para una muestra aleatoria univariada, y se ha procedido a
ajustar un modelo probabilstico que se elige pensando que explica el com
comportamiento
portamiento de la variable
de inters en la poblacin, obtenindose una distribucin de frecuencias tericas calculadas como:
Prueba de hiptesis para tablas de contingencia: las tablas de contingencia muestran datos
empricos de frecuencia (frecuencias observadas), referidos a la clasificacin de acuerdo a atributos
atributo
(variables medidas en escala nominal),
nominal , o bien a categoras (clases
clases derivadas de la medicin en
escala ordinal), o de variables cuantitativas originalmente transformadas en variables cualitativas
como sera medir rendimientos
dimientos parcelarios en kg/ha y posteriormente dar los resultados como
categoras: rendimiento alto, normal y bajo. Los datos de estas tablas de contingencia dan lugar a
dos tipos de anlisis, segn sea la situacin problema.
b.1. Prueba de independencia:
independencia se parte de una distribucin conjunta de frecuencias empricas (nij),
obtenida a partir de una muestra aleatoria
aleatori de tamao n,, en la que cada unidad de anlisis se
clasifica de acuerdo a dos criterios. Esto lleva a un tipo de anlisis estadstico para probar
bar que la
clasificacin de las unidades de anlisis segn las categoras o clases de una de las variables, es
independiente de la clasificacin segn la otra variable;
variable; probabilsticamente para cada celda ij:
n ij =
(n j ) x (ni )
n
b.2. Prueba de homogeneidad: se dispone de datos de frecuencias empricas para una variable de
carcter cualitativo, medida en r muestras aleatorias de tamao fijo n para cada caso, que se
consideran proceden de una misma poblacin. En este caso interesa conocer si los datos
muestrales aportan evidencia suficiente para comprobar que las r muestras aleatorias clasifican en
las j categoras (j conjuntos disyuntos) de forma homognea, lo que permite inferir para las sendas
poblaciones que las mismas son homogneas entre s, y por tanto concluir estadsticamente que las
muestras proceden de una misma poblacin. La tabla de contingencia en este caso presenta el
siguiente aspecto:
Muestra
1
A1
n11
A2
n11
n21
n22
nk1
nk2
r
Total
columna
nk1
nk2
n.1
n.2
Atributo A
Aj
n1j
Ak
n1k
n2j
n2k
nij
njk
nrj
n.j
Total fila
n1.
n2.
ni.
nrk
nr.
n.k
n..
La hiptesis de que las r poblaciones son homogneas, se traduce en que cada conjunto
o categora Aj debe tener una probabilidad terica desconocida, que no vara de
poblacin a poblacin (las categoras son homogneas en las r poblaciones). El
estadgrafo de prueba, se calcula en forma anloga a una prueba de bondad de ajuste,
esto es, para cada una de las muestras se compara la frecuencia observada en cada
categora, con la correspondiente esperada. La frecuencia esperada de que en la muestra
i se den observaciones para la categora j , bajo el supuesto de homogeneidad, se
expresa como
es decir, el nmero de individuos que tiene la muestra i por la probabilidad de que ocurra
la caracterstica j en la poblacin:
nij = ni .
(n j )
n
205
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
4) Por ltimo, se calcularon las diferencias ni ni , y se estableci si sus magnitudes indicaban una
discrepancia grande o pequea entre lo observado y lo modelado, como para sospechar que la muestra,
respectivamente, no provena de la poblacin supuesta (mal ajustamiento) o s (buen ajustamiento).
Mediante la prueba Ji cuadrado para bondad de ajuste, se dispondr de una herramienta que
permitir justificar en trminos probabilsticos, la decisin de considerar que el modelo fue adecuado
para explicar el comportamiento de los datos muestrales, o en otras palabras si el modelo se ajusta a lo
observado (ajustamiento bueno), o bien si no result un modelo apropiado y lo observado requiere otro
modelo explicativo (ajustamiento malo).
En pruebas de bondad de ajuste existen dos casos posibles con relacin al modelo probabilstico
1
6
1
H1: P ( X = xi )
6
Ho:
P ( X = xi ) =
para i =1 , 2 , ... , 6
para al menos un i
Regla de decisin:
(ni n i )2
=
n i
i =1
X2 (x2; ) , donde
= k 1 = 6-1 =5
(21 ) ; = 11,07
206
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
1
2
3
4
5
6
18
21
25
13
23
17
Frecuencia
terica
n i = P( X = x i ) n
=(1/6)120
20,00
20,00
20,00
20,00
20,00
20,00
120
120,00
N de
ocurrencias
Puntaje
ni
donde
m2 =
( ni n i )
( ni ni )
-2,00
0,00
7,00
-5,00
3,00
-3,00
ni
0,20
0,00
2,45
1,25
0,45
0,45
0,00
m 2 = 4,80
(18 20,00)2 + (21 20,00)2 + (25 20,00)2 + (13 20,00)2 + (23 20,00)2 + (17 20,00)2
20,00
20,00
20,00
20,00
20,00
20,00
Conclusiones:
2
2
a) Conclusin estadstica: dado que m < (1 ) ; , esto es el valor muestral de Ji cuadrado es menor
al valor que indica la distribucin de probabilidades Ji cuadrado (4,80 < 11,07), o sea que pertenece
0
39
1
21
2
18
3
9
4
5
5
4
6
3
7
1
Hc: el nmero de pulgones verdes por hoja, sigue una distribucin de Poisson
H 0 : p (x; ) ;
(ni n i )2
n i
i =1
m =
2
X2 (x2; ) , donde
e x
; donde = n.p pero p, la
x!
x i ni
=x=
= 1,49
n
= k s 1
Recordar que
, y en este caso s = 1 , se pierde un grado de libertad al estimar a . Estos grados de libertad
luego sern corregidos por agrupamiento de clases
207
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
N de
hojas
0
1
2
3
4
5
6
7
39
21
18
9
5
4
3
1
100
ni
13
Probabilidad
e x
p ( xi ) =
x!
0,225
0,336
0,250
0,124
0,046
0,014
0,003
0,001
Frecuencia terica
1,000
100,00
n i = p ( xi ) n
( ni ni )
22,54
33,58
25,02
12,43
4,63
1,38
0,34
0,08
16,46
-12,58
-7,02
-8,43
12,020
4,713
1,970
0,946
6,57
6,713
6,43
( ni n i )
ni
0,00
m2 =
26,362
donde las clases cuyas frecuencias esperadas han sido menores a 5 en correspondencia a la cola
superior de la distribucin, esto es n i para xi = 5,6,7, se han agrupado hasta cumplir con el requisito
n i 5 obtenindose un valor grupal de 6,43. Lo propio se ha hecho luego con las respectivas ni dando
13. Esto lleva a recalcular los grados de libertad iniciales, =n-k=7-2=5 , resultando como =n-k=5 -2 =3.
Puesto que estas clases se encuentran en las secciones del extremo inferior y del superior de la
distribucin, se tienen que combinar con categoras adyacentes respectivas para el propsito de realizar
el anlisis. Luego el valor crtico del estadgrafo de prueba resulta igual a
es
decir que los valores que determinarn el rechazo de la H0, al nivel =0,05 , pertenecen al intervalo
[7,82; +]
Conclusiones:
a)
b)
m2
>
(21 ) ; ,
mayor al valor que indica la distribucin de probabilidades Ji cuadrado (26,36 > 7,82), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula, al nivel de significancia de 0,05.
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, resulta que los
datos sobre el nmero de pulgones/hoja no siguen una distribucin Poisson con tasa media igual a
1,49.
= k -1
conocido
= k s 1
desconocido (se estima a travs de la muestra) = k - 2
Caso 4. Distribucin normal
Situacin problema: de la base del censo provincial del arbolado pblico viario o arbolado de calle, se
conoce para la variable circunferencia de tronco de los pltanos lo siguiente; es igual a
190,85 34,54 en cm. Para una ciudad donde todava no se ha llevado a cabo este censo, se ha
extrado una muestra aleatoria de n=228 pltanos. Interesa modelar la distribucin terica de la variable
aleatoria circunferencia de tronco, suponiendo que la muestra procede de la poblacin conocida X
n ( x;190,85, 34,54) . Pruebe la bondad del ajuste para un (=0,05).
Hiptesis:
Hc: la circunferencia de tronco de los pltanos de la ciudad considerada, se distribuye normalmente
H0 :
(ni n i )2
n i
i =1
m =
2
X2 (x2; ) , donde
En este caso los dos parmetros de la distribucin normal, y , son conocidos por tanto s=0. Pero
habr que ver si resulta necesario agrupar clases para determinar la necesidad de corregir los grados de
libertad.
Clculo del estadgrafo de prueba
Se observar que en este caso ha resultado necesario agrupar clases en ambos extremos de la
distribucin, con lo cual se tienen que recalcular los grados de libertad iniciales
como
= k 1 = 13-1 =12
De
los valores que determinarn el rechazo de la H0, al nivel =0,05 , pertenecen al intervalo [14,07; +]
Datos de circunferencia de tronco de pltanos del arbolado viario para una ciudad.
Intervalos
de clase
Punto
medio
xi
Probabilidad
del intervalo
Frecuencia
absoluta
ni
Frecuencia terica
( ni n i )
n i = ( prob int)n
( ni ni )
1,0002
3,7047 16,4947
11,7898
-0,4947
0,015
ni
Menos de 100
100 < 120
120 < 140
110
130
0,00430
0,01590
0,05060
2
5
9
150
0,11590
15
22,0047
-7,0047
170
190
210
230
250
270
290
310
-
0,19160
0,22430
0,19690
0,12270
0,05500
0,01790
0,00411
0,00070
0,00009
40
59
37
21
16
10
7
6
1
44,6428
52,2619
45,8777
28,5891
12,8150
4,1707
0,9580
0,1631
0,0210
-4,6428
6,7381
-8,8777
-7,5891
3,1850
2,230
0,483
0,869
1,718
2,015
0,792
18,6872
65,730
1,00000
0,0013
m 2 = 73,850
16
24
228
5,3128
227,9987
Conclusiones:
a)
b)
m2
>
(21 ) ; ,
mayor al valor que indica la distribucin de probabilidades Ji cuadrado (73,85 > 14,07), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, la muestra no
aporta suficiente evidencia a favor de H0. No puede decirse que los datos sobre la circunferencia
no siguen la distribucin normal propuesta al nivel de significancia de 0,05. Es importante destacar
que ha existido una gran discrepancia entre lo observado y lo terico en la cola superior de la
distribucin, la muestra presenta considerablemente mayor nmero de rboles con circunferencia
grande que lo que puede esperarse en una muestra extrada de la poblacin censal.
209
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
Color
AaLl x AaLl
lisa
Granos arveja
amarillos y lisos
Granos de arveja
amarillos y
rugosos
Granos de arveja
verdes y lisos
Granos de arveja
verdes y rugosos
Proporciones mendelianas
rugosa
9/16
3/16
3/16
1/16
16
H1 : al menos una
16
16
Regla de decisin:
(ni n i )2
2
n
i =1
Notar que en este caso los valores de probabilidad estn especificados por el modelo, de modo que para
el clculo de los grados de libertad, s=0.
k
m =
2
9
3
3
1
n ; n ; n ; n donde n=
16 16 16 16
9
596 = 312,75 . El ajustamiento de acuerdo a la ley mendeliana
16
(ni n i )2
Fenotipo
ni
n i
Amarilla-Lisa
315
312,75
2,25
5,0625
0,0162
Amarilla-rugosa
101
104.25
-3,25
10,5625
0,1013
verde-lisa
108
104.25
3,75
10,5625
0,1349
Verde-rugosa
32
34.75
-2,75
7,5625
0,2176
Total
556
556,00
0,00
------
m 2 = 0,47
( ni n i )
( ni ni )
n i
Conclusiones:
a) Conclusin estadstica: dado que
m2
<
Filas
Columnas
... c
Total
marginal
de fila
n1c
n1
n2 j
n2c
n 2
ni 2
n ij
n r1
nn2
...
n1
n2
n j
n11
n12
n1 j
n 21
n 22
ni1
i
r
Total
marginal
de
columna
...
Frecuencias
tericas
n ij =
(n j ) x (ni )
n
ni
n rc
n n
n k
En forma abreviada a una tabla de contingencia con r filas y c columnas se le conoce como tabla r x c
(se lee r por c).
Bajo
Medio
Alto
A favor
182
213
203
598
En contra
154
138
110
402
Total
336
351
313
1000
Total
Notar que al tomar solo una muestra aleatoria los totales marginales de filas y columnas son aleatorios
211
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
Explotacin
minera
Total
Sin
Con
35
125
160
37
63
100
25
35
60
97
223
320
Total
Hiptesis:
Hc: para cada mina las proporciones de registros sanitarios, sin y con patologas asociadas a la
contaminacin ambiental, son las mismas.
H 0 : 11 = 21 = 31 ; 21 = 22 = 32 ;
donde
i = 1,2 ,3
j = 1,2
m =
2
i =1
nij nij
nij
i =1
X2 (x2; ) , donde = ( r 1 ) ( c 1 ) = ( 3 1 )( 2 1 ) = 2 ;
(21 ) ; = 5,99
El nmero de grados de libertad asociado a este tipo de prueba est dado por el nmero de frecuencias
de celdas que pueden llenarse libremente cuando se dan los totales marginales y el total general.
Clculo del estadgrafo de prueba
Al suponer homogeneidad tambin los datos se ordenan en una tabla de contingencia, por tanto
las frecuencias esperadas de cada celda nuevamente pueden obtenerse multiplicando las frecuencias
marginales de la fila y la columna de la celda en cuestin, y dividiendo por el total general (n1 + n2 = n).
Pero en este caso al tratarse de una tabla 2x2 basta calcular la frecuencia terica para la celda (1,1).
que las restantes se obtienen por diferencia, esto es: n12 = n1 . - n11 ; n 21 = n.1 - n11 ; n 22 = n.. - n11 .
Tabla de contingencia 2 x 2 con frecuencias observadas y calculadas; n1=160 , n2 = 100 y n3 = 60.
Patologas
Explotacin
minera
Total
Sin
Con
35 (48,500)
125(111,500)
160
37(30,313)
63(69,688)
100
25 818,188)
35(41,813)
60
97
223
320
Total
212
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
m =
111,500
... +
(35 41,813)2
41,813
= 11,171
Conclusiones:
a)
b)
m2
>
(21 ) ; ,
mayor al valor que indica la distribucin de probabilidades Ji cuadrado (11,171 > 5,99), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, no hay
evidencia para concluir que la proporcin de trabajadores con patologa y sin patologa difiere entre
las explotaciones mineras al nivel de significancia de 0,05.
( ni ni
0,5)
ni
Por ltimo si se tuvieran frecuencias esperadas menores a 5, se debera aplicar la prueba exacta
de Fisher-Irwin.
213
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015