Está en la página 1de 19

UNIDAD III: INFERENCIA ESTADSTICA

TEMA

PRUEBA DE HIPTESIS JI CUADRADO


12.1. INTRODUCCIN
12.2. PRUEBAS PARAMTRICAS VERSUS PRUEBAS NO PARAMTRICAS
12.3. EXPERIMENTOS MULTINOMIALES
12.4. DISTRIBUCIN DE PROBABILIDAD JI CUADRADO
12.4. CLASIFICACIN DE LAS PRUEBAS JI CUADRADO
12.5. ESTADGRAFO JI CUADRADO
12.6. EJEMPLOS DE APLICACIN DE LAS PRUEBAS JI CUADRADO

12.1. INTRODUCCIN
Este captulo est destinado a presentar un grupo de pruebas estadsticas, que tienen como
denominador comn la utilizacin de un estadgrafo de prueba denominado Ji cuadrado, simbolizado por
tradicin con la letra griega Ji elevada al cuadrado, esto es 2 . En el muestreo repetitivo, el
estadgrafo 2 se comporta como una variable aleatoria denominada Ji cuadrado, que por consistencia
con lo indicado para variables aleatorias se simbolizar como X2. El comportamiento del estadgrafo Ji
cuadrado en el muestreo, as como el de una variable aleatoria X2 es modelado por una distribucin
continua de probabilidades, denominada distribucin Ji cuadrado.
Las pruebas de hiptesis Ji cuadrado son aplicables a variadas situaciones problemticas, Los
cuatro tipos de pruebas Ji cuadrado que se abordarn, en correspondencia a las preguntas que llevarn
a su empleo, son los siguientes:
1) Prueba para una varianza: una varianza poblacional es igual a otra de valor conocido?
2) Prueba de bondad de ajuste: una distribucin de frecuencias empricas es significativamente
diferente de la distribucin esperada?
3) Prueba de independencia: la clasificacin de acuerdo a un atributo es independiente de la
clasificacin con respecto a otro?
4) Prueba de homogeneidad: se puede considerar que un grupo de k muestras procede de una
misma poblacin?

12.2. PRUEBAS NO PARAMTRICAS VERSUS PRUEBAS PARAMTRICAS


Hasta ahora se han aplicado pruebas de hiptesis utilizando los estadgrafos de prueba z y t,
En tales casos, las pruebas han coincidido en las siguientes caractersticas:
a) se ha requerido suponer que las muestras eran aleatorias.
b) se ha tenido datos empricos de variables medidas en una escala de intervalo o de razones
(cuando se trat de una variable cualitativa dicotmica, se usaron proporciones).
c) se han postulado hiptesis referidas a parmetros: , 1- 2, y 1 y 2.
d) se ha establecido el cumplimiento de supuestos con relacin a las distribuciones de las
poblaciones originales de donde se han extrado las muestras (normales o estudentizadas).
e) a la hora de definir la regla de decisin se presupuso una distribucin terica subyacente para
explicar el comportamiento del estadgrafo de prueba en el muestreo repetitivo que fueron: la
distribucin normal y la distribucin T de Student.
En captulos siguientes se vern otras aplicaciones de la prueba T de Student y de una nueva prueba
llamada F de Fisher. Todas ellas pertenecen al grupo de la pruebas paramtricas, que en el campo de
las ciencias empricas son las ms utilizadas.
Existe por otra parte, el grupo de las denominadas pruebas no paramtricas, que se diferencian
de las anteriores en lo siguiente:
a) no necesitan cumplimentar supuestos exigentes sobre las poblaciones de las que se extraen las
muestras
b) adems de lo visto para el caso paramtrico, se pueden aplicar a variables cualitativas
c) las hiptesis no se plantean en relacin directa a parmetros
Las pruebas de Ji cuadrado indicadas en la introduccin pertenecen a ambos grupos; al paramtrico en
el caso de la varianza, y al no paramtrico en el caso restante, que comprende pruebas referidas a un
195
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


modelo probabilstico
stico (Bondad de ajuste) y pruebas referidas a tablas de contingencia (independencia y
homogeneidad).

Pruebas de hiptesis de Ji cuadrado


PRUEBA
PARAMTRICA

PRUEBAS NO PARAMTRICAS

Prueba para
una distribucin
de frecuencias
emprica
(1 variable)

Prueba para
una varianza

Prueba de
bondad de
ajuste

Pruebas para tablas de


contingencia (2 variables)

Prueba de
independencia

Prueba de
homogeneidad

12.3. EXPERIMENTOS MULTINOMIALES


Al presentar la distribucin binomial, se defini el experimento binomial y se analizaron recuentos
asociados a variables dicotmicas, con aplicaciones a casos como los siguientes: a) bi
bioensayo para
investigar la accin de un insecticida en grupos de 50 pulgones (insecto vivo
vivo-insecto
insecto muerto), b)
relevamiento a campo para evaluar el desarrollo de plantas par
parsitas sobre una especie nativa de
inters en 80 cuadrculas (con
con parasitismo-sin
parasitismo sin parasitismo) y c) medicin de la calidad de un proceso
industrial a travs de muestreos con recuento del nmero de unidades defectuosas. De modo anlogo
anlo
se dan muchas situaciones donde el inters est puesto en clasificar las unidades de anlisis en k
categoras, por ejemplo: se ha elaborado un producto con cuatro formulaciones diferentes y se realiza un
ensayo de evaluacin sensorial con consumidores, quienes deben elegir cual es la formulacin
preferida, en poca de elecciones se realiza
za una encuesta a 1000 personas que deben indicar el partido
al que pertenece el candidato que van a votar para gobernador, o se clasifican los alumnos de una
muestra segn
gn el tipo de estudio con que ingresaron a la universidad y la condicin lograda al finalizar el
primer ao en matemtica (aprobado, regular, libre)..Los
libre). Los ejemplos d
dados tienen, con cierta
aproximacin, las caractersticas que definen a un experimento mult
multinomial.
Def. 12.1. Un experimento multinomial es aqul que:
a) consta de n pruebas idnticas,
b) el resultado de cada prueba se localiza en una de las k categoras,
c) la probabilidad pi de que un resultado de una prueba se localice en la ii-sima
sima categora, es
constante
onstante de una prueba a otra.
Ntese lo siguiente: p1 + p2 + p3 + + pk = 1, siendo i = 1, 2, 3, , k.
d) las pruebas son independientes.
e) interesan las frecuencias n1, n2, n3, , nk, donde ni (i=1, 2, , k) es igual al nmero de pruebas en
las cuales el resultado se clasifica en la i-sima
i
categora.
Ntese que n1 + n2 + n3 + + nk = n.
Ntese la similitud entre los experimentos
experimentos binomial y multinomial. E
En
n particular, el experimento
binomial representa el caso especial del experimento multinomial donde k=2. Mientras que las
as dos
probabilidades, p y q, del experimento binomial estn representadas por las k probabilidades (p1, p2,,
pk), asociadas a las k categoras derivadas de un experimento multinomial.
Otra concepcin prctica para comprender de modo general
general a los experimentos multinomiales,
multinomiales
es hacer una analoga con un experimento de lanzamiento de n bolas donde se dispone de k cajas, de
modo que toda pelota lanzada caer en alguna de las k cajas. El experimento se repite n veces (n
tiradas) tal que la probabilidad de que una pelota caiga en una caja vara de una caja a otra, pero
permanece constante a lo largo del experimento para cada caja en particular, adems los lanzamientos
se hacen en forma independiente. En tal caso al finalizar
finalizar el experimento, resultarn n1 pelotas en la
primera caja, n2 en la segunda, , y nk en la k-sima caja,, donde e
ell nmero total de pelotas es igual a
ni = n , siendo i=1, 2, ,n.

196
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

12.4. DISTRIBUCIN DE PROBABILIDAD JI CUADRADO


Si se recuerda, al presentar el captulo destinado a las distribuciones continuas de probabilidad,
se estableci que la distribucin Ji cuadrado pertenece a tal grupo de distribuciones probabilsticas.
En trminos generales su funcin de densidad f(x; ) se deriva como un caso muy especial de la

, y est totalmente definida por un nico parmetro,

distribucin continua de probabilidades gamma,


que son los grados de libertad, .

Def. 12.2. Funcin de densidad de probabilidad para la distribucin Ji cuadrado

x 21 e

x
2

; 0 2
2
2
2
0, en cualquier otro caso

Donde:

es la funcin gamma y

los grados de libertad

La distribucin Ji cuadrado es fundamental en inferencia estadstica, ya que modela la distribucin de la


variable aleatoria suma de los cuadrados de n variables independientes, lo que permite su utilizacin
en las pruebas de hiptesis que se tratarn en este captulo. Por tal razn, en este contexto se utilizar
la expresin f(x2; ), en lugar de la ms general f(x; ).
Es importante notar que, al igual que lo visto en el caso de la variable T de Student, en realidad
se trata de una familia de distribuciones Ji cuadrado: existe una distribucin Ji cuadrado distinta para
cada nmero de grados de libertad, , por tanto existen infinitas distribuciones posibles. Pero, a
diferencia de la funcin estudentizada que como la normal tipificada, siempre es simtrica con respecto
a su centrado en t = 0 , la distribucin Ji cuadrado es asimtrica positiva.
Propiedades de la funcin de densidad Ji cuadrado:
1)

La variable no toma valores negativos, su campo de variacin ( R x 2 ) es igual a 0 2 .

La funcin f(x2; ) es 0.
Por ser una funcin de densidad, el rea bajo una curva Ji cuadrado y sobre el eje horizontal tiene
un valor unitario.
Adems, como se muestra grficamente, la
f(x2;
f ()2 )
funcin de densidad de probabilidad de una
variable aleatoria Ji cuadrado, 2 , es:
a) unimodal,
b) marcadamente
asimtrica
con
sesgo
positivo, es decir con cola a la derecha, cuando
el nmero de grados de libertad es muy
pequeo. Conforme aumentan los grados de
libertad, se hace menos sesgada y para 20
grados de libertad resulta bastante simtrica. A
x2
partir de Para 30, la distribucin se
considera aproximadamente normal.
Familia de distribuciones Ji cuadrado,

2)
3)

2 ~ jc (x2; ), para 1,4,10 y 20 grados


de libertad

Tabla de la funcin de distribucin de probabilidad acumulada para una variable Ji cuadrado:


Los valores las reas de probabilidad acumulada desde 2 = 0, hasta los percentiles x2 ms
utilizados en las pruebas de hiptesis se encuentran tabulados (Ver Tabla correspondiente en Anexo).
Mediante la Tabla de la funcin de distribucin acumulada, F(x2; ), se pueden resolver
problemas del tipo siguiente: cul es la probabilidad de encontrar valores mayores a cierto x2i?; Qu
proporcin del rea de probabilidad se encuentra a la izquierda de cierto x2i?; Qu valor de la variable
X2 es superado solamente por el 10% de los datos posibles?.

197
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

12.5. CLASIFICACIN DE LAS PRUEBAS DE HIPTESIS JI CUADRADO


Hasta ahora se han resuelto problemas de inferencia estadstica referidos a medias
poblacionales y proporciones. Como se anticipara, las pruebas de Ji cuadrado consideradas en este
captulo, sern de tipo paramtrico para la varianza poblacional y, de tipo no paramtrico con tres tipos
de objetivos diferentes para situaciones en las que se tienen disponibles datos de frecuencias. A partir
de estos dos tipos de pruebas Ji cuadrado se formularn, correspondientemente, hiptesis en trminos
de un parmetro, especficamente 2, y otro tipo de hiptesis con un formato diferente como son las
siguientes: H 0 : 2 N (x; , 2 ) , o bien H 0 : ij = i j . Ver el Cuadro 12.1. Anlisis comparativo de
las Pruebas de Ji cuadrado.
Cuadro 12.1. Anlisis comparativo de las Pruebas de Ji cuadrado.
Prueba de hiptesis

Objetivo
Interesa determinar si una varianza
poblacional es igual a otra conocida.

Hiptesis
a)
P.
unilateral
derecha(izquierda)

por

H 0 : 2 = 02
H 1 : 2 > o2 (o bien H 1 : 2 < o2 )
b) P. bilateral

P. para una varianza

H 0 : 2 = 02
Caso a: Interesa determinar si los datos
disponibles de una muestra aleatoria
univariada de tamao n provienen de una
poblacin que tiene una distribucin de
probabilidad conocida.

H 1 : 2 o2
a) Distribucin binomial
H 0 : B x;c,

H1 : sigue otra distribucin


b) Distribucin Poisson
H 0 : P x;

H1 : sigue otra distribucin


c) Distribucin normal

P. de bondad de ajuste

H 0 : N x; , 2

H1 : sigue otra distribucin


Caso b: Interesa determinar si los datos
disponibles de una muestra aleatoria
univariada de tamao n provienen de una
poblacin que tiene una distribucin de
probabilidad especfica

H 0 : 1 : 2 : ... : k
Por ejemplo:

H0 :

9 3 3 1
: : :
16 16 16 16

H 1 : las k probabilidades
interrelacionan de otra manera
P. de independencia

P. de homogeneidad

se

Interesa determinar para una muestra


aleatoria bivariada, de tamao n, si la
clasificacin segn una de las variables es
independiente de la clasificacin segn la otra
variable.

H 0 : ij = i j ; para todo (i,j)


H 1 : ij i j para al menos

Interesa
determinar
si
los
datos
correspondientes a dos o ms muestras
aleatorias, clasificadas segn dos variables,
se distribuyen probabilsticamente de la
misma manera.

H 0 : 1 j = 2 j = ... = rj ; para todo j

un (i,j)

H 1 : al menos un ij diferente

198
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

12.6. ESTADGRAFO JI CUADRADO


En los anlisis
sis inferenciales a considerar, surgirn dos formas posibles para el estadgrafo Ji Cuadrado,
que se denotar como 2 , de acuerdo al tipo de prueba.
a)

Prueba para la varianza

Al realizar una prueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
estadgrafo diferencia de medias, tiene en el muestreo repetitivo una distribucin probabilstica que es
conocida. Esto no ocurre en el caso de la varianza.
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media
n

, se conoce que la varianza muestral, s2, calculada como xi x / n-1, puede ser

i =1

varianza

utilizada como estimador de la varianza poblacional

. Pero para poder sustentar probabilsticamente

inferencias (estimaciones intervalares y pruebas de hiptesis) relacionadas con


, se requiere conocer
la distribucin del estadgrafo en el muestreo repetitivo, y resul
resulta que la s2 sigue una distribucin de
probabilidad con una media igual a 2 , pero su forma es asimtrica y depende del tamao muestral.
Afortunadamente existe un modo de simplificar el problema, que consiste en tipificar el valor de la
varianza muestral a travs de una transformacin (recordar que para la media muestral, la
transformacin z permiti utilizar las tablas de la normal). La transformacin es
tamao de una muestra aleatoria, s 2
poblacin.

(n 1) s 2

, donde n es el
2
es la varianza muestral y 2 es la varianza hipottica de la

El estadgrafo definido, tiene una distribucin muestral que sigue la distribucin Ji cuadrado con n-1
n
grados de libertad,, por lo que se lo denomina estadgrafo
estadgrafo Ji cuadrado,

Estadgrafo Ji cuadrado
para la prueba de hiptesis
de la varianza

(
n 1) s 2
=

, donde

2 .

2 se

aleatoria X2

comporta como una variable


jc (x2; )

Los valores crticos para el estadgrafo Ji cuadrado, c , se obtienen en la Tabla de la funcin F(x2; ),
ingresando por filas con los grados de libertad ( = n-1) y,, por columnas con la probabilidad 1- siendo

= P 2 > c2

).

Es importante advertir acerca de que este tipo de prueba de hiptesis presupone que los datos de la
poblacin se distribuyen de forma normal. Lamentablemente, esta prueba es sensible a desvi
desviaciones
aciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
de tamao pequeo, la exactitud de la prueba puede resultar seriamente afectada.
b)

Pruebas con
on datos de frecuencias

En pruebas de hiptesis
hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
prueba Ji cuadrado,

c2 , responde a la siguiente frmula:

(n i n i )2
=

n i
i =1

siendo i= 1, 2, ,k.

El valor muestral de 2 es igual a la suma de k cocientes con


numerador el cuadrado de la di
diferencia entre la i-sima frecuencia
observada y su correspondiente frecuencia terica o esperada, y con
denominador igual a esta ltima frecuencia, calculada como:
como

n i = ( probabilidad de la i sima clase ) x ( tamao muestral )


k

Notar:: la suma afecta a k cocientes, esto es (cocientes ) , NO al


a
i =1

numerador de un cociente.
199
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

Estadgrafo Ji cuadrado
para pruebas de hiptesis
con datos de frecuencias de
una muestra

(n i n i )2
, donde
n i

2 =
i =1

2 se comporta como una variable

aleatoria X2

jc (x2; )

La construccin del estadgrafo requiere un raciocinio simple:


a) el valor de Ji cuadrado calculado proviene de la suma de varios nmeros: uno por cada categora
b) el numerador de cada trmino en la frmula es igual al cuadrado de la diferencia entre las
frecuencias observadas y estimadas para cada una de las categoras o celdas. Cuanto ms
cercanos estn stos valores, tanto ms pequeo es el valor de (n i n i )2 ; y cuanto ms
distantes, tanto ms grande es su valor. El denominador de cada celda pone en perspectiva el
tamao del denominador. Es decir, una diferencia (n i n i ) igual a 10, como resultado de la
diferencia entre frecuencias de 110 y 100, es muy distinta de una que proviene de la diferencia
entre 15 y 5. Estas ideas indican que los valores pequeos del estadgrafo Ji cuadrado 2 ,
sealan concordancia entre los dos conjuntos de frecuencias, mientras que los grandes implican
discrepancia. De modo que es comn que estas pruebas sean de una sola cola, con la regin
crtica a la derecha.
El estadgrafo de prueba Ji cuadrado fue propuesto en 1900 por Karl Pearson, como una funcin de
los cuadrados de las desviaciones entre las frecuencias observadas y sus respectivos valores
esperados, ponderados por el recproco de sus valores esperados. La demostracin matemtica est
fuera del alcance de este curso, basta saber que se puede demostrar que el estadgrafo Ji cuadrado 2
, en el muestreo repetitivo sigue una distribucin que se puede aproximar con una distribucin de
probabilidad de la variable aleatoria Ji cuadrado, X2, para n grande ( n 50 ) y si las frecuencias
esperadas para las k categoras son iguales o mayores a 5.
2

Los valores crticos para el estadgrafo Ji cuadrado, c , se obtienen como en el caso anterior de la
Tabla de la funcin F(x2; ), ingresando por filas con los grados de libertad ( ) y, por columnas con la
probabilidad 1- siendo
es la siguiente:

=kp1;

= P 2 > c2

) . La frmula general para el clculo de los grados de libertad

donde k es el nmero de categoras, y p es el nmero de parmetros


que se necesita estimar.

En el cuadro 12.2. se presenta un resumen para cada caso en particular en el Cuadro 12.2. Anlisis
comparativo para el clculo de los grados de libertad en las Pruebas de Ji cuadrado.

Prueba de
la varianza

Prueba de
bondad de ajuste

Pruebas con datos de


tablas de contingencia (rxc)
Prueba de
Prueba de
independencia
homogeneidad

Ajustamiento del modelo binomial, X~ B(x;c,


)
a) parmetro conocido

= k p 1 = k-0-1= k-1

b) parmetro desconocido

= k p 1 = k-1-1= k-2

Ajustamiento del modelo Poisson, X~ P(x;)


a) parmetro conocido

=n1

= k p 1 = k-0-1= k-1

b) parmetro desconocido

= k p 1 = k-1-1= k-2

= (r-1)(c-1)

r: n de filas
c: n de columnas

= (r-1)(c-1)

r: n de filas
c: n de columnas

Ajustamiento del modelo normal, X~ N(x;,)


a) parmetros y conocidos

= k p 1 = k-0-1= k-1

b) un parmetro desconocido ( o bien )

= k p 1 = k-1-1= k-2

c) los dos parmetros desconocidos

= k p 1 = k-2-1= k-3
200

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

12.7. EJEMPLOS DE APLICACIN DE LAS PRUEBAS DE JI CUADRADO


12.7.1. Prueba de una hiptesis concerniente a una varianza (o desviacin tpica)
poblacional
Al analizar una variable cuantitativa en una muestra, frecuentemente el inters se centra en estimar el
valor de la media y de la varianza o desviacin tpica, pero tambin suele interesar comprobar el valor de
la evidencia muestral a partir del planteo de alguna hiptesis paramtrica. Las pruebas para la media
ya fueron consideradas, ahora se presentar el caso para la varianza 2.
Se parte del concepto que la varianza muestral, al igual que la media muestral, es una variable aleatoria.
Por muestreo aleatorio repetitivo aplicado a una poblacin normal con media y varianza 2, resulta que
la distribucin en el muestreo de la varianza muestral tiene un valor esperado

(n 1) 2
E s2 =
,
n

[ ]

sea que el valor esperado de la varianza muestral no coincide con el valor deseado que es la varianza
poblacional, E[s2] 2 , adems tiene asimetra positiva, y depende del tamao muestral. Pero resulta

_ 2
X X

i
n


2
2

que se puede considerar una variable aleatoria tipificada X , definida como X =


que
2

i =1

=
tiene una distribucin conocida, que es tipo Ji cuadrado con = n-1, esto es (
n 1 )

( n 1 ) S 2

que est tabulada para varios valores de reas en las colas asimtricas de la distribucin.

Las pruebas de hiptesis para la varianza poblacional, pueden responder a alguno de los tres siguientes
casos
Caso 1: Prueba de dos colas

Caso 1: Prueba de cola superior

Caso 1: Prueba de cola inferior

En ambas colas las reas de La regin de rechazo se La regin de rechazo se


encuentra en la cola derecha y encuentra en la cola izquierda y
probabilidad son igual a /2
es igual a .
es igual a .
Ejemplo 12.1. En los procesos industrializados ces muy importante obtener conclusiones acerca del
valor promedio y de la variabilidad. Con relacin al primero, mediante el control estadstico de la calidad,
se analiza a travs de muestras aleatorias si las variables medidas como por ejemplo del peso neto, la
humedad, etc., indican que: 1) el proceso est centrado (la media del proceso coindice con la media
especificada o paramtrica) y 2) que la variabilidad es mnima, para reducir el nmero de productos que
resulten defectuosos. En este contexto, antes de analizar el valor medio hay que asegurarse de tener
una mnima variabilidad. Por esta razn, una industria que produce cajas de cereales que ha
incorporado un nuevo equipamiento y est ajustando su funcionamiento, quiere comprobar si la varianza
del proceso actual es mayor a la varianza que debera tener de acuerdo a la especificacin del proceso
productivo ( 15 gramos), fijando un n=25 y un = 0,05.
Solucin: segn la informacin dada, se puede plantear la siguiente terna de hiptesis,

201
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Hc: la varianza del peso neto es mayor a 225 gramos.

H 0 : 2 = 02 ; donde 02 = 225 (gramos) 2


H 1 : 2 > 02
Al analizar H1 queda claro, que se trata de una prueba de cola derecha (el tipo de cola se identifica
segn la direccin a la que apunta la hiptesis alternativa), y que por lo tanto la hiptesis que se somete
a prueba, esto es Ho, slo ser
se rechazada cuando los datos muestrales aporten e
evidencia
videncia suficiente,
arrojando un valor de estadgrafo
stadgrafo de prueba muestral mayor que al valor crtico que indica la distribucin
Ji cuadrado para el nivel de significancia fijado.
La regla de decisin se puede graficar como sigue:
f(x2)
reas de probabilidad

1-
xc 2

0
2

x2
2

Valores de c que
determinan la
aceptacin de la H0

Valores de c que
determinan el
rechazo de la H0

Los grados de libertad resultan igual a n 1 = 24,


4, y como se ha fijado un nivel de significancia de 0,05,
en la Tabla de la distribucin acumulada de probabilidades de Ji cuadrado, se encuentra un
2

c2 = 2 ,

= 36, 415. Luego si resultara m < c , es decir, m < 36,415 , se deber aceptar la Ho, en tanto que
2

si m > c se considerar que la muestra aport suficiente evidencia para rechaza


rechazar a la hiptesis de
igualdad de varianzas.
2
Dado que el estadgrafo muestral es igual a m =

[(25 1) 17,3] = 31,92


15 2

, el valor muestral es menor al

valor crtico, 31,92 <36,415.. La decisin estadstica es: no corresponde rechazar la H0, para un = 0,05
. Luego, en trminos del problema se concluye que: no hay evidencia emprica de que haya aumentado
la variabilidad del proceso por encima de 15 gramos, para el nivel de significancia fijado.
Ejemplo 12.2.. Este ejemplo se utilizar para ilustrar un caso de prueba de hiptesis bilateral para la
varianza. En una agroindustria, el contenido de azcar del almbar de los duraznos enlatados se
distribuye normalmente, y se por datos histricos se considera que la varianza es 2 = 18 mg2. Se ha
tomado una muestra de 10 latas obtenindose una desviacin tpica de 4,8
8 mg. Muestran estos datos
suficiente evidencia para decir que la varianza ha cambiado?. Use = 0.05 y responda teniendo en
cuenta el p-valor.
Solucin:: segn la informacin dada, las hiptesis de inters son
Hc: la varianza de lo producido tiene
tiene un valor numrico diferente al valor histrico.

H 0 : 2 = 02 ; donde 02 = 23,0 mg 2
H 1 : 2 02
La regla de decisin es la siguiente:
siguiente
reas de probabilidad
2

f(x )
1-
0

x2
202

Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Usando el criterio tradicional, significa
s
que si 2.70
contrariamente
ariamente ocurre que

m2

<2.7 si

m2

19.023 no se debe rechazar la Ho, y que si

m2 >19.023 no podr sostenerse la Ho, pero hay que recordar

que se quiere la conclusin en trminos de un p-valor.


p
Al calcular el estadgrafo muestral, resulta:
resulta

m2
2

Al entrar con el valor m =11.52 y = 9, en la Tabla de la distribucin de Ji cuadrado, se obtiene un


rea igual 0.2423, por lo tanto el p-valor resulta igual a (2)(0.24
(2)(0.2423) = 0,4846. Se interpreta entonces que
el valor de probabilidad
ad observado es igual a 0,48 de modo que la probabilidad de que se haya
presentado un valor de estadgrafo muestral de 11,52 por azar es muy alto, entonces no cabe un
rechazo de la hiptesis de que las varianzas son iguales (no ha cambiado la variabilidad)
variabilidad).
Ejemplo 12.3.. Este ejemplo se utilizar para ilustrar la aplicacin de la distribucin Ji cuadrado a la
estimacin intervalar de la varianza.
vari
En una semillera el historial de las estadsticas productivas ha
mostrado que el peso de las bolsas de semillas para csped contenido se distribuye normalmente. Con
motivo de haber realizado una modificacin en el sistema de llenado, se han tomado una muestra para
conocer la variabilidad del proceso, con el siguiente resultado: 46,4 46,1- 45,8 47,0 46,1 45,9
45
45,8 - 46.9 45,2 y 46,0.. Se quiere estimar la varianza mediante un intervalo de confianza de 95%..
Fundamentacin: la estimacin de la varianza poblacional mediante un intervalo de confianza se basa
en lo siguiente

(
n 1) s 2
=

que se distribuye
2
como una ji(x ;

La primera expresin indica que


que el estadgrafo a utilizar para construir el intervalo de inters, en el
muestreo repetitivo sigue la distribucin probabilstica de la variable aleatoria Ji cuadrado con grados de
libertad = n-1.
1. La segunda explica que se trata de construir
construir un intervalo que contenga a la varianza
poblacional, basado en lo anterior. En otros trminos, se trata entonces de identificar los dos percentiles
de la distribucin Ji cuadrado que definen un rea central de probabilidad igual a 1
1-, y dejan a ambos
lados reas igual a /2, como muestra el siguiente grfico y lo indica la siguiente simbologa

Solucin: a partir de los datos muestrales se obtiene una estimacin puntual de la varianza. Para esto,
primeramente se calculan los estadgrafos media y varianza:

203
Ctedra de Clculo
culo Estadstico y Biometra Facultad de Cien
iencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Al fijar un intervalo de confianza de 95%, significa que el
en trminos probabilsticos, el nivel de confianza es igual

(0,025;9)

= 2,70

(0,975;9)

= 19,03
2

Distribucin de probabilidad X

jc(x ;

a 1-,, por tanto el rea central en la distribucin X2


ji
2
(x ; ) limitada por la curva y el eje de abscisas es igual a
0,95, y que a ambas colas les corresponde un rea igual
a /2, o sea de 0,025 (notar que por la asimetra de la
distribucin, las reas de las colas no son simtricas)
simtricas).
Con los valores de probabilidad acumulada de 0, 025 y
0,975, para grados de libertad =n-1=9, se ingresa a la
Tabla de Ji cuadrado para obtener los valores de los
percentiles x2(0,025;9) y x2(0,975;9), que resultan igual a 2,70 y
19,03
,03 respectivamente.

Por lo tanto, reemplazando en


Lm inf (int.para 2)
Lm sup (int.para 2)

los lmites del intervalo de confianza de


95% para la varianza resultan igual a:
Finalmente, se construye el intervalo de confianza
conf anza de inters

P 0,135 kg 2 < 2 < 0,935 kg 2 = 0,95


que se interpreta de forma anloga a como se vio para el caso de la estimacin intervalar de : se
tiene una confianza a nivel del 95% que el intervalo construido contenga a la verdadera varianza
poblacional de los pesos de las bolsas de semilla, 2.

12.7.2.
2. Pruebas de hiptesis para datos de frecuencias
Segn se ha anticipado en la clasificacin de las pruebas de hiptesis de Ji cuadrado, en general
puede decirse que hay dos situaciones de problemas relacionados con datos de frecuencia:
a)

Prueba de hiptesis
is para la bondad de ajuste: la situacin problema se refiere a que se tiene una
distribucin de frecuencias empricas (ni) para una muestra aleatoria univariada, y se ha procedido a
ajustar un modelo probabilstico que se elige pensando que explica el com
comportamiento
portamiento de la variable
de inters en la poblacin, obtenindose una distribucin de frecuencias tericas calculadas como:

n i = ( probabilidad de la clase) x (tamao muestral)


Luego, el objetivo al aplicar este tipo de prueba es comprobar que no existen discrepancias
importantes entre
tre ambas frecuencias, o sea, que se trata de probar que el ajustamiento realizado
resulta apropiado.
b)

Prueba de hiptesis para tablas de contingencia: las tablas de contingencia muestran datos
empricos de frecuencia (frecuencias observadas), referidos a la clasificacin de acuerdo a atributos
atributo
(variables medidas en escala nominal),
nominal , o bien a categoras (clases
clases derivadas de la medicin en
escala ordinal), o de variables cuantitativas originalmente transformadas en variables cualitativas
como sera medir rendimientos
dimientos parcelarios en kg/ha y posteriormente dar los resultados como
categoras: rendimiento alto, normal y bajo. Los datos de estas tablas de contingencia dan lugar a
dos tipos de anlisis, segn sea la situacin problema.
b.1. Prueba de independencia:
independencia se parte de una distribucin conjunta de frecuencias empricas (nij),
obtenida a partir de una muestra aleatoria
aleatori de tamao n,, en la que cada unidad de anlisis se
clasifica de acuerdo a dos criterios. Esto lleva a un tipo de anlisis estadstico para probar
bar que la
clasificacin de las unidades de anlisis segn las categoras o clases de una de las variables, es
independiente de la clasificacin segn la otra variable;
variable; probabilsticamente para cada celda ij:

ij = ( probabilidad de ser clasificado en la fila i sima) x


( probabilidad de ser clasificado en la columna j sima)
Bajo el supuesto de una
un clasificacin bivariada independiente
independiente,, o sea, bajo el supuesto de
independencia estadstica, se obtienen las frecuencias tericas (n ij ) como:
204
Ctedra de Clculo Es
Estadstico y Biometra Facultad de Ciencias
ias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

n ij =

(n j ) x (ni )
n

b.2. Prueba de homogeneidad: se dispone de datos de frecuencias empricas para una variable de
carcter cualitativo, medida en r muestras aleatorias de tamao fijo n para cada caso, que se
consideran proceden de una misma poblacin. En este caso interesa conocer si los datos
muestrales aportan evidencia suficiente para comprobar que las r muestras aleatorias clasifican en
las j categoras (j conjuntos disyuntos) de forma homognea, lo que permite inferir para las sendas
poblaciones que las mismas son homogneas entre s, y por tanto concluir estadsticamente que las
muestras proceden de una misma poblacin. La tabla de contingencia en este caso presenta el
siguiente aspecto:
Muestra
1

A1
n11

A2
n11

n21

n22

nk1

nk2

r
Total
columna

nk1

nk2

n.1

n.2

Atributo A
Aj
n1j

Ak
n1k

n2j

n2k

nij

njk

nrj

n.j

Total fila
n1.
n2.

ni.

nrk

nr.

n.k

n..

La hiptesis de que las r poblaciones son homogneas, se traduce en que cada conjunto
o categora Aj debe tener una probabilidad terica desconocida, que no vara de
poblacin a poblacin (las categoras son homogneas en las r poblaciones). El
estadgrafo de prueba, se calcula en forma anloga a una prueba de bondad de ajuste,
esto es, para cada una de las muestras se compara la frecuencia observada en cada
categora, con la correspondiente esperada. La frecuencia esperada de que en la muestra
i se den observaciones para la categora j , bajo el supuesto de homogeneidad, se
expresa como

n ij = ni ( probabilidad de ser clasificado en la categora A j )

es decir, el nmero de individuos que tiene la muestra i por la probabilidad de que ocurra
la caracterstica j en la poblacin:

nij = ni .

(n j )
n

El siguiente diagrama sintetiza los casos expuestos

205
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

12.7.3. Aplicaciones del Ji cuadrado a Pruebas de hiptesis para datos de frecuencias


12.7.3.1. Prueba de bondad de ajuste
En la Unidad de Probabilidad se present el concepto de ajustamiento de una distribucin de
probabilidades, y se cumplimentaron los primeros pasos de una prueba de bondad de ajuste:
1) A partir del anlisis de la distribucin de frecuencias observadas en una muestra, se eligi una
distribucin de probabilidad para modelar la distribucin de la correspondiente variable aleatoria
(distribucin poblacional de donde se supone fue extrada la muestra aleatoria).

2) Se estimaron los parmetros de la distribucin de probabilidad elegida, esto es ; ; ; , etc.


a partir de informacin real o de un conocimiento completo disponible sobre la poblacin.
3) Se us la distribucin de probabilidad terica para determinar la probabilidad de ocurrencia de los
valores (puntuales o intervalares) de la variable aleatoria en el muestreo, para calcular las

correspondientes frecuencias tericas ni .

4) Por ltimo, se calcularon las diferencias ni ni , y se estableci si sus magnitudes indicaban una
discrepancia grande o pequea entre lo observado y lo modelado, como para sospechar que la muestra,
respectivamente, no provena de la poblacin supuesta (mal ajustamiento) o s (buen ajustamiento).
Mediante la prueba Ji cuadrado para bondad de ajuste, se dispondr de una herramienta que
permitir justificar en trminos probabilsticos, la decisin de considerar que el modelo fue adecuado
para explicar el comportamiento de los datos muestrales, o en otras palabras si el modelo se ajusta a lo
observado (ajustamiento bueno), o bien si no result un modelo apropiado y lo observado requiere otro
modelo explicativo (ajustamiento malo).
En pruebas de bondad de ajuste existen dos casos posibles con relacin al modelo probabilstico

a utilizar para estimar las ni :


a) Modelos probabilsticos conocidos de aplicacin generalizada como el normal, binomial o
Poisson.
b) Modelos que especifican interrelaciones de inters particular en determinados campos del
saber, tal el caso de los modelos probabilsticos referidos a las leyes de Mendell que explican
la segregacin de los caracteres genticos.

12.7.3.1.1. Prueba de bondad de ajuste con modelos probabilsticos conocidos


Caso 1. Distribucin uniforme
Situacin problema: un jugador compr un dado corriente de seis caras y quiere comprobar si est bien
construido. Para esto se realiza 120 lanzamientos y registra las frecuencias correspondientes a los seis
resultados posibles. Indican los datos experimentales que el dado es legal (=0,05)?
Hiptesis:

Hc: el dado no es legal

1
6
1
H1: P ( X = xi )
6
Ho:

P ( X = xi ) =

para i =1 , 2 , ... , 6
para al menos un i

Regla de decisin:

(ni n i )2
=

n i
i =1

X2 (x2; ) , donde

= k 1 = 6-1 =5

(21 ) ; = 11,07

Clculo del estadgrafo de prueba:

Datos de 120 lanzamientos de un dado legal i =

206
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

1
2
3
4
5
6

18
21
25
13
23
17

Frecuencia
terica
n i = P( X = x i ) n
=(1/6)120
20,00
20,00
20,00
20,00
20,00
20,00

120

120,00

N de
ocurrencias

Puntaje

ni

donde

m2 =

( ni n i )

( ni ni )

-2,00
0,00
7,00
-5,00
3,00
-3,00

ni
0,20
0,00
2,45
1,25
0,45
0,45

0,00

m 2 = 4,80

(18 20,00)2 + (21 20,00)2 + (25 20,00)2 + (13 20,00)2 + (23 20,00)2 + (17 20,00)2
20,00

20,00

20,00

20,00

20,00

20,00

Conclusiones:
2

2
a) Conclusin estadstica: dado que m < (1 ) ; , esto es el valor muestral de Ji cuadrado es menor
al valor que indica la distribucin de probabilidades Ji cuadrado (4,80 < 11,07), o sea que pertenece

al intervalo de valores de la variable en correspondencia a la regin de aceptacin, se decide


aceptar la hiptesis nula, al nivel de significancia de 0,05.
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, hay que aceptar
que se trata de un dado legal, es decir, que en una larga serie de tiradas hay que esperar que todas
las caras del dado (1 al 6) se presenten con similar nmero de ocurrencias (frecuencia real).
Caso 2. Distribucin de Poisson
Situacin problema: de un monte de cerezos atacado por pulgn verde, un tcnico fruticultor ha extrado
una muestra aleatoria de 100 hojas. Examinado el material recolectado, se han encontrado los
siguientes resultados:
N de pulgones/hoja
N de hojas

El tcnico postula que X


Hiptesis:

0
39

1
21

2
18

3
9

4
5

5
4

6
3

7
1

p (x; ). Pruebe la bondad del ajuste para un (=0,05).

Hc: el nmero de pulgones verdes por hoja, sigue una distribucin de Poisson

H 0 : p (x; ) ;

H1 : sigue otra distribucin


Regla de decisin:

(ni n i )2

n i
i =1

m =
2

X2 (x2; ) , donde

= k 2 = 7-1-1 =5 1; (21 ) ; = 11,07

Clculo del estadgrafo de prueba:


Resulta conveniente notar que para calcular las probabilidades P ( X = xi ) se requiere conocer el
parmetro de la distribucin de Poisson, P ( X = xi ) = p ( xi ) =

e x
; donde = n.p pero p, la
x!

probababilidad p no es conocida: el planteo de la situacin problema no incluye un valor especificado de


, ni tampoco se informa en la hiptesis, por tanto habr que estimar su valor a partir de los datos
muestrales para poder realizar el ajustamiento, como
k

x i ni
=x=
= 1,49
n

= k s 1

Recordar que
, y en este caso s = 1 , se pierde un grado de libertad al estimar a . Estos grados de libertad
luego sern corregidos por agrupamiento de clases

207

Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Datos de recuento de pulgones en 100 hojas de cerezo.
N de
pulgon
es /hoja

N de
hojas

0
1
2
3
4
5
6
7

39
21
18
9
5
4
3
1

100

ni

13

Probabilidad
e x
p ( xi ) =
x!
0,225
0,336
0,250
0,124
0,046
0,014
0,003
0,001

Frecuencia terica

1,000

100,00

n i = p ( xi ) n

( ni ni )

22,54
33,58
25,02
12,43
4,63
1,38
0,34
0,08

16,46
-12,58
-7,02
-8,43

12,020
4,713
1,970
0,946

6,57

6,713

6,43

( ni n i )

ni

0,00

m2 =

26,362

donde las clases cuyas frecuencias esperadas han sido menores a 5 en correspondencia a la cola
superior de la distribucin, esto es n i para xi = 5,6,7, se han agrupado hasta cumplir con el requisito

n i 5 obtenindose un valor grupal de 6,43. Lo propio se ha hecho luego con las respectivas ni dando
13. Esto lleva a recalcular los grados de libertad iniciales, =n-k=7-2=5 , resultando como =n-k=5 -2 =3.
Puesto que estas clases se encuentran en las secciones del extremo inferior y del superior de la
distribucin, se tienen que combinar con categoras adyacentes respectivas para el propsito de realizar
el anlisis. Luego el valor crtico del estadgrafo de prueba resulta igual a

m 2 = (23; 0,95) = 7,82 ;

es

decir que los valores que determinarn el rechazo de la H0, al nivel =0,05 , pertenecen al intervalo
[7,82; +]
Conclusiones:
a)

b)

Conclusin estadstica: dado que

m2

>

(21 ) ; ,

esto es el valor muestral de Ji cuadrado es

mayor al valor que indica la distribucin de probabilidades Ji cuadrado (26,36 > 7,82), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula, al nivel de significancia de 0,05.
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, resulta que los
datos sobre el nmero de pulgones/hoja no siguen una distribucin Poisson con tasa media igual a
1,49.

Caso 3. Distribucin Binomial


Para resolver situaciones problema relacionadas con la distribucin binomial se debe seguir un camino
anlogo al indicado para la distribucin binomial, recordando que H 0 : B ( x;c, ) y, que

= k -1
conocido
= k s 1
desconocido (se estima a travs de la muestra) = k - 2
Caso 4. Distribucin normal
Situacin problema: de la base del censo provincial del arbolado pblico viario o arbolado de calle, se
conoce para la variable circunferencia de tronco de los pltanos lo siguiente; es igual a
190,85 34,54 en cm. Para una ciudad donde todava no se ha llevado a cabo este censo, se ha
extrado una muestra aleatoria de n=228 pltanos. Interesa modelar la distribucin terica de la variable
aleatoria circunferencia de tronco, suponiendo que la muestra procede de la poblacin conocida X
n ( x;190,85, 34,54) . Pruebe la bondad del ajuste para un (=0,05).

Hiptesis:
Hc: la circunferencia de tronco de los pltanos de la ciudad considerada, se distribuye normalmente

H0 :

n (x;190,85 cm, 34,54 cm)

H1 : sigue otra distribucin


Regla de decisin:
208
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA

(ni n i )2

n i
i =1

m =
2

X2 (x2; ) , donde

= k 1 = 13-1 =12 ; (21 ) ; = 21,03

En este caso los dos parmetros de la distribucin normal, y , son conocidos por tanto s=0. Pero
habr que ver si resulta necesario agrupar clases para determinar la necesidad de corregir los grados de
libertad.
Clculo del estadgrafo de prueba
Se observar que en este caso ha resultado necesario agrupar clases en ambos extremos de la
distribucin, con lo cual se tienen que recalcular los grados de libertad iniciales
como

= k 1 = 13-1 =12

= k 1 = 8 -1=7, segn ocurri en el caso del ajustamiento con la distribucin de Poisson.

este modo el valor crtico del estadgrafo de prueba resulta igual a

De

m 2 = (27 ; 0,95) = 14,07 ; es decir que

los valores que determinarn el rechazo de la H0, al nivel =0,05 , pertenecen al intervalo [14,07; +]
Datos de circunferencia de tronco de pltanos del arbolado viario para una ciudad.
Intervalos
de clase

Punto
medio

xi

Probabilidad
del intervalo

Frecuencia
absoluta

ni

Frecuencia terica

( ni n i )

n i = ( prob int)n

( ni ni )

1,0002
3,7047 16,4947
11,7898

-0,4947

0,015

ni

Menos de 100
100 < 120
120 < 140

110
130

0,00430
0,01590
0,05060

2
5
9

140 < 160

150

0,11590

15

22,0047

-7,0047

160 < 180


180 < 200
200 < 220
220 < 240
240 < 260
260 < 280
280 < 300
300 < 320
320 ms

170
190
210
230
250
270
290
310
-

0,19160
0,22430
0,19690
0,12270
0,05500
0,01790
0,00411
0,00070
0,00009

40
59
37
21
16
10
7
6
1

44,6428
52,2619
45,8777
28,5891
12,8150
4,1707
0,9580
0,1631
0,0210

-4,6428
6,7381
-8,8777
-7,5891
3,1850

2,230
0,483
0,869
1,718
2,015
0,792

18,6872

65,730

1,00000

0,0013

m 2 = 73,850

16

24

228

5,3128

227,9987

Conclusiones:
a)

b)

Conclusin estadstica: dado que

m2

>

(21 ) ; ,

esto es el valor muestral de Ji cuadrado es

mayor al valor que indica la distribucin de probabilidades Ji cuadrado (73,85 > 14,07), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, la muestra no
aporta suficiente evidencia a favor de H0. No puede decirse que los datos sobre la circunferencia
no siguen la distribucin normal propuesta al nivel de significancia de 0,05. Es importante destacar
que ha existido una gran discrepancia entre lo observado y lo terico en la cola superior de la
distribucin, la muestra presenta considerablemente mayor nmero de rboles con circunferencia
grande que lo que puede esperarse en una muestra extrada de la poblacin censal.

12.7.3.1.2. Prueba de bondad de ajuste con modelos especficos


Hay campos de aplicacin donde se utilizan leyes probabilsticas que establecen interrelaciones
particulares entre las probabilidades multinomiales que corresponden a k clases. Esto es lo que ocurre
con las leyes de Mendel que son un conjunto de reglas bsicas acerca de cmo se transmiten por
herencia, las caractersticas de los padres a sus hijos. Este conocimiento es muy utilizado en agronoma
en la gentica vegetal y animal, para lograr ejemplares con caractersticas deseables.
Situacin problema: de acuerdo a la teora mendeliana de la herencia, cuando se cruzan plantas de
arveja (Pisum sativum), puede esperarse con relacin a la herencia de las caractersticas textura del
tegumento y el color del grano que se presente una interrelacin de 9:3:3:1.

209
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Genotipos parentales
Caractersticas del grano
Forma

Color

AaLl x AaLl

Donde para color, A es amarillo (dominante) y, a es verde (recesivo), y


para forma, L es lisa (dominante) y l rugosa (recesivo)
Segregacin fenotpica esperada para la descendencia

lisa

Granos arveja
amarillos y lisos

Granos de arveja
amarillos y
rugosos

Granos de arveja
verdes y lisos

Granos de arveja
verdes y rugosos

Proporciones mendelianas
rugosa

9/16

3/16

3/16

1/16

Las proporciones establecidas se pueden interpretar como estimaciones empricas de las


correspondientes probabilidades, y entonces se tiene una ley especfica de probabilidad para el caso.
Un genetista ha realizado un experimento gentico y quiere comprobar si los datos obtenidos estn de
acuerdo con las proporciones mendelianas dadas para el nivel de significacin 0,05.
Hiptesis:
Hc: los caracteres color y forma de las semillas de arvejas segregan en proporcin 9:3:3:1, de este
modo se est suponiendo que los 4 tipos de semilla, en la poblacin se presentan de acuerdo a la
9 3 3 1
siguiente proporcin
: : :
16 16 16 16
Ho : 1 = 9 ; 2 = 3 ; 3 = 3 , 4 = 1
16

16

H1 : al menos una

16

16

i se presenta con una probabilidad diferente a la especificada

Regla de decisin:

(ni n i )2
2

X2 (x2; ) , donde = k 1 = 4-1 =3 ; (1 ) ; = 7,82

n
i =1

Notar que en este caso los valores de probabilidad estn especificados por el modelo, de modo que para
el clculo de los grados de libertad, s=0.
k

m =
2

Clculo del estadgrafo de prueba


Para calcular las frecuencias esperadas, se aplica lo siguiente

9
3
3
1
n ; n ; n ; n donde n=
16 16 16 16

9
596 = 312,75 . El ajustamiento de acuerdo a la ley mendeliana
16

556 semillas, por ejemplo n 1 = 1 . n =


propuesta result:

Datos de un cruzamiento de arveja.


2

(ni n i )2

Fenotipo

ni

n i

Amarilla-Lisa

315

312,75

2,25

5,0625

0,0162

Amarilla-rugosa

101

104.25

-3,25

10,5625

0,1013

verde-lisa

108

104.25

3,75

10,5625

0,1349

Verde-rugosa

32

34.75

-2,75

7,5625

0,2176

Total

556

556,00

0,00

------

m 2 = 0,47

( ni n i )

( ni ni )

n i

Conclusiones:
a) Conclusin estadstica: dado que

m2

<

(21 ) ; , esto es el valor muestral de Ji cuadrado es

menor al valor que indica la distribucin de probabilidades de la variable aleatoria Ji cuadrado


210
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


(0,47 < 7,82), o sea que pertenece al intervalo de valores de la variable en correspondencia a la
regin de aceptacin, se decide no rechazar la hiptesis nula (=0,05).
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, la muestra
no aporta suficiente evidencia para rechazar H0. Por tanto se considera que la ley mendeliana
9 3 3 1
:
:
:
16 16 16 16

puede utilizarse como modelo probabilstico para explicar los resultados

experimentales obtenidos en experimentos similares al realizado por el genetista, para un nivel


de significancia de 0,05.

12.7.3.2. Prueba para tablas de contingencia


Conviene recordar el concepto y la notacin de una tabla de contingencia: 1) es una disposicin
de datos de frecuencias observadas, que puede corresponder a una clasificacin de doble entrada
(bivariada) o de orden superior. Los datos se registran en las celdas de la tabla, identificados segn la
notacin matricial: esto es mediante una notacin sub (i,j) donde i se refiere a la fila y, j a la columna, de
modo que i= 1,2, , i, r y, j= 1,2, , i, c.
Frecuencias
observadas

Filas

Columnas

... c

Total
marginal
de fila

n1c

n1

n2 j

n2c

n 2

ni 2

n ij

n r1

nn2

...

n1

n2

n j

n11

n12

n1 j

n 21

n 22

ni1

i
r
Total
marginal
de
columna

...

Frecuencias
tericas

n ij =

(n j ) x (ni )
n

ni

n rc

n n

n k

En forma abreviada a una tabla de contingencia con r filas y c columnas se le conoce como tabla r x c
(se lee r por c).

12.7.3.2.1 Prueba de independencia


Situacin problema: se desea probar si la decisin de los votantes respecto a la reforma de la
Constitucin Provincial de Mendoza es independiente del nivel de ingresos de los mismos para un
=0,05. A tal efecto se ha tomado una muestra aleatoria de 1000 votantes2 del padrn electoral,
resultando lo siguiente:
Tabla de contingencia 2 x 3; n=1000
Nivel de ingreso
Reforma de la
Constitucin

Bajo

Medio

Alto

A favor

182

213

203

598

En contra

154

138

110

402

Total

336

351

313

1000

Total

12.7.2.2.2 Prueba de homogeneidad


A diferencia de la prueba de independencia, en la prueba de homogeneidad interesa determinar
si los datos correspondientes a dos o ms muestras aleatorias provienen de la misma poblacin.

Notar que al tomar solo una muestra aleatoria los totales marginales de filas y columnas son aleatorios

211
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Nuevamente el conjunto de posibles valores de las observaciones se divide en k conjuntos disyuntos,
A1, A2, ..., Ak, clasificando en ellos las nk observaciones de cada muestra. Es importante notar que al
tener definidos los tamaos muestrales, resulta que los totales de filas (o bien de columnas segn se
haya ordenado) resultan fijos.
Situacin problema: en una regin minera se estn explotando dos minas. Entre los pobladores de la
zona de influencia corre la opinin de que la cantidad de enfermos por contaminacin ambiental es
mayor en una de las minas. Se quiere probar si realmente los registros sanitarios no son homogneos,
a tal fin se toma una muestra de trabajadores de cada mina y se contabilizan los casos con patologas
asociadas a las condiciones ambientales. Los resultados han sido:
Tabla de contingencia 2 x 2; n1=160 y n2 = 100.
Patologas

Explotacin
minera

Total
Sin

Con

35

125

160

37

63

100

25

35

60

97

223

320

Total

Hiptesis:
Hc: para cada mina las proporciones de registros sanitarios, sin y con patologas asociadas a la
contaminacin ambiental, son las mismas.

H 0 : 11 = 21 = 31 ; 21 = 22 = 32 ;

donde

i = 1,2 ,3
j = 1,2

H 1 : las poblaciones no son homogneas


En este contexto, homognea se interpreta como igual. Las dos poblaciones en estudio sern
homogneas cuando la interrelacin entre los casos sin patologa y con patologa sea igual en ambos,
esto es, en ambas minas las proporciones entre los dos tipos de registros son iguales. En esencia,
interesa determinar si en las dos explotaciones mineras se dan de forma similar los casos de patologas
positivos y casos negativos atribuibles al ambiente laboral.
Regla de decisin:
r

m =
2

i =1

nij nij

nij
i =1

X2 (x2; ) , donde = ( r 1 ) ( c 1 ) = ( 3 1 )( 2 1 ) = 2 ;

(21 ) ; = 5,99
El nmero de grados de libertad asociado a este tipo de prueba est dado por el nmero de frecuencias
de celdas que pueden llenarse libremente cuando se dan los totales marginales y el total general.
Clculo del estadgrafo de prueba
Al suponer homogeneidad tambin los datos se ordenan en una tabla de contingencia, por tanto
las frecuencias esperadas de cada celda nuevamente pueden obtenerse multiplicando las frecuencias
marginales de la fila y la columna de la celda en cuestin, y dividiendo por el total general (n1 + n2 = n).
Pero en este caso al tratarse de una tabla 2x2 basta calcular la frecuencia terica para la celda (1,1).
que las restantes se obtienen por diferencia, esto es: n12 = n1 . - n11 ; n 21 = n.1 - n11 ; n 22 = n.. - n11 .
Tabla de contingencia 2 x 2 con frecuencias observadas y calculadas; n1=160 , n2 = 100 y n3 = 60.
Patologas

Explotacin
minera

Total

Sin

Con

35 (48,500)

125(111,500)

160

37(30,313)

63(69,688)

100

25 818,188)

35(41,813)

60

97

223

320

Total

212
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

UNIDAD III:INFERENCIA ESTADSTICA


Luego
2

m =

(35 48,500)2 + (125 111.500)2


48,500

111,500

... +

(35 41,813)2
41,813

= 11,171

Conclusiones:
a)

b)

Conclusin estadstica: dado que

m2

>

(21 ) ; ,

esto es el valor muestral de Ji cuadrado es

mayor al valor que indica la distribucin de probabilidades Ji cuadrado (11,171 > 5,99), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
Conclusin en trminos del problema: dada la conclusin estadstica que antecede, no hay
evidencia para concluir que la proporcin de trabajadores con patologa y sin patologa difiere entre
las explotaciones mineras al nivel de significancia de 0,05.

12.7. CORRECCIN DE YATES


Es importante recordar que el estadgrafo sobre el cual se basa la decisin en las pruebas de Ji
cuadrado no paramtricas, tiene una distribucin slo aproximadas a la distribucin de una variable
aleatoria Ji cuadrado (la distribucin de X2 es una distribucin continua de probabilidades, y el
estadgrafo se calcula a partir de datos de frecuencia o conteo). En consecuencia se requiere tomar
algunas precauciones:
1) que la muestra sea grande (no menor a 50)
2) que las frecuencias tericas no sean menor a 5 (caso contrario agrupar clases)
3) que los grados de libertad sean mayores a 1.
Con relacin a esto ltimo caso, las tablas de contingencia 2x2 siempre son violatorias de este requisito
ya que = ( r 1 ) ( c 1 ) = ( 2 1 )( 2 1 ) = 1 . Esto lleva a una correccin en el clculo del estadgrafo
para mejorar la aproximacin de su distribucin de probabilidades con la distribucin continua Ji
cuadrado. Tal correccion recibe el nombre de correccin de Yates para continuidad.
La correccin consiste en aplicar la frmula que se da a continuacin, en lugar de la utilizada
hasta ahora:
2

( ni ni

0,5)

ni

Por ltimo si se tuvieran frecuencias esperadas menores a 5, se debera aplicar la prueba exacta
de Fisher-Irwin.

REQUISITOS PARA APLICAR EL ESTADGRAFO


Ji cuadrado, 2
1) La o las muestras deben ser aleatorias
2) El tamao muestral n debe ser grande (n > 30)
3) Todas las frecuencias esperadas deben ser iguales o mayores a 5 (en
caso de que no sea as agrupar varias categoras hasta tener valores 5)

213
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015

También podría gustarte