Está en la página 1de 14

TEMA Nº 2

DISTRIBUCION CHI CUADRADO

Si X1 , X2 ,..... Xn son variables normales estandarizadas e independientes,


entonces se dice que la estadística
X2 = X12 + X22 + ....................Xn2

Tiene una distribución X2 (chi cuadrado) con δ = n grados de libertad. Hay


muchísimas distribuciones X2 , y cada una corresponde a un entero positivo n. La
distribución que corresponde al número δ se representará por Xδ2 y se define
por la siguiente función de densidad:

F(X2 ) = (X2 ) (δ/2 –1) е (X2/2) , para X ≥ 0


2δ/2 Γ( δ/2)

= 0 en caso contrario

Propiedades de una distribución chi cuadrado

1) La chi cuadrado, aunque se representa por la letra griega X2 ,


es una estadística en lugar de un parámetro. En realidad, no
existe un parámetro correspondiente para X2 .
2) Si X tiene una distribución normal típica o estandarizada,
entonces X2 tiene la distribución de X12 ; es decir, la
distribución chi cuadrado con 1 grado de libertad.
3) Si X1 es Xδ12 X2 es X δ12 y si X1 y X2 son independientes,
entonces X1 + X2 es X2δ1 + δ2. Esto es lo que comúnmente
se llama propiedad aditiva de las distribuciones chi cuadrado.
4) Una distribución X2 tiene una variación de 0 a infinito, puesto
que es la suma de los valores al cuadrado
5) Una distribución X2 está completamente definida por el
número de grados de libertad. Si X es Xδ2 entonces su media
y su varianza son µ = δ y σ2 = 2 δ, respectivamente.
6) Las distribuciones chi cuadrado son positivamente
asimétricas. Sin embargo, a medida que δ se vuelve grande,
Xδ2 se aproxima a la distribución normal con µ = δ y σ = √2 δ.
En la práctica, las probabilidades de las distribuciones chi
cuadrado, cuando δ > 30 se pueden calcular empleando las
aproximaciones normales.
Inferencia estadística de la Varianza poblacional

Si S2 es la varianza de una muestra aleatoria con tamaño n tomada de una


población normal, el cociente ( n – 1)s2/ σ2 es X2n-1 . O podemos escribir

X2 = (n-1) s2
σ2

con δ = n – 1 . Este cociente es una dócima estadística adecuada para hipótesis


sobre varianzas poblacionales.

Las docimasias de varianzas son típicamente de la variedad de cola superior, ya


que, por lo general, nos interesa el hecho de que la varianza pueda ser demasiado
grande. Cuando deseamos efectuar una docimasia bilateral con distribuciones chi
cuadrado, dividimos la región de rechazo en dos partes iguales.

Para tener una estimación por intervalo de σ2, al igual que anteriormente, tratamos
de construir un intervalo de confianza tal que contenga a una probabilidad
especificada, 1- . Ese intervalo es el siguiente:

P ( n – 1) s2 < σ2 < ( n – 1) s2
X2(n-1,α/2) X2(n-1, 1 -α/2)

Estos valores chi cuadrado dependen del número de grados de libertad y del límite
de confianza.
Dócimas de Independencia: Cuadros de Contingencia.

Cuando la población y la muestra se clasifican de acuerdo con dos o más


atributos, podemos utilizar las dócimas de independencia para determinar si los
principios o los criterios empleados para la clasificación cruzada son significativos
o efectivos.
Los cuadros de clasificación poseen frecuencias observadas de F filas y C
columnas. En correspondencia con cada frecuencia observada en un cuadro FxC,
hay una frecuencia esperada. Las frecuencias, observadas o esperadas, que
ocupan las casillas de un cuadro de contingencia se llaman frecuencias de
casillas. El total de frecuencia en cada casilla o en cada columna se llama
frecuencia marginal. Para evaluar las diferencias entre las frecuencias observadas
y las esperadas contenidas en un cuadro de contingencia, empleamos la
estadística:

X2 = Σ ( Oi – ei)2
ei
La suma se toma en todas las casillas en un cuadro de contingencia y en general
V= (F – 1) (C – 1). Al docimar la independencia con un cuadro de contingencia
2x2, tendremos V= (2 – 1) (2 – 1).

Podríamos formar la siguiente tabla de contingencia en la que aparecen las


frecuencias empíricas y las teóricas:

Y y1 ...... Yj ....... ym Frecuencias absolutas


X
X
x1 O11 ...... O1j ......... O1m Ox1

e11 e1j e1m


.......... ......... ...... ......... ......... ........ ............
xi Oi1 ...... Oij ......... Oim Oxi

ei1 eij eim


....... ......... ....... ......... ......... ........ .........
xk Ok1 ....... Okj ......... Okm Oxk

ek1 ekj ekm


Frecuencias absolutas Oy1 ....... Oyj ........ Oym n
Y
Para el cálculo de las frecuencias teóricas podemos utilizar la siguiente fórmula si
las dos variables son independientes

eij = pij.n = .n =

i=1,2,.....,k

j=1,2,.....,m

Consideramos como hipótesis nula e hipótesis alternativa a:

HO: X y Y son independientes.

H1: X y Y no son independientes.

Si aceptamos la hipótesis nula, podemos considerar que no tenemos evidencias


que nos hagan suponer una dependencia entre las dos variables a un nivel de
confianza de 1-α.

Consideramos como estadístico del contraste:

T= =

La distribución de dicho estadístico es una X2con (k-1)(m-1) grados de libertad en


caso de que las variables sean independientes a un nivel de confianza 1-α .

Para realizar la docimasia se siguen los mismos pasos de prueba de hipótesis en


general, la hipótesis nula se plantea en forma cualitativa en el sentido de probar si
los dos atributos de la tabla son independientes entre sí.

Test de bondad de ajuste.

Consideramos una población y el carácter X que presenta las siguientes


modalidades x1, x2, ......., xk excluyentes con sus correspondientes probabilidades
p1, p2, ....., pk. Tenemos una muestra de tamaño n en la que observamos el
carácter X y nos planteamos hasta qué punto esta muestra se puede considerar
como perteneciente a una población con una distribución teórica ya conocida.
Independientemente de la distribución teórica que consideremos siempre existirán
diferencias entre los valores teóricos esperados y los valores observados. El
problema está en saber en qué medida dichos valores son debidos al azar o a que
los datos no se ajustan a la distribución teórica considerada.

Si denotamos por:

Oi=número de elementos de la muestra con el carácter xi.

pi =probabilidad teórica de que la variable aleatoria X tome el valor xi verificándose

que .

Si tenemos una muestra de tamaño n, el número de elementos que cabe esperar


que tomen el valor xi es:

ei = n.pi verificándose que

Podremos formar la siguiente tabla:

Variable X x1 x2 ...................... xk
Frecuencias observadas O1 O2 ...................... OK
Frecuencias esperadas e1 e2 ...................... ek
Consideramos como hipótesis nula e hipótesis alternativa a:

HO: la distribución empírica se ajusta a la distribución teórica considerada.

H1: Se rechaza el ajuste.

Evidentemente, si aceptamos la hipótesis nula(aceptamos el ajuste), las


diferencias entre los valores observados y los valores esperados son debidas al
azar y podemos decir que no existen evidencias para rechazar dicha hipótesis; en
otro caso diremos existen diferencias significativas para el nivel de significación
marcado entre ambas distribuciones, no pudiendo atribuirse las diferencias entre
las distribuciones empíricas y observadas al azar.

El estadístico que se utilizará para dicho contraste será:

T=
Pearson demostró que la distribución de dicho estadístico es una chi cuadrado con
k-1 grados de libertad en el caso de no existir discrepancias entre los valores
observados y los esperados.

Se acepta Ho si: T < (REGIÓN DE ACEPTACIÓN)

Se rechaza Ho si: T > (REGIÓN CRÍTICA).

A la hora de aplicarlo correctamente tenemos que realizar las siguientes


consideraciones:

A.- Las frecuencias esperadas de las distintas modalidades deben ser


superiores a cinco; en caso de ocurrir se deben agrupar clases contiguas en una
sola clase hasta lograr que la nueva frecuencia sea mayor que cinco. Esto supone
cambiar la distribución teórica con la consiguiente pérdida de información.

B.- Si para obtener las frecuencias esperadas se necesitan estimar p


parámetros entonces los grados de libertad de la chi cuadrado son k-p si son
independientes y k-p-1 si son excluyentes las modalidades.

C.- Se puede aplicar a las distribuciones continuas como discretas.

Ejemplo : Se desea probar si el número de rayos gamma emitidos por segundo


por cierta sustancia radiactiva es una variable aleatoria que tiene la distribución de
Poisson de parámetro l =2,4. Utilice los siguientes datos obtenidos en 300
intervalos de segundo para probar dicha hipótesis a un nivel de significación 0,05.

número de rayos 0 1 2 3 4 5 6 7 o
gamma más
Valores 20 48 65 75 45 34 9 4
observados

La población en estudio son los rayos gamma emitidos por una sustancia
radiactiva.

Se trata de contrastar las hipótesis:

Ho: La distribución observada sigue una distribución P(2,4).


H1: La distribución observada no sigue una distribución P(2,4)

El nivel de confianza es 1-α =0,95 puesto que el nivel de significación es a =0,05


y el tamaño de la muestra n=300
El estadístico del contraste será el definido anteriormente, para ello deberemos
calcular los valores esperados bajo la hipótesis Ho.

Calculamos los valores esperados para una Poisson de parámetro λt =2,4. Se


tiene que las probabilidades de una Poisson de parámetro λt =2,4 son (mirando en
la tabla de la distribución de Poisson):

Valores de X 0 1 2 3 4 5 6 7 o
más

Probabilidades 0,09 0,21 0,26 0,20 0,12 0,06 0,02 0,01

Para hallar los valores esperados bastará con multiplicar las probabilidades por el
número de observaciones, obteniéndose:

Valores de X 0 1 2 3 4 5 6 7 o
más
Valores 27,21 65,31 78,39 62,7 37,62 18,06 7,23 3,48
esperados

Como se observa, existe un valor esperado menor que 5, por lo que debemos de
agrupar dos clases contiguas, en este caso, los clases 6 y 7 o más, con lo cual las
distribuciones quedarían:

Valores de X 0 1 2 3 4 5 6 o
más
Valores esperados 27,21 65,31 78,39 62,7 37,62 18,06 10,71
Valores 20 48 65 75 45 34 13
observados

Aplicando la fórmula resulta que el valor del estadístico para dicho contraste vale
T= =27,2047

Calculamos el valor del punto crítico de una chi-cuadrado con un valor de

α=0,05(nivel de significación) y (7-1) grados de libertad, es decir, X20,05(6) = 12,592


mirando en las tablas
La región crítica es: T mayor o igual que 12,592, es decir, el intervalo (12,592,
+infinito)
Como el valor del estadístico T es mayor que el punto crítico se rechaza la
hipótesis Ho. T=27,2047 y 12,592 = X20,05(6)

Luego tenemos evidencias de que la distribución empírica no sigue una


distribuciónP(2,4).

Ejemplo El consejo de administración de Telefónica desea conocer si la opinión,


Y, de sus accionistas respecto a una posible fusión es independiente del número
de acciones, X, que poseen. Una muestra de 500 accionistas proporciona la
siguiente tabla:

Y A favor En Indecisos Total


contra
X
Menos de 25 18 21 64
200
200-1000 93 62 67 222
Más de 1000 82 70 62 214
Total 200 150 150 500
Contrastar a un nivel de confianza del 99,5% la independencia de las variables X e
Y.
La población en estudio son los accionistas de Telefónica y deseamos ver si
existe dependencia entre el número de acciones y la opinión acerca de una
posible fusión.

Se trata de un test no paramétrico donde las hipótesis nula y alternativa son:

Ho: X y Y son independientes


H1: X y Y no son independientes.

El nivel de confianza es 1-α =0,995, luego a =0,005 y el tamaño muestral n=500

Calculamos los valores esperados eij bajo la hipótesis nula (independencia de X y

Y) aplicando la fórmula donde n es el


tamaño de la muestra, 500.

Por ejemplo e11=64.200/500=25,6 e12=64.150/500=19,2 ........

La tabla de los valores esperados sería:

Y A favor En Indecisos Total


contra
X
Menos de 25,6 19,2 19,2 64
200
200-1000 88,8 66,6 66,6 222
Más de 1000 85,6 64,2 64,2 214
Total 200 150 150 500

El valor del estadístico experimental T vale:

T= .

El valor del punto crítico es el valor de una chi-cuadrado con (3-1).(3-1) = 4


grados de libertad y 1-a =0,955 que mirando en las tablas 6 nos da: X20,005(4)=
14,860
La región crítica es, rechazamos Ho si: T>;

Como T=1,53 es menor que 14,86 se acepta Ho y podemos decir que no


tenemos evidencias de que X e Y sean dependientes y se acepta la hipótesis de
que la opinión de los accionistas es independiente del número de acciones que
poseen con un riesgo del 0,5%.
Ejemplo: La calificación final de los estudiantes de un curso de estadística se
clasifica por carreras. Se podría concluir que existe una asociación entre la carrera
y la calificación final con un nivel de significación del 0,05?

Psicología Medicina Farmacia


Sobresaliente 11 28 22

Notable 20 34 30

Aprobado 22 8 13

Reprobado 6 4 9

Ejemplo: En un laboratorio se observó el número de partículas que llegan a una


determinada zona procedentes de una sustancia radiactiva en un corto espacio de
tiempo siempre igual, anotándose los resultados en la siguiente tabla:

número de partículas 0 1 2 3 4 5
número de periodos de tiempo 120 200 140 20 10 2

Se pide:

a. Ajustar a una distribución de Poisson.


b. Calcular la probabilidad con que llegan.
c. Verificar si el ajuste es correcto mediante una X2, con un nivel de confianza
α =0,05

Ejemplo: Una compañía de venta de libros quiere saber si el volumen de ventas,


V, de sus distribuidores es independiente del carácter C, de los mismos. Para ello,
recoge los siguientes datos de una muestra de 250 vendedores:

V Bajo Medio Alto

C
Antipáticos 38 29 9

Normales 30 42 7

Simpáticos 32 59 4

Realiza un test de independencia a nivel de significación de α =0,1


Práctica sobre la Distribución X2

1.- Se sabe que el contenido de nicotina de una marca de cigarrillos tiene una
distribución aproximadamente normal, con una varianza de 1,3 miligramos.
Pruebe la hipótesis de que σ2 = 1,3 en contraposición a la alternativa de que
σ2≠ 1,3 si una muestra aleatoria de 8 de estos cigarros tiene una desviación
estándar S = 1,8. Utilice un nivel de significancia de 0.05.

2.- Se afirma que una máquina despachadora de refrescos está fuera de control si
la varianza de los contenidos excede 1.15 decilitros. Si una muestra aleatoria
de 25 refrescos de esta máquina tiene una varianza de 2.03 decilitros, ¿indica
esto en el nivel de significancia de 0.05 que la máquina está fuera de control?
Suponga que los contenidos tienen distribución aproximadamente normal.

3.- La desviación típica de las tensiones de ruptura de ciertos cables producidos


por una empresa es de 240 libras. Tras un cambio en el proceso de
producción, una muestra de 8 cables dio una desviación típica de 300 libras.
Investigar si es significativo ese crecimiento en variabilidad, usando α = (a)
0.05 y (b) 0.01

4.- La desviación típica de las temperaturas anuales en una ciudad a lo largo de


100 años es 16ª F. Usando la temperatura media del día 15 de cada mes
durante los últimos 15 años, ha resultado una desviación típica de 10ª F.
Contrastar la hipótesis de que las temperaturas en esa ciudad son menos
variables que en el pasado, con un nivel de significancia (a) 0.05 y (b) 0.01

5.- Un auditor quiere saber si hay diferencia en la proporción de comprobantes de


gastos de viaje incorrectos en tres departamentos diferentes en una
compañía. Una muestra aleatoria de 25 comprobantes del departamento A, 25
comprobantes del departamento B y 50 del departamento C mostraron la
siguiente información:

Departamento
------------------------------------------------------------------------
Resultado A B C
Comprobantes incorrectos 6 5 9
Comprobantes correctos 19 20 41
Habría alguna diferencia en la proporción de comprobantes incorrectos entre los
departamentos A, B y C, al nivel de significancia 0.05
6.- Se realizó un estudio de mercado a nivel nacional para determinar las
preferencias de diversos grupos de hombres de distintas edades, por los
diferentes deportes. Para ello se seleccionó una muestra aleatoria de 1.000
hombres y a cada uno de ellos se le pidió que señalara su deporte favorito. Los
resultados fueron los siguientes:

Deporte
------------------------------------------------------------------------
Grupo de Edad Béisbol Futbol Baloncesto Hockey
Totales
Menos de 20 26 47 41 36 150
20 – 29 38 84 80 48 250
30 – 39 72 68 38 22 200
40 – 49 96 48 30 26 200
50 o mas 134 44 18 4 200
Totales 366 291 207 136 1,000

Al nivel de significancia 0.01 ¿Habría alguna relación entre la edad de los hombres
y su preferencia por los deportes?

7.- Un locutor de radio efectúa, durante su programa musical, seis llamadas


telefónicas diarias, en los que pide a sus oyentes que identifiquen la canción
que acaba de transmitirse. Los resultados obtenidos se muestran en la
siguiente tabla:
Nº de canciones identificadas frecuencia observada
Correctamente

0 6
1 60
2 66
3 132
4 60
5 36
6 24
-----------------------------------------------------------------------------------------------------
Total n= 384
Pruebe a un nivel de significancia del 5% si el número de canciones
identificadas correctamente se ajustan a una distribución binomial.

8.- La distribución del número de llamadas que se reciben en el conmutador de un


edificio del gobierno durante 400 intervalos de cinco minutos se presenta a
continuación:
Número de llamadas Frecuencia observada
0 95
1 116
2 112
3 47
4 30

Pruebe a un nivel de significancia de 0.05 si el número de llamadas que se reciben


en el conmutador en un intervalo de cinco minutos es una variable aleatoria que
tiene una distribución de Poisson con µ = 1.5.

9.- En 200 tiradas de una moneda han salido 115 caras y 85 sellos. Contrastar la
hipótesis de que la moneda es buena con alfa igual a 0.05 y 0.01.

10.- Dos grupos A y B consisten de 100 personas cada uno, todas aquejadas de
cierta enfermedad. Los datos se dan a continuación:

Curados No curados
Grupo A (Usando 75 25
suero)
Grupo B ( Sin 65 35
suero)
Contrastar si el uso del suero es independiente de la curación, con
un nivel de significancia de 0.05

11.- La tabla siguiente muestra el número de estudiantes aprobados y


suspendidos por 3 profesores: Mr. X, Mr. Y y Mr. Z. Contrastar la hipótesis de
que las proporciones de suspendidos por los tres profesores son iguales. Α =
0.05

Mr. X Mr. Y Mr. Z


Aprobados 50 47 56
Suspendidos 5 14 8
12.- Se lanzan 5 monedas, la distribución de los lanzamientos es la siguiente:
Nª de caras Oi
0 1
1 10
2 20
3 36
4 23
5 10
Pruebe si los datos distribuyen cono una binomial.

13.- Se distribuyó el número de clientes que visitaron la oficina de un abogado


diariamente durante sus primeros días de práctica de la siguiente manera

Número de clientes 0 1 2 3 4 5 6
Número de días 40 36 16 7 2 1 0

Determine la bondad del ajuste de estos datos para una distribución


Poisson

14.- En la siguiente tabla de frecuencias determine si los datos distribuyen como


una normal
Medidas de resistencia para 360 unidades de cierto tipo de producto
eléctrico.
Resistencia
(ohmios) Oi
3.0 – 3.4 10
3.4 – 3.5 37
3.5 – 3.6 73
3.6 – 3.7 114
3.7 – 3.8 81
3.8 – 3.9 31
3.9 – 4.0 14
Nivel de significancia de 0.05.

También podría gustarte