Está en la página 1de 16

Anlisis de ji-cuadrada

Introduccin.
Estamos interesados en determinar si los datos disponibles de una muestra
aleatoria simple de tamao n corresponden a cierta distribucin terica. El
primer paso a realizar consiste en descomponer el recorrido de la distribucin
terica en un nmero finito de subconjuntos: A1, A2, ..., Ak. Despus, clasificar
las observaciones mustrales, segn el subconjunto a que pertenezcan. Y, por
ltimo, comparar las frecuencias observadas de cada Ai con las probabilidades
que les corresponderan con la distribucin terica a contrastar.

Anlisis
Supongamos que tenemos un nmero k de clases en las cuales se han ido
registrado un total de n observaciones (n ser pues el tamao muestral).
Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k (Oi
es el nmero de valores en la clase Ai ). Se cumplir:
O1 + O2 + ... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias
esperadas (tericas), a las que denotaremos por E1, E2, ..., E k . Se cumplir:
E1 + E2 + ... + E k = n

CLASE 1
CLASE 2
...
CLASE K
Total

FRECUENCIA
OBSERVADA
O1
O2
...
Ok
n

FRECUENCIA ESPERADA
E1
E2
...
Ek
N

Se tratar ahora de decidir si las frecuencias observadas estn o no en


concordancia con las frecuencias esperadas (es decir, si el nmero de
resultados observados en cada clase corresponde aproximadamente al nmero
esperado). Para comprobarlo, haremos uso de un contraste de hiptesis usando
la distribucin Chi-cuadrado:
El estadstico de contraste ser

Observar que este valor ser la suma de k nmeros no negativos. El numerador


de cada trmino es la diferencia entre la frecuencia observada y la frecuencia
esperada. Por tanto, cuanto ms cerca estn entre s ambos valores ms
pequeo ser el numerador, y viceversa. El denominador permite relativizar el

tamao del numerador. Las ideas anteriores sugieren que, cuanto menor sean
el valor del estadstico 2, ms coherentes sern las observaciones
obtenidas con los valores esperados. Por el contrario, valores grandes de este
estadstico indicarn falta de concordancia entre las observaciones y lo
esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los
valores observados son coherentes con los esperados) cuando el estadstico es
mayor que un determinado valor crtico.
Notas:
(1) El valor del estadstico 2 se podr aproximar por una distribucin Chicuadrado cuando el tamao muestral n sea grande (n > 30), y todas las
frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos
agrupar varias categoras a fin de que se cumpla este requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de
una poblacin particionada en categoras.
Un experimento multinomial es la generalizacin de un experimento binomial:
1. Consiste en n pruebas idnticas e independientes.
2. Para cada prueba, hay un nmero k de resultados posibles.
3. Cada uno de los k posibles resultados tiene una probabilidad de ocurrencia pi
asociada (p1 + p2 + ... + pk = 1), la cual permanece constante durante el
desarrollo del experimento.
4. El experimento dar lugar a un conjunto de frecuencias observadas (O1,
O2, ..., Ok) para cada resultado. Obviamente, O1 + O2 + ... + Ok = n.
En ocasiones estaremos interesados en comparar los resultados obtenidos al
realizar un experimento multinomial con los resultados esperados (tericos).
Ello nos permitir saber si nuestro modelo terico se ajusta bien o no a las
observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual
nos permitir realizar un contraste sobre la bondad del ajuste.
Concretamente, usaremos el estadstico

con k 1 grados de

libertad.
Podemos calcular cada frecuencia esperada (terica) multiplicando el nmero
total de pruebas n por la probabilidad de ocurrencia asociada, es decir:
Ejemplo:
En cierta mquina Expendedora de Refrescos existen 4 canales que expiden el
mismo tipo de bebida. Estamos interesados en averiguar si la eleccin de
cualquiera de estos canales se hace de forma aleatoria o por el contrario existe

algn tipo de preferencia en la seleccin de alguno de ellos por los


consumidores. La siguiente tabla muestra el nmero de bebidas vendidas en
cada uno de los 4 canales durante una semana. Contrastar la hiptesis de que
los canales son seleccionados al azar a un nivel de significacin del 5%.

Canal
1
2
3
4

Nmero de bebidas consumidas


mediante este expendedor
13
22
18
17

Solucin:
Para realizar el contraste de Bondad de Ajuste debemos calcular las
frecuencias esperadas de cada suceso bajo la hiptesis de uniformidad entre
los valores. Si la seleccin del canal fuera aleatoria, todos los canales tendran
la misma probabilidad de seleccin y por lo tanto la frecuencia esperada de
bebidas vendidas en cada uno de ellos debera ser aproximadamente la misma.
Como se han vendido en total 70 refrescos, la frecuencia esperada en cada
canal es

El estadstico del contraste sera:

Este valor debemos compararlo con el valor crtico de la distribucin


1)=3 grados de libertad. Este valor es:

con (4-

(3)=7.81

Puesto que el valor del estadstico (2.34) es menor que el valor crtico, no
podemos rechazar la hiptesis de que los datos se ajustan a una distribucin
uniforme. Es decir, que los canales son seleccionados aleatoriamente entre los
consumidores.

Prueba de Kolmogorov-Smirnov (KS)


Hiptesis a contrastar:

H0: Los datos analizados siguen una distribucin M.


H1: Los datos analizados no siguen una distribucin M.
Estadstico de contraste:
donde:

es el i-simo valor observado en la muestra (cuyos valores se han

ordenado previamente de menor a mayor).

es un estimador de la probabilidad de observar valores menores o

iguales que xi.

es la probabilidad de observar valores menores o iguales que

cuando

es cierta.

As pues, D es la mayor diferencia absoluta observada entre la frecuencia


acumulada observada
y la frecuencia acumulada terica
, obtenida a
partir de la distribucin de probabilidad que se especifica como hiptesis nula.
Si los valores observados
son similares a los esperados
, el valor de
D ser pequeo. Cuanto mayor sea la discrepancia entre la distribucin
emprica

y la distribucin terica, mayor ser el valor de D.

Por tanto, el criterio para la toma de la decisin entre las dos hiptesis ser de
la forma:

Donde el valor

Siendo

se elige de tal manera que:

el nivel de significacin del contraste.

Para el clculo prctico del estadstico D deben obtenerse:

Y a partir de estos valores:

A su vez, el valor de

depende del tipo de distribucin a probar y se

encuentra tabulado. En general es de la forma:

Donde

y k(n) se encuentran en las tablas siguientes:

Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una
distribucin normal:

(media: 4.1 varianza: 1.82)

Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos
se distribuyen normalmente.

Prueba de Anderson-Darling
La prueba de Anderson-Darling es utilizada para probar si un conjunto de datos
mustrales provienen de una poblacin con una distribucin de probabilidad
continua especfica (por lo general la distribucin normal). La prueba de
Anderson-Darling se basa en la comparacin de la distribucin de
probabilidades acumulada emprica (resultado de los datos) con la distribucin
de probabilidades acumulada terica (definida en H0).

HIPTESIS:
H0: Las variables aleatorias en un estudio siguen una distribucin normal
(, ).
Ha: Las variables aleatorias en un estudio no siguen una distribucin
normal (, ).
ESTADSTICO DE PRUEBA:
El estadstico de A2 est dado por la siguiente formula:

Ejemplo basado en Excel:


20 nmeros al azar:
19
55
30
79
97
75
65
90
77
22
45
16
57

66
30
91
88
58
29
86
Sacar media y desviacin estndar:
= 58.75
= 0.05

= 26.83
Valor critico = 0.752

Creacin de la primera y segunda columna:


1
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

2
(2i-1)
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29

16
17
18
19
20

31
33
35
37
39

Los datos se ordenan de menor a mayor (3) y de mayor a menor (4).


3

Yi

Yn+1-i

16

97

19

91

22

90

29

88

30

86

30

79

45

77

55

75

57

66

58

65

65

58

66

57

75

55

77

45

79

30

86

30

88

29

90

22

91

19

97

16

Determinar Z de las columnas 3 y 4.


Dnde:
estndar.

: dato muestral.

: media muestral. : desviacin

Nota: los valores de la columna 6 son los mismos que la columna 5, solo estn
ordenados inversamente.
5

Zi

Zn+1-i

-1.5117
-1.4041
-1.2965
-1.0455
-1.0096
-1.0096
-0.4716
-0.1130
-0.0412
-0.0054
0.2457
0.2815
0.6043
0.6761
0.7478
0.9989
1.0706

1.3934
1.1782
1.1423
1.0706
0.9989
0.7478
0.6761
0.6043
0.2815
0.2457
-0.0054
-0.0412
-0.1130
-0.4716
-1.0096
-1.0096
-1.0455

1.1423 -1.2965
1.1782 -1.4041
1.3934 -1.5117

Los valores para las columnas de 7 y 8, son obtenidos de la tabla de


distribucin normal acumulada.
En Excel utiliza la funcin: = DISTR.NORM (valor, media, desviacin estndar,
Acum)
Valor: valor cuya distribucin se desea obtener.
Media: media aritmtica de la distribucin.
Desviacin estndar: desviacin estndar de la distribucin.
Acum: Valor lgico que determina la forma de la funcin. Argumento
VERDADERO para obtener la distribucin acumulada.
7
F(Yi)
0.0653
0.0801
0.0974
0.1479
0.1563
0.1563
0.3186
0.4550
0.4836
0.4979
0.5970
0.6109
0.7272
0.7505
0.7727
0.8411
0.8578
0.8733

8
F(Yn+1i)
0.9182
0.8806
0.8733
0.8578
0.8411
0.7727
0.7505
0.7272
0.6109
0.5970
0.4979
0.4836
0.4550
0.3186
0.1563
0.1563
0.1479
0.0974

0.8806
0.9182

0.0801
0.0653

** Con la utilizacin de un software ya no es necesario las columnas 5 y 6.

Las columna 9 y 10 se determina con logaritmos neperiano, para columna 9 se


determina directo (LN(<valor columna 7>)) y columna 10 se determina LN((1 <valor columna 8>)) posteriormente se determina el resultado del logaritmo
neperiano.
9

10
LN(1LN(F(Yi))
F(Yn+1-i))
-2.7288
-2.5240
-2.3290
-1.9112
-1.8557
-1.8557
-1.1438
-0.7874
-0.7266
-0.6974
-0.5158
-0.4929
-0.3186
-0.2870
-0.2579
-0.1731
-0.1534
-0.1354
-0.1271
-0.0853

-2.5041
-2.1256
-2.0662
-1.9507
-1.8393
-1.4815
-1.3883
-1.2990
-0.9438
-0.9089
-0.6889
-0.6608
-0.6070
-0.3836
-0.1700
-0.1700
-0.1601
-0.1025
-0.0835
-0.0675

La ltima columna de la tabla se determina con la siguiente formula:

11
Si
-0.2616
-0.6974
-1.0988
-1.3517
-1.6628
-1.8355
-1.6459
-1.5648
-1.4198
-1.5260
-1.2649
-1.3267
-1.1570
-0.9053
-0.6204
-0.5318
-0.5171
-0.4163
-0.3897
-0.2980

Se suman los valores de Si (Columna 11):

Aplicacin del estadstico de Anderson-Darling:


A2 = - N S
A2 = -(20) (-20.4916) = 0.491563

CONCLUSIONES:
El valor estadstico (A2 = 0.4916) es menor al valor critico (A2critico = 0.752), por
lo tanto no se rechaza la hiptesis nula.
Por lo tanto los datos observados tienen una naturaleza de distribucin normal.

Prueba de Shapiro-Wilk
En estadstica, el Test de ShapiroWilk se usa para contrastar la normalidad de
un conjunto de datos. Se plantea como hiptesis nula que una muestra x1,...,
xn proviene de una poblacin normalmente distribuida. Fue publicado en 1965
por Samuel Shapiro y Martin Wilk.1 Se considera uno de los test ms potentes
para el contraste de normalidad, sobre todo para muestras pequeas (n<30).
El estadstico del test es:

Donde:

Donde:

Siendo m1,..., mn son los valores medios del estadstico ordenado, de variables
aleatorias independientes e idnticamente distribuidas, muestreadas de
distribuciones normales. V es la matriz de covarianzas de ese estadstico de
orden.
La hiptesis nula se rechazar si W es demasiado pequeo.
Interpretacin: Siendo la hiptesis nula que la poblacin est distribuida
normalmente, si el p-valor es menor a alfa (nivel de confianza) entonces la
hiptesis nula es rechazada (se concluye que los datos no vienen de una
distribucin normal). Si el p-valor es mayor a alfa, no se rechaza la hiptesis y
se concluye que los datos siguen una distribucin normal.

Prueba de Ryan- Joiner


La prueba de Ryan - Joiner es usada para probar si una muestra viene de una
distribucin especfica. Esta prueba es una modificacin de la prueba de
Kolmogorov-Smirnov donde se le da ms peso a las colas de la distribucin que
la prueba de Kolmogorov-Smirnov .En estadstica, la prueba de Ryan - Joiner es
una prueba no paramtrica sobre si los datos de una muestra provienen de una
distribucin especfica.
Ryan-Joiner (RJ) prueba de normalidad es muy similar a la prueba de ShapiroWilk, pero los autores afirman que es fcil de implementar en software y
explicar a los usuarios, ya que es simplemente una versin de la correlacin
entre los datos de la muestra, yi, y el punto de porcentaje bi de la distribucin
normal:

Puesto que la media de los valores de b es 0, se puede simplificar esta


expresin para:

La prueba resultante est muy altamente correlacionada con el de Shapiro-Wilk


y, por lo tanto prueba puede ser utilizada y se producen resultados muy
similares. La prueba de Ryan-Joiner se implementa en el paquete de software
Minitab.
En el mtodo de Anderson Darling o Ryan Joiner, si el valor de probabilidad P
de la prueba es mayor a 0.05, se considera que los datos son normales. Seguir
los siguientes pasos:
H= Los datos tienen una distribucin normal
H= Los datos NO tienen una distribucin normal

También podría gustarte