Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este contraste se utiliza para contrastar si una variable aleatoria (v.a.) disc-
reta tiene una determinada función de probabilidad, a partir de una muestra
aleatoria simple (m.a.s.) de dicha v.a.
Este contraste recibe el nombre de “contraste de bondad de ajuste”,
porque analiza si la distribución muestral se ajusta bien o no a la distribución
de probabilidad teórica que se desea contrastar.
Suponemos que la v.a. X puede tomar k posibles valores x1 ; :::; xk .
Nuestra hipótesis nula es que la función de probabilidad de X es f (xj ) =
p0j , para j = 1; :::; k, siendo los valores p0j (y también los xj ) totalmente
conocidos.
Suponemos que X1 ; :::; Xn es una m.a.s. de la v.a. X.
Ejemplo 1:
Supongamos que queremos contrastar si un dado está o no trucado.
La v.a. X es aquí el resultado obtenido al lanzar el dado.
El hecho de que el dado no está trucado es equivalente a que la función de
probabilidad de la v.a. X es P (X = j) = 1=6 para j = 1; :::; 6, que sería la
hipótesis nula del contraste.
La hipótesis alternativa es que la variable X sigue cualquier otra distribución
de probabilidad.
Para hacer el contraste lanzamos el dado n = 300 veces.
La tabla siguiente muestra los resultados obtenidos; en esta tabla represen-
tamos como Oj a la frecuencia absoluta de xj (es decir, número observado
de valores xj en la muestra):
xj 1 2 3 4 5 6
Oj 44 62 52 45 50 47
X
k
(Oj Ej )2
T ;
j=1
Ej
2
Ejemplo 1 (continuación):
En el caso del dado, k = 6, y todas las frecuencias esperadas son iguales a
50.
El valor muestral del estadístico de contraste es t = 4:36.
2
Puesto que 5;0:05 = 11:1, no rechazamos H0 con nivel de signi…cación =
0:05:
El p-valor del contaste es:
2
p-valor P 5 > 4:36 = 0:4988
Ejemplo 2:
Una compañía automovilista a…rma que el 50% de sus clientes se declaran
muy satisfechos con su servicio de asistencia post-venta, el 40% se declaran
bastante satisfechos, el 8% se declaran poco satisfechos y solo el 2% se
declaran nada satisfechos. Para analizar si es a…rmación es verdadera, un
analista independiente ha encuestado a 150 clientes de la compañía; 66 de
esos clientes se han declarado muy satisfechos con el servicio post-venta, 54
se han declarado bastante satisfechos, 24 se han declarado poco satisfechos
y 6 se han declarado nada satisfechos. Con estos datos, ¿hay evidencia
su…ciente para rechazar lo que a…rma la compañía?
3
E2 = 150 0:40 = 60; E3 = 150 0:08 = 12 y E4 = 150 0:02 = 3: Por
tanto, la tabla de frecuencias observadas Oj y esperadas Ej es:
Respuesta Oj Ej
Muy satisfecho 66 75
Bastante satisfecho 54 60
Poco satisfecho 24 12
Nada satisfecho 6 3
Respuesta Oj Ej
Muy satisfecho 66 75
Bastante satisfecho 54 60
Poco o nada satisfecho 30 15
Observando los tres sumandos del estadístico T; podemos ver que la razón
principal por la que se rechaza la hipótesis nula es porque el número de
clientes de la muestra que se han declarado poco o nada satisfechos está
muy por encima de lo que cabría esperar si lo que a…rma la compañía fuera
cierto.
4
2. Contraste de normalidad Jarque-Bera
Bibliografía: Newbold, Sección 14.2.
El primer paso para estudiar normalidad debe ser la obtención del his-
tograma.
En el histograma podrá apreciarse si la forma en que se distribuyen las
observaciones es similar a la de una campana de Gauss o no (con mayor
densidad de probabilidad en el centro y decrecimiento simétrico a derecha e
izquierda).
Para analizar de modo riguroso la hipótesis de normalidad se han propuesto
muchos procedimientos de contraste.
Aquí estudiaremos uno de los más sencillos, que recibe el nombre de con-
traste de normalidad de Jarque-Bera, y que se centra en comparar la
asimetría y el grosor de las colas (llamado curtosis en Estadística) de la dis-
tribución muestral con las respectivas medidas de una distribución normal
tipi…cada.
5
– si una v.a. tiene un coe…ciente de asimetría positivo, su distribución es
asimétrica a la derecha (hay más dispersión a la derecha de la media
que a su izquierda).
– si una v.a. tiene un coe…ciente de asimetría negativo, su distribución
es asimétrica a la izquierda (hay más dispersión a la izquierda de la
media que a su derecha).
6
– si el coe…ciente de curtosis de una v.a. es mayor que 3, entonces los
valores extremos de la v.a. tienen una importancia relativa mayor que
en una distribución normal (esto ocurre, por ejemplo, con las distribu-
ciones t de Student).
Por tanto, en una m.a.s. de una v.a. con distribución normal cabe esperar
que el coe…ciente de exceso de curtosis sea aproximadamente 0.
7
de signi…cación aproximado ; es: "Rechazar H0 si JB toma un valor en la
región ( 22; ; +1)":
Obsérvese que la región crítica sólo tiene valores grandes: si la distribución
de X no es normal porque es asimétrica, entonces Asi(X1 ; :::; Xn ) no será
0; y al elevar al cuadrado siempre obtendremos un valor positivo (cuanto
más grande sea, más evidencia en contra de H0 ); análogamente, si la dis-
tribución de X no es normal porque su curtosis es distinta de 3, entonces
Cur(X1 ; :::; Xn ) 3 no será 0; y al elevar al cuadrado siempre obtendremos
un valor positivo (cuanto más grande sea, más evidencia en contra de H0 ).
Ejemplo 3:
A una muestra de 1000 estudiantes se les pidió que indicaran el dinero que
gastaban en libros en un año.
El coe…ciente de asimetría muestral fue 0:15 y el coe…ciente de curtosis
muestral 3:35.
Se desea contrastar la hipótesis nula de que la cantidad de dinero gastado en
libros cada año en la población de estudiantes sigue una distribución normal
mediante el contraste de normalidad Jarque-Bera.
0 12 0 12
Asi(X1 ; :::; Xn ) A Cur(X1 ; :::; Xn ) 3 A
JB = @ q +@ q
6 24
n n
8
Comentarios adicionales sobre este contraste:
La aproximación chi-cuadrado en este caso solo funciona razonablemente
bien si n 1000:
Como el contraste es muy utilizado, se ha estudiado con detalle cómo es
la distribución de este estadístico para valores de n inferiores a 1000; como
resultado de estos estudios se han elaborado tablas que indican cuál es el
valor crítico que debe utilizarse en lugar 22; , una de las cuales se presenta
en un anexo.
Los coe…cientes de asimetría y de exceso de curtosis para un conjunto de
datos se pueden calcular con ayuda de Gretl utilizando la opción Ver )estadísticos
principales.
9
El objetivo de este apartado es estudiar si hay independencia entre las dos
variables cualitativas consideradas, es decir si P (Ai \ Bj ) = P (Ai ) P (Bj );
para todos los i; j posibles.
Si conociéramos las probabilidades pij ; ya estudiamos (en el curso pasado)
cómo tendría que hacerse este análisis: simplementeP habría que calcular por
una parte P (Ai ) = P (Ai \ B1 ) + + P (Ai \P Bc ) = ck=1 pik ; por otra parte
P (Bj ) = P (A1 \ Bj ) + + P (Ar \ Bj ) = rk=1 pkj ; y después comprobar
si el producto de estas probabilidades coincide con pij para todos los i; j
posibles.
Ahora bien, en este apartado no supondremos que estas probabilidades pij
sean conocidas; lo que supondremos es que disponemos de una muestra
aleatoria simple de tamaño n de la población, y que observamos a qué cat-
egoría de la variable A y a qué categoría de la variable B pertenece cada
elemento de la muestra.
Utilizando estas observaciones nuestro objetivo es analizar si hay indepe-
dencia entre las dos variables cualitativas.
10
Suponemos que observamos n elementos de la población, y llamamos Oij al
número observado de elementos que están a la vez en la categoría Ai y en la
categoría Bj :
Estos datos vendrán dados en una tabla de la forma siguiente:
A n B B1 B2 Bc
A1 O11 O12 ::: O1c
A2 O21 O22 ::: O2c
.. .. .. .. ..
. . . . .
Ar Or1 Or2 ::: Orc
Para obtener el estadístico de contraste conviene completar esta tabla aña-
diendo una …la más y una columna más, con los elementos que hay en total
en la correspondiente …la o columna:
A n B B1 B2 Bc Total …la
A1 O11 O12 ::: O1c R1
A2 O21 O22 ::: O2c R2
.. .. .. .. ..
. . . . .
Ar Or1 Or2 ::: Orc Rr
Total columna C1 C2 Cc n
Esta tabla recibe el nombre de “tabla de contingencia”.
Ejemplo 4:
Consideramos una población grande de personas, de la que se toma una
muestra formada por 600 personas, y cada una de ellas la clasi…camos según
A = Nivel de educación (sin estudios, estudios primarios, estudios medios y
estudios universitarios), y según B = Sexo (hombre o mujer).
Por tanto, en este caso hay r = 4 categorías posibles para A y c = 2
categorías posibles para B.
Supondremos que estas 600 personas están clasi…cadas de esta manera:
A n B Hombre Mujer
Sin Estudios 15 30
Est. Primarios 120 150
Est. Medios 95 85
Est. Superiores 60 45
11
La tabla de contingencia se obtiene añadiendo una …la y una columna, que
incluyan los totales por …la y columna.
Ri Cj Ri Cj
Eij = n 2
=
n n
El estadístico de contraste que se utiliza para contrastar la hipótesis nula
de independencia está basado en la comparación entre las frecuencias obser-
vadas Oij y las frecuencias que cabe esperar bajo independencia Eij ; más
12
concretamente, su expresión es:
X
r X
c
(Oij Eij )2
T =
i=1 j=1
Eij
Ejemplo 4 (continuación):
Con los datos que antes hemos introducido antes, nos planteamos analizar
si en la población que estudiamos las variables nivel educativo y sexo son
independientes.
Para ello calculamos una tabla que contenga todas las frecuencias esperadas
Eij :
Estudios n Sexo Hombre Mujer Total Fila
45 290 45 310
Sin Estudios 600 600
45
270 290 270 310
Est. Primarios 600 600
270
180 290 180 310
Est. Medios 600 600
180
105 290 105 310
Est. Superiores 600 600
105
Total Columna 290 310 600
Operando se obtienen la siguiente tabla de frecuencias esperadas:
Estudios n Sexo Hombre Mujer Total Fila
Sin Estudios 21:75 23:25 45
Est. Primarios 130:5 139:5 270
Est. Medios 87 93 180
Est. Superiores 50:75 54:25 105
Total Columna 290 310 600
Comparando los valores de esta tabla con los de la tabla de contingencia de
valores observados obtenemos el estadístico de contraste:
(15 21:75)2 (120 130:5)2 (45 54:25)2
T = + + + = 10:38.
21:75 130:5 54:25
13
Si tomamos como nivel de signi…cación = 0:05; el valor que aparece en la
región crítica es 23;0:05 = 7:81; por tanto, la regla de decisión es rechazar H0
si T 2 (7:81; +1):
En este caso, por tanto, rechazamos H0 ; es decir hay evidencia su…ciente
para rechazar que las variables nivel de estudios y sexo son independientes
en la población de la que se ha extraído esta muestra.
El p-valor del contraste es p-valor= P ( 23 > 10:38) = 0:0156; por tanto,
si hubiéramos tomado como nivel de signi…cación = 0:01 no habríamos
rechazado la hipótesis nula.
14
JB