Está en la página 1de 36

MHIR 400 Probabilidad

Y Estadstica

Test Chi Cuadrado ejercicios,


Valor de probabilidad p, test de
normalidad

Ing. Xavier Zapata Ros, PhD


xavier.zapata@epn.edu.ec. Edificio de Hidrulica (#10). Oficina 303
ESCUELA POLITECNICA NACIONAL
FACULTAD DE INGENIERA CIVIL Y AMBIENTAL 1
Ejercicios test Chi-cuadrado de independencia

El score chi-cuadrado se calcula restando la sumatoria de


La frecuencia observada menos la frecuencia esperada al
Cuadrado y dividido para la frecuencia esperada en las
4 celdas

Ejemplo:
Se piensa construir una central hidroelctrica en una comunidad
y se decide hacer un referendo, diferenciando el gnero de la
persona consultada. Existe la inquietude que hombres y mujeres
Tengan diferentes visiones sobre el Proyecto.
2
HA: a favor hombres a favor mujeres; independientes genero-decision
HO: a favor hombres = a favor mujeres ; dependientes gnero - decisin

200 personas fueron consultadas de forma aleatoria, 100 hombres y


100 mujeres. Las respuestas fueron tabuladas de la siguiente forma

Gnero A favor Opuesto Total


Hombres 40 (60) 60 (40) 100
Mujeres 80 (60) 20 (40) 100
Totales 120 80 200

Valores esperados si el genero y la decision de apoyar el


Proyecto serian independientes

La forma mas fcil de calcular los valores esperados seria calcular


Los totales de filas y columnas y dividir para el tamao de la muestra
Total.
La frecuencia esperada se calcula como si las variables
analizadas fueran indepenientes

Er,c = (nr * nc) / n

Donde Er,c es la frecuencia esperada para el nivel r de la variable


A y el nivel c de la variable B., nr es el total de observaciones de
la muestra para el nivel r de la variable A, nc es el total de las
observaciones de la muestra para el nivel c de la variable B, y n
es el nmero total de la muestra

4
Observado

Gnero A favor Opuesto Total


Hombres 40 60 100
Mujeres 80 20 100

Totales 120 80 200

Esperado

Gnero A favor Opuesto Total


Hombres 120*100/200 =60 80*100/200=40 100
Mujeres 120*100/200=60 80*100/200=40 100
Totales 120 80 200

Esperado = no hay diferencias de gnero

5
El score o la estadistica Chi-cuadrado compara los valores observados
De los esperados bajo la suposicin que las variables categricas son
Independientes, es decir la hiptesis nula es verdadera. Si las variables
En las filas y columnas son independientes, la proporcin observada
En cada celda debe ser similar a la proporcin esperada.
Este valor de chi-cuadrado calculado se compara con
El valor de chi-cuadrado tabulado en las tablas
Estadisticas. Los grados de libertad se calculan como
(El numero de filas -1) * (nmero de columnas-1)

Df= (f-1)*(c-1)

Para el ejemplo df=1


Si escogemos un nivel de significancia del 0.05 o confianza del 95%
El valor de chi-cuadrado tabulado es = 3.84

Ch-cuadrado calculado > Chi-cuadrado tabulado


Rechazamos la hipotesis nula y aceptamos la hipotesis
alterna
HA: a favor hombres a favor mujeres
Otra forma de interpreter los resultados del test Chi-cuadrado
es tomar los valores individuales de cada celda y analizar
como contribuyen indiviualmente al chi-cuadrado total.

El valor chi cuadrado es pequeo cuando la diferencia de los valores


Observados y esperados es pequea y mas grande cuando la
Diferencia es mayor
Ejemplo:
Una encuestadora realiza una encuesta a 1000 adultos. Las
respuestas fueron clasificadas en gnero (hombre, mujer) y por
idiologia poltica (derecha, izquierda o centro) de acuerdo a la siguiente
tabla de contingencia. Se pregunta hay diferencias de genero? Use un
Nivel de significancia del 0.05

Ho: gnero e idiologia son independientes. GeneroIdiologia


HA: gnero e idologia son dependientes. GneroIdiologia

Idiologa
Derecha Izquierda Centro Total
Gnero Hombre 200 150 50 400
Mujer 250 300 50 600
Total 450 450 100 1000
9
Idiologa
Derecha Izquierda Centro Total
Gnero Hombre 200 150 50 400
Mujer 250 300 50 600
Total 450 450 100 1000

Esperado

Idiologa
Derecha Izquierda Centro Total
Gnero Hombre 450*400/ 450*400/ 100*400/ 400
1000=180 1000=180 1000=40
Mujer 450*600/ 450*600/ 100*600/ 600
1000=270 1000=270 1000=60
Total 450 450 100 1000

10
2 = [ (O - E)2 / E ]
2 = (200 - 180)2/180 + (150 -
180)2/180 + (50 - 40)2/40
+ (250 - 270)2/270 + (300 -
270)2/270 + (50 - 60)2/60
2 = 400/180 + 900/180 +
100/40 + 400/270 + 900/270 +
100/60
= 2.22 + 5.00 + 2.50 + 1.48 +
2
3.33 + 1.67 = 16.2

Los grados de libertad se calculan como


(El numero de filas -1) * (nmero de columnas-1)

Df= (f-1)*(c-1)
Df=1*2=2

Chi cuadrado tabulado = 5.991

HA: gnero e idologia son dependientes 11


Valor p
Clculo del valor p
En los ejemplos previos, la decisin de rechazar o aceptar H0
se tom al comparar el valor calculado del estadstico de
prueba con un valor crtico de z basado en el nivel de
significancia a de la prueba. No obstante, diferentes niveles de
significancia pueden llevar a diferentes conclusiones. Por
ejemplo, si en una prueba de cola derecha, el estadstico de
prueba es z 2.03, se puede rechazar H0 al nivel de signifi
cancia de 5% porque el estadstico de prueba excede de z
1.645. Sin embargo, no se puede rechazar H0 al nivel de
significancia de 1% porque el estadstico de prueba es menor a
z 2.33 (vase la figura). Para evitar ambigedades en las
conclusiones, algunos experimentadores prefieren usar un
nivel de significancia variable llamada valor p para la prueba

12
Z calculado = 2.03

Definicin El valor p o nivel de significancia observado de una


prueba estadstica es el valor ms pequeo de a para el cual H0
se puede rechazar. Es el riesgo real de cometer un error tipo I, si
H0 es rechazada con base en el valor observado del estadstico
de prueba. El valor p mide la fuerza de la evidencia contra H0.

13
En la prueba de cola derecha con estadstica observada de
prueba z 2.03, el valor crtico ms pequeo que se puede usar
y todava rechazar H0 es z 2.03. Para este valor crtico, el
riesgo de una decisin incorrecta es P(z 2.03) 1 .9788 .0212
Esta probabilidad es el valor p para la prueba. Observe que es
en realidad el rea a la derecha del valor calculado del
estadstico de prueba.

p= 1-pnorm(2.03)=0.0212 En R

Esta probabilidad es el valor p para la prueba. Observe


que es en realidad el rea a la derecha del valor calculado
del estadstico de prueba.

14
Un valor p pequeo indica que el valor observado del
estadstico de prueba se encuentra alejado del valor
hipottico de m. Esto presenta fuerte evidencia de que H0
es falsa y debe ser rechazada. Valores de p grandes
indican que la estadstica observada de prueba no est
alejada de la media hipottica y no apoya el rechazo de H0.
Qu tan pequeo necesita ser el valor p antes que H0
pueda ser rechazada?

Definicin Si el valor p es menor o igual a un nivel de


significancia a asignado previamente, entonces la
hiptesis nula puede ser rechazada y se puede informar
que los resultados son estadsticamente significativos
al nivel a.

15
En el ejemplo previo, si se escoge a .05 como nivel de
significancia, H0 puede ser rechazada porque el valor p es
menor a .05. No obstante, si se escoge a .01 como nivel de
significancia, el valor p (.0212) no es suficientemente pequeo
para permitir el rechazo de H0. Los resultados son significativos
al nivel de 5%, pero no al de 1%.
Pueden verse estos resultados publicados en revistas
profesionales como (p .05) significativo.

16
Pruebas de Normalidad

A partir del valor medio y la desviacin estandar de una muestra se


puede calcular una distribucin normal. La distribucin se basa en las
Proporciones mostradas en el siguiente grfico

17
La distribucin normal terica se puede comparer a la
distribucin de los datos

La distribucin
real tiene un
promedio de 66.51
y S=18.265

La distribucin
terica tiene un valor
medio de 66.51 y un
S= 18.265

Son los valores reales estadisticamente diferentes a los


valores tericos de la distribucin estndar?
18
19
Hay varios mtodos para evaluar si los datos siguen una
distribucin normal. Estos mtodos pueden ser grficos
y estadsticos. Ejemplos:

Grficos:

*Q-Q plots
*P-P plots de frecuencia acumulada

Estadsticos:

*W/S test
*Jarque-Bera test
*DAgostino test
*Shapiro-Wilks test

20
Los Q-Q (Quatile-Quantile) plots muestran los valores observados de
nuestra muestra y los contrastan con los valores normalmente
distribuidos (representados por una lnea)

Si los datos siguen la lineas entonces siguen la distribucin


21
normal
22
Diagramas Q-Q ejemplo en R

#numeros aleatorios que siguen una


distribucion normal
x<-rnorm(100)
#dibujar un Q-Q plot

qqnorm(x)
qqline(x,col="red")

#numeros aleatorios que siguen una


distribucion exponencial
y<-rexp(100)
qqnorm(y)
qqline(y,col="red")

23
Los mtodos grficos no son muy tiles cuando el tamao
de la muestra es pequea. Ejemplo los siguientes datos del
histograma no lucen que siguen una distribucin normal.
sin embargo estadsticamente si siguen una distribucin normal

24
Los test estadsticos de normalidad son mas precisos debido
que se calculan probabilidades.

Los test de normalidad calculan la probabilidad que una muestra


sea tomada de una poblacin normal.

Las hiptesis usadas son:

Ho: La muestra no difiere significativamente de una poblacin


con una distribucin Normal

Ha: La muestra es significativamente diferente que una poblacin


con una distribucin normal

Por lo tanto estamos interesados que se acepte la hiptesis nula!


Es decir el valor de p>
25
W/S test de Normalidad

El test W/S es un test sencillo que solo require la desviacin


estndar de la muestra y el rango.

Donde q es el test estadstico, w es el rango de los datos y s es


La distribucin estandar

26
Ejemplo:

El test W/S usa un rango crtico. Si el valor de q cae dentro del rango
Crtico, se acpeta Ho. Si el valor cae fuera de rango se rechaza Ho
27
Debido que 3.06 <q=4.16< 4.31 se acepta Ho
Debido que en el test W/S tenemos un rango crtico, es dificil determinar
La probabilidad p de nuestros resultados.

28
Test Jarque-Bera

Este test prueba las bondades de ajuste de una muestra con respect a la
Asimetria (skewness) y curtosis (kurtosis) de una distribucin normal

Donde x es cada observacin de la muestra, n es el tamao de la muestra,


S es la desviacin estndard, k3 es la asimetra y k4 es la curtosis.
29
30
Ejemplo:

31
32
La estadstica Jarque-Bera se puede comparar con la
Distribucin chi-cuadrado con 2 grados de libertad
(ver tabla). Ejemplo para un valor =0.05

El valor chi-cuadrado es 5.991. El valor calculado de Jarque-Bera


Es 4.12. Por lo tanto aceptamos la hiptesis nula

33
DAgostino Test

Se basa en la estadstica D, el cual da un lmite inferior y superior

Donde D es la estadistica de este test, SS es la suma de los


cuadrados de los datos, n es el tamao de la muestra, I es el
orden o rango de las observaciones x. Los grados de libertad
df=n al tamao de la muestra

Primero los datos se ordenan desde la observacin mas


Pequea a la mas grande o viceversa.

34
Ejemplo:

Si los valores caen dentro del rango crtico, Acepta Ho

Acepto Ho
35
En el caso que el valor de n de su muestra no est
indicado. Use el valor menor de n que mas se
acerque a los valores de la tabla

36