UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU
UNIDAD DE POST GRADO
FACULTAD DE INGENIERIA DE MINAS.
METODOS CUANTITATIVOS
ANALISIS DE DATOS.
Prueba de normalidad
Prueba de una Distribucion de Poisson
(Prueba de Bondad de Ajuste de Poisson)
ING. SAUL MAYOR PARIONA
CIUDAD UNIVERSITARIA - 2023ANALISIS DE DATOS
| PRUEBA DE NORMALIDAD
Objetivo
La prueba de normalidad genera una gréfica de probabilidad normal y realiza
una prueba de hipétesis para examinar si las observaciones siguen 0 no una
distribucién normal
Algunos procedimientos estadisticos, como una prueba t o Z, presuponen que
las muestras provienen de una distribucién normal.
Se utiliza este procedimiento para poner aprueba el supuesto de normalidad.
Para la prueba de normalidad, las hipétesis son:
HO : Los datos siguen una distribucién normal
H1 : Los datos no siguen una distribuci6n normaTIPOS DE PRUEBAS DE NORMALIDAD
Los siguientes son tipos de pruebas de normalidad que puede utilizar para evaluar la normalidad.
Prueba de Anderson-Darling
Esta prueba compara la funcién de distribucién acumulada empirica (ECDF) de los datos
de la muestra con la distribucién esperada si los datos fueran normales. Si la diferencia
observada es adecuadamente grande, usted rechazara la hipstesis nula de normalidad en
la poblacién.
Prueba de normalidad de Ryan-Joiner
Esta prueba evalua la normalidad calculando la correlacién entre los datos y las
puntuaciones normales de los datos. Si el coeficiente de correlacién se encuentra cerca
de 1, es probable que la poblacién sea normal. El estadistico de Ryan-Joiner evalua la
fuerza de esta correlacion; si se encuentra por debajo del valor critico apropiado, usted
rechazara la hipotesis nula de normalidad en la poblacion. Esta prueba es similar a la
prueba de normalidad de Shapiro-Wilk.
Prueba de normalidad de Kolmogorov-Smirnov
Esta prueba compara la funcién de distribucion acumulada empirica (ECDF) de los datos
de la muestra con la distribucién esperada si los datos fueran normales. Si esta diferencia
observada es adecuadamente grande, la prueba rechazara la hipotesis nula de
normalidad en la poblacién. Si el valor p de esta prueba es menor que el nivel de
significancia (a) elegido, usted puede rechazar la hipétesis nula y concluir que se trata de
una poblacién no normal.Comparaci6n de las pruebas de normalidad de Anderson-Darling,
Kolmogorov-Smirnov y Ryan-Joiner
Las pruebas de Anderson-Darling y Kolmogorov-Smirnov se basan en la funcién
distribucién empirica. La prueba de Ryan-Joiner (similar a la prueba de Shapiro-
Wilk) se basa en regresién y correlacién
Las tres pruebas tienden a ser adecuadas para identificar una distribucién no
normal cuando la distribucién es asimétrica. Las tres pruebas distinguen menos
cuando la distribucion subyacente es una distribucién t y la no normalidad se
debe a la curtosis. Por lo general, entre las pruebas que se basan en la funcion
de distribucion empirica, la prueba de Anderson-Darling tiende a ser mas efectiva
para detectar desviaciones en las colas de la distribucién. Generalmente, si la
desviacion de la normalidad en las colas es el problema principal, muchos
profesionales de la estadistica usarfan una prueba de Anderson-Darling como
primera opcion.PRUEBAS DE NORMALIDAD CON SPSS
Para evaluar la normalidad de un conjunto de datos tenemos el Test de
Kolmogorov Smirnov y el test de Shapiro-WilksLa opcién NNPLOT del SPSS permite la evaluacién del ajuste de una
variable continua a una curva normal, tanto de forma grafica como
analitica.
Las pruebas analiticas de que dispone esta opcién son:
Kolmogorov-Smirnov con la modificacién de Lillierfors y la prueba de
Shapiro-Wilks.
Esta ultima la realiza el SPSS si el tamafio muestral es inferior a 50, es
decir, da por defecto las dos pruebas; mientras que si el n° de
individuos es superior a 50, sdlo da como resultado la de Kolmogorov-
Smimov.1. La prueba de Kolmogorov-Smirnov con la modificacién de Lillierfors
Es la mas utilizada y se considera uno de los test mas potentes para muestra
mayores de 30 casos.
En este test la Hipotesis nula Ho: es que el conjunto de datos siguen una
distribucién normal
Y la Hipotesis Alternativa H1: es que no sigue una distribucién normal.
Este test se basa en evaluar un estadistico: Dn lFn (x) — F(x) | Fn (x): es la
distribucién empirica F (x): Es la distribucion teérica, que en este caso es la
normal Si el valor del estadistico supera un determinado valor, que depende
del nivel de significacién con el que uno quiera rechazar la hipétesis nula,
diremos que esa coleccién de datos no se distribuye segun una distribucion
normal.
Lillierfors tabulé este estadistico para el caso mas habitual en el que
desconocemos la media y la varianza poblacional y las estimamos a partir de
los datos muestrales. El SPSS ya utiliza esta prueba modificada.2. La prueba de Shapiro-Wilks
Se basa en estudiar el ajuste de los datos graficados sobre un grafico
probabilistico en el que cada dato es un punto cuyo valor de abscisa el
valor observado de probabilidad para un valor determinado de la variable, y
el de ordenada el valor esperado de probabilidad. En este test la Ho y la H1
son iguales que para la prueba anterior.
El estadistico W de Shapiro-Wilks mide la fuerza del ajuste con una recta.
Cuanto mayor sea este estadistico mayor desacuerdo habra con la recta de
normalidad, por lo que podremos rechazar la hipétesis nula
La prueba de Shapiro-Wilks esta considerada como la prueba mas potente
para muestra inferiores a 30 casos.Ejemplo 1:
Se tiene una muestra de 25 trabajadores, a los cuales se les ha evaluado el
desempefio en el trabajo con cuatro evaluadores presentado (las observaciones
se presentan en el archivo evaluacion.xls) . Con un nivel de significancia de
0,05. Realizar una prueba para determinar si las observaciones tienen 0 no una
distribucién normal.Il PRUEBA DE DISTRIBUCION DE POISSON
(Prueba de Bondad de Ajuste de Poisson)
Distribucion de Poisson
En teoria de probabilidad y estadistica, la distribucién de
Poisson es una distribuci6n de probabilidad discreta que
expresa, a partir de una frecuencia de ocurrencia media, la
probabilidad de que ocurra un determinado numero de
eventos durante cierto periodo de tiempo. Concretamente,
se especializa en la probabilidad de ocurrencia de sucesos
con probabilidades muy pequefas, 0 sucesos "raros".Propiedades
La funcion de densidad de probabilidad de la distribucion de Poisson es
Ayk
Aik.) =X
Donde
+k es el numero de ocurrencias del evento o fendmeno (la funcién nos da la
probabilidad de que el evento suceda precisamente k veces).
*\ es un parametro positivo que representa el numero de veces que se
espera que ocurra el fendmeno durante un intervalo dado. Por ejemplo, si el
suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos
interesados en la probabilidad de que ocurra k veces dentro de un intervalo
de 10 minutos, usaremos un modelo de distribucién de Poisson con A =
10x4 = 40.
*e es la base de los logaritmos naturales (e = 2,71828...)La funcion generadora de momentos de la
distribucion de Poisson con valor esperado A
es
~ oo rN
2) = Se fe,d) = yrentes - ede),
0 io
Las variables aleatorias de Poisson tienen la
propiedad de ser infinitamente divisibles.
La divergencia Kullback-Leibler desde una
variable aleatoria de Poisson de parametro
Ap a otra de parametro A es
Dru (Aldo) = (1 J+ les yIntervalo de confianza
Un criterio facil y rapido para calcular un intervalo de confianza aproximada de
Aes propuesto por Guerriero (2012). Dada una serie de eventos k (al menos
el 15 - 20) en un periodo de tiempo T, los limites del intervalo de confianza
para la frecuencia vienen dadas por:
fin = (1-28) #
ys
1.96 k
Fy = (1+ )t
” vk-1/T
Entonces loa limites de los parametros A estan dados por:
Mow = FrowTs Aupp = FuppTPrueba de Distribucion de Poisson
Prueba de Bondad de Ajuste de Poisson
Ejemplo.
El gerente de una empresa minera busca asignar la cantidad de
echaderos de desmonte de tal manera que se brinde un buen nivel de
servicio y al mismo tiempo mantener un nivel razonable en el costo total
de mano de obra.
Para llevar a cabo el estudio una variable importante es la llegada de los
camiones al echadero, sobre la cual realizamos un muestreo, luego se
analiza si la distribucién de probabilidad de Poisson puede modelar este
conjunto de datos.
Para llevar a cabo el proceso de muestreo definiremos las llegadas de los
camiones en términos de la cantidad de camiones que entran al echadero
durante intervalos de cinco minutos.Probar la hipotesis de una distribucidn de Poisson para la cantidad de
entradas de camiones al echadero se selecciona al azar una muestra
de 128 intervalos de 5 minutos, en dias habiles y durante un periodo
de tres semanas, puede ser en las horas de la mafiana. Para cada
intervalo se anota la cantidad de camiones que llegan. Y se
determina la cantidad de intervalos de 5 minutos donde no hubo
entradas, la cantidad de intervalos de 5 minutos donde con una
entrada, la cantidad de intervalos de 5 minutos donde con dos
entradas, y asi sucesivamente. Los datos los podemos representar
en una tabla de frecuencias.
Cantidad de
Camiones Fo
° 2
1 8
2 10
3 12
4 18
5 2
6 2
7 16
8 12
9 6
TOTAL 128