Estadistica Inferencial

1
Prueba de bondad de ajuste
PRUEBAS DE BONDAD DE AJUSTE
PRESENTADO POR
ESTEBAN DANIEL AGUAS NAVARRO
JESÚS LEONARDO ÁLVAREZ VÁSQUEZ
VALERIA CARDONA ÁNGEL
IVAN ANDRÉS HERRERA PERTUZ
GUILLERMO ANDRÉS NAVARRO RODRÍGUEZ
EIDER FERNANDO TAPIA DÍAZ
PRESENTADO A
JHONATAN ANDRÉS RODRÍGUEZ MANRIQUE
CORPORACIÓN UNIVERSITARIA DEL CARIBE - CECAR
FACULTAD DE CIENCIAS BASICAS, INGENIERIA Y ARQUITECTURA
INGENIERÍA DE SISTEMAS E INDUSTRIAL
SINCELEJO
2019
TABLA DE CONTENIDO
2
Resumen 3
Abstract 4
Introducción 6
Objetivos 7
● Objetivo general
● Objetivos específicos
Pruebas de bondad de ajuste 8

● Prueba de Ji-Cuadrada
● Prueba de Kolmogorov-Smirnov
● Prueba de Anderson-Darling
● Test de Shapiro-Wilk
● Prueba de Durbin-Watson
Análisis estadístico a la base de datos 28
Conclusiones 29
Referencias bibliográficas 30
Anexos 31
RESUMEN
3
En el campo ingenieril es esencial adquirir fundamentos básico es sin duda, la inferencia

estadística. Por lo tanto, es imprescindible determinar qué tipo de distribución corresponde a un
conjunto de datos del cualquier ámbito de estudios. Del mismo modo, con las pruebas de bondad
de ajuste, podemos probar y establecer la adaptación de los resultados de un experimento a una
distribución de probabilidad teórica sujeta a un error como a su vez a un nivel de confianza. Es
tan esencial este método en la comparación de las frecuencias absolutas observadas y las
frecuencias absolutas esperadas, calculadas a partir de la distribución teórica analizada. Es por eso,
que este trabajo de investigación tiene como finalidad, dar a conocer la importancia que tienen las
pruebas de bondad de ajuste como herramienta esencial en nuestro formación, para lo cual a partir
de inferencia determinaremos en una base de datos a qué tipo de bondad se ajustan estos datos ya
sea una prueba de: Anderson-Darling, Chi-Cuadrada, Kolmogorov Smirnov entre otros. A
continuación daremos a conocer los respectivos análisis y resultados obtenidos en esta grata
investigación.
Palabra claves: Análisis, distribución, Inferencias, Pruebas.
ABSTRACT
. In the engineering field it is essential to acquire basic fundamentals is, without a doubt,
statistical inference. Therefore, it is essential to determine what type of distribution corresponds to
4
a set of data from any field of studies. Similarly, with the goodness of fit tests, we can test and
establish the adaptation of the results of an experiment to a theoretical probability distribution
subject to an error as well as a level of confidence. This method is so essential in comparing the
observed absolute frequencies and the expected absolute frequencies, calculated from the
theoretical distribution analyzed. That is why, this research work aims to make known the
importance of goodness of fit tests as an essential tool in our training, for which from inference we
will determine in a database to what type of Goodness fit this data either a test of: Anderson-
Darling, Chi-Square, Kolmogorov Smirnov among others. Next we will announce the respective
analysis and results obtained in this pleasant investigation.
Keywords: Analysis, distribution, inferences, tests.

5
INTRODUCCIÓN
La información sin organizar no permite visualizar aspectos importantes sobre los datos
que en general permanecen ocultos. El valor informativo de los datos sólo es posible observarlo
luego de un estudio detallado, mediante métodos que permitan establecer su comportamiento y
posterior análisis. A continuación, veremos la inferencia de conjuntos de datos a partir del uso de
los diferentes tipos de pruebas de bondad y ajuste, provenientes de una base de datos de variables
cuantitativas, variables medidas en escala nominal u ordinal y su vez, en escala intervalo o razón,
a través de un análisis estadístico utilizando herramientas tales como: R estudios o Excel, nos
permiten facilitar la comprensión y respectivo análisis.
Antes de dar inicio con la respectiva investigación, se hace necesario resaltar el grado de
importancia de las pruebas de bondad de ajuste en el análisis inferencial. Dado que, intentan
verificar si el conjunto de datos a partir de una población o muestra, se puede ajustar o confirmar
que proviene de las diferentes distribución probabilísticas. Del mismo modo, las pruebas básicas
que se pueden aplicar son: Prueba de Kolmogórov-Smirnov, Criterio de Cramér-von Mises, Prueba
de Anderson-Darling, Test de Shapiro–Wilk, Criterio Información de Akaike por último la prueba
de Ji-cuadrada todas ellas. Ambas pruebas entran en la categoría de lo que se denomina en
estadística como: la prueba de "Bondad de ajuste" en estadísticas y medidas, como su nombre lo
indica, el grado de ajuste que existe entre la distribución de la prueba y la distribución teórica que
se supone que sigue a dicha p
OBJETIVOS
2.1 Objetivo general

6
● Determinar mediante pruebas de bondad de ajuste a qué tipo de distribución se

ajusta una base de datos cuantitativos
2.2 Objetivos específicos
● Documentar información referente a los conceptos de pruebas bondad de ajustes

y sus tipos de pruebas
● Establecer ejemplos referentes a los diferentes tipos de pruebas de bondad de
ajustes
● Usar apropiadamente los conceptos y métodos para organizar y presentar
información en: cuadro, tablas y gráficos.
PRUEBAS DE BONDAD DE AJUSTE

7
En estadística las pruebas de bondad de ajuste son pruebas de hipótesis que tienen como finalidad:
permitir verificar, si un conjunto de datos obtenidos a partir de una muestra, su comportamiento
se ajusta a un tipo de distribución de probabilidades (Uniforme, Exponencial, Normal, Poisson
entre otras). [4]
Para el cálculo de las pruebas de bondad de ajustes, se hace necesario resaltar el grado de
importancia de cinco pasos esenciales para obtener este tipo de pruebas. En primera instancia se
plantea la hipótesis nula y la alternativa, se escoge el nivel de significancia, a su vez el estadístico
de prueba, la regla decisión y posterior a eso, calcula el valor del estadístico de prueba para
finalizar con las conclusiones pertinentes. Cabe decir, que existes diversos tipos de prueba, que
son utilizadas como herramienta para determinar a qué tipo de modelo probabilístico se ajustan
para ello, daremos a conocer los siguientes tipos de pruebas: la prueba de Ji-cuadrada Prueba de
Kolmogorov-Smirnov, Prueba de Anderson-Darling, Test de Shapiro–Wilk, entre otras.
● Prueba de Ji-Cuadrada
El test de Ji-Cuadrado es una prueba estadística que con frecuencia se utiliza para analizar datos
de diversos estudios, particularmente en el ámbito de la medicina e ingeniería. Tiene la característica de
comparar proporciones a partir de datos de tipo cualitativos, es decir tiene la finalidad de comparar si dos
tasas son diferentes de la otra y a partir de inferencia, determinar sin son estadísticamente significativas.
[6]
Cabe resaltar, que este tipo de prueba no es usada para comparar promedios ni medias,
para lo cual los datos numéricos no aplican para este test. Para su uso es necesario utilizar tablas
de contingencia, sirven para organizar y cruzar los datos obtenidos de una muestra de dos
variables.
Su fórmula está representada por la siguiente expresión
𝐾
2
(𝑂 − 𝐸)2
𝑋 = ∑
𝐸
𝐼=1
Donde:
8
𝑥 2 : 𝑐ℎ𝑖𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜
O: Frecuencia observada
E= Frecuencia esperada
Como ejemplo, considere un estudio sobre participación en el mercado realizado por la empresa
Scott Marketin Research. A lo largo de los años las participaciones en el mercado se han
estabilizado en 30% para la empresa, 50% para la empresa B y 20% para la empresa C. Recién la
empresa C ha elaborado un nuevo y mejorado producto para sustituir a uno de sus productos en el
mercado y pidió a la empresa Scott Marketing Research que determinara si el nuevo producto
modificaría su participación en el mercado.
En este caso, la población de interés es multinomial, cada cliente se clasifica como cliente de
empresa A, de la empresa B o de la empresa C. De manera que se tiene una población multinomial
con tres resultados. Para las proporciones se usa la notación siguiente.
PA=participación en el mercado de la empresa A

PB=participación en el mercado de la empresa B
PC= participación en el mercado de la empresa C
Scott Marketing Research realizará un estudio muestral y calculará la proporción que prefiere el
producto de cada empresa. Después aplicara una prueba de hipótesis para ver si el nuevo producto
modifica las participaciones en el nuevo mercado. Suponga que el nuevo producto de la empresa
C no modifica las participaciones en el mercado; entonces la hipótesis nula y alternativa serán las
siguientes
Los resultados muéstrales llevan al rechazo de H0 Scott Marketing Research tendrá evidencias que
la introducción del nuevo producto afecta las participaciones del mercado. Considere que para este
estudio la empresa de investigación de mercado ha empleado un panel de 200 consumidores. A
9
cada individuo se le pide que indique su preferencia entre el producto de la empresa A, el producto
de la empresa B o el nuevo producto de la empresa C. Las 200 respuestas obtenidas se presentan
a continuación en forma resumida
Frecuencia esperada
Producto de la empresa A Producto de la empresa B Producto de la empresa C
48 98 54
Ahora se realiza la prueba de bondad de ajuste para determinar si las muestras de las 200
preferencias de los clientes coinciden con la hipótesis nula. La prueba de bondad de ajuste se basa
en la comparación de los resultados muéstrales observados con los resultados esperados, bajo la
suposición de que la hipótesis nula es verdadera. Por tanto, el paso siguiente es calcular la
preferencia esperada, con el supuesto de que PA=0.30 PB=0.50 PC=0.20 hacerlo dará los resultados
los resultados esperados.
Frecuencia observada
Producto de la empresa A Producto de la empresa B Producto de la empresa C
200(0.30)=60 200(0.50)=100 200(0.20)=40
Como se observa, la frecuencia esperada de cada categoría se encuentra multiplicando el tamaño

de la muestra, 200, por la proporción hipotética de esa categoría.
10
En la prueba de bondad de ajuste lo que interesa son las diferencias entre frecuencias observadas
y frecuencias esperadas. Grandes diferencias entre frecuencias observadas y frecuencias esperadas
harán duda sobre la exactitud de las proporciones o participaciones en el mercado hipotéticas. El
que las diferencias entre frecuencias observada y esperada sean ¨grandes¨ o ¨pequeñas¨ es una
cuestión que determina con ayuda del estadístico de prueba.
Ahora, de regreso con Scott Marketing Research, los datos muéstrales se emplearán para probar
la hipótesis de que la población multinomial las proporciones sigan siendo PA=0.30, PB=0.50 y
PC=0.20. El nivel de significancia que se va usar es 0.05. Mediante las frecuencias observadas y
esperadas se calcula el valor del estadístico de prueba. Como las frecuencias esperadas son tomas
5 o más, se calcula el estadístico de prueba Ji-cuadrada como se muestra en la figura 1. Se obtiene
La hipótesis nula se rechaza si las diferencias entre las frecuencias observada y esperadas son
grandes. Diferencias grandes entre las frecuencias esperadas y observadas darán un valor grande
del estadístico de prueba. Entonces, la prueba de bondad de ajuste siempre será una prueba de cola
superior. El área en la cola superior se emplea en el método estadístico de prueba y en el método
del valor-p para determinar si se puede rechazar la hipótesis nula. Para k-1=3-1=2 grados de
libertad, en la tabla de la distribución Ji-cuadrada se observan los datos siguientes:
CÁLCULO DEL ESTADÍSTICO DE PRUEBA CHI-CUADRADA PARA EL ESTUDIO DE
PARTICIPACIÓN DE MERCADO REALIZADO POR SCOTT MARKETING RESEARCH
Categoría Proporción Frecuencia Frecuencia Diferencia (fi- Cuadrado de Cuadrado de la

hipotética observada (fi) esperada (ei) ei) la diferencia diferencia
dividido entre
frecuencia
esperada
Empresa A 0.30 48 60 -12 144 240
Empresa B 0.50 98 100 -2 4 0.04

11
Empresa C 0.20 54 40 14 196 4.90
Total 200
El estadístico de prueba se encuentra entre 5,991 y 7,378. Por consiguiente, el área

correspondiente en la cola superior o valor-p debe estar entre 0.5 y 0.025. como el valor –p , se
rechaza H0 y se concluye que la introducción del nuevo producto de la empresa C si modifica la
estructura de la participación de mercado.
En lugar del método del valor-p se puede utilizar el método del valor crítico con el que se llega a
la misma conclusión. Como y los grados de libertad son dos, el valor crítico para el estadístico de
prueba es: La regla de rechazo de la cola superior es; Rechazar H0 si 5,991
Como 7,345, 991, se rechaza H0 con el método del valor crítico o con el método del valor-p se
llega a la misma conclusión.
Aunque no se obtienen más conclusiones como resultado de la prueba, es posible comparar las
frecuencias observadas y las frecuencias esperadas de manera informal para tener una idea de
cómo ha cambiado la estructura de la participación en el mercado. Se observa que para la empresa
C, la frecuencia observada, que es 54, es mayor que la frecuencia esperada, 40. Como la frecuencia
esperada estaba basada en la participación existente en el mercado, que la frecuencia observada
sea mayor indica que el nuevo producto de la empresa c tendrá un efecto positivo sobre la
participación en el mercado de esta empresa. Comprobando las frecuencias observadas y esperadas
de las otras dos empresas, se observa que la empresa C gana en participación en el mercado
afectando más a la empresa A que a la empresa B.
● Prueba de Kolmogorov-Smirnov
La Prueba de Kolmogorov-Smirnov es una herramienta estadística que buscar a partir de
extraer información de una población, determinar si una variable cuantitativa, si su grado de
concordancia o si por el contrario; su comportamiento se ajusta una distribución normal y del
12
mismo modo diversos autores como es el caso de García. Establece que se utilizan para comparar
el comportamiento dos distribuciones entre sí, a partir de inferencias realizadas a una población
con datos numéricos. [3]
Para este tipo de prueba sus variables y fórmulas están definidas por lo siguiente:
D: Estadístico de prueba
FO: Frecuencia Observada
FT: Frecuencia Teórica
𝐷 = 𝑀𝐴𝑋⌊𝐹𝑇 − 𝐹𝑂⌋
Ejemplos
Determinar si los valores de la primera columna se conforman a una distribución normal:
(media: 4.1 varianza: 1.82)

13
podemos concluir, que como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los
datos se distribuyen normalmente.
● Prueba de Anderson-Darling
La prueba de Anderson-Darling o también denominada “prueba de normalidad”, es una
herramienta para corroborar si un conjunto de datos muéstrales provenientes de una población
se ajustan, a un comportamiento de distribución continua por lo general de tipo normal. [4]
Cabe mencionar, que este test tiene la particularidad que entre más ajustados estén los datos
menor será su estadístico de prueba, el cual está definido por las siguientes fórmulas:
A2 = − N − S
Donde:
Además, este test tiene la particularidad, de permitir comparar las distribuciones de probabilidad
acumulado es decir, en términos de inferencia los resultados obtenidos de una muestra con la
hipótesis nula.
Las hipótesis pala prueba de Anderson Darling son:
H0: Los datos siguen una distribución especificada.
H1: Los datos no siguen una distribución especificada.1.
Se utiliza el valor P correspondiente (si está disponible) para probar si los datos provienen de la
distribución elegida. Si el valor P es menor que el nivel de significancia elegido (por lo general
0.05 o 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución.
No siempre muestra un valor P para la prueba de Anderson Darling, porque este no existe
matemáticamente para ciertos casos.
Ejemplo:
20 números al azar:
14
19, 55, 30, 79, 97, 75, 65, 90, 77, 22, 45, 16, 57, 66, 30, 91, 88, 58, 29, 86
Sacamos la media y desviación estándar:
µ = 58.75
б = 26.83
α = 0.05
Valor crítico = 0.752
Primero debemos crear la primera y segunda columna de la tabla.
1 2
i (2i-1)
1 1
2 3
3 5
4 7
5 9
6 11
7 13
8 15
9 17
10 19
11 21
12 23
13 25
14 27
15 29
16 31
17 33
18 35
19 37
20 39
Los datos se ordenan en la columna 3 de
Menor a mayor y de mayor a menor en la columna 4.

15
3 4
Yi Yn+1-i
16 97
19 91
22 90
29 88
30 86
30 79
45 77
55 75
57 66
58 65
65 58
66 57
75 55
77 45
79 30
86 30
88 29
90 22
91 19
97 16
Tenemos que determinar Z de las columnas 3 y 4.

𝑋−µ
𝑍=
б
µ = media muestral
б = desviación estándar
x = datos muestrales
5 6
Zi Zn+1-i
-1.5117 1.3934
-1.4041 1.1782
-1.2965 1.1423
-1.0455 1.0706
-1.0096 0.8989
-1.0096 0.7478
-0.4716 0.6761
-0.1130 0.6043
16
-0.0412 0.2815
-0.0054 0.2457
0.2457 -0.0054
0.2815 -0.0412
0.6043 -0.1130
0.6761 -0.4716
0.7478 1.0096
0.8989 -1.0096
1.0706 -1.0455
1.1423 -1.2965
1.1782 -1.4041
1.3934 -1.5117
Los valores de la columna 6 son los mismos que están en la columna 5, solo están ordenados
inversamente.
Y con la ayuda de un software ya no es necesario las columnas 5 y 6
7 8
F(Yi) F(Yn+1-i)
0.0653 0.9182
0.0801 0.8806
0.0974 0.8733
0.1479 0.8578
0.1563 0.8411
0.1563 0.7727
0.3186 0.7505
0.4550 0.7272
0.4836 0.6109
0.4979 0.5970
0.5970 0.4979
0.6109 0.4836
0.7272 0.4550
0.7505 0.3186
0.7727 0.1563
0.8411 0.1563
0.8578 0.1479
0.8733 0.0974
0.8806 0.0801
0.9182 0.0653
Los valores para las columnas 7 y 8, son obtenidos de la tabla de distribución normal acumulada.
17
Utilizamos en Excel la función.
=DISTR.NORM(valor, media, desviación estándar, acum)
Valor: valor cuya distribución se desea obtener.
Media: media aritmética de la distribución.
Desviación estándar: desviación estándar de la distribución.
Acum: Valor lógico que determina la forma de la función.
Argumento VERDADERO para obtener la distribución acumulada.
Las columnas 9 y 10 se determina con logaritmos neperiano, para la columna 9 se determina directo
(LN(<valor columna 7>)) y la columna 10 se determina (LN(1 - <valor columna 8>))
Posteriormente se determina el resultado del logaritmo neperiano.
9 10
LN(F(Yi)) LN(1-F(Yn+1-i))
-2.7288 -2.5041
-2.5240 -2.1256
-2.3290 -2.0662
-1.9112 -1.8393
-1.8557 -1.4815
-1.8557 -1.3883
-1.1438 -1.2990
-0.7874 -0.9438
-0.6974 -0.9089
-0.5158 -0.6889
-0.4929 -0.6608
-0.3186 -0.6070
-0.2870 -0.3836
-0.2579 -0.1700
-0.1731 -0.1700
-0.1534 -0.1601
-0.1354 -0.1025
-0.1271 -0.0835
-0.0853 -0.0675
18
La última columna de la tabla se determina con la siguiente formula:
(2𝑖 − 1)
𝑆𝑖 = (𝑙𝑛 𝑙𝑛 𝑓 (𝑌1) + 𝑙𝑛(1 − 𝐹(𝑌𝑛 + 1 − 𝑖))
𝑛
11
Si
0.2616
0.6974
1.0988
1.3517
1.6628
1.8355
1.6459
1.5648
1.4198
1.5260
1.2649
1.3267
1.1570
0.9053
0.6204
0.5318
0.5171
0.4163
0.3897
0.2980
Se suman los valores de Si (Columna 11)

𝑛
𝑆= ∑ 𝑆𝑖 = −20.4916
𝑖=1
Aplicamos del estadístico de Anderson Darling:
𝐴2 = −𝑁 − 𝑆
𝐴2 = −(20) − (−20.4916) = 0.491563

19
Esta es la unión de todas las tablas
1 2 3 4 5 6 7 8 9 10 11
i (2i- Yi Yn+1-i Zi Zn+1-i F(Yi) F(Yn+1-i) LN(F(Yi)) LN(1-F(Yn+1- Si
1) i))
1 1 16 97 -1.5117 1.3934 0.0653 0.9182 -2.7288 -2.5041 0.2616
2 3 19 91 -1.4041 1.1782 0.0801 0.8806 -2.5240 -2.1256 0.6974
3 5 22 90 -1.2965 1.1423 0.0974 0.8733 -2.3290 -2.0662 1.0988
4 7 29 88 -1.0455 1.0706 0.1479 0.8578 -1.9112 -1.8393 1.3517
5 9 30 86 -1.0096 0.8989 0.1563 0.8411 -1.8557 -1.4815 1.6628
6 11 30 79 -1.0096 0.7478 0.1563 0.7727 -1.8557 -1.3883 1.8355
7 13 45 77 -0.4716 0.6761 0.3186 0.7505 -1.1438 -1.2990 1.6459
8 15 55 75 -0.1130 0.6043 0.4550 0.7272 -0.7874 -0.9438 1.5648
9 17 57 66 -0.0412 0.2815 0.4836 0.6109 -0.6974 -0.9089 1.4198
10 19 58 65 -0.0054 0.2457 0.4979 0.5970 -0.5158 -0.6889 1.5260
11 21 65 58 0.2457 -0.0054 0.5970 0.4979 -0.4929 -0.6608 1.2649
12 23 66 57 0.2815 -0.0412 0.6109 0.4836 -0.3186 -0.6070 1.3267
13 25 75 55 0.6043 -0.1130 0.7272 0.4550 -0.2870 -0.3836 1.1570
14 27 77 45 0.6761 -0.4716 0.7505 0.3186 -0.2579 -0.1700 0.9053
15 29 79 30 0.7478 1.0096 0.7727 0.1563 -0.1731 -0.1700 0.6204
16 31 86 30 0.8989 -1.0096 0.8411 0.1563 -0.1534 -0.1601 0.5318
17 33 88 29 1.0706 -1.0455 0.8578 0.1479 -0.1354 -0.1025 0.5171
18 35 90 22 1.1423 -1.2965 0.8733 0.0974 -0.1271 -0.0835 0.4163
19 37 91 19 1.1782 -1.4041 0.8806 0.0801 -0.0853 -0.0675 0.3897
20 39 97 16 1.3934 -1.5117 0.9182 0.0653 0.2980
Para finalizar, El valor estadístico (𝐴2 = 0.4916) es menor al valor critico (𝐴2 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 =
0.752 ), por lo tanto, no se rechaza la (H0) hipótesis nula.
Por lo tanto, los datos observados tienen una naturaleza de distribución normal.
● Test de Shapiro–Wilk
El test de Shapiro–Wilk tiene la finalidad de determinar si una muestra aleatoria
presenta un comportamiento a una distribución normal
20
Por otro lado, para identificar cuándo aplicar el test de normalidad es necesario recalcar que la
muestra extraída de una población debe ser exacta a cincuenta datos. Para ello, se calcula la media
y la varianza muestra, y se ordenan las observaciones de menor a mayor. [5]
Del mismo modo La lógica de la prueba se basa en las desviaciones presentadas por las estadísticas
de orden de muestra de los valores esperados de las estadísticas de orden normal.
Se manejan los siguientes supuestos
1. Una muestra
2. Observaciones independientes
3. Muestreo aleatorio
4. Variables en escala de intervalo o razón
TIPO DE HIPÓTESIS A PROBAR
Ho: La muestra aleatoria tiene una distribución normal.
Hipótesis alterna sin dirección
Hi: La muestra aleatoria no tiene una distribución normal.
DISTRIBUCIÓN MUESTRAL
Cuantiles de W.
TIPO DE DATOS
Puntajes individuales.
FÓMULA
_ Donde
an-i+1= cuantiles esperados de x i

W=⎨ ∑ an-i+1 (x n-i+1 - x i) ⎬2/ ∑ (x - x)2
x n-i+1 = dato mayor de la muestra
= b2/S2 Ordenada
x i = dato menor de la muestra ordenada
REGLA DE DECISIÓN x = dato de la muestra ordenada
x = media de la muestra
21
Si Wo  Wt,  Rechazamos Ho
(Tabla cuantiles de W)
Para el planteamiento del siguiente ejemplo, nos basamos en un estudio de en un centro

de investigación de trastornos alimentarios para probar una nueva terapia en mujeres anoréxicas.
Los efectos beneficiosos de la intervención se observaron en el aumento de peso (en kg) de las
mujeres al final de los tres meses. El estudio se realizó con una muestra aleatoria de siete mujeres
y los datos obtenidos son los siguientes. [5]
SOLUCIÓN
Variable en escala de razón: peso ganado
Paso 1. Establecer las hipótesis a probar
Ho: La distribución de la muestra es normal.
Hi: La distribución de la muestra no es normal.
Paso 2. Elegir la prueba estadística
Dado que interesa probar que la muestra presenta distribución normal y se cuenta con
puntajes individuales y en escala de razón, y la muestra fue tomada de forma aleatoria, se
aplicará la prueba de Shapiro-Wilk.
Paso 3. Especificar alfa

Se empleará un  = 0.05
Paso 4. Región de Rechazo
Todos los valores menores o iguales a Wt con un alfa de .05
Paso 5. Decisión
Para obtener el valor observado de W y tomar la decisión estadística se aplica el procedimiento
con la fórmula de W.
5.1 . Obtener el estadístico

Se Calcula los datos necesarios para aplicar la fórmula W como se muestra en la tabla 1. Los
coeficientes an-i + 1 para calcular b se obtienen de la tabla 17. El número de coeficientes a utilizar
se determina dividiendo la muestra por medio, si n es par, la mitad es exacta (n = 2k), si n es impar,
22
se considera el siguiente número más alto (n = 2k + 1). El valor de cada coeficiente se obtiene
intersectando el tamaño de n con el de i (número de coeficiente). En el ejemplo n = 7, la mitad
sería 3.5, por lo que 4 se considerará como el número de coeficientes a obtener. Con referencia a
la tabla 17, tenemos que para n = 7 el primer coeficiente tiene un valor de 0.6233, como se puede
ver en el siguiente extracto de la tabla 17
i/n 6 7 8
1 .6431 .6233 .6052
2 .2806 .3031 .3164
3 .0875 .1401 .1743
4 .0000 .0561
Tabla 1. Procedimiento de cálculo para aplicar la fórmula de W.
PUNTAJE Ordenación de (x-x)2 Coeficiente (x n-i+1 - x i) an-i+1 (x n-i+1 - x i)

menor a mayor
S2 an-I+1 (dato mayor –dato menor) (b)
(x)
6 -4 -4-(2)=-6 36 .6233 8-(-4)= 12 .6233 (12)= 7.4796
1 -2 -2-(2)=-4 16 .3031 6-(-2)= 8 .3031(8)= 2.4248
-4 0 0-2=-2 4 .1401 5-0 = 5 .1401(5)= 0.7005
8 1 1-2=-1 1 .0000
-2 5 5-2=3 9
23
5 6 6-2=4 16
0 8 8-2=6 36
x =2  S2 = 118  b = 10.6049
FÓRMULA
W=⎨ ∑ an-i+1 (x n-i+1 - x i) ⎬2/ ∑ (x - x)2
= b2/S2 = 10.60492 / 118= 112.4639 / 118 = .9530
5.2. Obtener W de tablas.
El valor de W t se obtiene de la tabla 18 intersectando el tamaño de n con el nivel de

significancia especificado.
n 0.02 0.05 0.10
6 .743 .788 .826
7 .760 .803 .838
8 .778 .818 .851
5.3 Comparar el valor observado y el valor esperado aplicando la regla de decisión
Si Wo  Wt,  Rechazamos Ho
.9530 > .803
Dado que Wo > Wt,  0.05; podemos aceptar Ho

24
Decisión estadística: Dado que aceptamos Ho podemos decir que la distribución de la muestra
es normal.
Conclusión: Existe suficiente evidencia estadística para decir que los datos de muestra se
distribuyen de manera normal, por lo tanto, se puede suponer que se cumple el supuesto de
normalidad y los datos se pueden analizar con estadísticas paramétricas[5]
● Estadístico de Durbin-Watson
En estadística, el estadístico de Durbin-Watson, desarrollado por el reputado
economista Watson, es una estadística de prueba que se utiliza para detectar la presencia
de auto correlación (una relación entre los valores separados el uno del otro por un intervalo
de tiempo dado) en los residuos (errores de predicción) de un análisis de la regresión. Lleva
el nombre de James Durbin y Geoffrey Watson. La pequeña muestra de la distribución de
esta relación se deriva de John von Neumann (von Neumann, 1941). Durbin y Watson
(1950, 1951) aplicaron esta estadística para los residuales de mínimos cuadrados, y
desarrollaron pruebas para la hipótesis nula de que los errores no están correlacionados en
serie frente a la alternativa de que siguen un proceso de primer orden autor regresivo. Más
tarde, John Denis Sargan y Alok Bhargava desarrollaron varias pruebas estadísticas del
tipo von Neumann-Durbin-Watson para la hipótesis nula de que los errores en un modelo
de regresión siguen un proceso con una raíz unitaria contra la hipótesis alternativa de que
los errores siguen un proceso estacionario de primer orden autorregresivo (Sargan y
Bhargava, 1983).
fig 3. Estadístico de prueba

25
Donde T es el número de observaciones. Puesto que d es aproximadamente igual a 2(1 −

r), donde r es la autocorrelación de la muestra de los residuos, d = 2 indica que no hay
autocorrelación. El valor de d siempre está entre 0 y 4. Si la estadística de Durbin-Watson es
sustancialmente menor que 2, hay evidencia de correlación serial positiva. Como regla general de
dedo, si Durbin-Watson es inferior a 1, puede ser causa de alarma. Valores pequeños de d indican
que los términos de error sucesivos están correlacionados positivamente. Si d> 2, los términos de
error sucesivas son están correlacionados negativamente. En las regresiones, esto puede implicar
una subestimación del nivel de significación estadística.
Para probar la auto correlación positiva con nivel de significancia α, la estadística de prueba d se
compara con los valores críticos inferiores y superiores (dL,α and dU,α):
● Si d < dL,α, existe evidencia estadística de que los términos de error están
correlacionados positivamente.
● Si d > dU,α, no hay evidencia estadística de que los términos de error estén
correlacionados positivamente.
● Si dL,α < d < dU,α, la prueba no es concluyente.
Correlación serial positiva es la correlación en serie en la que un error positivo para una
observación aumenta las posibilidades de un error positivo para otra observación.
Para probar la auto correlación negativa con nivel de significancia α, la estadística de prueba (4 -
d) se compara con los valores críticos inferior y superior (dL,α and dU,α):
● Si (4 − d) < dL,α, existe evidencia estadística de que los términos de error se
correlacionados negativamente.
● Si (4 − d) > dU,α, no hay evidencia estadística de que los términos de error se auto
correlacionados negativamente.
● Si dL,α < (4 − d) < dU,α, la prueba no es concluyente.
Correlación serial negativa implica que un error positivo para una observación aumenta la
probabilidad de un error negativo para otra observación y un error negativo para uno aumenta las
posibilidades de un error positivo para otra observación.
Los valores críticos, dL,α y dU,α, variar según el nivel de significación (α), el número de
observaciones, y el número de predictores en la ecuación de regresión. Su derivación es compleja-
los estadísticos suelen obtener a partir de los apéndices de textos estadísticos.
26
Si la matriz de diseño X de la regresión es conocido, valores críticos exactos para la distribución

de d re bajo la hipótesis nula de que no se puede calcular una correlación serial. Bajo la hipótesis
nula d re se distribuye como:
ANÁLISIS ESTADÍSTICO A LA BASE DE DATOS

27
CONCLUSIONES
Se concluyó, que gracias a estas pruebas de bondad de ajuste, se pueden crear las hipótesis
para poder deducir a qué distribución (Normal, Uniforme, Exponencial, Poisson) pertenecen el
conjunto de datos de una población o muestra. Para deducir esto, se hizo uso de las pruebas de
bondad de ajuste las cuales se describieron en este trabajo.
Los parámetros que fueron usados en cada prueba son:

● La hipótesis nula
● Nivel de significancia o error que se deseó cometer
● Estadístico de prueba acorde a la prueba de bondad de ajuste usada
● Regla de decisión
28
● Conclusión
De acuerdo a los cálculos realizados, también se concluyó que cada prueba de bondad de ajuste
tuvo resultados diferentes, y cada prueba de bondad de ajuste se ajusta a diferentes distribuciones.
REFERENCIAS BIBLIOGRÁFICAS
[1] Alkarni, S.H.; Siddiqui, M.M. (2001) “An upper bound for the distribution function of a
positive definite quadratic form”, Journal of Statistical Computation and Simulation 69(1): 51–56.
[2] Akaike, Hirotugu (1980), «Likelihood and the Bayes procedure», en Bernardo, J. M.; et al.,
Bayesian Statistics, Valencia: University Press, pp. 143-166.
[3] García Bellido, R.; González Such, J. y Jornet Meliá, J.M. (2010). SPSS: Pruebas No
Paramétricas. Innova MIDE, Grupo de Innovación Educativa, Universitat de València.
[4] Hurley Phee, D. (1980). Estadística (2nd ed., p. 4). México: Centro de Investigación y de
Estudios Avanzados.
[5] Kolmogorov, A. N. (1933): ―Sulla determinazione empírica di uma legge di distribuzione‖.

Giornalle dell´Instituto Italiano degli Attuari, vol. 4, pp. 83-91
[6] Quevedo Ricardi, F. (2011). The chi-square. Medwave, 11(12), pp.526-527

29
[7] Anderson, Sweneey and Williams (2008). estadística para administración y economía. 10th
ed. Sergio R.Cervantes Gonzalez, pp.459-462.
[8] Scribd. (2019). Prueba de Anderson-Darling. [online] Available at:

https://es.scribd.com/document/26816059/Prueba-de-Anderson-Darling [Accessed 29 Oct. 2019].
[9] (2019). Retrieved 30 October 2019, from

https://www2.ulpgc.es/hege/almacen/download/5/5015/Complemento_3_Prueba_de_Bondad_de
_Ajuste_de_Kolmogorov_Smirnov.pdf
ANEXOS

Estadistica Inferencial

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Inferencial

Cargado por

Copyright:

Formatos disponibles

1

Prueba de bondad de ajuste

PRUEBAS DE BONDAD DE AJUSTE

JHONATAN ANDRÉS RODRÍGUEZ MANRIQUE

CORPORACIÓN UNIVERSITARIA DEL CARIBE - CECAR

FACULTAD DE CIENCIAS BASICAS, INGENIERIA Y ARQUITECTURA

INGENIERÍA DE SISTEMAS E INDUSTRIAL

Pruebas de bondad de ajuste 8

Análisis estadístico a la base de datos 28

En el campo ingenieril es esencial adquirir fundamentos básico es sin duda, la inferencia

Palabra claves: Análisis, distribución, Inferencias, Pruebas.

Keywords: Analysis, distribution, inferences, tests.

2.1 Objetivo general

● Determinar mediante pruebas de bondad de ajuste a qué tipo de distribución se

2.2 Objetivos específicos

● Documentar información referente a los conceptos de pruebas bondad de ajustes

PRUEBAS DE BONDAD DE AJUSTE

Su fórmula está representada por la siguiente expresión

PA=participación en el mercado de la empresa A

Producto de la empresa A Producto de la empresa B Producto de la empresa C

Producto de la empresa A Producto de la empresa B Producto de la empresa C

200(0.30)=60 200(0.50)=100 200(0.20)=40

Como se observa, la frecuencia esperada de cada categoría se encuentra multiplicando el tamaño

Categoría Proporción Frecuencia Frecuencia Diferencia (fi- Cuadrado de Cuadrado de la

Empresa A 0.30 48 60 -12 144 240

Empresa B 0.50 98 100 -2 4 0.04

Empresa C 0.20 54 40 14 196 4.90

El estadístico de prueba se encuentra entre 5,991 y 7,378. Por consiguiente, el área

FO: Frecuencia Observada

FT: Frecuencia Teórica

Determinar si los valores de la primera columna se conforman a una distribución normal:

(media: 4.1 varianza: 1.82)

H0: Los datos siguen una distribución especificada.

H1: Los datos no siguen una distribución especificada.1.

Sacamos la media y desviación estándar:

Valor crítico = 0.752

Primero debemos crear la primera y segunda columna de la tabla.

Los datos se ordenan en la columna 3 de

Menor a mayor y de mayor a menor en la columna 4.

Tenemos que determinar Z de las columnas 3 y 4.

Y con la ayuda de un software ya no es necesario las columnas 5 y 6

Utilizamos en Excel la función.

=DISTR.NORM(valor, media, desviación estándar, acum)

Valor: valor cuya distribución se desea obtener.

Media: media aritmética de la distribución.

Desviación estándar: desviación estándar de la distribución.

Acum: Valor lógico que determina la forma de la función.

Argumento VERDADERO para obtener la distribución acumulada.

Posteriormente se determina el resultado del logaritmo neperiano.

La última columna de la tabla se determina con la siguiente formula:

Se suman los valores de Si (Columna 11)

Aplicamos del estadístico de Anderson Darling:

𝐴2 = −(20) − (−20.4916) = 0.491563

Esta es la unión de todas las tablas

Se manejan los siguientes supuestos

TIPO DE HIPÓTESIS A PROBAR

Ho: La muestra aleatoria tiene una distribución normal.

Hipótesis alterna sin dirección

Hi: La muestra aleatoria no tiene una distribución normal.

an-i+1= cuantiles esperados de x i

x i = dato menor de la muestra ordenada

REGLA DE DECISIÓN x = dato de la muestra ordenada

Para el planteamiento del siguiente ejemplo, nos basamos en un estudio de en un centro