Está en la página 1de 24

INSTITUTO TECNOLÓGICO DE MÉRIDA

INGENIERIA INDUSTRIAL

ESTADÍSTICA INFERENCIAL I

PROFESOR: ING. LUIS EDUARDO BASTO AGUILAR

TEMA 4: PRUEBAS DE BONDAD DE AJUSTE Y

PRUEBAS NO PARAMÉTRICAS.

GRUPO: 3I2

MAY CAN JOSE LUIS E19081269

ALEJANDRO ACHACH CASTRO E18081146

FECHA DE ENTREGA:

12 DE MAYO DEL 2021


INDICE

Introducción

4.1. Bondad de ajuste (Introducción).

4.1.1. Análisis de la Ji-Cuadrada.

4.1.2. Pruebas de bondad de ajuste.

4.1.3. Tablas de contingencia. (Prueba de independencia).

4.2. Pruebas no paramétricas.

4.2.1. Prueba de Kolmogorov-Smirnov.

4.2.2. Prueba de Anderson-Darling

Conclusión
INTRODUCCIÓN

Generalmente en cada uno de los problemas de estimación y pruebas de hipótesis se supone


que las observaciones disponibles para el estadístico provienen de distribuciones cuya forma
es conocida. En otras palabras, se ha supuesto que las observaciones provienen de cierta
familia paramétrica de distribuciones y que se debe hacer una inferencia estadística acerca
de los valores de los parámetros en los que definen dicha familia.

Aprender las medidas de bondad y de ajuste de bondad ya que estas se pueden emplear en el
contraste de hipótesis eg. el test de normalidad de los residuos comprobar si dos muestras se
obtienen a partir de dos distribuciones idénticas o si las frecuencias siguen una distribución
específica.
4.1. Bondad de ajuste
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de
observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores
observados y los k valores esperados en el modelo de estudio. Tales medidas se pueden
emplear en el contraste de hipótesis, e.g. el test de normalidad de los residuos, comprobar si
dos muestras se obtienen a partir de dos distribuciones idénticas o si las frecuencias siguen
una distribución específica.

Ejemplo de Aplicación
Supongamos que tenemos un número k de clases en las cuales se han ido registrado un total
de n observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias observadas
en cada clase por O1, O2, ..., O k (Oi es el número de valores en la clase Ai ).
Se cumplirá:
O1 + O2 + ... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas
(teóricas), a las que denotaremos por E1, E2, ..., E k .
Se cumplirá:
E1 + E2 + ... + E k = n

Se tratará ahora de decidir si las frecuencias observadas están o no en concordancia con las
frecuencias esperadas (es decir, si el número de resultados observados en cada clase
corresponde Estadística no Paramétrica Proyecto e-Math 5 Financiado por la Secretaría de
Estado de Educación y Universidades (MECD) aproximadamente al número esperado). Para
comprobarlo, haremos uso de un contraste de hipótesis usando la distribución Chi-cuadrado:
El estadístico de contraste será ( ) ∑= ∗ − χ = k i 1 i 2 2 i i E O E Observar que este valor será
la suma de k números no negativos. El numerador de cada término es la diferencia entre la
frecuencia observada y la frecuencia esperada. Por tanto, cuanto más cerca estén entre sí
ambos valores más pequeños será el numerador, y viceversa. El denominador permite
relativizar el tamaño del numerador. Las ideas anteriores sugieren que, cuanto menor sean el
valor del estadístico ∗ χ2, más coherentes serán las observaciones obtenidas con los valores
esperados. Por el contrario, valores grandes de este estadístico indicarán falta de
concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele
rechazar la hipótesis nula (los valores observados son coherentes con los esperados) cuando
el estadístico es mayor que un determinado valor crítico. Notas: (1) El valor del estadístico ∗
χ2 se podrá aproximar por una distribución Chi-cuadrado cuando el tamaño muestral n sea
grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones
deberemos agrupar varias categorías a fin de que se cumpla este requisito). (2) Las
observaciones son obtenidas mediante muestreo aleatorio a partir de una población
particionada en categorías.

4.1.1. Análisis de la Ji-Cuadrada.


La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar la bondad
del ajuste al comparar el estadístico de prueba Xo2 con el valor en tablas de la mencionada
distribución Ji cuadrada con v grados de libertad y un nivel de significancia alfa. En la
siguiente sección aplicaremos esta prueba para probar la hipótesis nula de que los números
aleatorios (provenientes de un generador) se ajustan a la distribución teórica uniforme
continuo.

Sea X una variable aleatoria discreta con valores x1, x2, ......., xn Se propone la hipótesis nula
H0, de que la distribución de donde proviene la muestra se comporta según un modelo teórico
específico tal como la uniforme, la exponencial, la normal, etc. Entonces FOi, representa el
número de veces que ocurre el valor xi mientras que FEi, es la frecuencia esperada
proporcionada por el modelo teórico propuesto. A menudo ocurre que muchas de las
frecuencias FEi, (y también las FOi) son muy pequeñas, entonces, como regla práctica
adoptamos el criterio de agrupar los valores consecutivos de estas frecuencias esperadas hasta
que su suma sea de al menos cinco. La medida estadística de prueba para la hipótesis nula
es:

Para n grande este estadístico de prueba tiene una distribución X2 aproximada con V grados
de libertad dados por

V = (k –1) – (número de parámetros estimados)

Así, si se estiman dos parámetros como la media y la varianza, la medida estadística tendrá
(k – 3) grados de libertad.

Se puede aplicar esta prueba a variables continúas agrupando adecuadamente los valores en
un número adecuado de subintervalos o clases k. Una regla empírica para seleccionar el
número de clases es:

Ejemplo de Aplicación
La siguiente muestra de tamaño 50 ha sido obtenida de una población que registra la vida útil
(en unidades de tiempo) de baterías alcalinas tipo AAA. Pruébese la hipótesis nula de que la
variable aleatoria vida útil de las baterías sigue una distribución exponencial negativa.
Considérese un nivel de significancia alpha de 5%.

8.223 0.836 2.634 4.778 0.406 0.517 2.330 2.563 0.511 6.426

2.230 3.810 1.624 1.507 2.343 1.458 0.774 0.023 0.225 3.214

2.920 0.968 0.333 4.025 0.538 0.234 3.323 3.334 2.325 7.514

0.761 4.490 1.514 1.064 5.088 1.401 0.294 3.491 2.921 0.334

1.064 0.186 2.782 3.246 5.587 0.685 1.725 1.267 1.702 1.849
SOLUCIÓN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el rango o
recorrido igual a 8.2. El valor promedio es de 2.3. A continuación ordenamos los valores de
manera ascendente y construimos el histograma de frecuencias relativas con seis clases cada
una de longitud 1.5. (Esto es debido a que 8.2 / 6 = 1.3)

k Clase FO absoluta FO relativa

1 0.0 - 1.15 21 0.42

2 1.15 - 3.0 15 0.30

3 3.0 - 4.5 8 0.16

4 4.5 - 6.0 3 0.06

5 6.0 - 7.5 1 0.02

6 7.5 - 9.0 2 0.04

Re – agrupamos las clases de modo que la FO sea de al menos 5

k Clase FO absoluta FO relativa

1 0.0 - 1.15 21 0.42

2 1.15 - 3.0 15 0.30

3 3.0 - 4.5 8 0.16

4 4.5 - 9.0 6 0.12


Como nuestra hipótesis nula es que los datos se ajustan a la función de probabilidad
exponencial negativa, emplearemos tal función para calcular mediante integración el
porcentaje de probabilidad esperado para cada subintervalo. Ya vimos que el valor promedio
es de 2.3, sin embargo, para fines prácticos lo consideraremos como 2.0. El cálculo de la
integral para la primera clase es:

k Clase FO relativa FE teórica (FO-FE)2FE

1 0.0 - 1.5 0.42 0.528 0.022

2 1.5 - 3.0 0.30 0.249 0.010

3 3.0 - 4.5 0.16 0.118 0.015

4 4.5 - 9.0 0.12 0.105 0.002

Entonces se tiene el valor

Ahora compararemos este valor calculado contra el valor tabulado de la distribución Ji –


cuadrada con un nivel de significancia alpha de 5% y el número de grados de libertad
V = (k –1) – 1 = (4 –1) –1 = 2. (Obsérvese que se estimó el parámetro promedio).

Entonces
Como vemos el valor calculado es menor que el valor tabulado, por tanto, la conclusión es
que no se puede rechazar la hipótesis nula de que la muestra proviene de una distribución
exponencial con media 2.0.

4.1.2. Pruebas de bondad de ajuste.

Una extensión de la prueba sobre la proporción binomial ocurre cuando una realización puede
clasificarse en k posibles categorías en vez de dos (éxito y fracaso). Esto puede ocurrir en la
elección de un individuo de un partido político (tricolor, amarillo, azul, otro), en el tipo de
delito por el cual un individuo es recluido (un delito de violencia, un delito de cuello blanco,
otro), por mencionar algunos ejemplos.

Supóngase que en una muestra en particular se observa que ocurre un conjunto de eventos
posibles E1 , E2 , E3 , …, Ek (véase la tabla), con frecuencias o1 , o2 , o3 , …, ok , denominadas
frecuencias observadas, y que, de acuerdo con las reglas de probabilidad, se espera que
ocurran con frecuencias e1 , e2 , e3 , …, ek , llamdas frecuencias esperadas. En un escenario
como el descrito arriba se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas.

Evento E1 E2 E3 … Ek

Frecuencia observada o1 o2 o3 … ok

Frecuencias esperadas e1 e2 e3 … ek

El estadístico  2 proporciona una medida de la discrepancia existente entre la frecuencia


observada y la frecuencia esperada, que está dada por

k (o − e )
(o − e ) 2 (o − e ) 2 (o − e ) 2
2

 = 1 1 + 2 2 + ... + k k =  j j
2
(1)
e1 e2 ek j =1 ej
Donde, se la frecuencia total es n,

 o = e
j j = n. (2)

La hipótesis nula que se desea probar es

H 0 : p1 =p10 ,…pk = pk0

Contra

Ha: al menos una pj ≠ pj0 para j=1,…,k,

Donde pj0 es la proporción correspondiente a la j-ésima categoría.

Nótese que bajo H 0 ej = n pj0 .

Bajo la hipótesis nula, el estadístico  2 (ji-cuadrado) se distribuye aproximadamente  2 (k-

1) y entonces se rechaza H 0 al nivel de significancia α si  2 excede el valor crítico 2 −1 .

Ejemplo de Aplicación

Se distribuyó el número de clientes que visitaron la oficina de un joven abogado durante sus
primeros 102 días de práctica, de la siguiente manera:

No. DE CLIENTES 0 1 2 3 4 5

No. DE DIAS 40 36 16 7 2 1

Pruebe si el número de clientes por día sigue una distribución Poisson.


Solución
H 0 : El número de clientes por día tiene distribución Poisson

H 1 : El número de clientes por día no tiene distribución Poisson

Para calcular la frecuencia esperada en cada clase, se necesita conocer la probabilidad en


cada una de dichas clases, para esto se utiliza la función de probabilidad de la distribución
Poisson que es:

Dónde: es el promedio de clientes por día.

Con la información disponible se obtiene un promedio aritmético de 1, por lo tanto =1.


Conocido el promedio se puede calcular la probabilidad en cada clase:

Para el cálculo de la estadística de trabajo se debe tener en cuenta que cada una de las
frecuencias esperadas debe ser mayor o igual a 5; para cumplir esta condición se deben unir
las tres últimas clases obteniéndose así una frecuencia esperada de 8,16 y una frecuencia
observada de 10.
Tabla. Cálculo de las frecuencias esperadas

No. DE CLIENTES No. DE DIAS pj ej

0 40 0,368 37,536

1 36 0,368 37,536

2 16 0,184 18,768

3 7 0,061 6,222

4 2 0,015 1,53

5 1 0,004 0,408

TOTAL N=102 1,000

Por lo tanto, la estadística de trabajo es:


Asumiendo una confiabilidad del 99 por ciento, en una tabla de la distribución chi-cuadrado
y dos grados de libertad (número de clases: m=4, número de estimadores obtenidos a partir
de la muestra, la media, k=1. Entonces m-k-1 = 2) se obtiene un valor para Z de 9,21. El valor
de la estadística de trabajo está en la zona de no rechazo de la hipótesis nula (Figura 3.22),
por lo tanto, con una confiabilidad del 99 por ciento, se concluye que el número de clientes
que visitan al abogado tiene una distribución Poisson.

4.1.3. Tablas de contingencia. (Prueba de independencia).

El objetivo es verificar sí existe una dependencia entre las variables cualitativas que
definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se verifica que la
probabilidad del resultado correspondiente a la combinación Ai ∩ Bj es el producto de las
probabilidades marginales correspondientes. P(Ai) es la probabilidad del resultado i para la
variable fila y P(Bj) la del resultado j para la variable columna.

P(Ai ∩ Bj) = P(Ai) · P(Bj)

Utilizaremos generalmente la notación más simplificada:

P(Ai ∩ Bj) = pij

P(Ai) = pi·

P(Bj) = p·j
Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla de
contingencia, por ni·/N y n·j/N respectivamente.

Hipótesis nula de independencia: para toda combinación de resultados de las variables fila
y columna (i, j).

H0 : pij = pi· p·j para todo i = 1, ..., k j = 1, .., m

La hipótesis alternativa, que implica dependencia, se puede formular diciendo que alguna de
las igualdades de la hipótesis nula es falsa.

Los valores observados son nij. Los valores esperados bajo la hipótesis nula de independencia
se calculan de la manera siguiente:

eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N

El estadístico de contraste se calcula de la manera habitual:

La distribución asintótica bajo la hipótesis nula es una χ 2 con (k − 1) · (m − 1) grados de


libertad. Los grados de libertad pueden entenderse, de manera intuitiva, entendiendo que el
número de parámetros que se estiman son (k − 1) y (m − 1), ya que queda fijada la
probabilidad de la última clase de cada característica una vez estimadas las restantes. Por
tanto, aplicando la fórmula para los grados de libertad se obtiene:

Grados de libertad = número de clases − número de parámetros estimados − 1

Grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)

El criterio de decisión es el mismo que en el caso general:


Rechazamos la hipótesis nula si

Donde el último término es el valor crítico asociado con una distribución χ2 , con (k − 1) ·
(m − 1) grados de libertad, tal que deja a su derecha una probabilidad igual a α.

La condición de validez es que las frecuencias esperadas eij sean mayores que 5.

Ejemplo de Aplicación

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó


una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

Sin depresión Con depresión

Deportista 38 9 47

No deportista 31 22 53

69 31 100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado
para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la
hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo
por tanto que la práctica deportiva disminuye el riesgo de depresión.
4.2. Pruebas no paramétricas.
La mayor parte de los procedimientos de prueba de hipótesis que se presentan en las unidades
anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de
poblaciones normales. Afortunadamente, la mayor parte de estas pruebas aún son confiables
cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el
tamaño de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se
denominan métodos paramétricos. En esta sección se consideran varios procedimientos de
prueba alternativos, llamados no paramétricos ó métodos de distribución libre, que a menudo
no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones
fundamentales, excepto que éstas son continuas.

Los procedimientos no paramétricos o de distribución libre se usan con mayor frecuencia por
los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniería donde los
datos se reportan no como valores de un continuo sino más bien en una escala ordinal tal que
es bastante natural asignar rangos a los datos.

Un ejemplo donde se aplica una prueba no paramétrica es el siguiente, dos jueces deben
clasificar cinco marcas de cerveza de mucha demanda mediante la asignación de un grado de
1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda
mejor, etcétera. Se puede utilizar entonces una prueba no paramétrica para determinar donde
existe algún acuerdo entre los dos jueces.

Se debe señalar que hay varias desventajas asociadas con las pruebas no paramétricas. En
primer lugar, no utilizan la información que proporciona la muestra, y por ello una prueba no
paramétrica será menos eficiente que el procedimiento paramétrico correspondiente, cuando
se pueden aplicar ambos métodos. En consecuencia, para lograr la misma potencia, una
prueba no paramétrica requerirá la correspondiente prueba no paramétrica.

Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado


desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es cierto en
particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P
citado puede ser ligeramente erróneo si existe una violación moderada de la suposición de
normalidad.
En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al mismo
conjunto de datos, debemos aplicar la técnica paramétrica más eficiente. Sin embargo, se
debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que
no siempre se tienen mediciones cuantitativas.

Ejemplo de Aplicación
Un investigador piensa que los individuos de diversas profesiones tendrán distintos grados
de susceptibilidad a ser hipnotizados. Pare el experimento se eligen al azar a 6 abogados, 6
médicos, y 6 bailarines profesionales. A cada uno se le aplica un examen de susceptibilidad
hipnótica. Los resultados aparecen aquí. Mientras mayor sea la calificación, mayor será la
susceptibilidad a ser hipnotizados. Suponga que los datos violan los supuestos necesarios
para el uso de la prueba F, pero al menos presentan una escala ordinal.

i) ¿Cuál es la hipótesis alternativa? Utilice una hipótesis no direccional.


j) ¿Cuál es la hipótesis nula?
k) Calcule la suma de rangos.
l) Calcule el estadístico H.
m) Verifique los resultados para el test aproximado.
n) ¿Cuál es la conclusión? Utilice la salida del SPSS
adjunta.
o) Compare con los resultados de un test paramétrico.
4.2.1. Prueba de Kolmogorov-Smirnov.

La prueba de Kolmogorov-Smirnov para una muestra se considera un procedimiento de


"bondad de ajuste", es decir, permite medir el grado de concordancia existente entre la
distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es
señalar si los datos provienen de una población que tiene la distribución teórica especificada.
Mediante la prueba se compara la distribución acumulada de las frecuencias teóricas (ft) con
la distribución acumulada de las frecuencias observadas (f obs), se encuentra el punto de
divergencia máxima y se determina qué probabilidad existe de que una diferencia de esa
magnitud se deba al azar.
En las tareas de investigación se pudo obtener un conjunto de observaciones, en las cuales se
supone que tienen una distribución normal, binomial, de Poisson, etc. Para el caso, las
frecuencias de las distribuciones teóricas deben contrastar con las frecuencias observadas, a
fin de conocer cuál distribución se adecua mejor al modelo.

Pasos:
1. Calcular las frecuencias esperadas de la distribución teórica específica por considerar
para determinado número de clases, en un arreglo de rangos de menor a mayor.
2. Arreglar estos valores teóricos en frecuencias acumuladas.
3. Arreglar acumulativamente las frecuencias observadas.
4. Aplicar la ecuación D = ft - f obs, donde D es la máxima discrepancia de ambas.
5. Comparar el valor estadístico D de Kolmogorov-Smirnov en la tabla de valores
críticos de D.
6. Decidir si se acepta o rechaza la hipótesis.

Ecuación:
D = ft - fobs

En esta ecuación se aprecia que el procedimiento es muy simple y quizá lo que parezca más
complicado corresponde al cálculo de la frecuencia esperada de cada tipo de distribución
teórica. Por lo tanto, en la marcha de los ejercicios se presentará cada uno de ellos y la manera
de aplicar la prueba estadística.

Ejemplo de Aplicación
En una investigación, consistente en medir la talla de 100 niños de 5 años de edad, se desea
saber si las observaciones provienen de una población normal.

Elección de la prueba estadística.


El modelo experimental tiene una muestra y es factible un arreglo en el carácter ordinal o en
los rangos de las series de clases.

Planteamiento de la hipótesis.
Hipótesis alterna (Ha). Los valores observados de las frecuencias para cada clase son
diferentes de las frecuencias teóricas de una distribución normal.
Hipótesis nula (Ho). Las diferencias entre los valores observados y los teóricos de la
distribución normal se deben al azar.

Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Tabla de 100 niños. Los valores X + s son 99.2 ± 2.85.

Aplicación de la prueba estadística.


Primero se elaboran los cálculos de los valores teóricos esperados para la distribución normal.

Inicialmente se determina el valor Z de los límites de cada clase en la serie, por ejemplo: en
la primera clase se determinan el límite inferior y el superior (90 y 93), y en las subsecuentes
sólo los límites superiores (97, 101, 105 y 109). Para cada valor de Z, se localiza el área bajo
la curva norma tipificada.

Los cálculos de valores Z, son de la forma siguiente:

Y así sucesivamente.
Para cada valor Z, se localiza el área de la curva tipificada de la tabla de números aleatorios.
A partir de estos valores, se obtiene la diferencia entre los límites de clases entre el superior
y el inferior, por ejemplo: 0.4997 - 0.4793 = 0.020, 0.4793 - 0.2357 = 0.2436, 0.2357 - (-
0.2794) = 0.5151, -0.2794 - (-0.4854) = 0.206 y -0.4854 - (-0.4994) = 0.014.
Estos resultados de diferencias se multiplican por el tamaño de la muestra (100 niños), luego
se obtienen las frecuencias teóricas y después se arreglan en frecuencias acumuladas.
Cálculos de los valores teóricos.
Las frecuencias acumuladas teóricas y las observad as se arreglan en los rangos
correspondientes, como se muestra en la siguiente tabla, y posteriormente se aplica la fórmula
de Kolmogorov-Smirnov.

Cálculo estadístico D de Kolmogorov-Smirnov.

D = ft - fobs = - 0.036
La diferencia máxima D es igual a -0.049, valor que se compara con los valores críticos de
D en la prueba muestral de Kolmogorov-Smirnov y se obtiene la probabilidad de la existencia
de esa magnitud de acuerdo con la prueba de Kolmogorov-Smirnov. El valor N es 100 y el
mayor número de N en la tabla es 35, por lo cual se aplica la fórmula al pie de la tabla:

Para la probabilidad de
Lo anterior quiere decir que para todo valor menor que el crítico para una probabilidad de
0.05, la probabilidad correspondiente es mayor que 0.05, y todo valor mayor que D al
calculado tinen una probabilidad menor que 0.05, o sea, es inversamente proporcional al
crítico determinado o localizado en la tabla.
Decisión.
En virtud de lo anterior, el estadístico de Kolmogorov-Smirnov obtendo es menor que el
crítico y su probabilidad mayor que 0.05, por lo tanto, se acepta Ho y se rechaza Ha.
Interpretación.
Las frecuencias observadas y las teóricas calculadas no difieren significativamente. Por lo
tanto, las observaciones tienen una distribución normal.

4.2.2. Prueba de Anderson-Darling

La prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de


una muestra provienen de una distribución específica. La fórmula para el estadístico A

determina si los datos (observar que los datos se deben ordenar) vienen
de una distribución con función acumulativa

Donde

El estadístico de la prueba se puede entonces comparar contra las distribuciones del


estadístico de prueba (dependiendo que se utiliza) para determinar el P-valor.

La prueba de Anderson-Darling es una prueba estadística que permite determinar si una


muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba
asume que no existen parámetros a estimar en la distribución que se está probando, en cuyo
caso la prueba y su conjunto de valores críticos siguen una distribución libre. Sin embargo,
la prueba se utiliza con mayor frecuencia en contextos en los que se está probando una familia
de distribuciones, en cuyo caso deben ser estimados los parámetros de esa familia y debe
tenerse estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos. Cuando
se aplica para probar si una distribución normal describe adecuadamente un conjunto de
datos, es una de las herramientas estadísticas más potentes para la detección de la mayoría
de las desviaciones de la normalidad.

Ejemplo de Aplicación
En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad Pde la prueba
es mayor a 0.05, se considera que los datos son normales. Seguir los siguientes pasos:

1. Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviación estándar S
= 32.02 con: Calc > Random data > Normal2.
2. Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02OK.

Nos aseguramos que los datos se distribuyan normalmente con la prueba de Anderson
Darling o Ryan joiner como sigue.

1. Stat > Basic statistics > Normality Test


2. Variable C1 Seleccionar Ryan Joiner test OK.
El P value debe ser mayor a 0.05 para que los datos se distribuyan normalmente.

Gráfica de probabilidad de un proceso normal


CONCLUSIÓN

La finalidad de la inferencia estadística es obtener información sobre características


desconocidas de las poblaciones generalmente cuantificadas por parámetros a partir de
características conocidas de las muestras cuantificadas por estadísticos. Incluir poblaciones
o inmensos datos de individuos en la investigación suele ser impracticable y por ello se suele
trabajar con grupos pequeños generalizando los resultados mediante las técnicas de
estadística Inferencia.

También podría gustarte