Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9/14/2006
Resumen
El procedimiento Ajustando Distribución (Datos No Censurados) ajusta cualquiera de las 45
distribuciones de probabilidad a una columna numérica de datos. Los datos se asumen que no
son censurados, i.e., los datos representan muestras aleatorias de la distribución seleccionada. Si
los datos han sido censurados debido al límite de detección o alguna otra causa, use el
procedimiento Ajuste de Distribución (Datos Censurados).
ppm
8.25
2.82
4.16
18.66
12.72
8.75
2.29
7.22
9.76
7.72
27.38
5.14
Se desea encontrar una distribución de probabilidad que provea un modelo adecuado para la
variación muestral que permita una referencia para comparar futuras muestras.
• Datos: Columna numérica que contiene los datos que serán analizados.
Distribuciones Ajustadas
Gamma Lognormal Normal Weibull
forma = 1.56457 media = 13.7033 media = 12.8219 forma = 1.28496
escala = 0.122023 desviación estándar = 15.6921 desviación estándar = 10.445 escala = 13.8975
Escala log: media = 2.19873
Escala log: desv. est. = 0.915324
En la tabla anterior, 4 distribuciones han sido ajustadas a los datos de agua subterránea. Las
distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las
distribuciones lognormal y normal están definidas por su media y desviación estándar. En el
caso de la distribución lognormal, la media y la desviación estándar de los logaritmos naturales
de ppm también son mostrados.
• Distribución: Selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución
es descrita en detalle en la documentación Distribuciones de Probabilidad. Para ayudar a
determinar que distribuciones ajustan, el panel Comparación de Distribuciones Alternas
descrito enseguida puede ser de gran ayuda. Las siguientes tablas pueden ser de ayuda.
Distribuciones Discretas
Distribución Rango de los Datos Uso común
Bernoulli 0o1 Modelo para eventos con solo dos posibles
resultados.
Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli.
Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos
Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito
Bernoulli.
Hypergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población
finita.
Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-ésimo éxito
Bernoulli.
Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.
Distribuciones Continuas
Distribución Rango de los Datos Uso común
Beta 0≤X≤1 Distribución de una proporción aleatoria.
Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e
inferior.
Birnbaum-Saunders X > 0 Tempo de Fallas.
• Parámetros del umbral extendidos – Cuando se ajusta distribuciones que tienen uno o mas
parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las
distribuciones relevantes son:
Trazas de Densidad
Un buen lugar para empezar cuando se selecciona una distribución para un conjunto de datos es
las Trazas de Densidad. Las Trazas de Densidad proveen un estimador no parametrito de la
función de densidad de probabilidad de la población de la cual los datos fueron muestreados.
Esta es formada contando el número de observaciones que caen dentro de una ventana de
anchura fija movida a través del rango de los datos.
0.03
0.025
0.02
densidad
0.015
0.01
0.005
0
0 10 20 30 40 50
ppm
1 n ⎛ x − xi ⎞
f ( x) = ∑W ⎜
hn i =1 ⎝ h ⎠
⎟ (1)
Función Boxcar
⎧1 if u ≤ 1 / 2
W (u ) = ⎨ (2)
⎩0 otherwise
Función Coseno
⎧1 + cos(2πu ) if u < 1 / 2
W (u ) = ⎨ (3)
⎩0 otherwise
La última selección usualmente da resultados más suaves, con el valor deseado de h que depende
del tamaño de la muestra.
En el caso de datos de agua subterránea, las trazas de densidad empiezan relativamente altas en
X = 0, incrementan a u pico, y después caen lentamente en dirección positiva. Una distribución
positivamente sesgada claramente será necesaria para modelar estos datos.
• Método: La función de ponderación deseada. La función boxcar pondera todos los valores
dentro de la ventana igualmente. La función coseno de pesos decrecientes a las observaciones
sobre el centro de la ventana. La selección de defecto es determinada por lo fijado en la
pestaña EDA de la caja de dialogo de Preferencias accesible desde el menú Editar.
• Ancho de Intervalo: El ancho de una ventana h dentro de la cual las observaciones afectan
la densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es
irrazonable para una muestra pequeña pero puede no dar mucho detalle como un valor
pequeño en una muestra mas grande.
Gráfico de Simetría
El Grafico de Simetría puede también ser usado para ayudar a saber si los datos provienen de
una distribución simétrica, i.e., una distribución que tiene una función de densidad con la misma
forma en ambos lados alrededor de la mediana.
40
distancia arriba de la mediana
30
20
10
0
0 10 20 30 40
distancia abajo de la mediana
La distancia de cada para abajo y arriba de la mediana es graficada. Si los datos vienen de una
distribución simétrica, loa puntos deberían caer cerca de la línea de 45 grados. Si no, los puntos
se desviaran de la línea en una direccio0n particular. Los puntos de la grafica anterior se desvían
mucho sobre la diagonal, indicando una cola mas pesada a la derecha que a la izquierda.
Pruebas de Normalidad
El panel de Pruebas de Normalidad realice 4 diferentes pruebas diseñadas para determinar si los
datos podrían razonablemente venir de una distribución normal o no. Para cada prueba las
hipótesis de interés son:
• Hipótesis Nula: los datos son muestras independientes de una distribución normal
• Hipótesis Alt.: los datos no son muestras independientes de una distribución normal
Las pruebas que son corridas son seleccionadas usando las Opciones del Panel. Cada prueba es
desplegada con su con su estadística de prueba asociada y su P-Valor. P-valores pequeños
permiten rechazar la hipótesis nula y así rechazar la normalidad. En la tabla anterior, los P-
valores para las pruebas Shapiro-Wilks y Chi-Cuadrada están ambos por debajo de 0.01,
permitiendo un rechazo de la normalidad para los datos en un nivel de 99% de confianza.
{ (
k = min 100, ceiling 3.7653(n − 1)
0. 4
)} (4)
Esta calcula el número de observaciones Oi que caen en cada clase y las frecuencias
esperadas Ei basadas en la distribución ajustada. Una estadística chi-cuadrada es
calculada de acuerdo a
2
k
(Oi − Ei )
X =∑
2
(5)
i =1 Ei
• Incluir – Selecciona las pruebas que serán incluidas en la salida. Las pruebas defecto son
definidas en la caja de dialogo de Ajuste de Dist. de la pestaña de Preferencias en el menú
Edición.
Prueba de Bondad-de-Ajuste
El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es
razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las
hipótesis de interés son:
La prueba que será corrida es seleccionada usando las Opciones del Panel.
Las primaras 2 pruebas en general pueden ser aplicadas a cualquier conjunto de datos:
Prueba de Kolmogorov-Smirnov
Gamma Lognormal Normal Weibull
DMAS 0.077951 0.0441855 0.181741 0.0889679
DMENOS 0.0905791 0.0953022 0.123694 0.0833416
DN 0.0905791 0.0953022 0.181741 0.0889679
Valor-P 0.835346 0.786792 0.0896715 0.850863
k (O − Ej )
2
χ =∑
2 j
(6)
j =1 Ej
la cual es comparada a una distribución chi-cuadrada con k-p-1 grados de libertad, donde
p es el numero de parámetros estimados cuando ajustamos la distribución seleccionada.
Para una distribución discreta, los intervalos son formados tomando cada valor único de
X y agrupando valores juntos de cada extremo, formando intervalos con valores
esperados Ej ≥ 2. Para una distribución continua, intervalos equiprobables son formados
(intervalos con igual Ej) y k se selecciona para alcanzar el mas grande numero de
intervalos con Ej ≥ 2. P-valores pequeños permiten rechazar la distribución supuesta. En
la tabla anterior, la prueba rechaza la hipótesis de una distribución normal en un nivel de
significancia del 1% ya que el P-valor is menos que 0.01. Aunque, las demás
distribuciones son candidatos razonables.
z ( i ) = Fˆ (x( i ) ) (7)
y entonces calcula y muestra el máximo de las distancias de la c.d.f. empírica por encima
de la c.d.f. ajustada
⎧ i − 1⎫ (9)
D − = max ⎨ z (i ) − ⎬
i
⎩ n ⎭
(
D = max D + , D − ) (10)
Las otras 5 pruebas, 2 dos de las cuales son mostradas enseguida, tienen ambas una forma
estándar y una forma modificada:
D de Kolmogorov-Smirnov Modificada
Gamma Lognormal Normal Weibull
D 0.0905791 0.0953022 0.181741 0.0889679
Forma Modificada 0.633302 0.666324 1.26667 0.609933
Valor-P >=0.10* >=0.10* <0.01* >=0.10*
Anderson-Darling A^2
Gamma Lognormal Normal Weibull
A^2 0.331698 0.322124 1.87405 0.372536
Forma Modificada 0.322124 1.90586 0.383404
Valor-P * >=0.10* 0.0000734208* >=0.10*
*Indica que el Valor-P se ha comparado con tablas de valores críticos especialmente construida para ajustar la distribución
seleccionada. Otros valores-P están basados en tablas generales y pueden ser muy conservadores (excepto para la Prueba de chi-
cuadrada).
Detalles y tablas de valores críticos pueden ser encontrados en D’Agostino y Stephens (1988).
V = D+ + D− (11)
Watson U2 - Esta estadística es una versión modificada de W2 diseñada para datos sobre
un círculo. Es calculada de acuerdo a:
U 2 = W 2 − n( z − 0.5) 2 (13)
Anderson-Darling A2 - Esta estadística es una medida ponderada del área entre la c.d.f.
empírica y ajustada. Es calculada de acuerdo a:
(i )
A = −n −
2 i =1 (14)
n
De acuerdo a las pruebas mostradas en la tabla anterior, cualquiera de las tres distribuciones
excepto la normal daría un modelo razonable para los datos.
• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones
use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales.
Si esta opción no es seleccionada, las clases serán creadas de acuerdo al Histograma de
Frecuencias.
Histograma de Frecuencias
La mejor forma para ver distribuciones ajustadas es a través del Histograma de Frecuencias.
Este panel muestra un histograma de los datos como un conjunto de barras verticales, junto con
la densidad de probabilidad estimada o más funciones.
15 Distribución
Gamma
12 Lognormal
Normal
Weibull
frecuencia
0
0 20 40 60 80
ppm
Note que las 3 distribuciones no normales son positivamente sesgadas. Las distribuciones
gamma y Weibull son cercanamente idénticas, y la distribución lognormal tiene el pico más
grande.
• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los
intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los
datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de
Preferencias en el menú Edición.
• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las
barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras
de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido
escala por la raíz cuadrada y suspende las barras de la curva.
2.8 Distribución
Normal
1.8
RAIZ(frecuencia)
0.8
-0.2
-1.2
0 20 40 60 80
ppm
La idea de usar raíces cuadradas es para igualar la varianza de las desviaciones entre las barras y
la curva, lo cual de otra forma incrementaría con una frecuencia creciente. La idea de suspender
las barras de la curva es permitir una comparación visual sencilla con la línea horizontal
graficada en 0, ya que la comparación visual con una línea curva puede ser engañosa.
Estadísticamente, hay grandes discrepancias entre el histograma y la distribución normal ajustada
en la grafica anterior.
Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en
orden de acuerdo a que tan bien ajustan los datos.
La tabla muestra:
Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-
de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las
Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de
la estadística Anderson-Darling A2. De acuerdo a esta estadística, la Weibull de 3-parámetros
ajusta mejor.
• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones
seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas.
• Más Común: Presionar este botón para seleccionar las distribuciones mas comúnmente
usadas (continuas).
• Todas Discretas: Presionar este botón para seleccionar todas las distribuciones discretas.
• Todas Continuas: Presionar este botón para seleccionar todas las distribuciones continuas.
• Localización-Escala: Presionar este botón para seleccionar todas las distribuciones que son
parametrizadas por un parámetro de localización (como la media) y uno de escala (como la
desviación estándar).
• Umbral: Presionar este botón para seleccionar todas las distribuciones que contienen un
parámetro umbral inferior.
• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de
mejor a peor.
15 Distribución
Gamma
12 Lognormal
Normal
Weibull
frecuencia
0
0 20 40 60 80
ppm
Gráfico Cuantil
El Grafico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la
función de distribución de acumulación de la distribución ajustada.
Gráfico Cuantil
1 Distribución
Gamma
probabilidad acumulada
0.8 Lognormal
Normal
Weibull
0.6
0.4
0.2
0
0 10 20 30 40 50
ppm
Para crear la grafica, los datos son ordenados del más pequeño al más grande y graficados en las
coordenadas
⎛ j − 0 .5 ⎞ (15)
⎜ x( j ) , ⎟
⎝ n ⎠
Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el
caso en la grafica anterior menos para la normal.
Áreas de Cola
Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.
Valores Críticos
Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad
especificada.
La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X
es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución
gamma ajustada es igual a 0.01 en X = 0.548.
• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las
distribuciones ajustadas.
Gráfico Cuantil-Cuantil
El grafico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas
versus los percentiles equivalentes de las distribuciones ajustadas.
Gráfica Cuantil-Cuantil
50 Distribución
Gamma
40 Lognormal
Normal
Weibull
30
ppm
20
10
0
0 10 20 30 40 50
Gamma distribución
Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es
representada por la línea diagonal. Las otras son representadas por curvas.
En la grafica anterior, la distribución ajustada gamma ha sido usada para definir el eje X. el
hecho de que los puntos caigan cerca de la línea diagonal confirma el hecho de que la
distribución gamma provee un buen modelo para los datos, igual la distribución Weibull. La
línea lognormal es cerca en el extremo inferior, pero se desvía mucho en los datos más grandes
de X. Evidentemente, la cola de la distribución lognormal es muy pesada. La línea para la
distribución normal completamente se desvía de los datos.
• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,
correspondiente a la línea diagonal.
• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suaves.
Funciones de Distribución 1 y 2
Estos dos paneles grafica varias funciones para las distribuciones ajustadas.
Función de Densidad
0.08 Distribución
Gamma
Lognormal
0.06 Normal
Weibull
densidad
0.04
0.02
0
0 10 20 30 40 50
ppm
• Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.
Incrementa este valor si las líneas no son suficientemente suave.
x ± Ks (16)
Es importante notar que el intervalo anterior no es simplemente el intervalo bajo la curva normal
ajustada que contiene una área de 99.73%, el cual correspondería a ± 3 sigma. Este es mas ancho
que esto ya que permite variabilidad muestral en ambos media y desviación estándar.
• Nivel de Confianza – Especifica el nivel de confianza para los limites de tolerancia, i.e.,
100(1-α)%.
10 Distribución
Normal
8
frecuencia
0
0.8 1.2 1.6 2 2.4
ppm^0.204
El limite establece que nosotros podemos estar 95% confiados de que el 99.9% de todas las
muestras de agua subterránea tendrán valores de ppm0.204 no mayores que 2.67767. Invirtiendo la
transformación resulta el siguiente límite superior en la métrica original:
2.677671/0.204 = 124.98
Concentraciones de 125 o mas grandes podrían ser considerados como eventos inusuales.
Por ejemplo, la tabla anterior toma los valores mas extremos de ppm y establece que uno puede
estar 95% confiado de que al menos el 90.2933% de todas las muestras tendrían concentraciones
entre 0.74 y 47.78.
En este procedimiento, puedes seleccionar Opciones del Panel para elegir el nivel de confianza
100(1-α) o el porcentaje de la población P, pero no ambos.
Kolmogorov-Smirnov Valor-P
Sea d = n D . Entonces:
2π ⎛ −π 2 ⎞
P = 1− exp⎜⎜ 2 ⎟⎟ si 0.22 ≤ d ≤ 0.80 (18)
d ⎝ 8d ⎠
2 2 2
P = 2e −2 d + e −8 d − e −18 d si 0.80 < d ≤ 3.15 (19)