Está en la página 1de 11

1

Práctica de AJUSTE DE DISTRIBUCIONES II


(ajuste de datos)

1. Objetivos de la práctica
En esta práctica vamos a ajustar modelos de distribución a datos reales. Un
vez que hayamos hecho esto, podremos utilizar las propiedades de la función
de densidad o distribución para calcular probabilidades.

2. Datos
Para esta práctica se utilizarán los datos “Datosajuste.sf3”
El aspecto del fichero de datos es:

Se proporcionan cuatro variables:

• Peso: Peso en kg. de 117 estudiantes de ingeniería.


• Alturas: Altura en cm. de 60 personas
• Espera: Tiempo de espera al llegar a una parada de autobús en hora
punta.
• Beneficios: Beneficios antes de impuestos de 130 sucursales de una
entidad bancaria. (En pesetas. 1 pta=166,67 Euros)

3. Ajuste de distribuciones
Vamos a realizar el análisis para la variable PESO. Para ello seleccionamos
las opciones: DESCRIBE-DISTRIBUTIONS-DISTRIBUTION FITTING (UN-
CENSORED DATA)
2

Y seleccionamos la variable PESO

Se obtiene el siguiente resultado:


3

Parámetros de
la distribución

Icono de
Tabular gráficos
options

Los parámetros de la distribución ajustada son:


Data variable: peso

117 values ranging from 41,0 to 112,0

Fitted normal distribution:


mean = 69,1709
standard deviation = 10,8503

Es decir el Peso de distribuye como una Normal con media 69.2 y desviación
típica 10.85.

N(69.2, 10.852)

Pinchando en el icono de gráficos,


4

Seleccionamos las opciones marcadas, y maximizando la pantalla, se obtiene:

El primer gráfico (density trace) dibuja una función de densidad a partir de los
datos de PESO. Esta función de densidad sigue exactamente la distribución
de nuestros datos, pero suavizada.

El segundo gráfico es el histograma de nuestros datos con una distribución


ajustada encima. Por defecto la distribución es una normal. Para cambiar de
distribución hay que presionar el botón auxiliar del ratón, analysis options y
elegir la distribución deseada.
5

Como se ha indicado por defecto aparece la normal. En este caso la distribu-


ción normal parece ajustar bien a los datos tal como muestra el histograma

Histogram for peso


50

40
frequency

30

20

10

0
37 57 77 97 117
peso

También hay una buena concordancia entre la función de distribución de la


normal la distribución empírica calculada a partir de los datos.

Normal Distribution
1
cumulative probability

0,8

0,6

0,4

0,2

0
41 61 81 101 121
peso

Evidentemente la observación visual del ajuste no es suficiente para decidir si


un modelo es adecuado. Para ello tenemos diversos tests de bondad de ajus-
te.
6
Para obtenerlos hay que pulsar en el icono amarillo de Tabular Options y elegir
la opción Goodnes of Fit.

En esta sección se obtienen tres tests de bondad de ajuste:

1. Test de la Chi cuadrado


2. Test de Kolmogorov-Smirnof
3. Test de Anderson Darling

Estos tres tests funcionan de una manera similar y proporcionan el p-valor. El


p-valor se estudiará en el tema de contrastes de hipótesis, e indica la probabi-
lidad de encontrar una muestra más desfavorable que la que tenemos si los
datos proceden de una distribución normal.

Cuanto más pequeño es el p-valor más improbable será que la distribución


sea normal. (Ya que estaremos en una situación muy poco probable)

En nuestro caso se obtiene:


7
Goodness-of-Fit Tests for peso

Chi-Square Test
----------------------------------------------------------------------------
Lower Upper Observed Expected
Limit Limit Frequency Frequency Chi-Square
----------------------------------------------------------------------------
at or below 53,6975 8 9,00 0,11
53,6975 58,1028 9 9,00 0,00
58,1028 61,1817 11 9,00 0,44
61,1817 63,7197 5 9,00 1,78
63,7197 65,9876 10 9,00 0,11
65,9876 68,1232 18 9,00 9,00
68,1232 70,2186 9 9,00 0,00
70,2186 72,3542 5 9,00 1,78
72,3542 74,6222 8 9,00 0,11
74,6222 77,1602 9 9,00 0,00
77,1602 80,2391 10 9,00 0,11
80,2391 84,6443 6 9,00 1,00
above 84,6443 9 9,00 0,00
----------------------------------------------------------------------------
Chi-Square = 14,4446 with 10 d.f. P-Value = 0,153662

Estimated Kolmogorov statistic DPLUS = 0,0678348


Estimated Kolmogorov statistic DMINUS = 0,0451458
Estimated overall statistic DN = 0,0678348
Approximate P-Value = 0,65457

EDF Statistic Value Modified Form P-Value


---------------------------------------------------------------------
Kolmogorov-Smirnov D 0,0678348 0,738397 >0.10*
Anderson-Darling A^2 0,368646 0,37107 0,4231*
---------------------------------------------------------------------
*Indicates that the P-Value has been compared to tables of critical values
specially constructed for fitting the currently selected distribution.
Other P-values are based on general tables and may be very conservative.

Los p-valores de los tres tests son superiores a 0.10, y por tanto no rechazare-
mos la hipótesis de que los datos son normales. (En estadística se habla a veces
de una manera algo especial. En lugar de decir aceptamos que los datos son
normales, decimos “No rechazamos que los datos son normales”. La conclusión
es la misma.)

Si a nuestros datos les hubiéramos ajustado una distribución de valores extremos


“Extreme Value” (Para ello hay que presionar el botón alternativo y elegir Análisis
Options)
8

Los resultados hubieran sido:

Histogram for peso


60
50
frequency

40
30
20
10
0
37 57 77 97 117
peso

Ya se ve que el histograma es peor ajustado por esta distribución.

Los tests resultan ser:

Chi cuadrado: p-valor=0.42


Kolmogorov Smirnov: p-valor <0.01
Anderson Darling: p-valor<0.01

Por lo que no aceptaremos que la distribución de valores extremos sea adecuada


para estos datos.
9

4. Cálculo de probabilidades con la distribución ajustada


Una vez ajustada la distribución, se pueden calcular todas las probabilidades a
partir de la función de densidad.

2
En nuestro caso, la normal ajustada tiene parámetros N(69.2, 10.85 )
por lo que para calcular la probabilidad de que un estudiante pese menos de
50kg. Se puede ir a las tablas.

También lo hace directamente el ordenador:

Pinchando Tabular Options y eligiendo Tail Areas y Critical Values:

Tail Areas for peso

area below 55,3368 = 0,101154

area below 62,2538 = 0,261898

area below 69,1709 = 0,5

area below 76,088 = 0,738102

area below 83,0051 = 0,898846

Esta opción nos da las probabilidades de pesar menos de 55,3368 kilos. Para se-
leccionar el peso deseado –por ejemplo probabilidad de pesar menos de 55 kilos,
se pincha el botón auxiliar del ratón y se elige Pane Options.
10

Poniendo los pesos deseados (55-65-75-85-95) obtenemos las probabilidades de


pesar menos de esos valores.
Tail Areas for peso

area below 55,0 = 0,0957691

area below 65,0 = 0,350336

area below 75,0 = 0,704446

area below 85,0 = 0,927698

area below 95,0 = 0,991355

Es decir

o P(Peso<55)=0.096
o P(Peso<65)=0.35
o P(Peso<75)=0.70
o P(Peso<85)=0.93
o P(Peso<95)=0.99
11

5. Ejercicio:

Variable Distribución Valores de los Probabilidades


elegida parámetros
Alturas
P(Altura<160)=

P(Altura<180)=

P(160<Altura<180)=

Espera
P(Espera<5Minutos)=

P(Espera<10 minu-
tos)=

Beneficios
P(Beneficios<50)=

P(Beneficios>100=

Notas sobre distribuciones:


La dirección

http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm

Tiene una completa lista de las distribuciones habitualmente utilizadas en Ingenie-


ría y sus fórmulas.

Esta dirección pertenece al NIST (National Institute of Standards and Technolo-


gy) cuya página principal del Handbook de Estadística es:

NIST/SEMATECH e-Handbook of Statistical Methods,


http://www.itl.nist.gov/div898/handbook/ , 2006

También podría gustarte