Sel Dist Proba

Seleccin de distribuciones de probabilidad
Patricia Kisbye
FaMAF
6 de mayo, 2010
Anlisis estadstico de datos simulados
I Los sistemas reales tienen fuentes de aleatoriedad:
Tipo de sistema Fuente de aleatoriedad
Fabricacin Tiempos de procesamiento

Tiempos de falla
Tiempos de reparacin de mquinas
Defensa Tiempos de arribo y carga til
de aviones o misiles.
Errores de lanzamiento.
Comunicaciones Tiempos entre llegadas de mensajes.
Longitudes de mensajes.
Transporte Tiempo de embarque
Tiempos entre arribos a un subte...
Simulacin a partir de los datos
Para simular un sistema real es necesario:

I Representar cada fuente de aleatoriedad de acuerdo a una
distribucin de probabilidad.
I Elegir adecuadamente la distribucin, para no afectar los
resultados de la simulacin.
Cmo elegir una distribucin? Cmo simular un sistema a partir

de un conjunto de observaciones?
I Utilizando los datos directamente.
I Realizando el muestreo a partir de la distribucin emprica de los
datos.
I Utilizando tcnicas de inferencia estadstica.
Eleccin de una distribucin
Utilizar los datos directamente:

I Slo reproduce datos histricos.
I En general es una informacin insuficiente para realizar
simulaciones.
I Es til para comparar dos sistemas, para hacer una validacin
del modelo existente con el simulado.
Distribucin emprica:
I Reproduce datos intermedios (datos continuos).
I Es recomendable si no se pueden ajustar los datos a una
distribucin terica.
Inferencia estadstica
Inferencia estadstica vs. distribucin emprica:

I Las distribuciones empricas pueden tener irregularidades si hay
pocos datos, una distribucin terica suaviza los datos.
I Puede obtenerse informacin an fuera del rango de los datos
observados.
I Puede ser necesario imponer un determinado tipo de
distribucin, por el tipo de modelo que se desea simular.
I No es necesario almacenar los datos observados ni las
correspondientes probabilidades acumuladas.
I Es fcil modificar los parmetros.
I Puede no existir una distribucin adecuada.
I Generacin de valores extremos no deseados.
Distribuciones de probabilidad ms utilizadas
Continuas:
I Uniforme: Para cantidades que varan "aleatoriamente" entre
valores a y b, y que no se conocen ms datos.
I Exponencial: Tiempos entre llegadas de "clientes" a un sistema,
y que ocurren a una tasa constante. Tiempos de falla de
mquinas.
I Gamma, Weibull: Tiempo de servicio, tiempos de reparacin.
I Normal: Errores. Sumas grandes Teorema central del lmite.
I Otras: (Law & Kelton, cap. 6)
Parmetros:
I de posicin: (normal, uniforme)
I de escala: (normal, uniforme, exponencial, lognormal)
I de forma: (Gamma, Weibull, lognormal)
Distribucin uniforme
1
I f (x) = ba I(a,b) (x)
I a: posicin, b a: escala.
I Rango: a < x < b.
a+b
I Media: 2 .
(ba)2
I Varianza: 2 .
Distribucin Gamma(, )
x 1 exp(x/)
I f (x) = ()
I : forma, : escala.
I Rango: x > 0.
I Media: .
I Varianza: 2 .
I NOTACIN para
I = 1 Exponencial
Distribucin Weibull (, )

I f (x) = x 1 e(x/)
I Rango: x > 0.

1 .

I Media:
Distribucin Normal(, 2 )
I f (x) =
1 exp((x )2 /(2 2 ))
2
I : posicin, : escala.
I Rango: R.
I Media: .
I Varianza: 2 .
Distribucin Lognormal(, 2 )
2 2
I f (x) = 1 e(log(x)) /(2 )
x 2 2
I Rango: x > 0.
2
I Media: e+ /2
.
2
2+
I Varianza: e (e 1).
Distribuciones de probabilidad ms utilizadas
Discretas:
I Bernoulli.
I Uniforme discreta.
I Geomtrica: nmero de observaciones hasta detectar el primer
error.
I Binomial negativa: nmero de observaciones hasta detectar el
n-simo error.
I Poisson: Nmero de eventos en un intervalo de tiempo, si
ocurren a tasa constante.
Distribucin Binomial
n = 5, p = 0.1 n = 5, p = 0.5 n = 5, p = 0.8

Distribucin Geomtrica
p = 0.25 p = 0.5
Distribucin Poisson
Distribucin Poisson
Corresponde a = 25.
Distribucin emprica
Datos continuos
I Datos observados: X1 , X2 , . . . , Xn disponibles.
I Datos agrupados en un intervalo: histograma.
Si los datos estn disponibles, puede construirse una funcin de
distribucin lineal a trozos:
I Ordenando los datos de menor a mayor: X(1) , X(2) , . . . , X(n)
I Definiendo F (x) como:

0
x < X(1)
i1 xX(i)
F (x) = n1 + (n1)(X(i+1) X(i) ) X(i) x < X(i+1) 1i <n

1 X(n) x

F (X(i) ) = (i 1)/(n 1) proporcin de Xj menores que X(i) .

Si los datos estn agrupados en intervalos:
[a0 , a1 ), [a1 , a2 ), . . . , [ak 1 , ak )
y cada intervalo [aj1 , aj ) contiene nj observaciones:
n1 + n2 + + nk = n
es razonable definir la distribucin emprica como:

n1 + n2 + + nj
G(a0 ) = 0, G(aj ) =
n
e interpolando linealmente estos puntos.
G(aj ) = proporcin de Xj menores que aj .
Distribucin emprica
Caso discreto
I Si los datos X1 , X2 , . . . , Xn estn disponibles se define la funcin
de masa emprica:
#{i | Xi = x}
p(x) =
n
I Si los datos estn agrupados, se define la funcin de masa p(x)
de modo que la suma en cada intervalo sea igual a la proporcin
de Xi s en dicho intervalo.
La definicin de p(x) dentro del intervalo es esencialmente
arbitraria.
Tcnicas de prueba de independencia
Para ciertos tests, es necesario asumir independencia de los datos

observados.
Ejemplos de no independencia:
I Datos de temperaturas a lo largo de un da.
I Tiempos de demora en una cola de espera.
Tcnicas
I Grficos de correlacin: j .
I Diagramas de dispersin (scattering): (Xi , Xi+1 ).
I Tests no paramtricos.
Inferencia estadstica
1. Elegir una o ms distribuciones apropiadas.

2. Estimacin de parmetros de la distribucin elegida.
3. Pruebas (tests) de bondad de ajuste.
4. Si es necesario, corregir la distribucin adoptada.
Elegir una distribucin
I Conocer el origen de los datos.
I Estimar algunas medidas a partir de los datos:
I Media, mediana, mximo y mnimo, coeficiente de variacin,
desviacin estndar, coeficiente de asimetra.
I Histograma.
I q-cuantiles, diagramas de caja (box-plots)
I Q Q plots y P P plots.
Medidas tiles
Funcin Estimador Estima

Min, Max X(1) , X(n) rango
Media X (n) ( Tendencia central
X
Mediana = 1 (n+1)/2
m Tendencia central.
2 (Xn/2 + X(n/2+1) )
Varianza 2 S 2 (n) Variabilidad
S 2 (n)
c.v.= (n) =
cv X (n)
Variabilidad
S 2 (n)
= X (n)P
Variabilidad
3
E[(X )3 ] i (Xi X (n)) /n
Asimetra = ( 2 )3/2
(n) = [S 2 (n)]3/2
Simetra
Estimacin de parmetros
Dada una muestra de n datos observados, se llama estimador del

parmetro a cualquier funcin de los datos observados.
Propiedades de un buen estimador
I Insesgabilidad: se dice que el estimador es insesgado si
= .
E[]
I Consistencia: si al aumentar la muestra, el estimador se
aproxima al parmetro.
I Eficiencia: se calcula comparando su varianza con la de otro
estimador.
I Suficiencia: utiliza toda la informacin obtenida de la muestra.
Estimador de mxima verosimilitud
Supongamos que se tiene la hiptesis de una distribucin discreta

para los datos observados, y se desconoce un parmetro .
Sea p (x) la probabilidad de masa para dicha distribucin.
Dado que se han observado datos X1 , X2 , . . . , Xn , se define la funcin

de mxima verosimilitud L() como sigue:
L() = p (X1 ) p (X2 ) p (Xn ).
El estimador de mxima verosimilitud es el valor que maximiza L():

L(),
L() valor posible.
Si la distribucin supuesta es continua, y f (x) es la densidad para

dicha distribucin, se define:
L() = f (X1 ) f (X2 ) f (Xn ).

Estimador de mxima verosimilitud
El estimador de mxima verosimilitud tiene, en general, las

siguientes propiedades:
> L() para cualquier otro valor de .
1. Es nico: L()
2. La distribucin asinttica de tiene media .
3. Es invariante: = h(), entonces = h().

4. Su distribucin asinttica est normalmente distribuida.
5. Es fuertemente consistente: limn = .
Ejemplo
1 x/
Para la distribucin exponencial, = ( > 0) y f (x) = e para
x 0.

1 X1 /1 X2 / 1 Xn /
L() = e e e

n
!
1X
= n exp Xi

i=1
n
1X
= Xi = X (n) = Media muestral.
n
i=1
Ejemplo
Para la distribucin geomtrica, = p (0 < p < 10) y
pp (x) = p(1 p)x1 para x = 1, 2, . . . .
Pn
L(p) = pn (1 p) i=1 (Xi 1)
n
p Pn
= (1 p) i=1 Xi
1p
X 1
1
=
p Xi
n
Estimadores de mxima verosimilitud:
Distribuciones continuas:
I Uniforme: a = max{Xi }.
= min{Xi }, b
I Exponencial: = X (n).
I y se resuelven numricamente.
Gamma, Weibull:
I Normal: 1/2
n1 2
= X (n),

= S (n) .
n
I Lognormal:
Pn 1/2
)2
P
i=1 log(Xi ) i=1 n(log(Xi )

= ,
= .
n n
Estimadores de mxima verosimilitud
Distribuciones discretas:
I = X (n)/t.
Binomial (t, p): si t es conocido, p
I Bernoulli: Caso binomial con t = 1 e igual p.
I Geomtrica: p= 1 .
X (n)
I Binomial negativa (s, p): nmero de ensayos hasta el s-simo
= s .
xito. Si s es conocido: p X (n)
I = X (n).
Poisson:

Sel Dist Proba

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sel Dist Proba

Cargado por

Copyright:

Formatos disponibles

Seleccin de distribuciones de probabilidad

I Los sistemas reales tienen fuentes de aleatoriedad:

Tipo de sistema Fuente de aleatoriedad

Fabricacin Tiempos de procesamiento

Para simular un sistema real es necesario:

Cmo elegir una distribucin? Cmo simular un sistema a partir

Utilizar los datos directamente:

Inferencia estadstica vs. distribucin emprica:

n = 5, p = 0.1 n = 5, p = 0.5 n = 5, p = 0.8

F (X(i) ) = (i 1)/(n 1) proporcin de Xj menores que X(i) .

[a0 , a1 ), [a1 , a2 ), . . . , [ak 1 , ak )

y cada intervalo [aj1 , aj ) contiene nj observaciones:

es razonable definir la distribucin emprica como:

Para ciertos tests, es necesario asumir independencia de los datos

1. Elegir una o ms distribuciones apropiadas.

Funcin Estimador Estima

Dada una muestra de n datos observados, se llama estimador del

Supongamos que se tiene la hiptesis de una distribucin discreta

Dado que se han observado datos X1 , X2 , . . . , Xn , se define la funcin

L() = p (X1 ) p (X2 ) p (Xn ).

El estimador de mxima verosimilitud es el valor que maximiza L():

Si la distribucin supuesta es continua, y f (x) es la densidad para

L() = f (X1 ) f (X2 ) f (Xn ).

El estimador de mxima verosimilitud tiene, en general, las

También podría gustarte