Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 Inferencia
1 Inferencia
teoría de distribuciones
Tema 1
Itziar Aretxaga
Conceptos básicos de la inferencia estadística
Definiciones:
Espacio de la muestra (Ω) es el conjunto de los posibles valores de un
experimento
Evento (A) es el conjunto de valores tomados por el experimento dentro
del espacio de la muestra. El evento complementario es Ac ≡ Ω − A
Variable aleatoria x(Ai) es una función definida en el espacio de N posibles
eventos Ai.
Función de distribución o probabilidad acumulada, F, es la probabilidad de
que cuando se mide un valor de la variable aleatoria x, éste sea menor o
igual a x’. F es una función monotónicamente creciente.
Si −∞≤x≤∞ es Ω, entonces F(−∞)=0, F(∞)=1.
Probabilidad discreta y su
correspondiente probabilidad
acumulada
Probabilidad discreta
representada como un
histograma bidimensional de
encasillado regular
Densidad de probabilidad
0 ≤ P(A) ≤ 1
P(Ω) = 1, P(Ø) = 0
si AB ≡ A ∩ B = Ø P(A U B) = P(A) + P(B)
Ejemplo: cálculo de la probabilidad de que en una tirada de una moneda, salga o águila o sol.
AS = Ø , P(A U S) = P(A) + P(S)= ½ + ½ = 1
Independencia:
Ejemplo: cálculo de la probabilidad de que en dos tiradas de una moneda, salgan dos águilas
P(AA) = ½ × ½ = ¼
Probabilidad condicional:
P(A|B) = P(AB) / P(B)
Ejemplo: cálculo de la probabilidad de que en dos tiradas de una moneda, dada una primera
águila, salga otra águila P(A|A) = P(AA)/P(A) = ¼ / ½ = ½
Teorema de Bayes
P(B|A)P(A)
P(A|B) = P(B|A) P(A)/P(B) =
P(B|A)P(A) + P(B|Ac)P(Ac)
de lo que se deduce (aunque resulta filosóficamente controvertido),
P(H|X) = 0.95 x 0.90 / (0.95 x 0.90 + 0.07 x 0.10) = 0.9919, es decir, 99.2%
Esperanzas
Esperanza ε(x) de una variable aleatoria x es el valor que esperamos
adopte en promedio.
N
( x) xi P ( xi ) si la distribución es discreta
i 1
( x) xP( x)dx si la distribución es continua
Propiedad de la covariancia:
Si x e y son independientes cov(x,y)=0.
dF
f ( x)
dx
FWHM
P( x)dx[a,b]
− nivel de confianza al 68.3%
P( x)dx 0.25
0.25talyque
b
y el intervalo
Ejemplo:
N
1 ( x x ) k
mk ( x x ) k P ( x)dx
i
En general: mk i 1
o
N k
Distribuciones habituales: binomial
Definición: variable de Bernouilli es aquélla cuyo espacio de muestra sólo
contiene dos resultados.
x 1 0
P(x) p q≡1−p
Distribución: si en n intentos se obtienen k aciertos, la distribución de
probabilidad del número de aciertos viene dada por
n n n!
P(k) = ( k ) p q
k n−k
donde ( k) ≡
k! (n-k)!
n=4
Momentos de la distribución: k=x=2
p=0.5
media <x> = ∑i xi P(xi) = np
variancia σ 2(x) = ∑i (xi − <x>)2 P(xi) = npq (Fig. © “Hyperstat Online Textbook”)
p=0.04
n=10 P(3)=10! / 3! / 7! x 0.043 x 0.967 = 0.006, es decir 0.6%
Distribuciones habituales: poissoniana
Definición: proceso poissoniano es aquél compuesto de eventos discretos
que son independientes en el espacio y en el tiempo.
Distribución: si el número de eventos esperados, μ,
en un intervalo de extensión h es μ = λh (λ da la
tasa de eventos por unidad de h), entonces la
probabilidad de que ocurran n eventos en h viene
dada por
μn e−μ
P(n) =
n!
Momentos de la distribución:
media <x> = ∑i xi P(xi) = μ = hλ
variancia σ 2(x) = ∑i (xi − <x>)2 P(xi) = μ = hλ
(Fig. © Carnegie Mellon, Biological Sci.)
Ejemplo: La señal promedio recibida de una fuente es de 10 cuentas
por segundo. Calcular la probabilidad de recibir 7 cuentas en un segundo dado.
h=1 P(7)=107 x e−10 / 7! = 0.09, es decir 9%
n=7 A comparar con la probalidad en el máximo, si te parece baja:
μ=10 P(10)=1010 x e−10 / 10! = 0.125, es decir 12.5%
Moraleja: las probabilidades poissonianas para un número de eventos dado, son siempre
pequeñas, incluso en el máximo de la distribución de probabilidad. Si se desea discutir si el
número de eventos es típico, se debe comparar con la media y la variancia.
Distribuciones habituales: gaussiana
Propiedades: es la distribución más utilizada en las ciencias porque
1. muchas variables aleatorias se pueden aproximar por una distribución
gaussiana (véase el teorema central del límite)
2. es fácil de utilizar matemáticamente
Distribución:
1 1 ( x )2
P( x) exp
2 2
2
La distribución normal estándar: μ=0 y σ=1.
Momentos de la distribución:
media <x> = ∫ xP(x)dx = μ
variancia σ 2(x) = ∫ (x − μ)2 P(x)dx = σ 2
(Fig. © Univ. of Georgia, “Hyperphysics”)
Significancias habituales:
1σ: P(μ−σ ≤ x ≤ μ+σ) = 0.683 (La integral de la distribución
2σ: P(μ−2σ ≤ x ≤ μ+2σ) = 0.955 está tabulada en todos los
3σ: P(μ−3σ ≤ x ≤ μ+3σ) = 0.997 libros de estadística básica)
Ejemplos: perfil de las líneas de emisión en un espectro unidimensional, perfil radial de objetos
puntuales en una imagen óptica (patrón de dispersión de una imagen puntual), …
Ejemplo: distribución de brillo de
una estrella, patrón de dispersión
de una fuente puntual
(Aretxaga et al. 1999, MNRAS)
Teorema central del límite
S n n
lim
P z ( z )
n
2
n
K d dL
El proceso de scattering simple resulta en f ( ) d dL
3
El proceso de scattering múltiple, sin embargo, da f ( ) d dL exp( 2 / 2 2 ) d dL
Momentos de la distribución:
media <χ2> = ∫ xP(x)dx = f
(Fig. © Univ. of Arkansas, Community College at Hope)
variancia σ 2(χ2) = ∫ (x − f)2 P(x)dx = 2f
momento k mk=f (f+2)...(f+2k−2)=<(χ2)k>
Propiedades:
1. es una distribución frecuentemente utilizada para medir desviaciones de
medidas experimentales respecto de un modelo adoptado.
2. cuando f entonces ( f ) / 2 f ( x) , donde Φ(x) es la
2
1
y 2
mn 2
m / 2 1
x x
w 2
P( x) 2
n / 2 m / 2 x 1
( mn) / 2
(Fig. © NIST/SEMATECH “Engineering Statistics Handbook”)
1 (n 1) / 2 t 2
( n 1) / 2
y la de t2 por la distribución F con m=1.
P (t ) 1
n n / 2 n
1 1 (log x ) 2
P( x) exp
2 2 x
2 2
Momentos de la distribución:
media <x> = ∫ xP(x)dx = exp(μ+σ2/2)
variancia σ 2(x) = ∫ (x − <x>)2 P(x)dx = (exp σ 2
−1) exp(2μ+σ 2)
Sea n0=a0 el número inicial de e− producidos por cada fotón. El número final de fotones tras pasar
por k etapas de fotomultiplicación será nk=Πi ai, de manera que log nk = ∑i log ak. En virtud del
teorema central del límite, log nk se aproxima a una distribución gaussiana para valores grandes
de k, y por lo tanto, nk se aproxima a una distribución log-normal.
Cálculo de errores
En Astronomía se trabaja continuamente con distribuciones de medidas
(flujo, número de objetos, ...)
El error asociado a una cantidad θ=θ(x,y,..,) dependiente de las variables
x,y,..., si éstas no están correlacionadas, y su variancia es pequeña, se
puede aproximar en primer orden por
2 2
2 2
x y
2
x y
(“Kendall’s Advanced Theory of Statistics I: Distribution Theory”, Stuart & Oed, Edward Arnold
Publ., sección 10.5)
Cálculo de errores
2 2
2 2
x y
2
x y
Ejemplo: cálculo del flujo emitido por una línea espectral.
Flujo entre a y b: L´= ∑i li´ = 1050 x 3 + 1100 x 2+ 1300 = 6650
σL´2 = ∑i li´ = L´
Determinación del nivel de continuo: c=1/N ∑ i ci = 1/10 ∑110 1000 = 1000 L=650 ±100
σc2 = 1/N2 ∑i σci2 = 1/N2 ∑i ci = c/N
Continuo bajo la línea: C = 1000 x 6 = 6000 ; σC2 = 62 σc2 = 3600
Línea: L = L´ − C = 6650 − 6000 = 650; σL2 = σL´2 + σC2 = 6650 + 3600
flujo
1200
1150
1100
1050
1000
a b λ
Ejemplo de aplicación erronea del cálculo de propagación de errores
(Byron P. Roe, 2001, “Probability and Statistics in Experimental Physics”, Springer)
Algunas veces, los efectos no lineales en la propagación de errores hace que las fórmulas
anteriores dejen de funcionar.
En 1983 F. James revisó los datos de un experimento en el que se había encontrado una masa
no nula para el neutrino e−. La masa se medía a partir de la cantidad R
a
R
d K 2d
2
(b c) 21 a
K e Ke
donde, sin entrar en detalles, a,b,c,d,e eran cantidades medibles, K era un valor fijo, y si
R<0.420, entonces el neutrino tenía masa. El experimento encontraba R=0.165 con un error
derivado de la propagación lineal de σR=0.073. La conclusión obvia era que el neutrino tenía
masa, ya que R=0.420 se encontaba a 3 sigmas, correpondiendo a una probabilidad de uno
en mil.
En muchos casos prácticos, los errores tienen largas colas de probabilidad, con las que hay
que trabajar con mucho cuidado, sin sobreinterpretar el valor de la desviación cuadrática
media.
Análisis de identidad de dos distribuciones
Test de t-Student: ¿Tienen dos distribuciones la misma media?
Suposiciones: las muestras están derivadas de distribuciones gaussianas
con la misma variancia. Por lo tanto, el test es paramétrico.
Estrategia: medir el número de desviaciones estándar que las separa
(err = σ/√N)
Método: sean las muestras A ≡ {xi}, i=1,...,NA de media xA
B ≡ {xi}, i=1,...,NB de media xB
e igual variancia σ2. Se definen sD y t
1/ 2
N A ( xi x A ) 2 N B ( xi xB ) 2 1 1 x A xB
sD i 1 i 1
t
N A NB 2 sD
N A N B
La probabilidad de que t tome un valor así de grande o más viene dada
por la distribución t-Student con n ≡ NA+NB grados de libertad, donde un
valor pequeño significa que la diferencia es muy significante.
( n 1)
1 (n 1) / 2 x2
t 2
P (t , n)
n ( n / 2) t
dx 1
n
Esta función está tabulada en los libros de estadística básica, y se puede
encontrar codificada en la mayoría de las bibliotecas de programación.
(Press et al., “Numerical Recipes”)
Análisis de identidad de dos distribuciones
Variante del test de t-Student: ¿Tienen dos distribuciones la misma
media?
En el caso de que las variancias de las dos muestras sean diferentes,
σA2 ≠ σB2, se definen t y n
x A xB
t
( A2 / N A B2 / N B )1/ 2
n 2
/ N A B2 / N B
2
A
2
( A / N A ) 2 ( B2 / N B ) 2
N A 1 N B 1
donde n no tiene por qué ser un número entero.
La probabilidad de que t sea así de grande o más viene aproximadamente
dada por la misma distribución P(t,n) anterior.
donde nB / 2
x
nB / 2 F n A / 2
La distribución F está tabulada en los libros de estadística básica, y se
encuentra codificada en la mayoría de las bibliotecas de programación.
f(xi) ≡ { 0 si xi<x
1 si xi≥x para cada muestra. La diferencia máxima entre ellas
donde
N e 0.12 0.11 / N e D
y Ne=NANB/(NA+NB). La expresión es buena
para N ≥4 (Stephens 1970) .
Análisis de identidad de dos distribuciones
El test de Kolmogorov-Smirnov no es muy sensible si la diferencia máxima
entre las distribuciones acumuladas ocurre en los extremos de las mismas.
Para solucionar este problema, se introdujo una variante del test.
QSOs: 85%
RQ QSOs: 39%
RL QSOs: 99.5%
Análisis de identidad de dos distribuciones
Test Kolmogorov-Smirnov multidimensional: (Peacock 1983, MNRAS, 202,
615; Fasano & Franceschini 1987, MNRAS, 225, 155)
cov( x, y )
CC
x y
(Loredo T. 1992, en “Statistical Challenges in Modern Astronomy”, ed. Feigelson & Babu,
Springer, http://www.astro.cornell.edu/staff/loredo/bayes/tjl.html)
de muestreo:
informativa
anterior predictiva:
Para el compárese
(nota: caso particular enprobabilidad
con la el que se detectan 7 eventos P(10
frecuentista) en 1| segundo,
7) la probabilidad de que el
proceso tenga una media de 10 eventos por segundo es del 9%: (Loredo 1992)
Ejemplo: estimación de una media poissoniana sobre un fondo
Supongamos que hemos obtenido una medida de Non eventos en un intervalo de tiempo
Ton, y que deseamos inferir la frecuencia de eventos de la señal, s , sobre el fondo, b. Se
supone que se puede estimar el fondo de una medida independiente de Noff eventos en un
intervalo Toff.
Toff (bToff ) N off e bToff
p (b | N off )
Como en el caso anterior N off !
♦ Ejemplo: medida en la que b ≥ n (Kraft et al. 1991, ApJ, 374,344) — inconsistencias de los
cálculos frecuentistas.
Supóngase que b de conoce por un método alternativo con una gran precisión
• Cálculo bayesiano:
No existe ninguna ambigüedad en el planteamiento del problema. Se deben calcular los CL de
la densidad de la probabilidad posterior P(s| n,b)
1
n e b b i e ( s b ) ( n b) n
P ( s nb)
i 0 i! n!
El intervalo de s para diferentes valores de CL, n, b se encuentra tabulado, aunque es simple
calcularlo al resolver los CL con la expresión anterior.
(Kraft et al. 1991)
La comparación de ambos métodos indica que el cálculo frecuentista incurre en
contradicciones cuando n<b, ya que los límites superiores de los CL llegan a ser negativos.
Sin embargo, para casos en que b<n, los límites calculados son prácticamente iguales.
bayesiana
bayesiana
frecuentista frecuentista