Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
1 Introducción
Estas notas de curso son preparadas como soporte del curso de Estadística Matemática de
las carreras de Matemática e Ingeniería Matemática de la Escuela Politécnica Nacional.
Horario: Martes 11-13, Viernes 16-18
Razor de Occam: “Explanations should not be multiplied beyond neccesity”
Así se debe preferir un modelo con pocos parámetros (simple) a un modelo con muchos
parámetros (complejo) si los datos (evidencia) son igualmente explicados por ambos.
Algunos años atrás, George Cox escribió que: “all models are wrong, but some are useful.”
Así, se busca en ciencias modelos que sean lo más simple posible pero que expliquen
“bien” los datos, si es el caso, para qué intentar modelos complejos si de todas formas
todo modelo es una simplificación de la realidad, basta con que nos explique “bien” la
evidencia que dispongamos.
Desde el inicio de la formalización de los conceptos estadísticos, dos formas de pensamiento
se han enfrentado, de un lado los llamados frecuentistas y por otro los llamados Bayesianos.
Estas dos formas de aproximación están basados en principios fundamentales diferentes
que debemos comprender para, cuando sea posible, compararlos.
Enfoque Frecuentista:
• El experimento del cual provienen los datos es infinitamente repetible.
• Considera (teóricamente) “todos” los posibles resultados.
• Los parámetros del modelo del que provienen los datos son desconocidos, pero fijos.
Enfoque Bayesiano:
• Sólo existen los datos observados.
• Existe incertidumbre en los parámetros, que se trata con medidas de probabilidad.
Algunos métodos de inferencia estadística, tanto frecuentista como Bayesiana, tienen
contraparte, otras no.
X ∼ Pθ∗ ◦ X −1
Al estudiar los modelos estadísticos, muchas veces es útil ver si éste puede ser descrito a
partir de algún otro modelo más conocido o que tenga algunas ventajas, así se introduce
la siguiente definición.
Definición 2. Un modelo estadístico (Ω, A, P) se dice dominado por una medida σ-finita
µ sobre el mismo espacio medible (Ω, A) si satisface una de las condiciones equivalentes
siguientes:
a) Cada distribución en P es µ continua.
b) Cada distribución en P tiene una densidad de probabilidad respecto a µ.
Así, en un modelo estadístico dominado las medidas de probabilidad se identifican
biunívocamente con sus densidades respecto a la medida σ-finita dominante, luego puede
escribirse la densidad como la derivada de Radon-Nikodym:
dPθ
pθ (ω) = (ω)
dµ
donde la igualdades es definida µ casi-seguramente.
Observemos que la medida dominante no es única, pues se tiene que si µ está dominada
por otra medida σ-finita µ0 , entonces, aplicando la regla de la cadena en derivadas de
Radon-Nikodym se tiene que:
dPθ dPθ dµ
0
= .
dµ dµ dµ0
Con todo lo anterior, un modelo estadístico paramétrico y dominado por µ puede escribirse
de la forma:
(Ω, A, {pθ : θ ∈ Θ}).
Identificación
En la definición de un modelo paramétrico, es trivial suponer que la aplicación:
θ 7→ Pθ
es inyectiva, sin embargo en ocasiones la descripción del modelo es compleja y puede dar
parametrizaciones que no son únicas (no identificadas). Así se dice que un modelo esta
identificado si:
θ1 6= θ2 =⇒ Pθ1 6= Pθ2
y se verifica que dos valores distintos de los parámetros definen la misma medida de
probabilidad.
Además Fθ tiene una densidad f (x − θ), con θ desconocida y f una densidad, también
desconocida, tal que f (x) = f (−x).
X i = a + εi , i = 1, . . . , n.
Verosimilitud
Considerando que no se tiene certeza sobre la medida de probabilidad de la que provienen
los datos, en un modelo paramétrico se puede considerar el parámetro como variable y
buscar aproximar el verdadero parámetro θ∗ . Además, los datos (realizaciones) también
son variables. Esto motiva la siguiente definición.
Definición 3. Sea (Ω, A, {pθ : θ ∈ Θ}) un modelo estadístico paramétrico dominado por
una medida σ-finita µ. Se defina la función de verosimilitud a la función dada por:
L : (Ω × Θ) −→ R
(ω, θ) 7−→ L(ω, θ) = pθ (ω).
Esta función jugará un rol importante en los capítulos posteriores, notemos que con esta
función permitirá manejar los datos y las observaciones de forma conjunta.
Estadísticos
El modelo estadístico general es definido sobre un espacio abstracto que puede ser de
difícil descripción o incluir complejidad que puede resultar innecesaria. En general
esta complejidad se puede reducir a espacios mucho más fáciles de manejar, por ahora
solo se considerará espacios finito dimensionales aún si esta dimensión puede crecer
arbitrariamente. Para considerar esto se tiene la siguiente definición.
Definición 4. (Estadístico) Sea (Ω, A, P) un modelo estadístico, la aplicación T tal que:
T : (Ω, A) −→ (X , B)
T1 (X1 , X2 ) = X1 + X2
T2 (X1 , X2 ) = X1 − X2 .
Definición 7. Dado un modelo estadístico (Ω, A, P), un estadístico T definido sobre este
modelo estadístico es “mean-free” si EP (T ) existe y no depende de P , es “zero-mean” si
EP (T ) = 0 para todo P ∈ P.
Si no existe ambigüedad, se tiene que: EP (T ) = E(T ).
Ejercicio 2. Sea en R2 con los Borelianos, el modelo estadístico dado por la densidad:
1.2 Suficiencia
Un estadístico en general no es biyectivo, así cuando se lo calcula a partir de los datos se
opera una reducción de la información contenida en los datos, sin embargo esta pérdida de
información puede no ser relevante si el interés esta enfocado en algún aspecto específico de
las propiedades del proceso que generaría los datos, para ilustrar consideremos el siguiente
ejemplo.
Ejemplo 6. Una máquina produce n items en una secuencia, cada item es bueno con
una probabilidad θ y defectuoso con probabilidad (1 − θ) con θ ∈ (0, 1) desconocido.
Suponiendo que no hay dependencia en la calidad de los items producidos, sea
1 si el item i es bueno
Xi = i = 1 . . . , n.
0 si el item i es defectuoso
Por independencia se tiene que:
n
Pθ (X1 = x1 , . . . , Xn = xn ) = θs (1 − θ)n−s ,
X
con s = xi ,
i=1
sea S = ni=1 Xi , se tiene que S ∼ Bi(n, θ), denotando por Bs = {(x1 . . . , xn ) : xi ∈
P
Pθ (X1 = x1 , . . . , Xn = xn , S = s)
Pθ (X1 = x1 , . . . , Xn = xn | S = s) =
Pθ (S = s)
Pθ (X1 = x1 , . . . , Xn = xn )1Bs (x1 , . . . , xn )
=
Pθ (S = s)
s n−s
θ (1 − θ) 1Bs (x1 , . . . , xn )
=
n s
s
θ (1 − θ)n−s
1
= n 1Bs (x1 , . . . , xn ).
s
X = (X1 , . . . , Xn ) ∼ pθ (x1 , . . . , xn ),
Dem. Solo se presentará el caso discreto, el caso general puede revisarse en los libros de
Shao y Billingsley.
(⇐): Sean X = (X1 , . . . , Xn ), x = (x1 , . . . , xn ), en el caso discreto se tiene entonces
que el conjunto de valores posibles de X está dado por: {xj : j ∈ N}, notemos además
tj = T (xj ).
X
Se tiene entonces que: P (T = tj ) = 1. Por demostrar entonces que Pθ (X = xi | T = tj )
j∈N
no depende θ.
Tenemos que:
X X X
Pθ (T = tj ) = pθ (x) = gθ (T (x))h(x) = gθ (tj ) h(x).
{x : T (x)=tj } {x : T (x)=tj } {x : T (x)=tj }
h(xi )
=P 1Bj (xi )
{x : T (x)=tj } h(x)
Ejemplo 7. Los tiempos de llegada a un servicio están dados por un proceso de Poisson
con tasa de llegada λ. Sea Xi el tiempo de interarribo del i-ésimo cliente con i = 1, 2, los
tiempos de interarribo son independientes, muestre que X1 + X2 es suficiente para λ.
Primero vamos a verificar la afirmación aplicando la definición:
X1
Puede probarse fácilmente que X1 +X2
y X1 + X2 son independientes y además que:
X1
| X1 + X2 = t ∼ U(0, 1)
X1 + X2
X1
como X1 = X1 +X2
.X1 + X2 , se tiene que:
X1 t | X1 + X2 = t ∼ U(0, t)
Pn
con gλ (t) = λn exp(−λt) y h(x1 , . . . , xn ) = 1, y por tanto T (X1 , . . . , Xn ) = i=1 Xi es
suficiente para λ.
Ejemplo 8. Sea Ω = {1, 2, . . . , θ}n , este es el espacio muestral que describe el experimento
que consiste en extraer n individuos al azar(on igual probabilidad) con reemplazo y se
observa X1 , . . . , Xn , intuitivamente X(n) = max{X1 , . . . , Xn } tiene toda la información
relevante sobre θ. En efecto:
θ −n si ∀i, xi ∈ {1, . . . , θ}
pθ (x1 , . . . , xn ) =
0 si no
−n
=θ 1{X(n) ≤θ} ,
n n
!
Xi2
X X
Por el teorema de factorización, se tiene que: T (X1 , . . . , Xn ) = Xi , es
i=1 i=1
suficiente para (µ, σ 2 ).
También lo es U = (X, S 2 ) pues existe una biyección entre T y U .
dPθ n o
(ω) = exp T (ω)> η(θ) − ξ(θ) .
dλ
Además si se considera la partametrización definida por: η = η(θ), se tiene que:
dPη n
˜
o
(ω) = exp T (ω)> η − ξ(η) .
dλ
Cuando la familia se presenta en esta última forma se dice que está en forma canónica y
a η se denomina parámetro natural, que tiene sentido siempre que:
Z n o
η ∈ N = η: exp T (ω)> η h(ω) dµ(ω) < ∞ ,
Ω
a este conjunto se denomina espacio paramétrico natural y se dice que esta parametrización
define una familia exponencial en forma natural.
Si existe un abierto contenido en el espacio paramétrico natural se dice que la familia es
de rango completo.
Ejemplo 12. Distribución uniforme U(0, θ): Si una densidad pθ (ω) pertence a una familia
exponencial, entonces se tendrá que pθ (ω) > 0 para todo θ y para todo ω. pero la densidad
de la distribución normal está dada por:
1
pθ (ω) = 1(0,θ) (ω)
θ
lo que verifica que pθ (ω) = 0 si ω > 0 y por tanto no es una familia exponencial.
◦
a) El espacio paramétrico es un abierto (Θ = Θ)
b) η(θ) es inyectiva
c) η(θ) y ξ(θ) son dos veces diferenciables
Entonces:
ξ 0 (θ)
Eθ [T ] =
η 0 (θ)
ξ 00 (θ)η 0 (θ) − ξ 0 (θ)η 00 (θ)
Vθ [T ] =
(η 0 (θ))3
Ψ(η) = Eη [exp{sT }]
Z
= ˜
exp{sT (ω)} exp{T (ω)η(θ) − ξ(η)}h(ω) dµ(ω)
ZΩ
= ˜ + η)} exp{ξ(s
exp{(s + η)T (ω) − ξ(s ˜ + η) − ξ(η)}h(ω)
˜ dµ(ω)
Ω Z =1
˜ + η) − ξ(η)}
= exp{ξ(s ˜ ˜ + η)}h(ω) dµ(ω)
exp{(s + η)T (ω) − ξ(s
Ω
˜ + η) − ξ(η)}.
= exp{ξ(s ˜
y por tanto:
d ˜ + η) − ξ(η)}
˜
Eη [T ] = {exp{ξ(s
ds
s=0
˜ ˜ ˜0
= {exp{ξ(s + η) − ξ(η)}ξ (η + s)
s=0
= ξ˜0 (η).
De la misma forma se tiene que:
2 d2 ˜ + η) − ξ(η)}
˜
Eη [T ] = {exp{ ξ(s
ds2
s=0
˜0 2 ˜00
= ξ (η) + ξ (η)
dQθ
qθ (t) = (t) = exp{tη(θ) − ξ(θ)}h∗ (t)
dµ
para h∗ y µ adecuadas.
Dem. X
qθ (t) = Pθ ({ω : T (ω) = t}) = Pθ ({ω})
{ω : T (ω)=t}
X
= exp{T (ω)η(θ) − ξ(θ)}h(ω)
{ω : T (ω)=t} = h∗ (t)
X
= exp{tη(θ) − ξ(θ)} h(ω)
{ω : T (ω)=t}
Si T y S son mínimos suficientes para P ∈ P, entonces existe una biyección entre ellos.
Ejemplo 13. Sea X1 , . . . , Xn una muestra i.i.d. de una distribución U(θ, θ + 1) con θ ∈ R
y n ≥ 1.
Denotando x = (x1 , . . . , xn ) se tiene entonces que:
n
Y
pθ (x) = 1[θ,θ+1](xi ) = 1[x(n) −1,x(1) ] (θ)
i=1
con x(1) = min{x1 , . . . , xn } y x(n) = max{x1 , . . . , xn }. Observe que estos valores también
pueden escribirse como:
x(1) = sup{θ : pθ (x) > 0}
x(n) = 1 + inf{θ : pθ (x) > 0}.
Si S(X) es otro estadístico suficiente para θ, se tiene que pθ (x) = gθ (S(x))h(x), con
h(x) > 0, así:
x(1) = sup{θ : gθ (S(x)) > 0}
x(n) = 1 + inf{θ : gθ (S(x)) > 0},
luego, existe una función ψ tal que T (x) = ψ(S(x)) y por tanto T es mínimo suficiente.
entonces
g̃i (S(x))
Ti (x) = , i = 1, . . . , k.
g̃0 (S(x))
y por tanto T es minimo suficiente.
Ejemplo 14. Sea pθ (x), con θ ∈ Θ una familia exponencial y supongamos que
Θ0 = {θ0 , . . . , θp } ∈ Θ
tal que:
ηi = η(θi ) − η(θ0 ), , i = 1, . . . , p
son vectores linealmente independientes en R, entonces T (X) es suficiente para θ ∈ Θ.
En efecto, por el teorema de factorización T (X) es suficiente, mostremos que es mínimo
suficiente. Sea P0 = {fθ : θ ∈ Θ0 }. Se define:
con xii = ξ(θi ) − ξ(θ0 ). Del resultado del teorema anterior, S es suficiente para θ ∈ Θ0 .
Como {η1 , . . . , ηp } son linealmente independientes entonces existe una biyección ψ tal que
S(X) = ψ(T (X)) y por tanto T es mínimo suficiente para θ ∈ Θ0 . Es fácil verificar que
P << P0 . y por tanto T es mínimo suficiente para θ ∈ Θ.
1.7 Completitud
Otro concepto que suele ser útil cuando se aplica una simplificación tiene que ver con
concentrar la información en una parte solo si lo “ortogonal” no aporta nada relativo al
aspecto de interés. Tenemos al siguiente definición.
Definición 11. En un modelo estadístico, un estadístico T se dice completo para P ∈ P
si para cualquier función medible h se tiene que:
EP (h(T )) = 0, ∀P ∈ P =⇒ h = 0 c.s. P.
para todo η ∈ N (η0 ), una vecindad de η0 .(i,e. N (η0 ) = {η ∈ RP : ||η − η0 || < ε} para
algún ε > 0 ).
En particular,
Z Z
>
+
f (t) exp{t η0 )} dλ(t) = f − (t) exp{t> η0 )} dλ(t) = c.
de forma similar se tiene para la otra densidad y de la ecuación (1), se tiene que en una
vecindad de 0 estas coinciden, por tanto las funciones de densidad son iguales, por lo que
se tiene que:
c−1 f + (t) exp{t> η0 } = c−1 f − (t) exp{t> η0 }
en consecuencia: f + = f − λ-casi seguramente y por tanto f = 0 λ-casi seguramente, y
por tanto T es completo.
Ejemplo 15. Sea X1 , . . . , Xn una muestra i.d.d. de una distribución uniforme U(0, θ).
Sabemos que X(n) es suficiente para θ puesto que:
de otro lado se conoce que X(n) tiene densidad en la recta real dada por:
nxn−1
1(0,θ) (x).
θn
Sea h una función Borel medible tal que: Eθ (h(X(n) )) = 0, se tiene entonces que:
Z θ
h(x)xn−1 dx = 0
0
entonces se tiene que h(x)xn−1 = 0 an casi todo punto respecto a la medida de Lebesgue
y por tanto h = 0 en casi todas partes, es decir que X(n) es completo y suficiente.