Capitulo1 Introduccion

Estadística Matemática 1.
Introducción
1 Introducción
Estas notas de curso son preparadas como soporte del curso de Estadística Matemática de
las carreras de Matemática e Ingeniería Matemática de la Escuela Politécnica Nacional.
Horario: Martes 11-13, Viernes 16-18
Razor de Occam: “Explanations should not be multiplied beyond neccesity”
Así se debe preferir un modelo con pocos parámetros (simple) a un modelo con muchos
parámetros (complejo) si los datos (evidencia) son igualmente explicados por ambos.
Algunos años atrás, George Cox escribió que: “all models are wrong, but some are useful.”
Así, se busca en ciencias modelos que sean lo más simple posible pero que expliquen
“bien” los datos, si es el caso, para qué intentar modelos complejos si de todas formas
todo modelo es una simplificación de la realidad, basta con que nos explique “bien” la
evidencia que dispongamos.
Desde el inicio de la formalización de los conceptos estadísticos, dos formas de pensamiento
se han enfrentado, de un lado los llamados frecuentistas y por otro los llamados Bayesianos.
Estas dos formas de aproximación están basados en principios fundamentales diferentes
que debemos comprender para, cuando sea posible, compararlos.
Enfoque Frecuentista:
• El experimento del cual provienen los datos es infinitamente repetible.
• Considera (teóricamente) “todos” los posibles resultados.
• Los parámetros del modelo del que provienen los datos son desconocidos, pero fijos.
Enfoque Bayesiano:
• Sólo existen los datos observados.
• Existe incertidumbre en los parámetros, que se trata con medidas de probabilidad.
Algunos métodos de inferencia estadística, tanto frecuentista como Bayesiana, tienen
contraparte, otras no.
1.1 Modelo Estadístico

Una forma de tratar datos aleatorios es los modelos probabilísticos, es decir que partimos
de un espacio medible (Ω, A) en el que definimos una medida de probabilidad de la que se
supone que vienen los datos observados. Sin embargo no se conoce con certeza cual es la
medida de probabilidad específica de la que provienen esos datos.
La incertidumbre acerca de la medida de probabilidad de la que proviene los datos se
trata mediante un modelo estadístico.
Los datos se tratan como vectores y se supone que son realizaciones de un vector aleatorio,
entonces la estadística se basa en “aproximar” la medida de probabilidad de la que
Carlos Almeida 1 de junio de 2020 3

Estadística Matemática 1. Introducción
provienen los datos.

Queda claro entonces que debemos explicar y desarrollar esta “aproximación” y debe ser
coherente con algunas ideas intuitivas como por ejemplo el hecho que mientras más datos
tenga mejor debería ser la “aproximación”, es decir que voy acumulando información sobre
el proceso de generación de datos.
Formalizando, supongamos que tenemos un elemento aleatorio ω ∈ Ω, es decir que a Ω se
le ha dotado de una estructura medible. Observe que este elemento aleatorio puede ser
incluso de dimensión infinita, pero por el momento imaginemos un vector de dimensión
finita, es decir en Rk .
La primera definición del objeto de estudio que trataremos es entonces:
Definición 1. Sea (Ω, A) un espacio medible y sea P un conjunto de medidas de prob-
abilidad definidas en ese espacio medible, a la tripleta (Ω, A, P) se denomina modelo
estadístico.
A (Ω, A) se denomina espacio muestral, y el paradigma frecuentista supone que las
observaciones (datos) son realizaciones de una medida de probabilidad que pertenece a P.
Si notamos por X a los datos, éste corresponde a un vector aleatorio como sigue:
X : (Ω, A) −→ (Rn , B n )
existe P ∗ ∈ P tal que: X ∼ P ∗ ◦ X −1 = PX∗
Si P puede escribirse como: P = {Pθ : θ ∈ Θ} con Θ ∈ Rk , el modelo de denomina

paramétrico. En este caso el paradigma frecuentista es que existe θ∗ ∈ Θ tal que:
X ∼ Pθ∗ ◦ X −1
Al estudiar los modelos estadísticos, muchas veces es útil ver si éste puede ser descrito a
partir de algún otro modelo más conocido o que tenga algunas ventajas, así se introduce
la siguiente definición.
Definición 2. Un modelo estadístico (Ω, A, P) se dice dominado por una medida σ-finita
µ sobre el mismo espacio medible (Ω, A) si satisface una de las condiciones equivalentes
siguientes:
a) Cada distribución en P es µ continua.
b) Cada distribución en P tiene una densidad de probabilidad respecto a µ.
Así, en un modelo estadístico dominado las medidas de probabilidad se identifican
biunívocamente con sus densidades respecto a la medida σ-finita dominante, luego puede
escribirse la densidad como la derivada de Radon-Nikodym:
dPθ
pθ (ω) = (ω)
dµ
donde la igualdades es definida µ casi-seguramente.

Observemos que la medida dominante no es única, pues se tiene que si µ está dominada
por otra medida σ-finita µ0 , entonces, aplicando la regla de la cadena en derivadas de
Radon-Nikodym se tiene que:
dPθ dPθ dµ
0
= .
dµ dµ dµ0
Con todo lo anterior, un modelo estadístico paramétrico y dominado por µ puede escribirse
de la forma:
(Ω, A, {pθ : θ ∈ Θ}).
Identificación
En la definición de un modelo paramétrico, es trivial suponer que la aplicación:
θ 7→ Pθ
es inyectiva, sin embargo en ocasiones la descripción del modelo es compleja y puede dar
parametrizaciones que no son únicas (no identificadas). Así se dice que un modelo esta
identificado si:
θ1 6= θ2 =⇒ Pθ1 6= Pθ2
Ejemplo 1. (Regresión múltiple) Sean X1 , . . . , Xn variables aleatorias normalmente

distribuidas e independientes tales que:
EXi = β0 + β1 ti + β2 si , V(Xi ) = σ 2 , con ti y si conocidos e i = 1, . . . , n.
Entonces el espacio paramétrico está dado por:
Θ = {(β0 , β1 , β2 , σ) : βi ∈ R, σ > 0},
observemos que: z0 = (1, . . . , 1)> , z1 = (t1 , . . . , tn )> y z3 = (s1 , . . . , sn )> , el modelo es

identificado si y solo si {z0 , z1 , z2 } son linealmente independientes.
En efecto, supongamos que {z0 , z1 , z2 } son linealmente dependientes (i.e. existen a0 , a1 y
a3 en R no todos cero tales que a0 z0 + a1 z1 + a2 z2 = 0), notando µ = (EX1 , . . . , EXn )> ,
se tiene que:
µ = β0 z0 + β1 z1 + β2 z2 = (β0 + a0 )z0 + (β1 + a1 )z1 + (β2 + a2 )z2 ,
y se verifica que dos valores distintos de los parámetros definen la misma medida de
probabilidad.
Ejemplo 2. (modelo semi-paramétrico) Sean X1 , . . . , Xn variables aleatorias indepen-

dientes e idénticamente distribuidas con función de distribución Fθ , con Fθ continua.

Además Fθ tiene una densidad f (x − θ), con θ desconocida y f una densidad, también
desconocida, tal que f (x) = f (−x).
Ejemplo 3. (modelo de medición) Sean X1 , . . . , Xn n determinaciones (mediciones) de

una cantidad a ∈ R. Cada una de estas mediciones contiene un error, así podemos escribir:
X i = a + εi , i = 1, . . . , n.
Para interpretar este modelo como un modelo de medición se necesitan un conjunto de

hipótesis mínimas que son:
• La distribución de los errores (ε) es independiente del valor a medir (a).
• El error en una medición no debe afectar a otra (ε son independientes).
• La distribución de los errores debe ser la misma para todas las mediciones.
• La distribución de los errores es continua y simétrica alrededor del cero.
Una hipótesis un poco más fuerte que usualmente es asumida en un modelo de este tipo
es que:
ε1 , . . . , εn ∼ i.i.d. N (0, σ 2 ).
Verosimilitud
Considerando que no se tiene certeza sobre la medida de probabilidad de la que provienen
los datos, en un modelo paramétrico se puede considerar el parámetro como variable y
buscar aproximar el verdadero parámetro θ∗ . Además, los datos (realizaciones) también
son variables. Esto motiva la siguiente definición.
Definición 3. Sea (Ω, A, {pθ : θ ∈ Θ}) un modelo estadístico paramétrico dominado por
una medida σ-finita µ. Se defina la función de verosimilitud a la función dada por:
L : (Ω × Θ) −→ R
(ω, θ) 7−→ L(ω, θ) = pθ (ω).
Esta función jugará un rol importante en los capítulos posteriores, notemos que con esta
función permitirá manejar los datos y las observaciones de forma conjunta.
Ejemplo 4. Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-

tribuidas con una distribución de Poisson de parámetro λ, se tiene que:
n
Y λ xi
L((x1 , . . . , xn ), λ) = pλ (x1 , . . . , xn ) = exp(−λ) ,
j=1 xi !
para x1 , . . . , xn ∈ {0, 1, . . .} y λ > 0.

Estadísticos
El modelo estadístico general es definido sobre un espacio abstracto que puede ser de
difícil descripción o incluir complejidad que puede resultar innecesaria. En general
esta complejidad se puede reducir a espacios mucho más fáciles de manejar, por ahora
solo se considerará espacios finito dimensionales aún si esta dimensión puede crecer
arbitrariamente. Para considerar esto se tiene la siguiente definición.
Definición 4. (Estadístico) Sea (Ω, A, P) un modelo estadístico, la aplicación T tal que:
T : (Ω, A) −→ (X , B)
con (X , B) = (R, B) ó (Rn , B n ), se denomina estadístico.

Observemos que T define una medida imagen PT para cada P ∈ P, si notamos PT =
{PT = P ◦ T −1 : P ∈ P}, (X , B, PT ) es el modelo estadístico inducido por T .
Definición 5. (Independencia) Dado un modelo estadístico (Ω, A, P), dos estadísticos T1
y T2 definidos sobre este modelo estadístico son independientes si son independientes para
cada P ∈ P.
Ejercicio 1. Sea el modelo estadístico dado por:
(R2 , B 2 , {(N (µ, σ 2 )2 : µ ∈ R, σ > 0}).
Denotando X1 y X2 las componentes en este espacio dimensional, se define:
T1 (X1 , X2 ) = X1 + X2
T2 (X1 , X2 ) = X1 − X2 .
Muestre que T1 y T2 son independientes.

Definición 6. (Integrabilidad) Dado un modelo estadístico (Ω, A, P), un estadístico T
definido sobre este modelo estadístico
Z es integrable si es integrable para cada P ∈ P. i.e.
para cada P ∈ P existe EP (T ) = T (ω) dP (ω).
Ω
Definición 7. Dado un modelo estadístico (Ω, A, P), un estadístico T definido sobre este
modelo estadístico es “mean-free” si EP (T ) existe y no depende de P , es “zero-mean” si
EP (T ) = 0 para todo P ∈ P.
Si no existe ambigüedad, se tiene que: EP (T ) = E(T ).
Ejercicio 2. Sea en R2 con los Borelianos, el modelo estadístico dado por la densidad:
fθ (x, y) = exp(−θx − y/θ), x, y > 0, θ > 0.
Sean T1 (x, y) = xy y T2 (x, y) = xy − 1, muestre que T1 es “mean-free” y que T2 es

“zero-mean”.

1.2 Suficiencia
Un estadístico en general no es biyectivo, así cuando se lo calcula a partir de los datos se
opera una reducción de la información contenida en los datos, sin embargo esta pérdida de
información puede no ser relevante si el interés esta enfocado en algún aspecto específico de
las propiedades del proceso que generaría los datos, para ilustrar consideremos el siguiente
ejemplo.
Ejemplo 5. Se observan n elementos en una inspección, y se definen X1 , . . . , Xn variables

aleatorias que toman valores de 0 o 1, según el elemento observado es defectuoso o no.
P
Se considera el estadístico T = i Xi , intuitivamente este estadístico contiene toda la
información relativa a la proporción de defectuosos, pero T tendrá el mismo valor para
diferentes configuraciones (permutaciones) de X1 , . . . , Xn . Obviamente T es más simple,
pues reduce el espacio a una dimensión.
Formalente tenemos la siguiente definición:

Definición 8. Un estadítico T definido sobre un modelo estadístico es suficiente para un
parámetro θ si la distribución condicional a T no depende de θ
Si llamamos X al elemento aleatorio, escribiremos que T es suficiente para θ si X | T (X)
tiene una distribución que no depende de θ.
Ejemplo 6. Una máquina produce n items en una secuencia, cada item es bueno con
una probabilidad θ y defectuoso con probabilidad (1 − θ) con θ ∈ (0, 1) desconocido.
Suponiendo que no hay dependencia en la calidad de los items producidos, sea

1 si el item i es bueno
Xi = i = 1 . . . , n.
0 si el item i es defectuoso
Por independencia se tiene que:
n
Pθ (X1 = x1 , . . . , Xn = xn ) = θs (1 − θ)n−s ,
X
con s = xi ,
i=1
sea S = ni=1 Xi , se tiene que S ∼ Bi(n, θ), denotando por Bs = {(x1 . . . , xn ) : xi ∈
P
{0, 1}, ni=1 xi = s, }, para s ∈ {0, . . . , n}, se tiene que:

P
Pθ (X1 = x1 , . . . , Xn = xn , S = s)
Pθ (X1 = x1 , . . . , Xn = xn | S = s) =
Pθ (S = s)
Pθ (X1 = x1 , . . . , Xn = xn )1Bs (x1 , . . . , xn )
=
Pθ (S = s)
s n−s
θ (1 − θ) 1Bs (x1 , . . . , xn )
=
n s
s
θ (1 − θ)n−s
1
= n 1Bs (x1 , . . . , xn ).
s

Es claro entonces que la probabilidad condicional calculada no depende de θ y por tanto

entonces S es suficiente para θ.
En un modelo paramétrico en Rn , sea X = (X1 , . . . , Xn ) ∼ Pθ en (Rn , B n ) y sea T :

(Rn , B n ) −→ (Rk , B k ), T es suficiente para θ si para todo A ∈ B n , se tiene que: Pθ (X ∈
A | T = t) no depende de θ.
Observemos que un estadístico suficiente no es único, pues si tenemos un estadístico
suficiente para θ y una función g medible y biyectiva, se tiene que g(T ) también suficiente
para θ.
Verificar que un estadístico es suficiente aplicando la definición involucra encontrar la
distribución condicional, esto no siempre es fácil, afortunadamente existe un resultado
que lo simplifica, al menos, para modelos estadísticos dominados.
Teorema 1. de Factorización (Neyman) Supongamos que en Rn tenemos un modelo
estadístico dominado por la medida de Lebesgue definido por:
X = (X1 , . . . , Xn ) ∼ pθ (x1 , . . . , xn ),
Un estadístico T (X) es suficiente para θ si y sólo si:
pθ (x1 , . . . , xn ) = gθ (T (x1 , . . . , xn ))h(x1 , . . . , xn ),
para algunas funciones gθ y h medibles.
Dem. Solo se presentará el caso discreto, el caso general puede revisarse en los libros de
Shao y Billingsley.
(⇐): Sean X = (X1 , . . . , Xn ), x = (x1 , . . . , xn ), en el caso discreto se tiene entonces
que el conjunto de valores posibles de X está dado por: {xj : j ∈ N}, notemos además
tj = T (xj ).
X
Se tiene entonces que: P (T = tj ) = 1. Por demostrar entonces que Pθ (X = xi | T = tj )
j∈N
no depende θ.
Tenemos que:
X X X
Pθ (T = tj ) = pθ (x) = gθ (T (x))h(x) = gθ (tj ) h(x).
{x : T (x)=tj } {x : T (x)=tj } {x : T (x)=tj }

Sea Sj = {θ : Pθ (T = tj ) > 0}, para θ ∈ Sj :

Pθ (X = xi , T = tj )
P (X = xi | T = tj ) =
Pθ (T = Tj )
pθ (xi )1Bj (xi )
=
Pθ (T = tj )
gθ (tj )h(xi )
= 1B (xi )
gθ (tj ) {x : T (x)=tj } h(x) j
P
h(xi )
=P 1Bj (xi )
{x : T (x)=tj } h(x)
donde Bj = {x : T (x) = tj }, se tiene entonces que la distribución condicional de X | T (X)

no depende de θ, por lo tanto T (X) es suficiente para θ.
(⇒) Si T es suficiente para θ, sea gθ (tj ) = Pθ (T = tj ) y h(x) = Pθ (X = x | T = T (x))
que no depende de θ, luego se tiene que:
pθ (x) = Pθ (X = x, T = tj )1{T (x)=tj } = Pθ (X = x | T = tj )Pθ (T = tj ) = gθ (tj )h(x).
Ejemplo 7. Los tiempos de llegada a un servicio están dados por un proceso de Poisson
con tasa de llegada λ. Sea Xi el tiempo de interarribo del i-ésimo cliente con i = 1, 2, los
tiempos de interarribo son independientes, muestre que X1 + X2 es suficiente para λ.
Primero vamos a verificar la afirmación aplicando la definición:
X1
Puede probarse fácilmente que X1 +X2
y X1 + X2 son independientes y además que:
X1
| X1 + X2 = t ∼ U(0, 1)
X1 + X2
X1
como X1 = X1 +X2
.X1 + X2 , se tiene que:
X1 t | X1 + X2 = t ∼ U(0, t)
y por tanto la distribución de (X1 , X2 ) | X1 + X2 = t es independiente de λ, que implica

entonces que X1 + X2 es suficiente para λ.
Ahora aplicando el teorema de factorización:
pλ (x1 , x2 ) = λ2 exp(−λ(x1 + x2 )) = gλ (x1 + x2 )h(x1 , x2 ),
con gλ (t) = λ2 exp(−λt) y h(x1 , x2 ) = 1, por tanto por el teorema de factorización,

T = X1 + X2 es suficiente para λ.

En general si X1 , . . . , Xn son i.i.d. Exp(λ):

n n
pλ (x1 , . . . , xn ) = λn exp(−λ
X X
xi ) = gλ ( xi )h(x1 , . . . , xn ), xi > 0
i=1 i=1
Pn
con gλ (t) = λn exp(−λt) y h(x1 , . . . , xn ) = 1, y por tanto T (X1 , . . . , Xn ) = i=1 Xi es
suficiente para λ.
Ejemplo 8. Sea Ω = {1, 2, . . . , θ}n , este es el espacio muestral que describe el experimento
que consiste en extraer n individuos al azar(on igual probabilidad) con reemplazo y se
observa X1 , . . . , Xn , intuitivamente X(n) = max{X1 , . . . , Xn } tiene toda la información
relevante sobre θ. En efecto:

θ −n si ∀i, xi ∈ {1, . . . , θ}
pθ (x1 , . . . , xn ) = 
0 si no
−n
=θ 1{X(n) ≤θ} ,
y por tanto X(n) es suficiente para θ.
Ejemplo 9. Sea X1 , . . . , Xn una muestra i.i.d. de una población normal N (µ, σ 2 ); en

este caso el parámetro es θ = (µ, σ 2 ), entonces la función de densidad de este modelo es
dado por:
n
( )
2 −n 1 X
pθ (x1 , . . . , xn ) = (2πσ )2 exp − 2 (xi − µ)2
2σ i=1
n n
( ) ( !)
2 −n nµ2 1 X
x2i − 2µ
X
= (2πσ ) 2 exp − 2 exp − 2 xi .
2σ 2σ i=1 i=1
n n
!
Xi2
X X
Por el teorema de factorización, se tiene que: T (X1 , . . . , Xn ) = Xi , es
i=1 i=1
suficiente para (µ, σ 2 ).
También lo es U = (X, S 2 ) pues existe una biyección entre T y U .
1.3 Familias Exponenciales

Entre los modelos paramétricos dominados, el análisis de la forma analítica de la función
de densidad puede ayudar a estudiar algunas propiedades tomando ventaja de propiedades
algebraicas, éste es el caso de la familia que se trata a continuación, siendo ésto también

interesante porque involucra algunos de los modelos ya conocidos.

Definición 9. Sea (Ω, A, {Pθ : θ ∈ Θ}) un modelo estadístico dominado por una medida
σ-finita µ. Se dice que es una familia exponencial si puede escribirse de la siguiente forma:
dPθ n o
pθ (ω) = (ω) = exp T (ω)> η(θ) − ξ(θ) h(ω)
dµ
con:
T : (Ω, A) −→ (Rp , B p )
η : Θ −→ Rp
h : (Ω, A) −→ (R, B), no negativa.
Si pθ (ω) es una densidad, entonces debe cumplirse que:
Z
>
ξ(θ) = log exp{T (ω) η(θ)}h(ω) dµ(ω)}
Ω
Observemos además que la parametrización no es única, por ejemplo podemos considerar

η̃(θ) = Dη(θ), con D una matriz cuadrada no singular.
De otro lado, si se define para todo A ∈ A, λ(A) =
R
A h dµ, se tiene que λ es una medida
σ-finita sobre (Ω, A) y se tiene que:
dPθ n o
(ω) = exp T (ω)> η(θ) − ξ(θ) .
dλ
Además si se considera la partametrización definida por: η = η(θ), se tiene que:
dPη n
˜
o
(ω) = exp T (ω)> η − ξ(η) .
dλ
Cuando la familia se presenta en esta última forma se dice que está en forma canónica y
a η se denomina parámetro natural, que tiene sentido siempre que:
Z n o
η ∈ N = η: exp T (ω)> η h(ω) dµ(ω) < ∞ ,
Ω
a este conjunto se denomina espacio paramétrico natural y se dice que esta parametrización
define una familia exponencial en forma natural.
Si existe un abierto contenido en el espacio paramétrico natural se dice que la familia es
de rango completo.
Ejemplo 10. Distribución de Bernoulli: La densidad con respecto a la medida de conteo

está dada por:
pθ (x) = θx (1 − θ)1−x , θ ∈ (0, 1), x ∈ {0, 1}

que puede escribirse como:
pθ (x) = exp {x log(θ) + (1 − x) log(1 − θ)}

( ! )
θ
= exp x log + log(1 − θ)
1−θ
θ
Así, tomando T (x) = x, η(θ) = log 1−θ , ξ(η) = − log(1 − θ) y h(x) = 1 se prueba que esta
es una familia exponencial.
Ejemplo 11. Distribución Binomial: la densidad con respecto a la medida de conteo

está dada por:
!
n x
pθ (x) = θ (1 − θ)1−x , θ ∈ (0, 1), x ∈ {0, 1, . . . , n}
x
!
n
= exp {x log(θ) + (n − x) log(1 − θ)}
x
( ! ) !
θ n
= exp x log + n log(1 − θ)
1−θ x

θ n
Así, tomando T (x) = x, η(θ) = log 1−θ , ξ(η) = −n log(1 − θ) y h(x) = x
se prueba que
esta es una familia exponencial.
Hay modelos estadísticos útiles que no son familias exponenciales, el siguiente es un

ejemplo de ello.
Ejemplo 12. Distribución uniforme U(0, θ): Si una densidad pθ (ω) pertence a una familia
exponencial, entonces se tendrá que pθ (ω) > 0 para todo θ y para todo ω. pero la densidad
de la distribución normal está dada por:
1
pθ (ω) = 1(0,θ) (ω)
θ
lo que verifica que pθ (ω) = 0 si ω > 0 y por tanto no es una familia exponencial.
Ejercicio 3. Verifique que la distribución normal es una familia exponencial

Ejercicio 4. Sean X1 , . . . , Xn independientes con distribuciones de Poisson tales que:
E(Xi ) = exp{α + βti }
con ti conocidos, verifique que esto define una familia exponencial.

1.4 Propiedades de las familias exponenciales

Claramente, de la aplicación del teorema de factorización se concluye que el estadístico
T (ω) es suficiente.
El estudio de esta familia depara interesantes resultados que, como se ve, pueden aplicarse
a una cantidad no despreciable de modelos; por ejemplo, claramente, de la aplicación del
teorema de factorización se concluye que el estadístico T (ω) es suficiente.
Otros resultados interesante se presentan a continuación:
Teorema 2. En una familia exponencial, el espacio paramétrico natural es convexo y
además la función ξ(η) es convexa.
Dem. Tenemos que:

Z
N = η: exp{T (ω)> η}h(ω) dµ(ω) < +∞ .
Ω
Sean η1 y η2 ∈ N y η = λη1 + (1 − λ)η2 con λ ∈ (0, 1), se tiene entonces que:

Z
exp{ξ(η)} = exp{T (ω)> (λη1 + (1 − λ)η2 )}h(ω) dµ(ω)
ZΩ
= exp{λT (ω)> η1 } exp{(1 − λ)T (ω)> η2 }h(ω) dµ(ω),
Ω
Aplicando la desigualdad de Hölder se tiene
Z λ
1
>
= (exp{λT (ω) η1 }) h(ω) dµ(ω)
λ
Ω
Z (1−λ)
1
(exp{(1 − λ)T (ω)> η1 }) (1−λ) h(ω) dµ(ω)
Ω
= (exp{ξ(η1 )})λ (exp{ξ(η2 )})(1−λ)
De donde se tiene que:
ξ(η) ≤ λξ(η1 ) + (1 − λ)ξ(η2 ) < +∞.
1.5 Momentos en una familia exponencial

Existe una relación relativamente fácil de determinar entre las funciones que definen una
familia exponencial y sus momentos. En efecto, se verifica en la siguiente proposición:
Proposición. Sea un modelo dominado (Ω, A, {pθ (ω) : θ ∈ Θ}) tal que pθ (ω) es una
familia exponencial, es decir:
pθ (ω) = exp{T (ω)η(θ) − ξ(θ)}h(ω);
tal que:

◦
a) El espacio paramétrico es un abierto (Θ = Θ)
b) η(θ) es inyectiva
c) η(θ) y ξ(θ) son dos veces diferenciables
Entonces:
ξ 0 (θ)
Eθ [T ] =
η 0 (θ)
ξ 00 (θ)η 0 (θ) − ξ 0 (θ)η 00 (θ)
Vθ [T ] =
(η 0 (θ))3
Dem. Por la inyectividad de η se define la parametrización η = η(θ), θ(η) := η −1 (η) y

˜ := ξ(η −1 (η)). Así, para un s suficientemente pequeño se tiene que se η + s ∈ N , en
ξ(η)
el espacio paramétrico natural. Así, la función generadora de momentos de T (w) será:
Ψ(η) = Eη [exp{sT }]
Z
= ˜
exp{sT (ω)} exp{T (ω)η(θ) − ξ(η)}h(ω) dµ(ω)
ZΩ
= ˜ + η)} exp{ξ(s
exp{(s + η)T (ω) − ξ(s ˜ + η) − ξ(η)}h(ω)
˜ dµ(ω)
Ω Z =1
˜ + η) − ξ(η)}
= exp{ξ(s ˜ ˜ + η)}h(ω) dµ(ω)
exp{(s + η)T (ω) − ξ(s
Ω
˜ + η) − ξ(η)}.
= exp{ξ(s ˜
y por tanto:
d ˜ + η) − ξ(η)}
˜

Eη [T ] = {exp{ξ(s

ds
s=0
˜ ˜ ˜0
= {exp{ξ(s + η) − ξ(η)}ξ (η + s)

s=0
= ξ˜0 (η).
De la misma forma se tiene que:

2 d2 ˜ + η) − ξ(η)}
˜

Eη [T ] = {exp{ ξ(s
ds2

s=0
˜0 2 ˜00
= ξ (η) + ξ (η)
De donde se tiene que:

Vη (T ) = ξ˜00 (η).
Reconstruyendo la parametrización original se tiene que:
ξ 0 (η −1 (η))
Eη [T ] = ξ˜0 (η) =
η 0 (η −1 (η))
y como existe una biyección entre θ y η, tiene concluye que:
ξ 0 (θ)
Eθ [T ] =
η 0 (θ)

De forma similar se tiene para la varianza:

d
Vη (T ) = ξ˜00 (η) = ξ(η −1 (η)),
dη
que resulta en:
ξ 00 (θ)η 0 (θ) − ξ 0 (θ)η 00 (θ)
Vθ (T ) =
(η 0 (θ))3
En ocasiones es conveniente aplicar el estadístico natural y trabajar en el espacio imagen

resultante, se tiene le siguiente teorema:
Teorema 3. Sea {Pθ (ω) : θ ∈ Θ} una familia exponencial discreta definida sobre (Ω, A),
T (ω) el estadístico natural y defina Qθ = Pθ ◦ T −1 la medida imagen por T , entonces:
dQθ
qθ (t) = (t) = exp{tη(θ) − ξ(θ)}h∗ (t)
dµ
para h∗ y µ adecuadas.
Dem. X
qθ (t) = Pθ ({ω : T (ω) = t}) = Pθ ({ω})
{ω : T (ω)=t}
X
= exp{T (ω)η(θ) − ξ(θ)}h(ω)
{ω : T (ω)=t} = h∗ (t)
X
= exp{tη(θ) − ξ(θ)} h(ω)
{ω : T (ω)=t}
1.6 Suficiencia minimal

Mediante la suficiencia entonces se puede reducir la dimensión (complejidad) del modelo,
pero ¿hasta dónde? para esto se tiene la siguiente definición.
Definición 10. En un modelo estadístico, un estadístico T suficiente para P ∈ P se dice
que es mínimo suficiente si para cualquier otro estadístico suficiente S para P ∈ P existe
una función medible h tal que:
T = h(S), casi seguramente P.
Si T y S son mínimos suficientes para P ∈ P, entonces existe una biyección entre ellos.

Ejemplo 13. Sea X1 , . . . , Xn una muestra i.i.d. de una distribución U(θ, θ + 1) con θ ∈ R
y n ≥ 1.
Denotando x = (x1 , . . . , xn ) se tiene entonces que:
n
Y
pθ (x) = 1[θ,θ+1](xi ) = 1[x(n) −1,x(1) ] (θ)
i=1
con x(1) = min{x1 , . . . , xn } y x(n) = max{x1 , . . . , xn }. Observe que estos valores también
pueden escribirse como:
x(1) = sup{θ : pθ (x) > 0}
x(n) = 1 + inf{θ : pθ (x) > 0}.
Si S(X) es otro estadístico suficiente para θ, se tiene que pθ (x) = gθ (S(x))h(x), con
h(x) > 0, así:
x(1) = sup{θ : gθ (S(x)) > 0}
x(n) = 1 + inf{θ : gθ (S(x)) > 0},
luego, existe una función ψ tal que T (x) = ψ(S(x)) y por tanto T es mínimo suficiente.
Verificar que un estadístico es mínimo suficiente puede resultar difícil a partir de su

definición, pero existen resultados que caracterizan esta propiedad.
Teorema 4. En un modelo estadístico definido por una familia de probabilidades P.
a) Si P0 ⊂ P tal que P << P0 ( i.e. una propiedad casi segura en P0 implica esta
misma propiedad casi seguramente en P).
Si T es suficiente para P ∈ P y mínimo suficiente para P ∈ P0 , entonces es mínimo
suficiente para P ∈ P.
b) Sea P = {f0 , . . . , fk }, y suponga que: {x : fi (x) > 0} ⊂ {x : f0 (x) > 0}, para
i = 1, . . . , k y Ti (x) = ff0i (x)
(x)
, entonces T (x) = (T1 (x), . . . , Tk (x)) es mínimo suficiente.
Dem. (a): Si S es suficiente para P ∈ P, entonces también es suficiente para P ∈ P0 y

entonces T = h(S) c.s. P0 para alguna función medible h (porque T es mínimo suficiente
para P ∈ P0 ); como P << P0 entonces T = h(S) c.s. P y por tanto T es mínimo
suficiente para P ∈ P.
(b) : Observe que si f0 > 0 c.s. P, y tomando g0 (T ) = 1 y gi (T (x)) = Ti , se tiene que:
fi (x) = gi (T (x))f0 (x), i = 1...,k
y por tanto T es suficiente para P ∈ P.

Supongamos que S es otro estadístico suficiente para P ∈ P, entonces exiten g̃i y h tales
que:
fi (x) = g̃i (S(x))h(x), i = 0, . . . , k,

entonces
g̃i (S(x))
Ti (x) = , i = 1, . . . , k.
g̃0 (S(x))
y por tanto T es minimo suficiente.
Ejemplo 14. Sea pθ (x), con θ ∈ Θ una familia exponencial y supongamos que
Θ0 = {θ0 , . . . , θp } ∈ Θ
tal que:
ηi = η(θi ) − η(θ0 ), , i = 1, . . . , p
son vectores linealmente independientes en R, entonces T (X) es suficiente para θ ∈ Θ.
En efecto, por el teorema de factorización T (X) es suficiente, mostremos que es mínimo
suficiente. Sea P0 = {fθ : θ ∈ Θ0 }. Se define:
S(X) = (exp{T (X)η1 − ξ1 }, . . . , exp{T (X)ηp − ξp })
con xii = ξ(θi ) − ξ(θ0 ). Del resultado del teorema anterior, S es suficiente para θ ∈ Θ0 .
Como {η1 , . . . , ηp } son linealmente independientes entonces existe una biyección ψ tal que
S(X) = ψ(T (X)) y por tanto T es mínimo suficiente para θ ∈ Θ0 . Es fácil verificar que
P << P0 . y por tanto T es mínimo suficiente para θ ∈ Θ.
1.7 Completitud
Otro concepto que suele ser útil cuando se aplica una simplificación tiene que ver con
concentrar la información en una parte solo si lo “ortogonal” no aporta nada relativo al
aspecto de interés. Tenemos al siguiente definición.
Definición 11. En un modelo estadístico, un estadístico T se dice completo para P ∈ P
si para cualquier función medible h se tiene que:
EP (h(T )) = 0, ∀P ∈ P =⇒ h = 0 c.s. P.
y es acotadamente completo si esta condición se da para cada cualquier h medible y

acotada.
Un resultado interesante para las familias exponenciales es el siguiente.
Proposición. Si {pθ : θ ∈ Θ} es una familia exponencial de rango completo entonces
T (X) es completo y suficiente.

Dem. La suficiencia ya está demostrada, veamos la completitud. La familia exponencial

en forma canónica, respecto a la medida σ-finita en (Rn , B n ) definida por dλ = h(x) dµ(x)
y haciendo la reducción por suficiencia está dada por:
pη (t) = exp{t> η − ξ(η)}.
Sea f una función tal que:
Z
Eη [f (T )] = f (t) exp{t> η − ξ(η)} dλ(t) = 0, ∀η ∈ N .
Sea η0 ∈ N̊ , entonces se tiene que

Z Z
>
+
f (t) exp{t η)} dλ(t) = f − (t) exp{t> η)} dλ(t) (1)
para todo η ∈ N (η0 ), una vecindad de η0 .(i,e. N (η0 ) = {η ∈ RP : ||η − η0 || < ε} para
algún ε > 0 ).
En particular,
Z Z
>
+
f (t) exp{t η0 )} dλ(t) = f − (t) exp{t> η0 )} dλ(t) = c.
Si c = 0, entonces f + = f − = 0 λ-casi seguramente y por tanto f = 0 λ-casi seguramente.

Si c > 0, entonces c−1 f + (t) exp{t> η0 } y c−1 f − (t) exp{t> η0 } son funciones de densidad, la
función generadora de momentos de la primera está dada por:
Z Z
c−1 exp{−t> η}f + (t) exp{t> η0 )} dλ(t) = c−1 f + (t) exp{−t> (η − η0 )} dλ(t),
de forma similar se tiene para la otra densidad y de la ecuación (1), se tiene que en una
vecindad de 0 estas coinciden, por tanto las funciones de densidad son iguales, por lo que
se tiene que:
c−1 f + (t) exp{t> η0 } = c−1 f − (t) exp{t> η0 }
en consecuencia: f + = f − λ-casi seguramente y por tanto f = 0 λ-casi seguramente, y
por tanto T es completo.
Ejemplo 15. Sea X1 , . . . , Xn una muestra i.d.d. de una distribución uniforme U(0, θ).
Sabemos que X(n) es suficiente para θ puesto que:
pθ (x1 , . . . , xn ) = θ−n 1(0,θ) (x(n) ).
de otro lado se conoce que X(n) tiene densidad en la recta real dada por:
nxn−1
1(0,θ) (x).
θn

Sea h una función Borel medible tal que: Eθ (h(X(n) )) = 0, se tiene entonces que:
Z θ
h(x)xn−1 dx = 0
0
lo que implica que para todo conjunto Borelianos A, se tiene que:

Z
h(x)xn−1 dx = 0
A
entonces se tiene que h(x)xn−1 = 0 an casi todo punto respecto a la medida de Lebesgue
y por tanto h = 0 en casi todas partes, es decir que X(n) es completo y suficiente.
Ejemplo 16. X1 , . . . , Xn una muestra i.d.d. de una distribución de Bernoulli de parámetro

θ ∈ (0, 1), se sabe que T = X1 + . . . , Xn es suficiente para θ y además que T ∼ Bi(n, θ).
Sea h tal que:
n
!
n t
θ (1 − θ)n−t = 0
X
Eθ [h(T )] = h(t)
t=0 t
lo que implica que:
n
!
X n t θ
h(t) ρ = 0, con ρ = ,
t=0 t 1−θ
observe que ρ es un número real positivo cualquiera y la última ecuación define un
polinomio de grado n en ρ identicamente 0, entonces tiene que h(t) = 0 para t = 0, . . . , n.
Por tanto T es completo.

Capitulo1 Introduccion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo1 Introduccion

Cargado por

Copyright:

Formatos disponibles

Estadística Matemática 1.

1.1 Modelo Estadístico

Carlos Almeida 1 de junio de 2020 3

provienen los datos.

Si P puede escribirse como: P = {Pθ : θ ∈ Θ} con Θ ∈ Rk , el modelo de denomina

Carlos Almeida 1 de junio de 2020 4

Ejemplo 1. (Regresión múltiple) Sean X1 , . . . , Xn variables aleatorias normalmente

EXi = β0 + β1 ti + β2 si , V(Xi ) = σ 2 , con ti y si conocidos e i = 1, . . . , n.

Entonces el espacio paramétrico está dado por:

Θ = {(β0 , β1 , β2 , σ) : βi ∈ R, σ > 0},

observemos que: z0 = (1, . . . , 1)> , z1 = (t1 , . . . , tn )> y z3 = (s1 , . . . , sn )> , el modelo es

µ = β0 z0 + β1 z1 + β2 z2 = (β0 + a0 )z0 + (β1 + a1 )z1 + (β2 + a2 )z2 ,

Ejemplo 2. (modelo semi-paramétrico) Sean X1 , . . . , Xn variables aleatorias indepen-

Carlos Almeida 1 de junio de 2020 5

Ejemplo 3. (modelo de medición) Sean X1 , . . . , Xn n determinaciones (mediciones) de

Para interpretar este modelo como un modelo de medición se necesitan un conjunto de

Ejemplo 4. Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente dis-

para x1 , . . . , xn ∈ {0, 1, . . .} y λ > 0.

Carlos Almeida 1 de junio de 2020 6

con (X , B) = (R, B) ó (Rn , B n ), se denomina estadístico.

(R2 , B 2 , {(N (µ, σ 2 )2 : µ ∈ R, σ > 0}).

Denotando X1 y X2 las componentes en este espacio dimensional, se define:

Muestre que T1 y T2 son independientes.

fθ (x, y) = exp(−θx − y/θ), x, y > 0, θ > 0.

Sean T1 (x, y) = xy y T2 (x, y) = xy − 1, muestre que T1 es “mean-free” y que T2 es

Carlos Almeida 1 de junio de 2020 7

Ejemplo 5. Se observan n elementos en una inspección, y se definen X1 , . . . , Xn variables

Formalente tenemos la siguiente definición:

{0, 1}, ni=1 xi = s, }, para s ∈ {0, . . . , n}, se tiene que:

Carlos Almeida 1 de junio de 2020 8

Es claro entonces que la probabilidad condicional calculada no depende de θ y por tanto

En un modelo paramétrico en Rn , sea X = (X1 , . . . , Xn ) ∼ Pθ en (Rn , B n ) y sea T :

Un estadístico T (X) es suficiente para θ si y sólo si:

pθ (x1 , . . . , xn ) = gθ (T (x1 , . . . , xn ))h(x1 , . . . , xn ),

para algunas funciones gθ y h medibles.

Carlos Almeida 1 de junio de 2020 9

Sea Sj = {θ : Pθ (T = tj ) > 0}, para θ ∈ Sj :

donde Bj = {x : T (x) = tj }, se tiene entonces que la distribución condicional de X | T (X)

pθ (x) = Pθ (X = x, T = tj )1{T (x)=tj } = Pθ (X = x | T = tj )Pθ (T = tj ) = gθ (tj )h(x).

y por tanto la distribución de (X1 , X2 ) | X1 + X2 = t es independiente de λ, que implica

pλ (x1 , x2 ) = λ2 exp(−λ(x1 + x2 )) = gλ (x1 + x2 )h(x1 , x2 ),

con gλ (t) = λ2 exp(−λt) y h(x1 , x2 ) = 1, por tanto por el teorema de factorización,

Carlos Almeida 1 de junio de 2020 10

En general si X1 , . . . , Xn son i.i.d. Exp(λ):

y por tanto X(n) es suficiente para θ.

Ejemplo 9. Sea X1 , . . . , Xn una muestra i.i.d. de una población normal N (µ, σ 2 ); en

1.3 Familias Exponenciales

Carlos Almeida 1 de junio de 2020 11

interesante porque involucra algunos de los modelos ya conocidos.

Observemos además que la parametrización no es única, por ejemplo podemos considerar

Ejemplo 10. Distribución de Bernoulli: La densidad con respecto a la medida de conteo

Carlos Almeida 1 de junio de 2020 12

que puede escribirse como:

pθ (x) = exp {x log(θ) + (1 − x) log(1 − θ)}

Ejemplo 11. Distribución Binomial: la densidad con respecto a la medida de conteo

Hay modelos estadísticos útiles que no son familias exponenciales, el siguiente es un

Ejercicio 3. Verifique que la distribución normal es una familia exponencial

E(Xi ) = exp{α + βti }

con ti conocidos, verifique que esto define una familia exponencial.

Carlos Almeida 1 de junio de 2020 13

1.4 Propiedades de las familias exponenciales

Dem. Tenemos que:

Sean η1 y η2 ∈ N y η = λη1 + (1 − λ)η2 con λ ∈ (0, 1), se tiene entonces que: