Está en la página 1de 67

La familia exponencial y las aplicaciones

estadísticas

Cirilo Alvarez Rojas

28 de marzo de 2023
Capítulo 2

Familias Exponenciales y
Aplicaciones Estadísticas

1 Introducción

La clase de familias de distribuciones que se introduce en este capítulo,


primero fue descubierto en estadística en forma independiente por Koop-
man, Pitman y Darmois a través de la investigación de sus propiedades de
esta familia. Subsecuentemente muchas otras características comunes de
estas familias fueron descubiertas y han resultado importantes en muchos
aspectos de la teoría de estadística moderna.

Los modelos de probabilidad con las características exponenciales incluye


las distribuciones Normal, Binomial, Poisson, Gamma, Beta, y modelos de
regresión multinomial usados para relacionar una variable respuesta Y a un
conjunto de variables predicadoras. Más generalmente, estas familias for-
man la base de una importante clase de modelos llamados modelos lineales
generalizados.

1
2 Cirilo alvarez R.

La razón del estatus especial de la familia exponencial es que una serie de


cálculos importantes y útiles en estadística se pueden hacer de un solo gol-
pe dentro del marco de la familia exponencial. Esta generalidad contribuye
tanto a la conveniencia como a la comprensión a mayor escala. La familia
exponencial es el campo de pruebas habitual para el amplio espectro de
resultados en la teoría estadística paramétrica que requieren nociones de re-
gularidad o regularidad Cramer-Rao. Además, los cálculos unificados en la
familia exponencial tienen un elemento de pulcritud matemática. Las distri-
buciones en la familia exponencial se han utilizado en la estadística clásica
durante décadas. Sin embargo, recientemente ha obtenido una importancia
adicional debido a su uso y atractivo para la comunidad de aprendizaje au-
tomático. En este capítulo se proporciona un tratamiento fundamental de
la familia exponencial general. Las exposiciones clásicas están disponibles
en Barndorff-Nielsen (1978), Brown (1986) y Lehmann y Casella (1998). Un
excelente tratamiento reciente está disponible en Bickel y Doksum (2006).

2 Familia exponencial de un-parámetro


Las familias exponenciales pueden tener cualquier número finito de pará-
metros. Por ejemplo, como deberíamos, una distribución normal con una
media conocida está en la familia exponencial de un parámetro, mientras
que una distribución normal con ambos parámetros desconocidos está en la
familia exponencial de dos parámetros.

Una distribución normal bivariada con todos los parámetros desconocidos


se encuentra en la familia exponencial de cinco parámetros. Como otro
ejemplo, si tomamos una distribución normal en la que la media y la varianza
están funcionalmente relacionadas, (por ejemplo, la distribución N (µ, µ2 )),
entonces la distribución no estará ni en familia exponencial de un parámetro
ni en la familia exponencial de dos parámetros, sino en una familia llamada
Cirilo alvarez R. 3

familia exponencial curva. Comenzamos con la familia exponencial regular


de un-parámetro.

2.1 Definición y primeros ejemplos


Comenzamos con un ejemplo ilustrativo que resalta algunas de las propie-
dades más importantes de las distribuciones en una familia exponencial.

Ejemplo 2.1. (Distribución Normal con Media Conocida). Supongamos


que X ∼ N (µ, σ 2 ). Entonces la densidad de X es
x2
2 2 −1/2 − 2σ 2
fσ2 (x) = f (x|σ ) = (2πσ ) e Ix∈IR

Esta densidad está parametrizada por un solo parámetro σ 2 . Escribiendo

η(σ 2 ) = − 2σ1 2 , T (x) = x, B(σ 2 ) = log σ 2 , h(x) = √1 Ix∈IR ,


podemos representar la densidad en la forma


2 )T (x)−B(σ 2 )
f (x|σ 2 ) = eη(σ h(x), para cualquier σ 2 ∈ IR+ .

A continuación, supongamos que tenemos una muestra aleatoria iid X1 , X2 , . . . , Xn ∼


N (0, σ 2 ). Entonces la densidad conjunta de X1 , X2 , . . . , Xn es
Pn 2
n i=1 xi
2
f (x1 , x2 , . . . , xn |σ ) = (2πσ 2 )− 2 e− 2σ 2 I(x1 ,x2 ,...,xn )∈IR .

Ahora escribiendo
n
X
2
η(σ ) = − 2σ1 2 , T (x1 , x2 , . . . , xn ) = x2i , B(σ 2 ) = n log σ 2 ,
i=1

y
n
h(x1 , x2 , . . . , xn ) = (2π)− 2 I(x1 ,x2 ,...,xn )∈IRn ,
4 Cirilo alvarez R.

una vez más podemos representar la densidad conjunta en la misma forma


general.
2 )T (x 2)
f (x1 , x2 , . . . , xn |σ 2 ) = eη(σ 1 ,x2 ,...,xn )−B(σ
h(x1 , x2 , . . . , xn ).

Notamos que en esta representación de la densidad conjunta f (x1 , x2 , . . . , xn |σ 2 ),


el estadístico T (X1 , X2 , . . . , Xn ) sigue siendo un estadístico unidimensional,
es decir, T (X1 , X2 , . . . , Xn ) = ni=1 Xi2 . Usando el hecho de que la suma
P

de cuadrados de n variables normales estándar independientes es una va-


riable chi-cuadrada con n grados de libertad, tenemos que la densidad de
T (X1 , X2 , . . . , Xn ) es
t n
2 e− 2σ2 t 2 −1
fT (t|σ ) = n
σ n 2 2 Γ n2


Esta vez, escribiendo


n
t 2 −1
η(σ 2 ) = − 2σ1 2 , s(t) = t, B(σ 2 ) = n
2
log σ 2 , h(t) = n  I(t>0) ,
n
22Γ 2

una vez más podemos escribir incluso la densidad de T (X1 , X2 , . . . , Xn ) =


Pn 2
i=i Xi en esa misma forma general.

2 )S(t)−B(σ 2 )
fT (t|σ 2 ) = eη(σ h(t).

Claramente, algo muy interesante está pasando. Empezamos con una den-
2 2
sidad básica en una forma específica, esto es, f (x|σ 2 ) = eη(σ )T (x)−B(σ ) h(x),
y luego encontramos que la densidad conjunta y la densidad de la estadís-
tica unidimensional relevante ni=1 Xi2 en esa densidad conjunta, son una
P

vez más densidades de exactamente la misma forma general. Resulta que


todos estos fenómenos son ciertos para toda la familia de densidades que se
pueden escribir en esa forma general, la cual es la Familia exponencial de
un parámetro. Definámoslo formalmente y luego extenderemos la definición
a distribuciones con más de un parámetro.
Cirilo alvarez R. 5

Definición 2.1. Sea X = (X1 , X2 , . . . , Xn ) un vector aleatorio n-dimensional


con una distribución Pθ , θ ∈ Θ ⊆ R.

Supongamos que X1 , X2 , . . . , Xn son conjuntamente continuas. Se dice que


la familia de distribuciones paramétricas, Pθ = {Pθ : θ ∈ Θ ⊆ R}, perte-
nece a la familia exponencial de un-parámetro si la densidad conjunta del
vector aleatorio, X = (X1 , X2 , . . . , Xn ) se puede representar en la forma

f (x|θ) = eη(θ)T (x)−B(θ) h(x)

para algunas funciones de valores reales T (x), B(θ) y h(x) ≥ 0.

Si X1 , X2 , . . . , Xn son conjuntamente discretas, entonces se dice que familia


{Pθ , θ ∈ Θ} pertenece a la familia exponencial de un-parámetro si la función
masa de probabilidad conjunta (función de probabilidad, función frecuencia)
p(x|θ) = Pθ (X = x1 , . . . , Xn = xn ) puede ser escrito en la forma

p(x|θ) = eη(θ)T (x)−B(θ) h(x)

para algunas funciones de valores reales T (x), B(θ) y h(x) ≥ 0.

Tenga en cuenta que las funciones η, T y h no son únicas. Por ejemplo, en


el producto ηT , podemos multiplicar T por alguna constante c y dividir η
por ella. De manera similar, podemos jugar con constantes en la función h.

Definición 2.2. Supongamos que X = (X1 , X2 , . . . , Xn ) tiene una distri-


bución Pθ , θ ∈ Θ, perteneciente a la familia Exponencial de un parámetro.
Entonces el estadístico T (X) se llama estadístico suficiente natural para la
familia {Pθ }.

La noción de un estadístico suficiente es fundamental en la teoría estadís-


tica y sus aplicaciones. Sir Ronald A. Fisher (Fisher (1922)) introdujo la
suficiencia en la literatura estadística. La suficiencia intenta formalizar la
6 Cirilo alvarez R.

noción de no pérdida de información. Se supone que una estadística su-


ficiente contiene por sí misma toda la información sobre los parámetros
desconocidos de la distribución subyacente que podría haber proporcionado
la muestra completa. En ese sentido, no hay nada que perder al restringir
la atención a solo una estadística suficiente en el proceso de inferencia de
uno. Sin embargo, la forma de un estadístico suficiente depende en gran
medida de la elección de una distribución particular Pθ para modelar la
aleatoria X observable. Aún así, la reducción a la suficiencia en modelos
ampliamente utilizados generalmente tiene sentido común. Volveremos al
tema de la suficiencia una vez más, más adelante en este capítulo.

Ahora veremos ejemplos de algunas distribuciones más comunes que perte-


necen a la familia Exponencial de un-parámetro.

Ejemplo 2.2. (La familia Poisson) Sea Pθ = {Pθ , θ ∈ Θ} la familia de


funciones de probabilidad de Poisson con parámetro θ desconocida. Enton-
ces, para la función de probabilidad de la variable aleatoria X, es

θx e−θ 1
Pθ (x) = P(x; θ) = = eln(θ)x−θ , x ∈ X = {0, 1, 2, . . .}, θ > 0
x! x!

Por consiguiente, la familia de distribuciones paramétricas, Pθ , forma una


familia exponencial de un-parámetro con

1
η(θ) = ln θ, B(θ) = θ, T (x) = x, h(x) = .
x!

y T (x) = x es un estadístico suficiente natural de la familia.

Ejemplo 2.3. (La familia Binomial) Consideremos que Pθ = {Binomial(n, θ) :


θ ∈ Θ = (0, 1)} sea una familia paramétrica, con n ≥ 1 conocida. Enton-
ces, representamos la fmp (función masa de probabilidad) de la variable
Cirilo alvarez R. 7

aleatoria X en la forma de familia exponencial de un-parámetro.


    x
n x n−x n θ
P(x|θ) = θ (1 − θ) I{x∈{0,1,...,n}} = (1 − θ)n I{x∈{0,1,...,n}}
x x 1−θ
 
n x ln( 1−θ
θ
)+n ln(1−θ) I
= e {x∈{0,1,...,n}} .
x

Luego, la familia de funciones de probabilidades Binomiales es una familia


exponencial de un parámetro con
   
θ n
η(θ) = ln , B(θ) = −n ln(1 − θ), T (x) = x, h(x) = I{x∈{0,1,...,n}} .
1−θ x
y T (x) = x es el estadístico suficiente natural de la familia.

Hemos representado la fmp P(x|θ) en la forma de familia exponencial de


un-parámetro, siempre que θ ∈ (0, 1). Para θ = 0 o 1, la distribución
se convierte en una distribución de un punto. En consecuencia, la fami-
lia de distribuciones P(x|θ), 0 < θ < 1 forma una familia exponencial de
un-parámetro, pero si se incluye cualquiera de los valores límite θ = 0, 1, la
familia no está en la familia exponencial.

Ejemplo 2.4. (Distribución normal con varianza conocida) Ahora


sea Pθ = {fθ : θ = µ ∈ IR, X ∼ N (µ, σ 2 )}, la familia de densidades
normales con σ 2 conocida, µ ∈ IR y función de densidad
1 (x−µ)2
f (x|µ) = √ e− 2σ2 Ix∈IR .
σ 2π
µ µ2 1 x2
= e σ2 x− 2σ2 √ e− 2σ2 Ix∈IR.
σ 2π
Esta densidad está parametrizado por un solo parámetro µ ya que la va-
rianza es conocida. Escribiendo
µ µ2 1 x2
η(µ) = , T (x) = x, B(µ) = , h(x) = √ e− 2σ2 ,
σ2 2σ 2 σ 2π
8 Cirilo alvarez R.

se puede representar la densidad en la forma

f (x|µ) = eη(µ)T (x)−B(µ) h(x), ∀µ ∈ IR.

Por consiguiente, la familia de distribuciones {fµ (x), µ ∈ IR} forma una


familia exponencial de un-parámetro. ■

Ejemplo 2.5. (Errores en las variables) Suponga que U, V, W son varia-


bles aleatorias normales independientes, siendo U y V N (µ, 1) y W siendo
N (0, 1). Sean X1 = U + W y X2 = V + W . En otras palabras, un error
común de medición W contamina tanto a U como a V .

Sea X = (X1 , X2 ). Entonces X tiene una distribución normal bivariada con


medias µ, µ, varianzas 2, 2 y un parámetro de correlación ρ = 21 . Por lo
tanto, la densidad de X es
(x1 −µ)2 (x2 −µ)2
 
2
1 − + −(x1 −µ)(x2 −µ)
f (x|µ) = √ e 3 2 2
I(x1 , x2 ) ∈ IR2
2 3π
2 2
x1 +x2 −4x1 x2
2 2 1
h i
µ(x1 +x2 )− µ2
=e 3 3 √ e− 3 I(x1 , x2 ) ∈ IR2
2 3π
Esto tiene la forma de una familia exponencial de un-parámetro con el
estadístico natural suficiente T (X) = T (X1 , X2 ) = X1 + X2 . ■

Ejemplo 2.6. (Distribución Gamma) Supongamos que X tiene densidad


Gamma x
e− λ xα−1
f (x|α, λ) = α Ix>0
λ Γ(α)
Como tal, tiene dos parámetros λ, α. Si asumimos que α es conocido,
entonces podemos escribir la función de densidad en la forma de la familia
exponencial de un-parámetro como, sigue
α−1
− −α ln λ x
x
f (x|λ) = e λ Ix>0 .
Γ(α)
Cirilo alvarez R. 9

y reconocerlo como una densidad en la familia Exponencial con

1 xα−1
η(λ) = − , T (x) = x, B(λ) = α ln λ, h(x) = Ix>0 .
λ Γ(α)

Si asumimos que λ se conoce, una vez más, escribiendo la densidad como


x

α ln x−α(ln λ)−ln Γ(α) e
λ
f (x|α) = e Ix>0 ,
x
reconocemos como una densidad en la familia Exponencial de un-parámetro
con
x
e− λ
η(α) = α, T (x) = ln x, B(α) = α(ln λ) + ln Γ(α), h(x) = Ix>0 .
x

Ejemplo 2.7. . (Una distribución gamma inusual) Supongamos que


tenemos una densidad Gamma en la que se conoce la media, digamos,
E(X) = 1. Esto significa que αβ = 1 ⇒ β = α1 . Parametrizando la
densidad con α, tenemos
α
f (x|α) = e−αx+α log x Γ(α)
α 1
I
x x>0

= eα[log x−x]−[log Γ(α)−α log α] x1 Ix>0 ,

que está nuevamente en la forma de familia exponencial de un-parámetro


con

η(α) = α, T (x) = log x − x, B(α) = log Γ(α) − α log α, h(x) = x1 Ix>0 .

Ejemplo 2.8. (Una distribución normal truncada a un conjunto).


Supongamos que cierta variable aleatoria W tiene una distribución normal
con media µ y varianza uno. Vimos en el ejemplo 2.4 que esto está en la
10 Cirilo alvarez R.

familia Exponencial de un-parámetro. Supongamos ahora que la variable


W puede observarse físicamente solo cuando su valor está dentro de algún
conjunto A. Por ejemplo, si W > 2, entonces nuestros instrumentos de
medición no pueden decir cuál es el valor de W . En tal caso, la variable X
que realmente se observa tiene una distribución normal truncada al conjunto
A. Para simplificar, tome A como A = [a, b], un intervalo. Entonces, la
densidad de X es
(x−µ)2
e− 2
f (x|µ) = √ Ia≤x≤b
2π [Φ(b − µ) − Φ(a − µ)]

este puede ser escrito como

µ2 x2
µx− −log[Φ(b−µ)−Φ(a−µ)] √1 −
f (x|µ) = e 2

e 2 Ia≤x≤b

y reconocemos que esto está en la forma de familia Exponencial con


x2
µ2
η(µ) = µ, T (x) = x, B(µ) = 2
+log[Φ(b−µ)−Φ(a−µ)], y h(x) = e− 2 Ia≤x≤b .

Por lo tanto, la distribución de W truncada a A = [a, b] todavía está en


la familia Exponencial de un-parámetro. Este fenómeno es de hecho más
general. ■

Ejemplo 2.9. (Algunas distribuciones que no están en la familia


exponencial) Se deduce de la definición de una familia exponencial de
un-parámetro que si una determinada familia de distribuciones {Pθ : θ ∈ Θ}
pertenece a la familia exponencial de un-parámetro, entonces cada Pθ tie-
ne exactamente el mismo soporte. Precisamente, para cualquier θ fijo, se
R
cumple que Pθ (A) > 0 si y solo si A h(x)dx > 0, y en el caso discreto,
Pθ (A) > 0 si y solo si A ∩ X = ̸ ∅, donde X es el conjunto numerable
X = {x : h(x) > 0}. Como consecuencia de este hecho de soporte co-
mún, las denominadas distribuciones irregulares cuyo soporte depende del
Cirilo alvarez R. 11

parámetro no pueden ser miembros de la familia exponencial. Ejemplos de


estas familias son las familias de distribuciones U [0, θ], U [−θ, θ], etc. Del
mismo modo, la densidad exponencial f (x|θ) = eθ−x Ix>θ no puede estar en
la familia exponencial.

Algunas otras distribuciones comunes también no son de la familia ex-


ponencial, pero por otras razones. Un ejemplo importante es la fami-
lia de distribuciones de Cauchy dada por el parámetro de centralización
1
f (x|µ) = π[1+((x−µ)2 )] Ix∈R . Supongamos que se trata esta densidad. Enton-

ces, podemos encontrar funciones η(µ), T (x) tal que para todo x, µ,
1
eη(µ)T (x) = 2

=⇒ η(µ)T (x) = − ln 1 + (x − µ)
1 + (x − µ)2
=⇒ η(0)T (x) = − ln 1 + x2


=⇒ T (x) = −c ln 1 + x2


para alguna constante c.

Reemplazando esto, obtenemos, para todo, x, µ

−cη(µ) ln 1 + x2 = − ln 1 + (x − µ)2
 

1 ln(1 + (x − µ)2 )
=⇒ η(µ) = .
c ln(1 + x2 )

ln(1 + (x − µ)2 )
Este significa que debe ser una función constante de x, que
ln(1 + x2 )
es una contradicción. La elección de µ = 0 como el valor especial de µ no
es importante. ■

3 Familias Exponenciales por Muestreo


Otra manera de definir la familia exponencial de un-parámetro es el siguien-
te:
12 Cirilo alvarez R.

Definición 3.1. Sea Pθ = {Pθ : θ ∈ Θ} un modelo paramétrico, se dice


que el modelo Pθ es una familia exponencial de un-parámetro, si existen
funciones de valor real η(θ), B(θ) en Θ, funciones de valor real T y h en IRn
tal que la función de densidad (función de probabilidad, función frecuencia)
p(x | θ) de Pθ puede ser escrito en la forma siguiente:

p(x | θ) = exp(η(θ)T (x) − B(θ))h(x), x ∈ X ⊂ IRn . (3.1)

Debe tenerse en cuenta que la funciones η, B y T no son únicos.

Las familias de distribuciones obtenidas por muestreo de familias exponen-


ciales de un-parámetro son asimismo familias exponenciales de un-parámetro.
Específicamente, Suponga que X1 , X2 , . . . , Xm son variables aleatorias in-
dependientes y idénticamente distribuidas con función de densidad común
fθ , donde fθ pertenece a una familia exponencial de un-parámetro tal co-
(m)
mo se ha definido en la relación (3.1). Si {Pθ ; θ ∈ Θ}, es la familia de
distribuciones del vector aleatorio m-dimensional, X = (X1 , X2 , . . . , Xm )
en IRmn y f (x; θ) son las correspondientes funciones de densidades (función
frecuencia o función de probabilidad) resulta que,
m
Y
f (x; θ) = e[η(θ)T (xi )−B(θ)] h(xi )
i=1
 m
P
 "m # (3.2)
η(θ) T (xi )−mB(θ) Y
=e i=1 h(xi )
i=1
(m)
donde x = (x1 , x2 , . . . , xm ). Por tanto, fθ forma una familia exponencial
de un parámetro. Si usamos superíndice m para denotar la correspondiente
funciones T ,η, B y h, entonces, n(m) = nm, y
m
X
(m) (m)
η (θ) = η(θ) T = T (xi )
i=1
m
Y
m (m)
B (θ) = mB(θ) h (x) = h(xi )
i=1
Cirilo alvarez R. 13

Tenga en cuenta que el estadístico suficiente natural T (m) es un vector de


dimensión 1 cualquiera que sea m. Por ejemplo, si X = (X1 , X2 , . . . , Xm ) es
un vector de variables aleatorias independientes e idénticamente distribuidas
tal que Xi ∼ N (µ, σ02 ) (varianza conocida) con función de densidad común

1 − 1 (x−µ)2
fθ (x) = √ e 2σ02 , x∈R
σ0 2π

entonces, la función de densidad conjunta de la muestra es

(m)
fθ = f (x; µ) = f (x1 , x2 , . . . , xm ; µ)
m
Y 1 − 1 (x−µ)2
= √ e 2σ02
σ 2π
i=1 0
m
Y 1 − 1 (x2 −2µx+µ2 )
= √ e 2σ02 i
σ 2π
i=1 0
1 Pm 2 2
m − i=1 (xi −2xi µ+µ )
(2πσ02 )− 2 e 2σ0
2
=
1 Pm µ Pm u2
m − x2i xi −m
(2πσ02 )− 2 e 2σ0
2 i=1 2
σ0 i=1 2σ02
= e
 Pm 2

µ Pm u2 1 i=1 xi +m ln
σ2 i=1 xi −m 2σ02 −
2 2
σ0
(2πσ02 )
=e e

usando el superíndice m tenemos,


m
(m) µ (m)
X
η (µ) = η(µ) = 2 , T = xi
σ0 i=1
µ2
Bm (µ) = mB(µ) = m
σ02
 Pm 2

− 21 i=1 xi +m ln
2 (2πσ02 )
h(m) (x) = e σ0

que es la familia de distribuciones del vector muestral X, entonces la distri-


(m)
bución fθ forma una familia exponencial de un-parámetro con estadístico
suficiente natural T (m) (X) = m
P
i=1 Xi .
14 Cirilo alvarez R.

Definición 3.2. Sea X = (X1 , X2 , . . . , Xm ) un vector aleatorio muestral


de dimensión m con una distribución Pθ : θ ∈ Θ ⊆ IR. Suponga que
las variables aleatorias X1 , X2 , . . . , Xm , son conjuntamente continuas. La
familia de distribuciones paramétricas, Pθ = {Pθ : θ ∈ Θ}, se dice que
pertenece a la familia exponencial de un parámetro si la función de densidad
conjunta del vector muestral X = (X1 , X2 , . . . , Xm ) puede ser expresado en
la forma
fθ (x) = f (x; θ) = eη(θ)T (x)−B(θ) h(x),
si existen funciones reales η(θ), B(θ) definidas en Θ, funciones reales T (x)
y h(x) ≥ 0.

Si X1 , X2 , . . . , Xm son conjuntamente discretas, entonces se dice que familia


{Pθ : θ ∈ Θ} pertenece a la familia exponencial de un-parámetro si la
función de probabilidad conjunta (función frecuencia o función cuantía)
puede ser escrita en la forma

Pθ (x) = P(x; θ) = Pθ (X1 = x1 , X2 = x2 , . . . , Xm = xm )


= eη(θ)T (x)−B(θ) h(x)

si existen funciones reales η(θ), B(θ) definidas en Θ, funciones reales T (x)


y h(x) ≥ 0.

Debe tenerse en cuenta que las funciones η, T, B y h no son únicos.

Definición 3.3. Suponga que el vector muestral, X = (X1 , X2 , . . . , Xm )


tiene una distribución Pθ : θ ∈ Θ, pertenece a la familia exponencial de
un parámetro. Entonces el estadístico T (X) se llama estadístico suficiente
natural para la familia paramétrica Pθ = {Pθ : θ ∈ Θ}.

La noción de un estadístico suficiente es uno de los fundamentos en la teo-


ría estadística y sus aplicaciones. El concepto de suficiencia fue introducido
en la literatura estadística por Sir Ronald A. Fisher (Fisher (1922)). La
Cirilo alvarez R. 15

suficiencia intenta formalizar la noción de no pérdida de información. Un


estadístico suficiente es supuesto a que contiene por si mismo toda la infor-
mación acerca de los parámetros desconocidos de la distribución subyacente
que la muestra completa podría haber proporcionado. En ese sentido, no
hay ninguna pérdida al restringir la atención solo a una estadística suficien-
te en el proceso de inferencia que uno realiza. Sin embargo, la forma de un
estadístico suficiente es muy dependiente tanto de la elección de una distri-
bución particular Pθ para modelar la variable aleatoria observable X. Sin
embargo, la reducción a la estadística suficiente en modelos ampliamente
utilizados por lo general hace que el sentido común sea simple. Vamos a
volver a la cuestión de la suficiencia de nuevo más adelante en este capítulo.

Ahora veamos algunos ejemplos de distribuciones más comunes que perte-


necen a la familia exponencial de un parámetro para un vector muestral.

Ejemplo 3.1. (Distribución binomial) Sea Binomial(n, θ) con n ≥ 1


considerado conocido, y 0 < θ < 1 es el parámetro de proporción poblacio-
nal. Sea X1 , X2 , . . . , Xm una muestra aleatoria simple de esta distribución,
entonces del ejemplo 2.3 tenemos
 
n ln( 1−θ
θ
)x+n ln(1−θ) .
P(x; θ) = e
x

luego la función de densidad de la muestra será

m
Y
P(x1 , x2 , . . . , xm ; θ) = P(xi ; θ)
i=1
m  
Y n ln( 1−θ
θ
)xi +n ln(1−θ)
= e
i=1
x i
m  
θ
ln( 1−θ )
Pn
i=1 xi +mn ln(1−θ)
Y n
=e
i=1
xi
16 Cirilo alvarez R.

Escribiendo
  m
θ X
η(θ) = ln , T (x) = xi
1−θ i=1
m  
Y n
B(θ) = −mn ln(1 − θ), h(x) =
i=1
xi

luego la función frecuencia se puede representa en la forma

P(x; θ) = eη(θ)T (x)−B(θ) h(x)

se observa que P(x; θ) pertenece a la familia exponencial de un parámetro.


Ejemplo 3.2. [Distribución Poisson] Sea X ∼ Poisson (θ) entonces, del


ejemplo 2.2 sabemos que la función de densidad de X pertenece a la familia
exponencial de un parámetro cuya densidad es
1 ln(θ)x−θ
P(x; θ) = e ,θ>0
x!

luego la función de densidad de la muestra será


m
Y 1 ln(θ)xi −θ
P(x; θ) = e
i=1
x i !
m
ln(θ)
Pm
xi −mθ
Y 1
=e i=1 .
i=1
x i !

Otra vez escribiendo,


m
X
η(θ) = ln θ, T (x) = xi
i=1
m
Y 1
B(θ) = mθ, h(x) =
i=1
xi !
Cirilo alvarez R. 17

luego la función frecuencia se puede representa en la forma

P(x; θ) = eη(θ)T (x)−B(θ) h(x)

se observa que P(x; θ) pertenece a la familia exponencial de un-parámetro.


Ejemplo 3.3. (Distribución Γ(α, 1)) Expresamos la función de densidad


conjunta para la muestra aleatoria X1 , X2 , . . . , Xm que proviene de una
población Gamma con densidad
1 α−1 −x
f (x; α) = x e , x ∈ IR.
Γ(θ)
Del ejemplo 2.6 se sabe que f (x; α) pertenece a la familia exponencial de
un parámetro cuya densidad es

f (x; α) = e(α−1) ln x−ln Γ(α) e−x .

La función de densidad conjunta para la muestra aleatoria X1 , X2 , . . . , Xm


resulta
m
Y
f (x; α) = e(α−1) ln xi −ln Γ(α) e−xi
i=1
Pm Pm
ln xi −m ln Γ(α) −
= e(α−1) i=1 e i=1 xi
.

Escribiendo
m
X
η(α) = (α − 1) T (x) = ln xi
i=1
− m
P
B(α) = m ln Γ(α) h(x) = e i=1 xi

se observa que f (x; α) pertenece a la familia exponencial de un parámetro.



18 Cirilo alvarez R.

Teorema 3.1. Sea Pθ = {Pθ : θ ∈ Θ} una familia exponencial de


un-parámetro de distribuciones discretas con funciones correspondientes T ,
η, B, y h, entonces la familia de distribuciones del estadístico T (X) es
una familia exponencial de un-parámetro de distribuciones discretas cuyas
funciones de distribuciones puede ser escrito en la forma siguiente:

fT (t | θ) = exp(η(θ)t − B(θ))h∗ (t), para un h∗ adecuado

Prueba. Por definición,


X
fT (t | θ) = Pθ (T (x) = t) = p(x; θ)
{x:T (x)=t}
X
= exp(η(θ)T (x) − B(θ))h(x)
{x:T (x)=t}
 
 X 
= exp(η(θ)t − B(θ)) h(x).
 
{x:T (x)=t}
( )
Si hacemos h∗ (t) =
P
h(x) , se obtiene el resultado.
{x:T (x)=t}

Un teorema similar se cumple en el caso continuo si las distribuciones de


T (X) son continuas.

4 Forma Canónica y Propiedades Básica


Suponga que Pθ = {Pθ : θ ∈ Θ} sea una familia exponencial de un-parámetro,
con función densidad ( o función frecuencia) de la forma

f (x|θ) = eη(θ)T (x)−B(θ) h(x).

Si η(θ) es una función uno-a-uno en θ, entonces podemos omitir θ por com-


pleto, y parametrizar la distribución en términos de η mismo. Si hacemos
Cirilo alvarez R. 19


eso, obtenemos una densidad g reparametrizada en la forma eηT (x)−B (η) h(x).
Por un ligero abuso de notación, de nuevo usaremos la notación f para g y
B para B∗ .

Definición 4.1. Sea X = (X1 , X2 , . . . , Xm ) un vector aleatorio muestral


de dimensión m que se distribuye según Pη : η ∈ T ⊆ IR. La familia
de distribuciones Pη = {Pη : η ∈ T } se dice que pertenece a la familia
exponencial canónico de un-parámetro si la densidad (función cuantía) de
Pη puede ser escrita en la forma

f (x; η) = eηT (x)−B(η) h(x)

donde
Z
B(η)
η ∈ T = {η : e = eηT (x) h(x)dx < ∞}
Rm

en el caso continuo, y
X
T = {η : eB(η) = eηT (x) h(x) < ∞}
x∈X

en caso discreto, siendo X un conjunto contable en la cual h(x) > 0.

Para una distribución en una familia exponencial canónica de un parámetro,


el parámetro η se llama parámetro natural, y T se llama espacio paramétrico
natural. Tenga en cuenta que T describe el conjunto más grande de los
valores de η para el cual la función de densidad (función frecuencia) se
puede definir. En una aplicación particular, se puede tener conocimientos
extraños de que η pertenece a algún subconjunto propio de T . De esta
manera, el conjunto {Pη } con η ∈ T se llama familia exponencial canónico
completo de un-parámetro. En general, nos referimos a la familia completa,
a menos que se indique lo contrario.
20 Cirilo alvarez R.

La familia exponencial canónica se llama regular si T es un conjunto abierto


en R y se llama no singular si Varη (T (X)) > 0 para todo η ∈ T 0 , el interior
del espacio paramétrico natural.

Resulta analíticamente es conveniente trabajar con una distribución de la


familia exponencial en su forma canónica. Una vez que se ha derivado un
resultado para la forma canónica, si se desea se puede volver a escribir la
respuesta en términos del parámetro original θ. Hacer esta retransformación
al final es algebraica y notacionalmente más simple que llevar la función
original η(θ) y a menudo sus derivadas de orden superior nos conduce por
medio de unos cálculos largos. La mayoría de las fórmulas y teoremas
siguientes se dará respecto a la forma canónica.

Ejemplo 4.1. (Distribución binomial en forma canónica) Sea Binomial(n, θ)


con función de probabilidad dada por
 
n x
Pθ (X = x) = θ (1 − θ)n−x x ∈ X = {0, 1, 2, . . . , n}, θ ∈ Θ = (0; 1).
x
En el ejemplo 2.3, se ha representado esta función de probabilidad (fp) en
la forma de la familia exponencial de un-parámetro
 
θ
ln( 1−θ ) x+n ln(1−θ) n
Pθ (X = x) = e Ix∈{0,1,2,...,n}
x
θ

Si se escribe (pues η(θ) = ln 1−θ es una función uno a uno)

θ θ eη 1
ln =η⇒ = eη ⇒ θ = η
y 1−θ = ,
1−θ 1−θ 1+e 1 + eη
Por lo tanto, la forma de familia exponencial canónica de la distribución
binomial es
 
ηx−n ln(1+eη ) n
f (x | η) = Pη (x) = e Ix∈{0,1,2,...,n} .
x
El espacio paramétrico natural es T = IR y B(η) = n ln(1 + eη ) ■
Cirilo alvarez R. 21

Ejemplo 4.2. (Distribución Bernoulli en su forma canónica ) Sea


X ∼ Bernoulli (1, θ) cuya función de probabilidad es

P(x | θ) = θx (1 − θ)1−x Ix∈{0,1}

Expresando en forma exponencial se tiene


   
θ
P(x | θ) = exp ln x + ln(1 − θ) Ix∈{0,1}
1−θ
Haciendo
 
θ
η(θ) = ln , T (x) = X, B(θ) = − ln(1 − θ), h(x) = Ix∈{0,1}
1−θ

Por consiguiente, la familia de distribuciones {P(x|θ) : θ ∈ Θ = (0, 1)}


forma una familia exponencial de un-parámetro.

Para expresar la distribución Bernoulli en forma canónica de la familia


exponencial, procedemos como sigue:
 
θ θ 1
η(θ) = ln =η⇒ = eη ⇒ θ =
1−θ 1−θ 1 + e−η
T (x) = x
B(η) = ln(1 + eη )
h(x) = Ix∈{0,1}

El espacio de parámetros naturales es la línea real en este caso,esto es,

τ = {η : eB(η) = 1 + eη } = IR.
Luego
η
P(x|η) = eηx+ln(1+e ) Ix∈{0,1}
Por consiguiente la familia de distribuciones {Pη : η ∈ IR} está en la familia
exponencial canónica de un-parámetro. ■
22 Cirilo alvarez R.

4.1 Propiedades de convexidad


Cuando se escribe en su forma canónica, una densidad (o función frecuen-
cia) en una la familia exponencial tiene algunas propiedades de convexidad.
Estas propiedades de convexidad son útiles en las operaciones con momentos
y otras funciones del estadístico, T (X), los estadísticos suficientes naturales
que aparecen en las expresiones de la densidad de la distribución.

Teorema 4.1. El espacio paramétrico natural T es convexo, y B(η) es una


función convexa en T ,

Prueba. Consideremos solo el caso continuo, ya que el caso discreto admite


básicamente la misma prueba. Sean η1 y η2 dos elementos del espacio para-
métrico natural T , y sea o < α < 1. Necesitamos probar que αη1 +(1−α)η2
pertenezca a T ; es decir,
Z
e(αη1 +(1−α)η2 )T (x) h(x)dx < ∞.
Rm

Pero
Z Z
(αη1 +(1−α))T (x)
e h(x)dx = e(αη1 )T (x) × e(1−α)η2 T (x) h(x)dx
Rm Rm
Z
α (1−α)
= eη1 T (x) eη2 T (x) h(x)dx
Rm

por la desigualdad de Holder, resulta


Z α Z (1−α)
η1 T (x) η2 T (x)
≤ e h(x)dx e h(x)dx <∞
Rm Rm

debido a que, por hipótesis η1 , η2 ∈ T , y por lo tanto


Z Z
η1 T (x)
e h(x)dx y eη2 T (x) h(x)dx ambos son finitos.
Rm Rm
Cirilo alvarez R. 23

Tenga en cuenta que en esta argumentación, en realidad se ha probado la


desigualdad
eB(αη1 +(1−α)η2 ) ≤ eαB(η1 )+(1−α)B(η2 ) .

Pero esto es lo mismo que decir

B(αη1 + (1 − α)η2 ) ≤ αB(η1 ) + (1 − α)B(η2 )

es decir, B(η) es una función convexa en T

4.2 Momentos y función generatriz de momentos


El siguiente resultado es un hecho muy especial acerca de la familia expo-
nencial canónica, y es el origen de un gran número de fórmulas válidas de
forma cerrada para toda la familia exponencial canónica. El hecho en sí es
en realidad un hecho en el análisis matemático. Debido a la forma especial
de densidades de familias exponenciales, el hecho en el análisis se traduce
en resultados para la familia exponencial, una instancia de interacción entre
las matemáticas y la probabilidad.

Teorema 4.2.(a) La función eB(η) es infinitamente diferenciable en todo


η ∈ T 0 (conjunto de puntos interiores del espacio paramétrico natural
R
T ). Además, en el caso continuo, eB(η) = Rm eηT (x) h(x)dx puede ser di-
ferenciado cualquier número de veces dentro del signo de la integral, y en
X
el caso discreto, eB(η) = eηT (x) h(x) puede ser diferenciado cualquier
x∈X
número de veces dentro del signo de sumatoria.

(b) En el caso continuo, para cualquier k ≥ 1

dk B(η)
Z
e = [T (x)]k eηT (x) h(x)dx
dη k Rm
24 Cirilo alvarez R.

y en el caso discreto,

dk B(η) X
k
e = [T (x)]k eηT (x) h(x)dx
dη x∈X

Prueba. Consideremos k = 1. Entonces por la definición de la derivada de


d B(η) B(η+δ) −eB(η)
una función, dη e existe si y solo si lim e δ
existe. Pero,
δ→0

eB(η+δ) − eB(η) eB(η+δ)T (x) − eB(η)T (x)


Z
= h(x)dx,
δ IRm δ

y por la aplicación del teorema de la convergencia dominada

eB(η+δ)T (x) − eB(η)T (x)


Z
lim h(x)dx,
δ→0 IRm δ

existe, y el límite puede ser llevado acabo dentro de la integral para obtener

eB(η+δ)T (x) − eB(η)T (x) eB(η+δ)T (x) − eB(η)T (x)


Z Z
lim h(x)dx = lim h(x)dx
δ→0 IRm δ m δ→0 δ
ZIR
d ηT (x)
= e h(x)dx
IRm dη
Z
= T (x)eηT (x) h(x)dx
IRm

En seguida hacemos inducción sobre k utilizando el teorema de la conver-


gencia dominada otra vez.

Esta fórmula compacta para una derivada arbitraria de eB(η) conduce a las
siguientes fórmulas importantes de momentos.

Teorema 4.3. En cualquier η ∈ T 0

(a) Eη [T (X)] = B′ (η); Varη (T (X)) = B′′ (η)


Cirilo alvarez R. 25

(b) Los coeficientes de asimetría y curtosis de T (X) son iguales a

B(3) (η) B(4) (η)


β(η) = ; γ(η) =
[B′′ (η)]3/2 [B′′ (η)]2

(c) En cualquier s tal que η + s ∈ T , la función generatriz de momentos de


T (X) existe y es igual a

MT (s) = eB(s+η)−B(η) .

(d) Demuestre que la función característica de T (X) está dada por

Ψ(T ) = eB(η+it)−B(η)

Prueba.(a) Como antes tratemos el caso continuo. Consideremos el resul-


tado del teorema anterior que para cualquier k ≥ 1 se cumple:

dk B(η)
Z
k
e = [T (x)]k eηT (x) h(x)dx.
dη IRm

usando para k = 1, se obtiene


Z
′ B(η)
B (η)e = T (x)eηT (x) h(x)dx
IRm

multiplicando ambos miembros de la ecuación anterior por e−B(η) se


obtiene
Z

B (η) = T (x)eηT (x)−B(η) h(x)dx
IRm

que da el resultado

Eη [T (X)] = B′ (η)
26 Cirilo alvarez R.

De la misma manera se tiene

d2 B(η)
Z
2
e = [T (x)]2 eηT (x) h(x)dx.
dη m
ZIR

B′ (η)eB(η) = [T (x)]2 eηT (x) h(x)dx.

m
ZIR
B′′ (η) + {B′ (η)}2 eB(η) = [T (x)]2 eηT (x) h(x)dx.

IRm

de donde se obtiene
Z
′′ ′
B (η) + {B (η)} = 2
[T (x)]2 eηT (x)−B(η) h(x)dx.
IRm

la cual da

Eη [T (X)]2 = B′′ (η) + {B′ (η)}2

combinando este resultado con lo ya obtenido Eη [T (X)] = B′ (η) se


obtiene

Varη [T (X)] = Eη [T (X)]2 − {Eη [T (X)]}2 = B′′ (η)

(b) El coeficiente de asimetría se define como

E[T (X) − E (T (X))]3


βη = .
(V ar[T (X)])3/2
para obtener

E[T (X) − E (T (X))]3 = E[T (X)]3 − 3E[T (X)]2 E[T (X)] + 2 {E[T (X)]}3
(4.1)
usamos la identidad
d3 B(η)
Z
e = [T (x)]3 eηT (x) h(x)dx.
dη 3 IRm
Cirilo alvarez R. 27

Luego hallamos la tercera derivada como sigue:


Z
 B(η) ′
[T (x)]3 eηT (x) h(x)dx.
 ′′ ′ 2
B (η) + {B (η)} e =
IRm
y derivando el lado izquierdo de la expresión anterior se obtiene
Z
′ ′′ ′
[T (x)]3 eηT (x) h(x)dx.
 (3) 3
 B(η)
B (η) + 3B (η)B (η) + {B (η)} e =
IRm

multiplicando ambos miembros de en la expresión anterior por e−B(η)


resulta
Z
(3) ′ ′′ ′ 3
B (η) + 3B (η)B (η) + {B (η)} = [T (x)]3 eηT (x)−B(η) h(x)dx;
IRm
es decir,
E[T (X)]3 = B(3) (η) + 3B′ (η)B′′ (η) + {B′ (η)}3
Luego reemplazando los valores respectivos de los momentos se obtiene
que
E[T (X) − E (T (X))]3 = B(3) (η)
y la fórmula de la asimetría resulta lo establecido en el ítem (b).

La fórmula del coeficiente curtosis se obtiene procediendo de la misma


manera, usando k = 4 en la identidad de la derivada
d4 B(η)
Z
e = [T (x)]4 eηT (x) h(x)dx.
dη 4 IRm

(c) La función generatriz de momentos se obtiene como sigue:


Z
sT (X)
MT (s) = E(e )= esT (X) eηT (x)−B(η) h(x)dx.
IRm
Z
−B(η)
=e e(s+η)T (x) h(x)dx.
IRm
Z
−B(η) B(s+η)
=e e e(s+η)T (x)−B(t+η) h(x)dx.
IRm

MT (s) = eB(s+η)−B(η)
28 Cirilo alvarez R.

Una consecuencia importante de las fórmulas de la media y varianza es el


siguiente resultado de la monotonicidad

Corolario 4.1. Para una familia exponencial no singular, Eη [T (X)] es es-


trictamente creciente en interior η ∈ T 0

Prueba. De la parte (a) del teorema 4.3, la varianza de T (X) es la derivada


de la esperanza de T (X), y por ser no singular, la varianza es estrictamente
creciente. Esto implica que la esperanza es estrictamente creciente.

Como una consecuencia de esta monotonicidad creciente de la esperanza


de T (X) en el parámetro natural, de las familias exponenciales canónicas
no-singulares puede ser reparametrizada usando la misma media de T (X)
como parámetro. Esto es útil para algunos propósitos.

Ejemplo 4.3. (Distribución Binomial) Sabemos del ejemplo 4.2, en la


representación canónica de la distribución binomial, B(η) = n ln(1 + eη ).
Por diferenciación directa se obtiene

neη neη (eη − 1)


B′ (η) = ; B(3) (η) = − ;
1 + eη (1 + eη )3
neη neη (e2η − 4eη + 1)
B′′ (η) = ; B(4) (η) =
(1 + eη )2 (1 + eη )4

Teniendo en cuenta el ejemplo 4.2 que el parámetro θ y el parámetro natural



η están relacionados como θ = 1+e η . Usando este y las fórmulas del Teore-

ma 4.3, podemos reescribir la media, varianza, los coeficientes de asimetría


y de curtosis de X como

Eθ (X) = nθ; Varθ (X) = nθ(1 − θ);


1
−6
βθ = √ 1−2θ ; γθ = θ(1−θ)
n
.
nθ(1−θ)
Cirilo alvarez R. 29

Para completar, es útil tener las fórmulas de la media y de la varianza en


parámetros originales, que se exponen a continuación. La prueba resulta de
una aplicación del Teorema 4.3 y la regla de la cadena. ■

Teorema 4.4. Sea {Pθ : θ ∈ Θ} una familia de distribuciones paramétricas


en la familia de distribuciones exponenciales de un-parámetro con densidad
(función frecuencia)
f (x|θ) = eη(θ)T (x)−B(η) h(x)

Entonces, para cualquier θ en la que η ′ (θ) ̸= 0


B′ (θ) B′′ (θ) B′ (θ)η ′′ (θ)
Eθ [T (X)] = ; Varθ (X) = −
η ′ (θ) [η ′ (θ)]2 [η ′ (θ)]3

4.3 Función característica de familia exponencial


Teorema 4.5. Si X = (X1 , X2 , . . . , Xm ) tiene una distribución exponencial
en forma canónica con función de densidad dada por
f (x|η) = eηT (x)−B(η) h(x),
entonces para cualquier η ∈ T 0 , la función característica ΨT (s) de T (X)
está dada por
ΨT (s) = eB(is+η)−B(η) .

Prueba. La función característica es por definición


Z
isT (X)
ΨT (s) = E(e )= eisT (X) eηT (x)−B(η) h(x)dx.
IRm
Z
= e−B(η) e(is+η)T (x) h(x)dx.
IR m
Z
−B(η) B(is+η)
=e e e(is+η)T (x)−B(s+η) h(x)dx.
Rm
B(is+η)−B(η)
ΨT (s) = e
30 Cirilo alvarez R.

Propiedad
(k) (k) dk ΨT (s)
ΨT (0) = ik Eη (T (X)), donde ΨT (0) = ,
dsk s=0
la k-ésima derivada evaluada en el el punto 0.

Proposición 4.1. Si X se distribuye según el teorema 4.5, entonces, La


media y la varianza están dadas por

Eη (T (X)) = B ′ (η), ση2 = Varη (T (X)) = B ′′ (η)

Prueba. Utilizando la propiedad tenemos


dΨT (s)
iEη (T (X)) =
ds s=0
d  B(is+η)−B(η) 
= e
ds s=0
′ B(is+η)−B(η)
= i B (is + η)e s=0

= iB (η)
Eη (T (X)) = B′ (η).

Para la varianza, tenemos

2 2 d2 ΨT (s)
i Eη (T (X)) =
ds2 s=0
 
d dΨT (s)
=
ds ds s=0
d  ′
B (is + η)eB(is+η)−B(η)

=i
ds s=0
h n oi
2 B(is+η)−B(η) ′′ ′ 2
=i e B (is + η) + (B (η))
s=0
n o
2
= i2 B′′ (η) + (B′ (η))
2
Eη (T 2 (X)) = B′′ (η) + (B′ (η))
Cirilo alvarez R. 31

Luego,

Varη (T (X)) = Eη (T 2 (X)) − {Eη (T (X))}2


2 2
= B′′ (η) + (B′ (η)) − (B′ (η))
= B′′ (η).

4.4 Propiedad de Clausura


La familia exponencial cumple una serie de propiedades importantes de clau-
sura. Por ejemplo, si un vector aleatorio de dimensión m, X = (X1 , X2 , . . . , Xm )
se distribuye según una familia exponencial, entonces la distribución condi-
cional de cualquier sub-vector dado el resto también se distribuye como una
familia exponencial. Existen un número de tales propiedades de clausura,
de los cuales solo vamos a discutir cuatro.

Primero, si X = (X1 , X2 , . . . , Xm ) se distribuye según la familia exponen-


cial, entonces, el estadístico suficiente natural, T (X), también se distribuye
según la familia exponencial. La verificación de este en general no puede
realizarse sin utilizar la teoría de la medida. Sin embargo, fácilmente po-
demos demostrar esto en algunos casos particulares. Consideremos el caso
continuo con m = 1 y supongamos que T (X) es una función uno a uno dife-
renciable de X. Entonces por la fórmula del Jacobiano, T (X) tiene función
de densidad
h (T −1 (t))
fT (t|η) = eηt−B(η) ′ −1
|T (T (t))|
Esto es, una vez más, en la forma de la familia exponencial de un parámetro,
con el mismo estadístico suficiente natural T , y la función B sin cambios.
La función h ha cambiado a una nueva función
h (T −1 (t))
h∗ (t) =
|T ′ (T −1 (t))|
32 Cirilo alvarez R.

Similarmente, en el caso discreto, la función de probabilidad (fp) de T (X)


está dado por
X
Pη (T (X) = t) = eηt−B(η) h(x) = eηt−B(η) h∗ (t),
x:T (x)=t

X
donde h∗ (t) = h(x).
x:T (x)=t

A continuación, suponga que X = (X1 , X2 , . . . , Xm ) tiene una densidad (fd)


f (x|η) en la familia exponencial y Y1 , Y2 , . . . , Yn son n observaciones iid de
esta densidad f (x|η). Tenga en cuenta que cada observación individual Yi
es un vector de dimensión m. La función de densidad conjunta del vector
Y = Y1 , Y2 , . . . , Yn es
n
Y n
Y
f (y|η) = f (yi |η) = eηT (yi )−B(η) h(yi )
i=1 i=1
n
Pn Y
η i=1 T (yi )− nB(η)
=e h(yi ).
i=1

Reconocemos que esto está en la forma de familia exponencial de un paráme-


n
X
tro nuevamente, con el estadístico suficiente natural como T (Yi ), la nueva
i=1
n
Y
función B como nB, y la nueva función h como h(yi ). La función de
i=1
n
Y
densidad conjunta f (yi |η) se conoce como la función de verosimilitud en
i=1
las estadísticas. Entonces, las funciones de verosimilitud obtenidas de una
muestra iid de una distribución de la familia exponencial de un-parámetro
también son miembros de la familia exponencial de un-parámetro.

Las propiedades de clausura descritas en los párrafos anteriores se encuen-


tran formalmente establecidas en el siguiente teorema.
Cirilo alvarez R. 33

Teorema 4.6. Considere X = (X1 , X2 , . . . , Xm ) un vector aleatorio cuya


distribución pertenece a la familia exponencial de un-parámetro con esta-
dístico suficiente natural T (X).

(a) El estadístico, T = T (X) también tiene una distribución que pertenece


a la familia exponencial de un-parámetro.

(b) Sea Y = AX + u es una transformación no singular de X. Entonces Y


también tiene una distribución que pertenece a la familia exponencial
de un-parámetro.

(c) Sea I0 cualquier subconjunto propio de I = {1, 2, . . . , m}. Entonces


la distribución conjunta condicional de Xi , i ∈ Io dado Xj , j ∈ I − I0
también pertenece a la familia exponencial de un parámetro.

(d) Para un n ≥ 1 dado, suponga que Y1 , Y2 , . . . , Yn son variables aleatorias


iid con la misma distribución de X. Entonces la distribución conjun-
ta de (Y1 , Y2 , . . . , Yn ) también pertenece a la familia exponencial de un
parámetro.

5 Familia Exponencial Multiparamétrico


Similar al caso de distribuciones con un solo parámetro, varias distribucio-
nes comunes con múltiples parámetros también pertenecen a una familia
exponencial multiparamétrico general. Un ejemplo es la distribución nor-
mal en R con ambos parámetros desconocidos. Otro ejemplo es el de una
distribución normal multivariada. Propiedades técnicas y analíticos de fa-
milias exponenciales multiparamétrico son muy similares a los de la familia
exponencial de un-parámetro. Por esa razón, la mayor parte de nuestra
presentación en esta sección se centra en ejemplos.

Definición 5.1. Sea X = (X1 , X2 , . . . , Xm ) tiene una distribución en la


34 Cirilo alvarez R.

familia de distribuciones Pθ = {Pθ : θ ∈ Θ ⊆ IRk }. La familia de distribu-


ciones Pθ se dice que pertenece a la familia exponencial de k-parámetros
si su función de densidad (fp) puede ser representado en la forma
Pk
ηi (θ)Ti (x)−B(θ)
f (x|θ) = e i=1 h(x);
= exp η(θ)t T (X) − B(θ))h(x)


= exp(⟨η(θ)|T (X)⟩ − B(θ))h(x)

donde
   
η1 (θ) T1 (X)
   
η2 (θ) T2 (X)
   
θ = (θ1 , θ2 , . . . , θk ); η(θ) = 
  T (X) = 
 
.
 .. 
 .
 .. 

   
   
ηk (θ) Tk (X)

De nuevo, obviamente, la elección de las funciones pertinentes a ηi , Ti , h no


son únicos. Como en el caso de la familia exponencial de un-parámetro,
el vector de estadísticos (T1 , T2 , . . . , Tk ) se denomina estadístico suficiente
natural, y si lo reparametrizamos utilizando ηi = ηi (θ), i = 1, 2, . . . , k, la
familia se llama familia exponencial canónico de k parámetros.

Existe una suposición implícita en esta definición de que el número de θ que


varían libremente es el mismo que el número de η que varían libremente, y
que ambos son iguales al k específico en el contexto. La manera formal de
decir esto es asumir la siguiente suposición:

Suposición La dimensión de Θ así como la dimensión de la imagen de Θ


según la aplicación

(θ1 , θ2 , . . . , θk ) → (η1 (θ1 , θ2 , . . . , θk ), η2 (θ1 , θ2 , . . . , θk ), . . . , ηk (θ1 , θ2 , . . . , θk ))


Cirilo alvarez R. 35

es igual a k.

Hay algunos ejemplos importantes donde esta hipótesis no se cumple. No


se tomarán en cuenta como miembros de la familia exponencial de k pará-
metros. El nombre familia exponencial curva es comúnmente usado para
ellos, y esto será discutido en la última sección.

Los términos forma canónica, parámetro natural, y espacio de paráme-


tros naturales significarán las mismas cosas como en el caso de la fami-
lia exponencial de un-parámetro. De esta manera, si reparametrizamos las
distribuciones usando η1 , η2 , . . . , ηk como k parámetros, entonces el vector
η = (η1 , η2 , . . . , ηk ) se llama vector paramétrico natural, y la parametriza-
Pk
ción f (x|η) = e i=1 ηi Ti (x)−B(η) h(x) se llama forma canónica, y el conjunto
de todos los vectores η para la cuales f (x|η) es una densidad válida (fp) se
llama espacio paramétrico natural. Los teoremas principales para el caso
k = 1 se cumplen para una k general.

Teorema 5.1. Los resultados del teoremas 4.1 y 4.6 se cumplen para la
familia de k -parámetros.

Las pruebas son casi literalmente las mismas. Las formulas de los momentos
difieren ligeramente debido a la presencia de más de un parámetro en el
contexto actual.

Teorema 5.2. Suponga que el vector aleatorio X = (X1 , X2 , . . . , Xm ) tiene


una distribución Pη , η ∈ T , perteneciente a la familia exponencial canónica
de k-parámetros, con una densidad (fp)
Pk t T (x)−B(η)
ηi Ti (x)−B(η)
f (x|η) = e i=1 h(x) = eη h(x)

donde  Z 
Pk
k ηi Ti (x)
T = η∈R : e i=1 h(x)dx < ∞
Rm
(siendo la integral reemplazada por la sumatoria en el caso discreto.)
36 Cirilo alvarez R.

(a) Para todo η ∈ T 0 ,


Z Pk
B(η) ηi Ti (x)
e = e i=1 h(x)dx
Rm

es parcialmente diferenciable infinitamente con respecto a cada ηi , y las


derivadas parciales de cualquier orden pueden ser obtenidas diferencian-
do dentro del signo de la integral.

(b)

Eη (Ti (X)) = B(η).
∂ηi
y
∂2
Covη (Ti (X), Tj (X)) = B(η), 1 ≤ i, j ≤ k.
∂ηi ∂ηj

(c) Si η, s son tales que η, η + s ∈ T , entonces la función generatriz conjunta


de (T1 (X), T2 (X), . . . , Tk (X)) existe y es igual a

MT (s) = eB(η+s)−B(η) .

(d) la función característica es

ΨT (s) = eB(η+is)−B(η) .

Otra nueva terminología importante es de un rango completo.

Definición 5.2. Una familia de distribuciones {Pη : η ∈ T } que pertenece


a la familia exponencial canónico de k-parámetros se llama familia expo-
nencial de rango completo si paran todo η ∈ T 0 , la matriz covarianza de
orden k × k, definida por
∂2
 
Ση = B(η)
∂ηi ∂ηj
es no singular.
Cirilo alvarez R. 37

Definición 5.3. (Matriz de Información de Fisher)

Suponga una familia de distribuciones en la familia de exponencial canónico


de k-parámetros no es singular. Entonces para η ∈ T 0 la matriz Ση se llama
matriz de información de Fisher (en η).

La matriz de información de Fisher es de suma importancia en teoría de


estadística paramétrica y reside en el corazón de la teoría de optimización
tanto en muestras finita como en muestras grandes dentro de problemas de
inferencia estadística para familias paramétricas regulares regulares.

Ahora vamos a ver algunos ejemplos de distribuciones en familias exponen-


ciales de k parámetros donde k > 1.

Ejemplo 5.1. (Distribución normal de Dos Parámetros) Sea la fami-


lia normal de dos parámetros,

Pθ = {N (µ, σ 2 ) : Θ = {θ = (µ, σ 2 ) : (−∞, ∞) × (0, ∞)}}.

Entonces, una representación de la función de densidad para esta familia es


1 1 2
f (x|θ) = f (x|µ, σ 2 ) = √ e− 2σ2 (x−µ) I(x ∈ R).
2πσ
Si denotamos (µ, σ 2 ) = (θ1 , θ2 ) = θ, entonces parametrizado por θ, la fun-
ción de densidad de X es
2
1 θ12 x− 12 x2 − 2θθ12 −ln θ2
f (x|θ) = √ e θ2 2θ2 2 I(x ∈ R).

la cual corresponde a la familia exponencial de dos parámetros con,
θ1
η1 (θ) = ,
θ22 T1 (x) = x
1 T2 (x) = x2
η2 (θ) = − 2 ,
2θ2 1
θ 2 h(x) = √ I(x ∈ R).
B(θ) = 12 + ln θ2 , 2π
2θ2
38 Cirilo alvarez R.

El espacio paramétrico en la parametrización θ es Θ = (−∞, ∞) × (0, ∞).

Expresando las funciones paramétrica y los estadísticos en forma vectorial


tenemos
   
η1 (θ) T1 (x)
η(θ) =  , T(x) =  
η2 (θ) T2 (x)

La función de densidad se puede expresar como sigue

f (x|θ) = exp(⟨η(θ)|T (x)⟩ − B(θ))h(x)

donde
 
T1 (x)
 
⟨η(θ)|T (x)⟩ = (η1 (θ), η2 (θ))   = η1 (θ)T( x) + η2 (θ)T2 (x).
T2 (x)

Si deseamos representar la función de densidad en su forma canónica, con-


sideramos la siguiente parametrización,
θ1
η1 = ,
θ22 T1 (x) = x
1 T2 (x) = x2
η2 = − 2 ,
2θ2 1
η2 1 h(x) = √ I(x ∈ R).
B(η) = − 1 − ln(−2η2 ) 2π
4η2 2
Escribiendo en forma de vector, tenemos
     
η1  T1 (x)  x 
η=  T (x) =  = 
η2 T2 (x) x2

Resulta que,

f (x|η) = e⟨η|T (x)⟩−B(η) = eη1 T1 (x)+η2 T2 (x)−B(η) h(x)


Cirilo alvarez R. 39

donde el espacio paramétrico natural para η = (η1 , η2 ) es,

T = R × R− = {(η1 , η2 ) : −∞ < η1 < ∞, −∞ < η2 < 0}. ■

Ejemplo 5.2. (Distribución Gamma con dos parámetros) Se ha visto


en el ejemplo 2.6 que si uno fija uno de los parámetros de una distribución
Gamma, entonces es un miembro de la familia exponencial de un-parámetro.
En este ejemplo se muestra que la distribución Gamma es un miembro de la
familia exponencial de 2 parámetros. Para mostrar esto, solo observe que si
se hace θ = (α, β) = (θ1 , θ2 ), la función de densidad de la variable aleatoria
X resulta

θ1 ln x− θx −θ1 ln θ2 −ln Γ(θ1 ) 1


fθ (x) = f (x|θ) = e 2 I(x > 0)
x
Esta densidad está en la familia exponencial de 2 parámetros con

η1 (θ) = η1 (θ1 , θ2 ) = θ1 , T1 (x) = ln x


1
η2 (θ) = η2 (θ1 , θ2 ) = − , T2 (x) = x
θ2
1
B(θ) = θ1 ln θ2 + ln Γ(θ1 ), h(x) = I(x > 0)
x
El espacio paramétrico en la parametrización θ es Θ = (0, ∞) × (0, ∞) =
{(θ1 , θ2 ) : 0 < θ1 < ∞, 0 < θ2 < ∞}. Para la forma canónica, use η1 = θ1 ,
η2 = − θ12 , y luego, el espacio de parámetro natural es T = (0, ∞)×(−∞, 0).
El estadístico suficiente natural es T (X) = (T1 (X), T2 (X) = (ln X, X)).

La función de densidad en su forma canónica es


1
fη (x) = eη1 x+η2 ln x−Bη) I(x > 0)
x
donde  
1
B(η) = B(η1 , η2 ) = η1 ln − + ln Γ(η1 )
η2
40 Cirilo alvarez R.

Para una muestra aleatoria de tamaño n de una población exponencial


canónica resulta
n n
Y Y 1
f (x|η) = f (xi |η) = eη1 xi +η2 ln xi −B(η) I(xi > 0)
i=1 i=1
xi
n
Pn Pn
ln xi −B(η)
Y 1
= eη1 i=1 xi +η2 i=1 I(xi > 0)
i=1
x i

En la última igualdad anterior, el estadístico suficiente natural es


n n
!
X X
T ′ (X) = (T1 (X), T2 (X)) = Xi , ln Xi
i=1 i=1

y la función B(η) es igual a


   
1
B(η) = nB(η) = nB(η1 , η2 ) = n η1 ln − + ln Γ(η1 )
η2

Distribución muestral multiparamétrico


Sea X = X1 , X2 , . . . , Xn un vector muestral que proviene de una pobla-
ción con distribución exponencial multiparamétrico, entonces su función de
densidad conjunta de las variables muestrales está dada por
n
Y n
Y
f (x|θ) = f (xi |θ) = eηi (θ)Ti (x)−B(θ) h(xi )
i=1 i=1
n
Pn Y
ηi (θ)Ti (x)−nB(θ)
=e i=1 h(xi )
i=1
Pn
ηi (θ)Ti (x)−B(θ)
=e i=1 h(x)
n
Q
donde B(θ) = nB(θ), h(x) = h(xi ) y x = (x1 , x2 , . . . , xn )
i=1
Cirilo alvarez R. 41

Ejemplo 5.3. (Distribución Normal Multivariada General) Asuma


que X ∼ Nn (µ, Σ) donde µ es arbitrario y Σ es una matriz definida-positiva
(y por su puesto, simétrica). Escribiendo θ = (µ, Σ), se puede pensar de θ
como un subconjunto en un espacio Euclidiano de dimensión

n2 − n n(n + 1) n(n + 3)
k =n+n+ =n+ =
2 2 2

La densidad del vector X es

1 ′ −1 (x−µ)
f (x|θ) = Ce− 2 (x−µ) Σ I(x ∈ Rn ).
1 ′ −1 x+µ′ Σ−1 x− 1 µ′ Σ−1 µ
= Ce− 2 x Σ 2 I(x ∈ Rn )
1
σ ij xi xj + i=1 ( k σ ki µk )xi − 12 µ′ Σ−1 µ
P P P P
= Ce− 2 i j I(x ∈ Rn ).
1 1 ′ −1
σ ij x2i − i<j σ xi xj + i ( k σ µk )xi − 2 µ Σ
ij
P PP P P ki
= Ce− 2 i µ
I(x ∈ Rn ),

1
donde la contante C es igual a C = [(2π)n |Σ|]− 2 .

Denotando
 
11 12 1n
σ σ ··· σ 
 
 21
σ σ 22 · · · σ 2n 

Σ−1 =
 
 ... ..
.
..
.
.. 
. 
 
 
σ n1 σ n1 · · · σ nn

y sabiendo que Σ−1 es simétrica, los términos en el exponente de la densidad


42 Cirilo alvarez R.

de X se deduce con bastante facilidad


  
11 12 1n
σ σ · · · σ   x1 
  
  21
σ σ 22 · · · σ 2n   x2 
  
′ −1
XΣ X= x1 x2 · · · xn  .
  
 .. .. ... ..  .
.
 . . 
 . 
  
σ n1 σ n1 · · · σ nn xn
n
X n−1 X
X n
= σ ii x2i +2 σ ij xi xj
i=1 i=1 j=i+1

De esta manera, hemos representado la densidad de X en la forma de fa-


milia exponencial de k parámetros con la estadística suficiente natural k -
dimensional

T(X) = (T1 (X), T2 (X), T3 (X)) donde


T1 (X) = X1 , X2 , . . . , Xn
T2 (X) = X12 , X22 , . . . , Xn2
T3 (X) = X1 X2 , . . . , Xn−1 Xn

y los parámetros naturales definidos por


X X 1 1
σ k1 µk , . . . , σ kn µk , − σ 11 , . . . − σ nn , −σ 12 , . . . , −σ n−1,n .
k k
2 2

Ejemplo 5.4. [Distribución multinomial] Considere k + 1 celdas de


distribuciones multinomiales θ1 , θ2 , . . . , θk , θk+1 = 1 − ki=1 θi . Escribiendo
P

θ = (θ1 , θ2 , . . . , θk ), la función de probabilidad conjunta (o función mas de


probabilidad conjunta) de X = (X1 , X2 , . . . , Xk ), las frecuencias de celdas
Cirilo alvarez R. 43

de las primeras k celdas es

k k
!n−Pki=1 xi
Y X n!
f (x|θ) = θixi 1− θi k
! k
!
i=1 i=1
Y X
xi ! n− xi !
i=1 i=1

×Ix1 ,x2 ,...,xk ≥0, Pk


xi ≤n
i=1

Pk
xi (ln θi )−( ki=1 xi ) ln(1− ki=1 θi )+n ln(1− ki=1 θi )
P P P
=e i=1

n!
× k
! k
! × Ix1 ,x2 ,...,xk ≥0,Pk xi ≤n
Y X i=1

xi ! n− xi !
i=1 i=1

 
Pk θ
Pi +n ln(1− ki=1 θi ) n!
P
i=1 xi ln
1− k θ
=e i=1 i
k
! k
!
Y X
xi ! n− xi !
i=1 i=1

Ix1 ,x2 ,...,xk ≥0, Pk


xi ≤n.
i=1

Esto está en la forma de familia exponencial de k parámetros con el esta-


dística natural suficiente y parámetros naturales

θi
T(X) = (X1 , X2 , . . . , Xk ), ηi (θi ) = ln k
!, 1≤i≤k
X
1− θi
i=1

y
n!
h(x) = k
! k
! Ix1 ,x2 ,...,xk ≥0,Pk xi ≤n .
Y X i=1

xi ! n− xi !
i=1 i=1


44 Cirilo alvarez R.

6 Suficiencia y Completitud

Las familias exponenciales bajo condiciones suaves en el espacio de paráme-


tros tienen la propiedad de que si una función g(T) del estadístico suficiente
natural T = T (X) tiene valor esperado cero según cada θ ∈ Θ, entonces
g(T) sí mismo debe ser esencialmente idénticamente igual a cero. Una fami-
lia de distribuciones que tiene esta propiedad se llama familia completa. La
propiedad de completud, particularmente en conjunción con la propiedad de
suficiencia, ha tenido un papel históricamente importante en la inferencia
estadística. Lehmann (1959), Lehmann y Casella (1998) y Brown (1986)
dan muchas aplicaciones. Sin embargo, nuestra motivación para estudiar la
completitud de una familia exponencial de rango completo es principalmen-
te para presentar un teorema bien conocido en estadística, que en realidad
también es una herramienta muy efectiva y eficiente para probabilistas. Este
teorema, conocido como el teorema de Basu (Basu (1955)), es una herra-
mienta eficiente para los probabilistas en la minimización de cálculos de
distribución torpes. Se requiere la completitud para establecer el teorema
de Basu.

Definición 6.1. Una familia de distribuciones {Pθ : θ ∈ Θ} en un espacio


muestral X se llama completo si Eθ [g(X)] = 0 para todo θ ∈ Θ, implica
que Pθ (g(X) = 0) = 1 para todo θ ∈ Θ.

Es útil ver primero un ejemplo de una familia que no es completa.

Ejemplo 6.1. Asuma que Binomial(n, θ)2θ, y el parámetro θ es igual a


1
4
o 43 . En la notación de la definición de completitud, Θ es el conjunto de
dos punto { 41 , 34 }. Considere la función g definida por

g(0) = g(2) = 3, g(1) = −5.


Cirilo alvarez R. 45

Entonces,
2  
X n x
E[g(X)] = g(x) θ (1 − θ)2−x
x=0
x
1 3
= 16θ2 − 16θ + 3 = 0, si θ = o
4 4
Por lo tanto, hemos exhibido una función g que infringe la condición de
completitud de esta familia de distribuciones. ■

Por lo tanto, la completitud de una familia de distribuciones no es universal-


mente cierta. El problema con el parámetro de dos puntos establecido en el
ejemplo anterior es que es demasiado pequeño. Si el espacio de parámetros
es más adecuado, la familia de distribuciones binomiales para cualquier n
fijo es de hecho completo. De hecho, cualquier distribución en la familia
exponencial general de k parámetros como un todo es una familia comple-
ta, siempre que el conjunto de valores de los parámetros no sea demasiado
escaso. Aquí hay un teorema general.

Teorema 6.1. Supongamos una familia de distribuciones P = {Pθ : θ ∈


Θ} pertenece a una familia exponencial de k parámetros, y que el conjunto
Θ del cual se conoce que el parámetro pertenece al interior del conjunto no
vacío. Entonces la familia P es completa.

La prueba de esto requiere el uso de propiedades de funciones que son ana-


líticas en un dominio en C k , donde C es el plano complejo. No probamos el
teorema aquí; ver Brown (1986, p.43) para una prueba. El supuesto interior
no vacío nos protege de que el conjunto Θ‚ sea demasiado pequeño.

Ejemplo 6.2. Supongamos que Binomial(n, θ), donde n es fijo, y el con-


junto de valores posibles para Θ contiene un intervalo (por pequeño que
sea). Entonces, en la terminología del teorema anterior, Θ tiene un interior
no vacío. Por tanto, tal familia de distribuciones binomiales es completa.
46 Cirilo alvarez R.

La única función g(X) que satisface E[g(X)] = 0 para todo θ en un con-


junto Θ que contiene un intervalo, es la función cero g(x) = 0 para todo
x = 0, 1; , . . . , n. Contraste esto con el Ejemplo 6.1.

Requerimos una definición antes de poder establecer el teorema de Basu. ■

Definición 6.2. Supongamos que X tiene una distribución Pθ que per-


tenece a una familia Pθ = {Pθ : θ ∈ Θ}. Un estadístico S(X) se lla-
ma Pθ −ancillary (o, simplemente, ancillary), si para cualquier conjunto
A Pθ (S(X) ∈ A) no depende de θ ∈ Θ es decir, si S(X) tiene la misma
distribución según cada Pθ ∈ P

Ejemplo 6.3. Supongamos que X1 , X2 son iid N (µ, 1) y µ pertenece a


algún subconjunto Θ de la línea real. Considere S(X1 , X2 ) = X1 − X2 .
Entonces, según cualquier Pµ , S(X1 , X2 ) ∼ N (0, 2), una distribución fija
que no depende de µ. Por lo tanto, S(X1 , X2 ) = X1 − X2 es ancillary, sea
cual que sea el conjunto de valores de µ. ■

Ejemplo 6.4. Supongamos que X1 , X2 son iid U [0, θ], y θ pertenece a algún
subconjunto Θ de (0, ∞), Sea S(X1 , X2 ) = X X2
1
. Se desea probar que este
estadístico es ancillary. El estadístico S(X1 , X2 ) se puede escribir como
sigue:
L θU1
S(X1 , X2 ) =
θU2

donde U1 , U2 son variables aleatorias iid en U [0, 1]. Por lo tanto, según
cualquier distribución Pθ , S(X1 , X2 ) se distribuye como la relación de dos
variables U [0, 1] independientes. Esta es una distribución fija que no depen-
X1
de de θ. Por lo tanto,S(X1 , X2 ) = X 2
es un estadístico ancillary, sea cual
sea el conjunto de valores de θ. ■

Ejemplo 6.5. Supongamos que X1 , X2 , . . . , Xn son variables aleatorias iid


con distribución normal, N (µ, 1) y µ pertenece a algún subconjunto de θ
Cirilo alvarez R. 47

n
X
de la línea real. Sea S(X1 , X2 , . . . , Xn ) = (Xi − X)2 ). Podemos escribir
i=1
S(X1 , X2 , . . . , Xn ) como
n n
L
X X
2
S(X1 , X2 , . . . , Xn ) = [(µ + Zi ) − (µ + Z)] = (Zi − Z)2 ,
i=1 i=1

donde Z1 , Z2 , . . . , Zn son iid N (0, 1). Entonces, según cualquier distribu-


ción Pµ , el estadístico S(X1 , X2 , . . . , Xn ) tiene una distribución fija, es decir
Xn
la distribución de (Zi − Z)2 (en realidad, es una distribución χ2 (n − 1) ).
i=1
n
X
Así S(X1 , X2 , . . . , Xn ) = (Xi − X)2 ) es auxiliar sea cual sea el conjunto
i=1
de valores de µ. ■

Teorema 6.2. [El teorema de Basu para la familia exponencial]


En cualquier familia exponencial P de k-parámetros, con un espacio de
paramétrico Θ que tiene un interior no vacío, el estadístico suficiente natural
de la familia T(X) y cualquier estadístico S(X) P-ancillary se distribuyen
independientemente según cada θ ∈ Θ.

6.1 Factorización de Neyman-Fisher y Teorema de Ba-


su
Existe una versión más general del teorema de Basu que se aplica a familias
de distribuciones paramétricas arbitrarias. La intuición es la misma que en
el caso de una familia exponencial, es decir, una estadística suficiente, que
contiene toda la información, y una estadística ancillary, que no contiene
información, deben ser independientes. Para esto, necesitamos definir qué
significa un estadístico suficiente para una familia paramétrica general. Aquí
está la definición original de Fisher (Fisher (1922)).

Definición 6.3. Sea n ≥ 1 dado, y suponga que el vector X = (X1 , X2 , . . . , Xn )


48 Cirilo alvarez R.

tiene una distribución conjunta Pθ,n perteneciente a alguna familia

Pn = {Pθ,n : θ ∈ Θ}.

Un estadístico T(X) = T(X1 , X2 , . . . , Xn ) que toman valores en algún


espacio Euclidiano se llama estadístico suficiente para la familia Pn si
la distribución condicional conjunta de X1 , X2 , . . . , Xn dado el estadístico
T(X1 , X2 , . . . , Xn ) es la misma según e cada θ ∈ Θ.

Por lo tanto, podemos interpretar el estadístico suficiente T(X1 , X2 , . . . , Xn )


de la siguiente manera: una vez que se conozca el valor de T, el conjunto
de valores de los datos individuales X1 , X2 , . . . , Xn no tiene nada más que
transmitir. Podemos pensar en la suficiencia como una reducción de datos
sin costo; podemos guardar solo T y descartar los valores de datos indivi-
duales sin perder ninguna información. Sin embargo, lo que es suficiente
depende, a menudo de manera crucial, de la forma funcional de las distri-
buciones Pθ,n . Por lo tanto, la suficiencia es útil para la reducción de datos
sujetos a la lealtad de la forma funcional elegida de Pθ,n .

Afortunadamente, existe una receta universal fácilmente aplicable para iden-


tificar automáticamente un estadístico suficiente para una familia determi-
nada Pn . Este es el teorema de la factorización.

Teorema 6.3. (Teorema de la factorización Neyman-Fisher). Sea


f (x1 , x2 , . . . , xn |θ) la función de densidad conjunta (función frecuencia con-
junta) correspondiente a la distribución Pθ,n . Luego, un estadístico T =
T(X1 , X2 , . . . , Xn es suficiente para la familia Pn si y solo si para cualquier
θ ∈ Θ, f (x1 , x2 , . . . , xn |θ) puede ser factorizado en la forma

f (x1 , x2 , . . . , xn |θ) = g(θ, T(X1 , X2 , . . . , Xn ))h(x1 , x2 , . . . , xn )

La intuición del teorema de factorización es que la única forma en que el pa-


rámetro está vinculado a los valores de datos X1 , X2 , . . . , Xn en la función de
Cirilo alvarez R. 49

verosimilitud f (x1 , x2 , . . . , xn |θ) es a través del estadístico T(X1 , X2 , . . . , Xn )


porque no hay θ en la función h(x1 , x2 , . . . , xn ). Por lo tanto, solo debería-
mos saber qué es T, pero no los valores individuales X1 , X2 , . . . , Xn .

Aquí hay un ejemplo sobre el uso del teorema de factorización.

Ejemplo 6.6. (Estadístico Suficiente para una Distribución Unifor-


me) Sean X1 , X2 , . . . , Xn variables aleatorias iid y distribuidas como U [0, θ]
para algún θ > 0. Entonces la función de densidad conjunta de la muestra
es
n  n Yn
Y 1 1
f (x1 , x2 , . . . , xn |θ) = I(xi ≤ θ) = I(xi ≤ θ)
i=1
θ θ i=1
 n
1
= I(x(n) ≤ θ)
θ
donde X(n) = max(x1 , x2 , . . . , xn ). Si consideramos
 
1
T (X1 , X2 , . . . , Xn ) = X(n) , g(θ, t) = I(t ≤ θ), h(x1 , x2 , . . . , xn ) = 1.
θ
Luego por el teorema de factorización, el máximo muestral X(n) es un es-
tadístico suficiente para la familia U [0, θ]. El resultado tiene un sentido
intuitivo. ■

Aquí está ahora la versión general del teorema de Basu.

Teorema 6.4. [Teorema general de Basu] Sea Pn = {Pθ : θ ∈ Θ} una


familia de distribuciones. Supongamos que T (X1 , X2 , . . . , Xn ) es suficiente
para Pn , y S(X1 , X2 , . . . , Xn ) es un estadístico ancillary según Pn . Enton-
ces T y S se distribuyen independientemente según cada Pθ,n ∈ Pn .

6.2 Aplicaciones del teorema de Basu a la probabilidad


Sabemos que el estadístico suficiente por sí mismo captura toda la infor-
mación acerca de θ que el conocimiento completo de X = (X1 , X2 , . . . , Xn )
50 Cirilo alvarez R.

(muestra) podría haber proporcionado. Por otro lado, una estadística an-
cillary no puede proporcionar ninguna información acerca de θ, ya que su
distribución no incluye θ. El teorema de Basu dice que una estadística que
proporciona toda la información, y otra que no proporciona información,
deben ser independiente, siempre que se mantenga la condición adicional
del interior no vacía, para asegurar la integridad de la familia Pn . Por lo
tanto, los conceptos de información , suficiencia, ancillaridad, completitud
e independencia se unen en el teorema de Basu. Sin embargo, nuestro prin-
cipal interés es simplemente usar el teorema de Basu como una herramienta
conveniente para llegar rápidamente a algunos resultados que son puramente
resultados en el dominio de la probabilidad. Damos a continuación algunos
ejemplos.

Ejemplo 6.7. [Independencia de la media y la varianza para una


muestra normal] Supongamos que X1 , X2 , . . . , Xn son iid N (η, τ 2 ) para
algunos η, τ . Es sabido que la media de la muestra X y la varianza muestral
S 2 se distribuyen independientemente para cualquier tamaño de muestra,
n, y sean cuales sean η y τ . Ahora lo probamos. Para esto, primero
establecemos la afirmación de que si el resultado es válido para η = 0, τ = 1,
luego vale para todo η, τ . De hecho, fije cualquier η, τ y escriba Xi =
η + τ Zi , 1 ≤ i ≤ n, donde Z1 , Z2 , . . . , Zn son iid N (0, 1).

Ahora,
n
! n
!
η + τ Z,
X X
X, (Xi − X)2 = (Zi − Z)2
i=1 i=1
Pn
Por consiguiente, X y i=1 (Xi − X)2 son independientemente distribuidos
según η, τ si y solo si Z y ni= (Zi − Z)2 son independientemente distri-
P

buidos. Este es una etapa para deshacerse de los parámetros η, τ de la


consideración.

Pero, ahora, ¡importamos un parámetro! que incruste la distribución N (0, 1)


Cirilo alvarez R. 51

en una familia más grande de distribuciones {N (µ, 1), µ ∈ R}. Considere


ahora una muestra ficticia Y1 , Y2 , . . . , Yn de Pµ = N (µ, 1). La densidad
conjunta de Y = Y1 , Y2 , . . . , Yn es una densidad de la familia exponencial
de un parámetro con la estadística suficiente natural T (Y ) = ni=1 Yi . Por
P

el ejemplo 6.5, ni=1 (Yi − Y )2 es auxiliar. El espacio de parámetro para µ


P

obviamente tiene un interior no vacío, por lo tanto, todas las condiciones del
teorema de Basu están satisfechas, y por lo tanto, según cada µ, ni=1 Yi y
P
Pn 2
i=1 (Yi − Y ) se distribuyen independientemente. En particular, se distri-
buyen independientemente según µ = 0, es decir, cuando las muestras son
iid N (0, 1), que es lo que necesitamos probar.

Ejemplo 6.8. [Un resultado de distribución exponencial] Suponga-


mos que X1 , X2 , . . . , Xn son variables aleatorias exponenciales iid con media
λ. Luego, transformando X1 , X2 , . . . , Xn a
 
 n 
 X1 X n−1
X 

Xn , · · · , n , X i
,

X
Xi Xi i=1
 
i=1 i=1

uno puede mostrar al realizar la transformación mediante el método jaco-


biano, que  
 
 X1 X n−1 

Xn ,··· , n ,
X 
Xi Xi
 
i=1 i=1
Pn
es independiente de i=1 Xi . Podemos mostrar esto sin hacer ningún cálcu-
lo utilizando el teorema de Basu.

Para esto, una vez más, escribiendo Xi = λZi , i ≤ i ≤ n donde las Zi son
52 Cirilo alvarez R.

variables aleatorias iid exponenciales estándares, observe primero que

 
 
 X1 X n−1 

Xn ,··· , n ,
X 
Xi Xi
 
i=1 i=1

es una estadística auxiliar (vector). A continuación, observe que la densi-


dad conjunta de X = (X1 , X2 , . . . , Xn ) es una familia exponencial de un
parámetro, con el estadístico suficiente natural T (X) = m
P
i=1 Xi . Debido
a que el espacio de parámetro (0, ∞) obviamente contiene un interior no
vacío, según el teorema de Basu, según de cada λ,

 
  n
 X1 X n−1  X

Xn , · · · , n
 y Xi
X 
i=1
Xi Xi
 
i=1 i=1

son independientemente distribuidos. ■

Ejemplo 6.9. [Un cálculo de covarianza] Supongamos que X1 , X2 , . . . , Xn


son iid N (0, 1), y que X y Mn denotan la media y la mediana del con-
junto de muestras X1 , X2 , . . . , Xn . Al usar nuestro viejo truco de im-
portar un parámetro medio µ, primero observamos que la estadística de
diferencia X − Mn es auxiliar. Por otro lado, la densidad conjunta de
X = (X1 , X2 , . . . , Xn ) es, por supuesto, una familia exponencial de un pa-
Pn
rámetro con el estadística suficiente natural T (X) = i=1 Xi . Según el
Pn
teorema de Basu, i=1 Xi y X − Mn son independientes en cada µ, lo que
Cirilo alvarez R. 53

implica

Cov(X1 + · · · Xn , X − Mn ) = 0 =⇒ Cov(nX, X − Mn ) = 0
=⇒ nCov(X, X − Mn ) = 0
=⇒ Cov(X, X − Mn ) = 0
=⇒ Cov(X, X) − Cov(X, Mn ) = 0

luego,
1
Cov(X, Mn ) = Cov(X, X) = Var(X) =
n
Hemos logrado este resultado sin hacer ningún cálculo en absoluto. Un
desarrollo directo a este problema requiere el manejo de la distribución
conjunta de (X, Mn ). ■

Ejemplo 6.10. [Cálculo de una expectativa.] Supongamos que X1 , X2 , . . . , Xn


son iid U [0, 1], y sean X(1) , X(n) los estadísticos de orden mínimo y máxi-
mo de la muestra X1 , X2 , . . . , Xn . Sea un parámetro θ > 0 y considere
la familia de distribuciones U [0, θ]. Se ha demostrado que el estadístico
de máximo, X(n) es suficiente; también es completo. Por otro lado, el co-
X(1) L
ciente X(n) es auxiliar. Para ver esto, de nuevo, escriba (X1 , X2 , . . . , Xn ) =
X(1)
(θU1 , θU2 , . . . , θUn ), donde U1 , U2 , . . . , Un son iid U [(0, 1)]. Como una consecuencia, X(n)
U(1) (1)X
U(n)
.Por consiguiente X(n) es auxiliar. Por la versión general del teorema
de Basu, que funciona para cualquier familia de distribuciones (no solo una
X(1)
familia exponencial), se deduce que X(n) y X(n) se distribuyen de forma
independiente según cada θ. Por lo tanto,
   
X(1) X(1)
E[X(1) ] = E X(n) = E E[X(n) ]
X(n) X(n)
  θ
X(1) E[X(1) ] n+1 1
=⇒ E = = nθ = .
X(n) E[X(n) ] n+1
n
Una vez más, podemos obtener este resultado utilizando el teorema de Basu
sin realizar integraciones o cálculos. ■
54 Cirilo alvarez R.

7 Familia exponencial curvada


Hay algunos ejemplos importantes en los que la densidad (pmf) tiene la
Pn
forma básica de familia expositiva f (x|θ) = e i=1 ηi (θ)Ti (x)−B(θ) h(x), pero
la suposición de que las dimensiones de Θ, y la del espacio de rango de
η(θ)1 , η(θ)2 , . . . , η(θ)k son lo mismo se viola, más precisamente, la dimensión
de Θ es un entero positivo q estrictamente menos de k. Comencemos con
un ejemplo.

Ejemplo 7.1. Suponga que X ∼ N (µ, µ2 ), µ ̸= 0. Escribiendo µ = θ, la


densidad de X es

1 1 2
f (x|θ) = √ e 2θ2 ((x−θ) I(x ∈ R)
2π|θ|
1 x x2 1
= √ e θ − 2θ2 − 2 −ln |θ| I(x ∈ R)

Escribiendo η1 (θ) = 1θ , η2 = − 2θ12 , T1 (x) = x, T2 (x) = x2 , B(θ) = 12 + ln |θ| y


Pk
h(x) = √12π I(x ∈ R), este está en la forma f (x|θ) = e i=1 ηi (θ)Ti (x)−B(θ) h(x),
con k = 2 a pesar de que θ ∈ R que es solo unidimensional. Las dos
funciones η1 (θ) = 1θ , η2 = − 2θ12 están relacionados entre sí por la identidad
η2 = − 12 η12 , de modo que una gráfica de (η1 , η2 ) en el plano sería una curva,
no una línea recta. Las distribuciones de este tipo se conocen con el nombre
de familia exponencial curva. La dimensión del estadístico suficiente natural
es más que la dimensión de Θ para tales distribuciones. ■

Definición 7.1. Sea X = (X1 , X2 , . . . , Xn ) tenga un distribución Pθ , θ ∈


Θ ⊆ Rq . Suponga que Pθ (fmp) es de la forma
Pn
ηi (θ)Ti (x)−B(θ)
f (x|θ) = e i=1 h(x)

donde k > q. Entonces la familia {Pθ , θ ∈ Θ} se llama familia exponencial


curva.
Cirilo alvarez R. 55

Ejemplo 7.2. [Una Normal Bivariada Específica.] Supongamos X =


(X1 , X2 ) tiene una distribución normal bivariada con cero promedios, des-
viaciones estándar iguales a uno y un parámetro de correlación, 1 < ρ < 1.
La densidad de X es
1 − 1
[x21 +x22 −2ρx1 x2 ] I(x , x ∈ R)
f (x1 , x2 |ρ) = p e 2(1−ρ2 )
1 2
2π 1 − ρ2
x2 2
1 − 1 +x2 + ρ x x
1 2
= p e 2(1−ρ2 ) 1−ρ2 I(x1 , x2 ∈ R).
2π 1 − ρ2
Por lo tanto, aquí tenemos una familia exponencial curva con q = 1, k =
1 ρ 2 2
2, η1 (ρ) = − 2(1−ρ 2 ) , η2 (ρ) = 1−ρ2 , T1 (x) = x1 + x2 , T2 (x) = x1 x2 , B(ρ) =
1 1
2
ln(1 − ρ2 ), y h(x) = 2π I(x1 , x2 ∈ R). ■

Ejemplo 7.3. [Poissones con Covariables Aleatorias.] Supongamos


que dado Zi = zi , i = 1, 2, . . . , n, Xi son variables independientes Poi(λzi ),
y Z1 , Z2 , . . . , Zi tienen algunas fmp P(z1 , z2 , . . . , zn ). Se supone implícita-
mente que cada Zi > 0 con probabilidad uno. Luego, la fmp conjunta de
(X1 , X2 , . . . , Xn ,
Z1 , Z2 , . . . , Zn ) es
n
Y e−λzi (λzi )xi
f (x1 , x2 , . . . , xn , z1 , z2 , . . . , zn ) = P(z1 , z2 , . . . , zn )I(x1 ,x2 ,...,xn ∈N0 )
i=1
xi !
I(z1 ,z2 ,...,zn ∈N1 )
n
−λ
Pn
i=1 zi +(
Pn
xi ) ln λ
Y z xi i
=e i=1 P(z1 , z2 , . . . , zn )I(x1 ,x2 ,...,xn ∈N0 ) I(z1 ,z2 ,...,zn ∈N1 )
i=1
xi !
donde N0 es el conjunto de enteros no negativos, y N1 es el conjunto de
enteros positivos.

Esto está en la familia exponencial curva con.


n
X
q = 1, k = 2, η1 (λ) = −λ, η2 (λ) = ln λ, T1 (x, z) = zi
i=1
56 Cirilo alvarez R.

n
X
T2 (x, z) = Xi , y
i=1

n
Y z xi i
h(x, z) = P(z1 , z2 , . . . , zn )I(x1 ,x2 ,...,xn ∈N0 ) I(z1 ,z2 ,...,zn ∈N1 )
i=1
xi !

Si consideramos las covariables como fijas, la distribución conjunta de (X1 , X2 , . . . , Xn )


se convierte en una familia exponencial normal de un parámetro. ■

Ejercicios

Ejercicio 1
Demuestre que la distribución geométrica pertenece a la familia exponencial
de un parámetro si 0 < θ < 1 y escriba en la forma canónica y utilizando la
parametrización de la media.

Ejercicio 2 (Distribución Poisson)


Demuestre que la distribución de Poisson pertenece a la familia exponencial
de un parámetro si λ > 0. Escríbala en la forma canónica y utilizando la
parametrización media.

Ejercicio 3 (Distribución Binomial Negativa)


Demuestre que la distribución binomial negativa con los parámetros r y θ
pertenece a la familia exponencial de un parámetro si r se considera fijo y
0 < θ < 1. Escríbalo en la forma canónica y utilizando la parametrización
media.
Cirilo alvarez R. 57

Ejercicio 4 *(Distribución Binomial Negativa Generali-


zada)
Demuestre que la distribución binomial negativa generalizada con el fmp
f (x|θ) = Γ(α+x)
Γ(α)x!
θα (1−θ)x , x = 0, 1, 2, . . . , pertenece a la familia exponencial
de un parámetro si α > 0 se considera fijo y 0 < θ < 1.

Demuestre que la distribución binomial negativa generalizada de dos pará-


metros con el f (x|α, θ) = Γ(α+x)
Γ(α)x!
θα (1 − θ)x , x = 0, 1, 2, . . . no pertenece a la
familia exponencial de dos parámetros.

Ejercicio 5 *(Normal con Media y Varianza Iguales)


Demuestre que la distribución N (µ, µ) pertenece a la familia exponencial
de un parámetro si µ > 0. Escríbala en la forma canónica y utilizando la
parametrización de medias.

Ejercicio 6 *(Ley de Hardy-Weinberg)


Suponga que los genotipos en un solo locus con dos alelos están presentes en
una población de acuerdo con las frecuencias relativas θ2 , 2θϑ y ϑ2 , donde
ϑ = 1 − θ, y θ es la frecuencia relativa del alelo dominante. Demuestre
que la distribución conjunta de las frecuencias de los tres genotipos en una
muestra aleatoria de n individuos de esta población pertenece a una familia
exponencial de un parámetro si 0 < θ < 1. Escríbala en la forma canónica
y usando la parametrización media

Ejercicio 7 (Distribución Beta)


Demuestre que la distribución Beta de dos parámetros pertenece a la familia
exponencial de dos parámetros si los parámetros α, β > 0. Escríbalo en la
forma canónica y usando la parametrización media.
58 Cirilo alvarez R.

Demuestre que las distribuciones Beta simétricas pertenecen a la familia


exponencial de un parámetro si el parámetro único α > 0.

Ejercicio 8 *(Sesgo y curtosis de Poisson)


Encuentre el asimetría y kurtosis de una distribución de Poisson usando el
Teorema 4.3

Ejercicio 9 *(Sesgo y curtosis de Gamma)


Encuentre la asimetría y la curtosis de una distribución Gamma, conside-
rando α como fijo, utilizando el Teorema 4.3.

Ejercicio 10 *(Distribuciones con asimetría cero)


Demuestre que las únicas distribuciones en una familia exponencial canónica
de un parámetro tal que el estadístico suficiente natural tiene asimetría cero
son las distribuciones normales con una varianza fija.

Ejercicio 11 *(Identificabilidad de la Distribución)


Demuestre que las distribuciones en la familia exponencial canónica no sin-
gular de un parámetro son identificables; es decir, Pη1 = Pη1 ⇔ η1 = η2 .

Ejercicio 12 *(Diferenciabilidad Infinita de Funciones de


Medias)
Supongamos que Pθ , θ ∈ Θ es una familia exponencial de un parámetro y
ϕ(x) es una función general. Demuestre que en cualquier θ ∈ Θ0 en cual
Eθ [|ϕ(X)|] < ∞, µϕ(θ) = Eθ [ϕ(X)] es infinitamente diferenciable y puede
derivarse cualquier número de veces dentro de la integral (suma).
Cirilo alvarez R. 59

Ejercicio 13 *(La Constante de Normalización Determi-


na la Distribución)
Considere una densidad de la familia exponencial canónica de un-parámetro
(pmf) f (x|θ) = eηx−B(η) h(x). Suponga que el espacio de parámetros natu-
rales τ tiene un interior no vacío. Demuestre que B(η) determina h(x).

Ejercicio 14
Calcule el mgf de una distribución multinomial de (k + 1) celdas usando el
Teorema 5.2

Ejercicio 15 *(Covarianzas multinomiales)


Calcule las covarianzas en una distribución multinomial usando el Teore-
ma 5.2

Ejercicio 16 *(Modelo lineal normal)


Supongamos que dada una matriz no aleatoria X an n × p, un vector de pa-
rámetros β ∈ IRp y un parámetro de varianza σ 2 > 0, Y = (Y1 , Y2 , . . . , Yn ) ∼
N (Xβ, σ 2 I), donde In es la matriz identidad n × n. Demuestre que la dis-
tribución de Y pertenece a una familia exponencial multiparamétrica de
rango completo.

Ejercicio 17 *(Matriz de Información de Fisher)


Para cada una de las siguientes distribuciones, calcular la matriz de infor-
mación de Fisher

(a) Distribución Beta de dos-parámetros.


60 Cirilo alvarez R.

(b) Distribución gamma de dos-parámetros


(c) Distribución gaussiana inversa de dos-parámetros
(d) Distribución normal de dos-parámetros

Ejercicio 18 *(Normal con una Media Entera)


Suponga que, X ∼ N (µ, 1), donde µ ∈ {1, 2, 3, . . .}. ¿Es esta una familia
exponencial regular de un-parámetro?

Ejercicio 19 (Normal con una Media Irracional)


Suponga que, X ∼ N (µ, 1), donde µ ∈ {1, 2, 3, . . .}. donde se sabe que
µ es un número irracional. ¿Es esta una familia exponencial regular de
un-parámetro?

Ejercicio 20 *(Normal con una Media Entera)


Suponga que, X ∼ N (µ, 1), donde µ ∈ {1, 2, 3, . . .}. Muestra una función
g(X) ̸= 0 tal que Eµ [g(X)] = 0.

Ejercicio 21 *(Aplicación del Teorema de Basu)


Supongamos que X1 , X2 , . . . , Xn es una muestra de una distribución normal
estándar, y suponga X(1) , X(n) son los estadísticos de orden mínimo y de
oren máximo de X1 , X2 , . . . , Xn , y s2 es la varianza de la muestra. Probar,
aplicando el teorema de Basu a una familia exponencial adecuada de dos
parámetros, que
 
X(n) − X(1)
 
E X(n)
E =2
s E(s)
Cirilo alvarez R. 61

Ejercicio 22 *(D2 de Mahalanobis y el Teorema de Basu)


suponga que X1 , X2 , . . . , Xn es una muestra iid de una distribución normal
Nd (0, Σ) de dimensión d, donde Σ es una matriz definida positiva. Supon-
gamos que S es la matriz de covarianza muestral y X el vector de medias
muestrales. El estadístico Dn2 = nX ′ S −1 X se llama estadístico Mahalano-
bis-D2 . Encuentre E(D2 ) usando el teorema de Basu.

Ejercicio 23 *(Aplicación del Teorema de Basu)


Suponga que, Xi , ≤ i ≤ n son variables aleatorias iid de la N (µX , σX 2
),
Yi , 1 ≤ i ≤ n son variables aleatorias de la N (µY , σY2 ), donde µX , µY ∈
2
IR, y σX , σY2 > 0. Sean X, SX 2
la media y varianza de X1 , X2 , . . . , Xn , y
2
Y , SY la media y varianza de Y1 , Y2 , . . . , Yn . También sea rel coeficiente de
correlación muestral basado en los pares (Xi , Yi ), 1 ≤ i ≤ n. Pruebe que
2
X, Y , SX , SY2 , r son independientes según todo µX , µY , σX 2
, σY2 .

Ejercicio 24 *(Mezclas de Normal)


Demuestre que distribución mezcla 12 N (µ, 1) + 12 N (µ, 2) no pertenece a la
familia exponencial de un-parámetro. Generalice este resultado a mezclas
más generales de distribuciones normales.

Ejercicio 25 *(Distribución Exponencial Doble)


(a) Demuestre que la distribución exponencial doble con un valor σ cono-
cido y una media desconocida no pertenece a la familia exponencial de
un parámetro, pero la distribución exponencial doble con una media co-
nocida y una σ desconocida pertenecen a la familia exponencial de un
parámetro.

(b) Demuestre que la distribución exponencial doble de dos parámetros no


62 Cirilo alvarez R.

pertenece a la familia exponencial de dos parámetros.

Ejercicio 26 *(Una familia exponencial curva)


Suponga que X ∼ Binomial(n, θ), Y ∼ Binomial (m, θ2 ), y que X, Y son
independientes. De muestre que la distribución de (X, Y ) es una familia
curva exponencial.

Ejercicio 27 *(Equicorrelación Multivariante Normal)


Suponga que X1 , X2 , . . . , Xn son conjuntamente multivariadas con medias
µi , varianzas todas iguales a 1, y una correlación común de pares ρ. Demues-
tre que la distribución de (X1 , X2 , . . . , Xn ) es una familia curva exponencial.

Ejercicio 28 *(Poissons con Covariables)


Suponga X1 , X2 , . . . , Xn son Poisson independientes con E(Xi ) = λeβzi , λ >
0, −∞ < β < ∞. las covariables z1 , z2 , . . . , zn son considerados fijos. De-
muestre que la distribución de (X1 , X2 , . . . , Xn ) es una familia curva expo-
nencial.

Ejercicio 29 *(Estadístico suficiente incompleto)


. . . , Xn son iid N (µ, µ2 ), µ ̸= 0. Sea T (X1 , X2 , . . . , Xn ) =
Suponga X1 , X2 ,!
Xm m
X
Xi2 , Xi2 . Encuentre una función g(T ) tal que Eµ [g(T )] = 0 para
i=1 i=1
todo µ, Pµ (g(T ) = 0) < 1 para cualquier µ.
Cirilo alvarez R. 63

Ejercicio 30 *(Familia Exponencial Cuadrática)


Supongamos que el estadístico de suficiencia natural T (X) en alguna familia
exponencial canónica de un-parámetro es X mismo. Usando la fórmula del
Teorema 18.3 para la media y la varianza del estadístico suficiente natural
en una familia exponencial canónica de un-parámetro, caracterice todas
las funciones B(η) para las cuales la varianza de T (X) = X es una función
cuadrática de la media de T (X), es decir, Varη (X) = a[Eη (X)]2 +bEη (X)+c
para algunas constantes a, b, c.

Ejercicio 31 *(Familia Exponencial Cuadrática)


Mostrar ejemplos explícitos de familias exponenciales canónicas de un pa-
rámetro que son familias exponenciales cuadráticas

Sugerencia: hay seis de ellos, y algunos de ellos son distribuciones comunes,


pero no todos. Véase Morris (1982), Brown (1986).
64 Cirilo alvarez R.
Bibliografía

[1] Anirban DasGupta. (2011), Probability for Sattistics and Machine


Learnig, Springer Texts in Statistics.

[2] Barndorff-Nielsen, O. (1978). Information and Exponential Families in


Statistical Theory, Wiley, New York.

[3] Basu, D. (1955). On statistics independent of a complete sufficient


statistic, Sankhya, 15, 377–380

[4] George Casella, Roger L. Berger. (2002), Statistical Inference, 2nd Edi-
tion, P. cm.

[5] Bickel, J. Bickel,Kjell A Doksum (2002), Mathematical Statistics 2nd


Edition Printice Hall, inc.

[6] Bickel, P.J. and Doksum, K. (2006). Mathematical Statistics, Basic


Ideas and Selected Topics, Vol I, Prentice Hall, UpperSaddle River,
NJ.

[7] Brown, L. D. (1986). Fundamentals of Statistical Exponential Families,


IMS, Lecture Notes and Monographs Series, Hayward, CA
R∞ 2
[8] U. ANONYME [1889]: "Sur l’integrale 0
ex dx", Bull. Sci. Math.

65
66 Cirilo alvarez R.

(2)13, 84

[9] Morris, C. (1982). Natural Exponential families with quadratic variance


functions, Ann. Statistist. 10, 65–80.

[10] Lehmann, E. L. and Casella, G. (1998). Theory of Point Estimation,


Springer, New York.

Disponible en www.cs.columbia.edu,
Disponible en people.eecs.berkeley.edu

También podría gustarte