Reducción de datos estadísticos

45
3 Reducción de Datos: Estadísticos Suficien-

tes, Ancilários, Completos e Invariantes
3.1. INTRODUCCIÓN
3.2. FAMILIA EXPONENCIAL K-PARAMÉTRICA Y FAMILIA DE LOCALIZACIÓN Y ESCA-

LA
3.2.1. Familia exponencial k-paramétrica.

3.2.2. Familia de localización y escala.
3.3. ESTADÍSTICOS SUFICIENTES Y MINIMALES SUFICIENTES
3.4. ESTADÍSTICOS ANCILARES Y COMPLETOS
3.5. FAMILIA EXPONENCIAL: ESTADÍSTICOS SUFICIENTES, MINIMALES SUFICIENTES

Y COMPLETOS
3.6. MÉTODO DE ESTIMACIÓN INVARIANTE
- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

46
3.1. INTRODUCCIÓN
3.1 Introducción
Sea X la población objeto de estudio. Suponemos que X tiene función de distribución conocida (en cuanto
a su forma funcional), pero desconocemos un parámetro θ del que depende.
En el Tema anterior hemos calculado la distribución de algunos estadísticos y mencionado que los estadís-
ticos se utilizan para estimar los valores de parámetros desconocidos de una población.
Para comenzar a tratar con la estimación de parámetros, en este Tema estudiamos la reducción de datos
(sin pérdida de información relevante) para, en Temas posteriores, especificar las propiedades deseables de
los estimadores y desarrollar las técnicas apropiadas para implementar el proceso de estimación (estimación
puntual y estimación por intervalo).
En estadística clásica, el parámetro poblacional θ se considera una cantidad fija (nunca una v.a.) pero des-
conocida. La estimación del parámetro desconocido involucra:
Los datos muestrales, x1 , . . . , xn ,
y un estadístico T (X1 , . . . , Xn ).
Con el manejo de los estadísticos se pretende simplicar la estructura del problema a trabajar en un espacio
de menor dimensión. Pero, el uso de cualquier estadístico, T (X1 , . . . , Xn ) implica una reducción de datos y,
por tanto, se pierde información. Por ello, nos planteamos buscar estadísticos tales que la información que
se pierde sea irrelevante para el objetivo planteado.
3.1.1 Conceptos fundamentales
Definición 3.1 (Estimación puntual)
Una estimación puntual θ de un parámetro poblacional θ es un valor único del estadístico

T (X1 , . . . , Xn ), esto es
θ = T (x1 , . . . , xn ).
E El valor x del estadístico muestral X, calculado a partir de una muestra de tamaño n es una
estimación puntual del parámetro poblacional μ.
Definición 3.2 (Estimador)

El estadístico que se utiliza para obtener una estimación puntual es un estimador.
E El estadístico cuasivarianza muestral que es función de la muestra es un estimador de σ2 .
Definición 3.3 (Familia paramétrica)

Sea X la v.a. objeto de estudio. Suponemos que X tiene función de distribución conocida Fθ (en cuanto
a su forma funcional), pero desconocemos un parámetro θ del que depende. Diremos que Fθ pertence
a una familia paramétrica
FΘ = {Fθ : θ ∈ Θ}
siendo Θ el conjunto de todos los posibles valores que puede tomar el parámetro, que llamamos

47
3.2. FAMILIA EXPONENCIAL Y FAMILIA DE LOCALIZACIÓN Y ESCALA
espacio paramétrico. Expresado en términos de funciones de densidad/masa:
X ∼ { fθ (x), θ ∈ Θ ⊆ Rk }
Si k = 1, se dice que la familia de distribuciones en uniparamétrica y para un k cualquiera k-

paramétrica.
Definición 3.4 (Función de verosimilitud de la muestra)
Dada la familia P = { fθ (x), θ ∈ Θ ⊆ Rk }, puesto que las n v.a. de la muestra constituyen una v.a.
n-dimensional, se llama función de verosimilitud de la muestra a la función de densidad conjunta
de la variable aleatoria n-dimensional.
L(x1 , . . . , xn , θ) = fθ (x1 , . . . , xn ) = fθ (x1 ) · . . . · fθ (xn )
N Frecuentemente utilizaremos también las siguientes notaciones:
L(θ|x) = f (x|θ)
3.2 Familia exponencial y familia de localización y escala

3.2.1 Familia exponencial k-pamétrica
Definición 3.5 (Familia paramétrica)

Sea Θ ⊆ R p , k ≥ 1 y sean D, Q1 , . . . , Qk funciones definidas sobre Θ y T1 , . . . , Tk , S funciones medibles
Borel definidas en Rn . Si P = { fθ , θ ∈ Θ} es una familia paramétrica de densidades (o masa de
probabilidad) tales que:
El conjunto de puntos donde son estrictamente positivas no depende de θ.
fθ (x) = e[S(x)+D(θ)+∑ j=1 Q j (θ)Tj (x)]

k
se dice que { fθ , θ ∈ Θ} es una familia exponencial.
E Son ejemplos de familias exponenciales las distribuciones binomial, binomial negativa, geométri-
ca, Poisson, exponencial, normal, gamma, beta.
Teorema 3.1
Sea X1 , . . . , Xn una m.a.s procedente de una población con distribución en la familia exponencial k-
paramétrica. Entonces, (X1 , . . . , Xn ) también pertenece a la familia exponencial.
Demostración: Demostrado en clase.

48
3.2.2 Familia de localización y escala
Definición 3.6 (Familia localización y escala)

Sea Z una v.a. con distribución conocida. La colección de distribuciones de probabilidad de la v.a. X
que se pueden definir de la forma
X = μ + σZ μ, σ ∈ R, σ > 0
se denomina familia de localización y escala, construida a partir de Z.
En particular, si Z es una v.a. absolutamente continua con función de densidad f (x), la familia de
funciones de densidad
1 x−μ
{ f (x|μ, σ) = f : μ ∈ R, σ > 0}
σ σ
forman la familia de localización y escala de f(x).
El parámetro de escala σ dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de localización μ traslada la densidad |μ| unidades a la derecha si μ > 0 o a

la izquierda si μ < 0.
E Son ejemplos de familias de localización y escala las distribuciones normal, doble exponencial,
Cauchy.
Proposición 3.1
1. Z ∼ f (x) ⇔ X = σZ + μ ∼ f (x|μ, σ)
X −μ
2. X ∼ f (x|μ, σ) ⇔ ∼ f (x)
σ
3.3 Estadísticos suficientes y minimales suficientes

3.3.1 Estadísticos suficientes
Definición 3.7 (Estadístico Suficiente)
T (X1 , . . . , Xn ) es un estadístico suficiente para la familia de distribuciones
P = {F(x1 , . . . , xn | θ)| θ ∈ Θ}

49
cuando la distribución de probabilidad condicionada por el estadístico es independiente de θ, esto es
Pθ (x1 , . . . , xn | T ) es independiente de θ
N Observaciones:
1. El hecho de que un estadístico sea o no suficiente para un parámetro depende del modelo de
distribución que sigan las variables implicadas.
2. En general, si T es suficiente cualquier transformación biunívoca suya es también un esta-

dístico suficiente.
3.1 Idea justificativa de la definición de estadístico suficiente
Dada una m.a.s. de una población de Bernoulli de parámetro θ, esto es
Xi ∼ Bernoulli(θ), xi = 0, 1 ∀ i = 1, . . . , n, ∀ θ ∈ (0, 1)
sabemos que la función de masa conjunta de la muestra viene dada por

n n
P(x1 , . . . , xn | θ) = θ∑i=1 xi (1 − θ)n−∑i=1 xi
Parece intuitivo que, para determinar θ (probabilidad de éxito) no es necesario saber las posiciones
en que se han producido los éxitos. Bastará saber cuál es el número total de éxitos t = ∑ni=1 xi (el
número total de éxitos obtenidos en la muestra partido del tamaño de la muestra nos dará una idea de
la
probabilidad
de éxito). Podemos reescribir esta función de masa, multiplicando y dividiendo por
n
como:
t

n t 1
P(x1 , . . . , xn | θ) = θ (1 − θ)n−t
t n
t
Observemos que:
Los tres primeros factores:

n t
θ (1 − θ)n−t
t
es la probabilidad de obtener t éxitos (es una Binomial(n,t)). Esta parte, depende del parámetro
θ y de la muestra sólo a través del estadístico
n
T = ∑ Xi
i=1
.

50

n
En el denorminador del segundo factor aparece que no depende del parámetro y que son
t
las formas de ordenar los t éxitos (combinaciones con repetición de n elementos tomados de t
en t).
Ésta es justamente la definición de estadístico suficiente:
Pθ (x1 , . . . , xn ∩ T = t)
Pθ (x1 , . . . , xn | T = t) =
Pθ (t)
El numerador es sólo distinto de cero cuando T (X1 , . . . , Xn ) = t de tal forma que

Pθ (X1 = x1 , . . . , Xn = xn , T (x1 , . . . , xn ) = t) = Pθ (X1 = x1 , . . . , Xn = xn ) = θt (1 − θ)n−t es la fun-
ción de masa conjunta de la muestra.
El denominador P θ (t)es la distribución en el muestreo del estadístico T que sabemos que es una
n t
binomial, Pθ (t) = θ (1 − θ)n−t .
t
−1
n
Por lo que el cociente Pθ (x1 , . . . , xn | T = t) = no depende de θ: El estadístico T = ∑ Xi resume
t
toda la información que la muestra nos sumistra sobre θ, ya que conocido el valor del estadístico t
podemos reconstruir la muestra mediante un mecanismo independiente de θ.
La definición de estadístico suficiente es poco operativa, ya que necesitamos conocer de antemano el can-
didato a estadístico suficiente para, después comprobar si lo es. Por este motivo surge el siguiente teorema:
Teorema 3.2 (Teorema de Factorización)

Un estadístico es suficiente si y sólo si existen funciones reales positivas h y g tales que
fθ (x1 , . . . , xn ) = h(x1 , . . . , xn )gθ (T (x1 , . . . , xn ))
donde fθ (x1 , . . . , xn ) es la función de densidad o masa de la muestra.
Demostración: Demostrado en clase (caso discreto).
N El teorema de factorización es cierto para distribuciones discretas y continuas.
3.2
Sabemos que T (X1 , . . . , Xn ) = ∑ni=1 Xi es suficiente para la familia de funciones de distribución de Ber-
noulli de paramétro θ. Por definición, la función de masa conjunta de la muestra condicionada por el
−1
Pθ (x1 , . . . , xn ) n
estadístico no depende del parámetro, esto es Pθ (x1 , . . . , xn | T = t) = = =
Pθ (t) ∑ni=1 xi

51
h(x1 , . . . , xn ). Despejando la función de masa conjunta de la muestra:
Pθ (x1 , . . . , xn ) = h(x1 , . . . , xn )Pθ (t)

n t
donde Pθ (t) = gθ (t) = θ (1 − θ)n−t es una función que no depende del parámetro y de la muestra
t
sólo a través de t.
Definición 3.8 (Estadístico suficiente r-dimensional)

En la aplicación del teorema de factorización puede ocurrir que la función gθ (t) dependa de
la muestra a través de más de una función suya. En ese caso, la colección de funciones
(T1 (X1 , . . . , Xn ), . . . , Tr (X1 , . . . , Xn )) es un estadístico suficiente r-dimensional.
1. Todas las definiciones y resultados referentes a la suficiencia para el caso unidimensional

son aplicables al caso r-dimensional.
2. Si el estadístico suficiente y el parámetro son multidimensionales de igual dimensión

(T (X1 , . . . , Xn ) = (T1 (X1 , . . . , Xn ), . . . , Tr (X1 , . . . , Xn )) y θ = (θ1 , . . . , θr )) y T es suficiente pa-
ra θ, esto no implica que cada componente de T sea suficiente para cada componente de
θ.
3. No siempre coincide la dimensión del parámetro con la dimensión del estadístico suficiente.
4. Los estadísticos suficientes no son únicos e incluso pueden ser de dimensión diferente.
El teorema de factorización es útil para encontrar un estadístico suficiente: Basta factorizar la función de
densidad o masa conjunta de la muestra en dos partes: Una que no contenga el parámetro y la otra que
dependa de la muestra sólo a través de una función suya. Esta función será el estadístico buscado.
El teorema de factorización es poco operativo para demostrar que un estadístico no es suficiente. Es prefe-
rible usar el siguiente resultado:
Proposición 3.2
Dadas dos muestras (x1 , . . . , xn ) e (y1 , . . . , yn ) tales que T (x1 , . . . , xn ) = T (y1 , . . . , yn ). En estas condi-
fθ (x1 , . . . , xn )
ciones: Si depende de θ entonces T no es suficiente.
fθ (y1 , . . . , yn )
Demostración: Demostrado en clase (es consecuencia del teorema de factorización).

52
Proposición 3.3
En general, si T (X) es un estadístico suficiente para θ y τ : ϒ → S es una transferencia biyectiva del

espacio donde toma valores T , se tiene que
S(X) = τ(T (X))
también es suficiente para θ.
3.3 Distribución normal
Para la distribución N(μ, σ2 ), con σ2 conocido, el estadístico X̄ es suficiente para μ.
Para la distribución N(μ, σ2 ), con μ y σ2 desconocidos, el estadístico bidimensional (X̄, S2 ) es

suficiente para el parámetro bidimensional (μ, σ2 ).
Para la distribución N(μ, σ2 ), con μ conocido, el estadístico S2 no es suficiente para σ2 .
3.4 Distribución uniforme
Sea X1 , . . . , Xn una m.a.s. de una población U(θ1 , θ2 ) con θ1 < θ2 . La función de distribución conjunta
de la muestra es:
1
f(θ1 ,θ2 ) (x1 , . . . , xn ) = I (θ1 )I[x(n) ,∞) (θ2 )
(θ2 − θ1 )n (−∞,x(1) ]
Así,
Si θ1 es conocido: x(n) es suficiente para θ2 .
Si θ2 es conocido: x(1) es suficiente para θ1 .
Si θ1 y θ2 son desconocidos: (x(1) , x(n) ) es suficiente para (θ1 , θ2 ).
Si θ = θ2 = −θ1 : máxi=1,...,n |xi | es suficiente para θ.
3.3.2 Concepto de suficiencia como partición del espacio muestral

Reducir los datos en términos de un estadístico T es equivalente a dar una partición del espacio muestral χ.
Un estadístico define una única partición, pero a una partición se le pueden asociar varios
estadísticos.

53
Cuando dos estadísticos definen la misma partición, son equivalentes.
Una partición se dice suficiente cuando el estadístico asociado es suficiente.
3.5
Se repite n veces un experimento de Bernoulli (Xi = 1 éxito o Xi = 0 fracaso). Sea T es estadístico

número de éxitos.
χ espacio muestral
χ = {x = (x1 , . . . , xn ) : xi = {0, 1}}
T estadístico
m
T (x) = ∑ xi número de éxitos
i=1
T = {t : t = T (x), para algún x ∈ χ} espacio imagen de χ mediante T
T = {0, 1, 2, . . . , n}
At = {T −1 (t) =x ∈ χ : t ∈ T } clase.

Al observar x y limitarnos a quedar con T (x) podemos saber que, hemos observado un valor de
AT (x) pero desconocemos cual.
m
At = {x = (x1 , . . . , xn ) : ∑ xi = t}
i=1
Si, por ejemplo, ∑m

i=1 xi = 1, todas aquellas secuencias de resultado t = 1 están en la misma
clase
A1 = {(1, 0, . . . , 0), (0, 1, . . . , 0), . . . , (0, 0, . . . , 1)}
sabemos que hemos observado una de esas muestras, pero no cual.

At = {T −1 (t) : t ∈ T } es una partición de χ inducida por T .
{A0 , A1 , . . . , An }
Definición 3.9 (Partición suficiente)

Una partición se dice suficiente si el estadístico asociado es suficiente.

54
Definición 3.10 (Partición minimal suficiente)

Una partición se dice minimal suficiente si es suficiente y cualquier otra partición suficiente es sub-
partición suya.
Definición 3.11 (Estadístico minimal suficiente)

Primera definición:
Un estadístico suficiente T (x) se dice minimal si para cualquier otro estadístico suficiente S(x) la
partición inducida por T (suficiente) es menos fina que la inducida por S. Esto es, sea {At : t ∈ T } la
partición del espacio muestral inducida por el estadístico T y sea {Bs : s ∈ S } la partición inducida
por S, entonces T es minimal suficiente si para cada s ∈ S existe un t ∈ T tal que Bs ⊆ At .
Segunda definición:
Un estadístico suficiente T (x) se dice minimal si para cualquier otro estadístico suficiente S(x) se
tiene que T (x) es función de S(x). Es decir, si ocurre que S(x) = S(y) implica necesariamente que
T (x) = T (y).
Tercera definición:
Un estadístico es minimal suficiente si induce una partición minimal suficiente.
3.6
Consideramos una muestra de tamaño 3 de una población de Bernoulli de parámetro θ. Sabemos que
T (x1 , x2 , x3 ) = ∑3i=1 xi es un estadístico suficiente para θ. Por el teorema de factorización:
pθ (x1 , x2 , x3 ) = θt (1 − θ)3−t = gθ (t)
donde t = ∑3i=1 xi . Pero, S(x1 , x2 , x3 ) = (x1 , x2 + x3 ) también es estadístico suficiente ya que:

x1
x2 +x3 3−x2 −x3 θ
pθ (x1 , x2 , x3 ) = θ (1 − θ) = gθ (s1 , s2 )
1−θ
donde s1 = x1 y s2 = x2 + x3 . Las particiones de cada uno de ellos son:
T S
(0,0,0) (0,0,0)
(0,0,1) (0,0,1)
(0,1,0) (0,1,0)
(1,0,0) (1,0,0)
(0,1,1) (0,1,1)
(1,0,1) (1,0,1)
(1,1,0) (1,1,0)
(1,1,1) (1,1,1)
T siempre tiene asociada una partición tal que las demás son subparticiones suyas.

55
El teorema de factorización, por lo general, conduce a estadísticos minimales suficientes, pero no asegura
tal propiedad. Además, la definición dada es imposible para tal fin. Se hace necesario otro mecanismo que
permita el cálculo de estadísticos minimales suficientes.
Teorema 3.3 (Teorema de caracterización de estadísticos minimales suficientes)

Sea fθ (x1 , . . . , xn ) la función de densidad o masa conjunta de la muestra. Un estadístico T (X1 , . . . , Xn )
es suficiente minimal si cumple que, dados dos elementos cualesquiera del espacio muestral
(x1 , . . . , xn ) e (y1 , . . . , yn )
fθ (x1 , . . . , xn )
T (x1 , . . . , xn ) = T (y1 , . . . , yn ) ⇔ es independiente de θ
fθ (y1 , . . . , yn )
N Un estadístico minimal suficiente no es único: Cualquier transformación biunívoca de un

estadístico minimal suficiente conduce a otro estadístico minimal suficiente.
3.7 Distribución normal
Para la distribución N(μ, σ2 ), con μ y σ2 desconocidos, el estadístico bidimensional (X̄, S2 ) es

minimal suficiente para el parámetro bidimensional (μ, σ2 ).
Para la distribución N(μ, σ2 ), con μ y σ2 desconocidos, el estadístico bidimensional

(∑ni=1 Xi , ∑ni=1 Xi2 ) es minimal suficiente para el parámetro bidimensional (μ, σ2 ).
3.8 Distribución uniforme U(θ, θ + 1)
El estadístico bidimensional (X(1) , X(n) ) es suficiente para θ.
El estadístico (X(1) , X(n) ) es minimal suficiente para θ.

X(1) + X(n)
El estadístico R = X(n) − X(1) , M = es minimal suficiente para θ.
2
3.4 Estadísticos ancilares y completos
Definición 3.12 (Estadístico ancilar o auxiliar)

Un estadístico U(X1 , . . . , Xn ) es ancilar para el parámetro θ si su distribución es independiente de
θ.
N Sobre estadísticos ancilares:
Como la distribucion de un estadístico ancilar no depende del parámetro, son los que re-

56
sumen la parte de la información de la muestra que no recogen los estadísticos minimales

suficientes. Entonces, a primera vista, parece que los estadísticos ancilares no deben apor-
tar información relevante sobre el parámetro y que, ademas, deberían ser independientes de
cualquier estadístico minimal suficiente. Estos dos hechos no son ciertos.
Un estadístico ancilar no contiene información sobre el parámetro pero, usado en conjunción

con otro tipo de estadísticos puede ser útil para realizar inferencias el parámetro.
Estadístico ancilar para la familia de localización: El recorrido muestral de cualquier familia de

localización es un estadístico ancilar.
Estadístico ancilar para la familia de escala: Cualquier estadístico que dependa de la muestra sólo
X1 Xn−1
a través de n − 1 valores , . . . , es un estadístico ancilar.
Xn Xn
3.9 Distribución uniforme U(θ, θ + 1)
El estadístico R = X(n) − X(1) es ancilar para θ.
Definición 3.13 (Familia de distribuciones completa)

Una familia de distribuciones P = { fθ (x1 , . . . , xn )} se dice completa si para cualquier función
real g(x1 , . . . , xn ) tal que ∀ θ ∈ Θ Eθ [g(x1 , . . . , xn )] = 0 se sigue que g(x1 , . . . , xn ) = 0, salvo en un
conjunto de probabilidad cero.
Definición 3.14 (Estadístico completo)

Un estadístico T se dice completo si la familia de distribuciones asociada a él (obtenida a partir de la
distribución de la muestra) es completa.
Teorema 3.4
Si T es un estadístico suficiente y completo para θ, entonces T es suficiente minimal.
Demostración: Daremos una demostración alternativa más adelante.
N El recíproco no es cierto: T suficiente minimal no implica que sea completo.

57
Teorema 3.5 (Ley de esperanza iterada)

Sea (X,Y ) una v.a. bidimensional. Si existen las esperanzas de las marginales y las condicionadas,
entonces
E[X]=EY [Ex [X|Y ]]
V[X]=E[V[X|Y ]]+V[E[X|Y ]]
Demostración:

1. Teniendo en cuenta que f (x, y) = f (x|y) fY (y) y que EX [X|Y ] = R x f (x|y)dx

E[X] = x f (x, y)dxdy = x f (x|y)dx fY (y)dy =
R2 R R

= EX [X|Y ] fY (y)dy = EY [EX [X|Y ]]
R
2. V[X|Y ] = E[X 2 |Y ] − (E[X|Y ])2

E[V[X|Y ]] = E[E[X 2 |Y ]] − E[(E[X|Y ])2 ]
E[E[X 2 |Y ]] = E[X 2 ]
E[(E[X|Y ])2 ] = V[E[X|Y ]] + (E[E[X|Y ]])2 = V[E[X|Y ]] + (E[X])2
E[V[X|Y ]] = V[X] − V[E[X|Y ]]
Teorema 3.6 (Teorema de Basu)

Si T es un estadístico suficiente y completo y U es un estadístico ancilar, entonces T y U son inde-
pendientes.
Demostración:
Si U es ancilar para θ, entonces fU (u) no depende de θ y, por tanto, Eθ [ fU (u)] tampoco depende
de θ.
Si T es suficiente para θ, entonces f (u|T ) no depende de θ.
Llamamos g(t) = f (u) − f (u|T ) que no depende de θ, tomando esperanzas iteradas en ambos miem-
bros:
E[E[g(t)]] = E[E[ f (u)]] − E[E[ f (u|T )]]
El primer miembro es igual a E[g(t)].
El primer sumando del segundo miembro es igual a E[ f (u)].
El segundo sumando del segundo miembro es igual a E[ f (u)], por la ley de esperanzas iteradas.
Por tanto, E[g(t)] = 0 y como T es completo, g(t) = 0, luego f (u) = f (u|T ) así que U y T son inde-
pendientes.

58
3.5. FAMILIA EXPONENCIAL: ESTADÍSTICOS SUFICIENTES Y COMPLETOS
3.5 Familia exponencial: Estadísticos suficientes y completos
Teorema 3.7
Sea { fθ : θ ∈ Θ} una familia exponencial k-paramétrica, esto es
fθ (x1 , . . . , xn ) = h(x1 , . . . , xn )c(θ)e∑i=1 Qi (θ)Ti (x1 ,...,xn )

k
Entonces, el estadístico (T1 (x1 , . . . , xn ), . . . , Tk (x1 , . . . , xn )) es suficiente para θ.
Demostración: Si { fθ : θ ∈ Θ} es una familia exponencial k-paramétrica,
fθ (x1 , . . . , xn ) = h(x1 , . . . , xn )c(θ)e∑i=1 Qi (θ)Ti (x1 ,...,xn )

k
llamando gθ ((T1 (x1 , . . . , xn ), . . . , Tk (x1 , . . . , xn )) = c(θ)e∑i=1 Qi (θ)Ti (x1 ,...,xn ) ,

k
se tiene que (T1 (x1 , . . . , xn ), . . . , Tk (x1 , . . . , xn )) es suficiente para θ.
Teorema 3.8
En las condiciones del teorema anterior y si, además, las funciones Qi , i = 1, . . . , k, son linealmente
independientes, entonces el estadístico k-dimensional (T1 (x1 , . . . , xn ), . . . , Tk (x1 , . . . , xn )) es minimal
suficiente para θ.
Demostración: Si, las funciones Qi , i = 1, . . . , k, son linealmente independientes, consideramos el co-

ciente:
fθ (x1 , . . . , xn ) hθ (x1 , . . . , xn ) ∑ki=1 Qi (θ)[Ti (x1 ,...,xn )−Ti (y1 ,...,yn )]
= e
fθ (y1 , . . . , yn ) hθ (y1 , . . . , yn )
Este cociente es independiente de θ ⇔ ∑ki=1 Qi (θ) [Ti (x1 , . . . , xn ) − Ti (y1 , . . . , yn )] = 0. Como las funcio-
nes Qi , i = 1, . . . , k, son l.i. esta igualdad es cierta si Ti (x1 , . . . , xn ) = Ti (y1 , . . . , yn ), i = 1, . . . , k, por lo
que el estadístico es minimal suficiente.
Teorema 3.9
Sea X1 , . . . , Xn una m.a.s. obtenida de una población con distribución exponencial k-paramétrica, en-
tonces:
1. La distribución conjunta de la muestra también conforma una familia exponencial k-

paramétrica.
2. El estadístico (T1∗ (x1 , . . . , xn ), . . . , Tk∗ (x1 , . . . , xn )) es suficiente para θ, con T j∗ (x1 , . . . , xn ) =

∑ni=1 Ti (x1 , . . . , xn ).
3. Si, además, las funciones Q j , j = 1, . . . , k son linealmente independientes, entonces el estadís-

tico anterior es minimal suficiente.

59
3.6. MÉTODO DE ESTIMACIÓN INVARIANTE
Demostración: Si X1 , . . . , Xn una m.a.s. obtenida de una población con distribución exponencial k-

paramétrica, como
n n
fθ (x1 , . . . , xn ) = ∏ fθ (xi ) = ∏ h(xi )c(θ)e∑ j=1 Q j (θ)Tj (xi )
k
i i
∑kj=1 Q j (θ)T j∗ (x1 ,...,xn )

que puede reescribirse como h∗ (x1 , . . . , xn )c∗ (θ)e , siendo
n
T j∗ (x1 , . . . , xn ) = ∑ Ti (x1 , . . . , xn )
i=1
y, por tanto, el estadístico (T1∗ (x1 , . . . , xn ), . . . , Tk∗ (x1 , . . . , xn )) es suficiente. Si, además, las funciones
Qi , i = 1, . . . , k, son linealmente independientes, como en el caso anterior, el estadístico es minimal
suficiente.
Teorema 3.10
Para la familia de distribuciones exponencial k-paramétrica, si el espacio paramétrico natural contiene
un abierto no vacío de Rk , entonces el estadístico (T1∗ (x1 , . . . , xn ), . . . , Tk∗ (x1 , . . . , xn )) es completo.
Demostración: Sin demostrar.
1. En la práctica, para comprobar que Q j , j = 1, . . . , k, son linealmente inde-

pendientes, se comprueba que existen θ1 , . . . , θ j vectores tales que los vectores
(Q1 (θ1 ) . . . , Q j (θ1 )), . . . , (Q1 (θ j ) . . . , Q j (θ j )) son linealmente independientes.
→
−
2. Sean Qi (θ) = νi parámetros naturales y Q = (Q1 (θ) . . . , Qk (θ)) : Θ → Rk . Que el espacio
paramétrico natural contiene un abierto no vacío de Rk significa que la imagen de la aplica-
→
−
ción Q contiene un abierto no vacío de Rk .
3.6 Método de estimación invariante

Definición 3.15 (Grupo)
Un conjunto de funciones G = {g : X → X } definidas sobre el espacio muestral forman grupo,
respecto a la operación de composición de funciones si cumplen dos condiciones:
1. ∀g ∈ G , ∃ g ∈ G tal que g (g(x)) = x, ∀ x ∈ X . Se dice que g es la aplicación inversa de g.
2. Dadas g, g ∈ G , ∃ g ∈ G tal que g (g(x)) = g (x), ∀ x ∈ X . Se dice que G es cerrada respecto

a la composición de aplicaciones.
Definición 3.16 (Familia de distribuciones invariante)

La familia de distribuciones P = { fθ (x1 , . . . , xn ) : θ ∈ Θ} se dice invariante por el grupo de trans-
formaciones G = {g : X → X } si cuando (X1 , . . . , Xn ) se distribuye mediante fθ (x1 , . . . , xn ) se sigue

60
3.7. PRINCIPIOS DE REDUCCIÓN DE DATOS
que para cualquier g ∈ G , g(X1 , . . . , Xn ) se distribuye mediante fθ (x1 , . . . , xn ) con θ ∈ Θ. Se denota

θ = ḡ(θ) a la aplicación de Θ en Θ que se corresponde con g.
Definición 3.17 (Estadístico invariante)

Si G = {g : X → X } es un grupo de transformaciones que deja invariante la familia P =
{ fθ (x1 , . . . , xn ) : θ ∈ Θ}, un estadístico T es invariante respecto al grupo de transformaciones G si
∀ g ∈ G , se tiene que T g(x1 , . . . , xn ) = ḡ(T (x1 , . . . , xn )).
3.7 Principios de reducción de datos

Lo estudiaremos en el Tema 4.

Reducción de datos estadísticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reducción de datos estadísticos

Cargado por

Copyright:

Formatos disponibles

45

3 Reducción de Datos: Estadísticos Suﬁcien-

3.2. FAMILIA EXPONENCIAL K-PARAMÉTRICA Y FAMILIA DE LOCALIZACIÓN Y ESCA-

3.2.1. Familia exponencial k-paramétrica.

3.3. ESTADÍSTICOS SUFICIENTES Y MINIMALES SUFICIENTES

3.4. ESTADÍSTICOS ANCILARES Y COMPLETOS

3.5. FAMILIA EXPONENCIAL: ESTADÍSTICOS SUFICIENTES, MINIMALES SUFICIENTES

3.6. MÉTODO DE ESTIMACIÓN INVARIANTE

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

Los datos muestrales, x1 , . . . , xn ,

3.1.1 Conceptos fundamentales

Deﬁnición 3.1 (Estimación puntual)

Una estimación puntual θ de un parámetro poblacional θ es un valor único del estadístico

Deﬁnición 3.2 (Estimador)

E El estadístico cuasivarianza muestral que es función de la muestra es un estimador de σ2 .

Deﬁnición 3.3 (Familia paramétrica)

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

espacio paramétrico. Expresado en términos de funciones de densidad/masa:

Si k = 1, se dice que la familia de distribuciones en uniparamétrica y para un k cualquiera k-

Deﬁnición 3.4 (Función de verosimilitud de la muestra)

L(x1 , . . . , xn , θ) = fθ (x1 , . . . , xn ) = fθ (x1 ) · . . . · fθ (xn )

N Frecuentemente utilizaremos también las siguientes notaciones:

3.2 Familia exponencial y familia de localización y escala

Deﬁnición 3.5 (Familia paramétrica)

El conjunto de puntos donde son estrictamente positivas no depende de θ.

fθ (x) = e[S(x)+D(θ)+∑ j=1 Q j (θ)Tj (x)]

se dice que { fθ , θ ∈ Θ} es una familia exponencial.

Demostración: Demostrado en clase.

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

3.2.2 Familia de localización y escala

Deﬁnición 3.6 (Familia localización y escala)

se denomina familia de localización y escala, construida a partir de Z.

El parámetro de escala σ dilata la distribución si σ > 1 y la contrae si σ < 1.

El parámetro de localización μ traslada la densidad |μ| unidades a la derecha si μ > 0 o a

Demostración: Demostrado en clase.

3.3 Estadísticos suﬁcientes y minimales suﬁcientes

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

cuando la distribución de probabilidad condicionada por el estadístico es independiente de θ, esto es

2. En general, si T es suﬁciente cualquier transformación biunívoca suya es también un esta-

3.1 Idea justificativa de la definición de estadístico suficiente

Dada una m.a.s. de una población de Bernoulli de parámetro θ, esto es

sabemos que la función de masa conjunta de la muestra viene dada por

Los tres primeros factores:

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

Ésta es justamente la deﬁnición de estadístico suﬁciente:

El numerador es sólo distinto de cero cuando T (X1 , . . . , Xn ) = t de tal forma que

Teorema 3.2 (Teorema de Factorización)

fθ (x1 , . . . , xn ) = h(x1 , . . . , xn )gθ (T (x1 , . . . , xn ))

donde fθ (x1 , . . . , xn ) es la función de densidad o masa de la muestra.

Demostración: Demostrado en clase (caso discreto).

N El teorema de factorización es cierto para distribuciones discretas y continuas.

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

h(x1 , . . . , xn ). Despejando la función de masa conjunta de la muestra:

Pθ (x1 , . . . , xn ) = h(x1 , . . . , xn )Pθ (t)

Deﬁnición 3.8 (Estadístico suﬁciente r-dimensional)

1. Todas las deﬁniciones y resultados referentes a la suﬁciencia para el caso unidimensional

2. Si el estadístico suﬁciente y el parámetro son multidimensionales de igual dimensión

Demostración: Demostrado en clase (es consecuencia del teorema de factorización).

- Estadística - Prof. M. Benavent. Fac. Matemáticas, UCM.

En general, si T (X) es un estadístico suﬁciente para θ y τ : ϒ → S es una transferencia biyectiva del

S(X) = τ(T (X))

también es suﬁciente para θ.

Demostración: Demostrado en clase.