Está en la página 1de 29

Lección 2:

Inferencia estadística
Objetivos

A partir de las características (media, varianza, etc.) observadas en una


muestra, se desea conocer las mismas estadísticas para la población entera.

Las técnicas que permiten pasar de los valores observados en la muestra a los
parámetros desconocidos de la población pertenecen a la teoría de la
estimación. La operación intelectual que se hace en la estimación lleva el
nombre de “inferencia estadística”.

La estimación consiste en una elección / decisión en presencia de incertidumbre


(sólo se ha observado una muestra de la población), no es una deducción.
Objetivos

La problemática general es la siguiente:

• Se dispone de una muestra independiente (X1,... Xn) procedente de una variable


aleatoria X cuya distribución depende de un parámetro q desconocido (o,
quizás, de varios parámetros).

• Se busca un estadístico T = j(X1,... Xn) tal que el valor observado

qˆ  j( x1 ,... xn )

puede ser considerado una estimación de q. La variable aleatoria T se llama


estimador de q. La función j no debe depender analíticamente del parámetro
q a estimar.
Objetivos

Ejemplo

Sea X una variable aleatoria de media q desconocida

• T = X1 es un estimador de q

• T = X1 + 3 X2 es otro estimador de q

• T = X1 + X2 / q no es un estimador de q, pues depende de q

Ahora, acotaremos la definición del estimador al dar las propiedades interesantes


que debería tener en relación con el parámetro a estimar.
Propiedades de un estimador

Consistencia: la precisión de la estimación es cada vez mejor cuando el tamaño de


la muestra aumenta, o sea, T converge en probabilidad hacia q cuando n tiende a
infinito.

Ejemplo: si X tiene una esperanza m desconocida y una varianza finita, entonces el


valor promedio (media experimental) de la muestra es un estimador consistente de
la esperanza matemática m, acorde a la ley de los grandes números.

Más generalmente, el momento empírico de una muestra es un estimador


consistente del momento teórico de la variable aleatoria correspondiente. Esto da
lugar al método de estimación conocido como método de los momentos.
Propiedades de un estimador

Insesgo: el sesgo de un estimador T se define como el valor esperado del “error”


T – q.

El estimador es insesgado si tiene un sesgo igual a cero. Significa que no se tiende


ni a sobre-estimar ni sub-estimar el parámetro desconocido.

Un estimador es asintóticamente insesgado si su sesgo tiende a 0 cuando el


tamaño de la muestra tiende a infinito. Un estimador consistente es
asintóticamente insesgado.
Propiedades de un estimador

Ejemplos

• T = X1 es un estimador insesgado de la esperanza m

• T = X1 + 3 es un estimador sesgado de la esperanza m

1 n
• T   X i (media aritmética) es un estimador insesgado de m
n i 1
n
• T n 
i 1
Xi (media geométrica) es un estimador sesgado de m

• T = S2 (varianza empírica) es un estimador insesgado de la varianza s2

• T = S es un estimador sesgado de la desviación estándar s.


Propiedades de un estimador

Optimalidad: además de la condición de insesgo, se suele buscar estimadores que


tienen la varianza mínima:

var(T )  var(T  q)

Esto corresponde a la intuición de maximizar la precisión, dado que la varianza


mide la amplitud que puede tener el error T – q.
Propiedades de un estimador

Ejemplo: sea X variable aleatoria de esperanza m desconocida y varianza s2; sea


(X1,... Xn) una muestra de X

• T = X1 es un estimador insesgado de m; su varianza es s2

• T = (X1 + X2) / 2 es otro estimador insesgado de m; su varianza es s2 / 2

• T = X es un mejor estimador aún, puesto que su varianza es s2 / n


Propiedades de un estimador

Suficiencia: sea X una variable aleatoria con una densidad de probabilidad


f(x,q) que depende de un parámetro desconocido q, (X1,... Xn) una muestra
independiente de X, T = j(X1,... Xn) un estimador de q cuya densidad de
probabilidad es g(t,q).

El estimador constituye un estadístico suficiente o exhaustivo para q si la


densidad de probabilidad de la muestra condicional a T no depende de q. En
otras palabras, T es un “resumen” exhaustivo de la información contenida en la
muestra, con respecto al parámetro q.
Propiedades de un estimador

Ejemplo: sea X variable aleatoria Gaussiana de esperanza m desconocida y


varianza s2; sea (X1,... Xn) una muestra de X

• T = X1 no es un estadístico suficiente para m


(se pierde información al tomar solamente el primer individuo de la población
como estimador de la esperanza)

• T = mediana (X1,... Xn) tampoco es suficiente

• T = X sí es un estadístico suficiente para m

No siempre existe un estadístico suficiente para un parámetro q (sólo para algunos


tipos de distribuciones y algunos tipos de parámetros)
Propiedades de un estimador

En resumen, para encontrar el “mejor” estimador posible de un parámetro q,


se debe buscar un estimador insesgado y suficiente (que no “desperdicia”
información).

Esta tarea no siempre se puede desarrollar analíticamente, por lo cual existen


enfoques alternativos:

• buscar un estimador que sea una combinación lineal de los valores de la


muestra (X1,... Xn) y que tenga la varianza más baja posible

• buscar un estimador por el método de los momentos

• buscar un estimador por el máximo de verosimilitud


• buscar un estimador por el método Bayesiano

• buscar un intervalo de confianza sobre el parámetro q


Intervalos de confianza

La estimación puntual consiste en tomar como valor de q el valor obtenido por el


estimador, planteando como modelo:

q  T ( x1 ,... xn )

 no toma en cuenta la incertidumbre en la estimación del parámetro (aunque el


estimador tenga varianza mínima, esta varianza no es 0)

 con otra muestra, se hubiese obtenido un valor distinto de q


Intervalos de confianza

En la práctica, es común buscar acotar el valor de q, definiendo dos límites y


precisando el grado de confianza en el intervalo entre estos límites
Intervalos de confianza

Las etapas para determinar un intervalo de confianza son las siguientes:

1) Elegir un estimador T del parámetro q

Es importante buscar un estimador que tenga una varianza pequeña. En


cambio, contrariamente a la estimación “puntual”, no es crucial que el
estimador sea insesgado.

2) Identificar la distribución de probabilidad del estimator g(t,q)

Para superar esta etapa, puede ser útil recurrir a la distribución asintótica
como aproximación de la distribución real.
Intervalos de confianza

3) Elegir un grado de confianza: 1 – a

4) Construir un intervalo de confianza sobre T, de medida 1 – a

Este intervalo puede o no ser simétrico. En esta etapa, se tendrá

Prob( t1 (q)  T  t 2 (q))  1  a

5) Despejar q y resolver la doble desigualdad

Prob(u1 (T )  q  u2 (T ))  1  a

6) Reemplazar T por su valor t0 en la muestra


Intervalos de confianza

Ejemplo 1: estimación de una media (población de varianza conocida)


Sea una variable X Gaussiana de esperanza m desconocida y de varianza s2
conocida.

La media de la muestra X es el estimador sin sesgo de varianza mínima. Se sabe


además que este estimador tiene una distribución normal:

X m
~ N (0,1)
s/ n
Intervalos de confianza

Considerando un grado de confianza de 95% (0.95), un intervalo simétrico en


torno a 0 para una N(0,1) es [-1.96;1.96]. Por lo tanto:

 X m 
Prob  1.96   1.96   0.95
 s/ n 

Si se despeja X , se obtiene (intervalo de probabilidad):

 s s 
Prob m  1.96  X  m  1.96   0.95
 n n
Intervalos de confianza

Si ahora se despeja m, se obtiene (intervalo de confianza):

 s s 
Prob X  1.96  m  X  1.96   0.95
 n n

Comentarios

• m aparece acotado en un intervalo cuyos límites son aleatorios. Se trata de un


intervalo de confianza para m.

• No se trata de un intervalo de probabilidad sobre m, puesto que m no es una


variable aleatoria (es un parámetro determinístico)
Intervalos de confianza

• La amplitud del intervalo depende de varios términos:

1) el factor 1.96 proviene del grado de confianza, fijado a 95%

2) el número de individuos n: cuando este número aumenta, el intervalo se


achica y la estimación se vuelve más precisa

3) el factor s/n1/2 se debe a la varianza del estimador: el intervalo de


confianza es más angosto cuando el estimador tiene poca varianza, por
lo cual es preferible buscar el estimador de varianza mínima

• Los resultados son robustos frente a desviaciones pequeñas a moderadas de la


distribución normal, siempre que el número de datos (n) sea grande. Esto se debe
a que la media experimental X tiene una distribución aproximadamente
Gaussiana (teorema del límite central).
Intervalos de confianza

Ejemplo 2: estimación de una media (población de varianza desconocida)


Sea ahora una variable X Gaussiana de esperanza m y varianza s2 desconocidas,
de la cual se tiene una muestra independiente (X1,... Xn). Denotemos como X y S2
la media y la varianza experimental de la muestra.

En este caso, se sabe que la variable

X m
Tn1  n
S

sigue una distribución de Student con n – 1 grados de libertad.


Intervalos de confianza

Considerando un grado de confianza de 1 – a, un intervalo simétrico en torno a 0


para una Student Tn-1 está dado por [-ta/2; ta/2], donde ta/2 viene dado por la tabla de
la distribución de Student.

 X m 
Por lo tanto: Prob  ta / 2   ta / 2   1  a
 S/ n 

y el intervalo de confianza sobre m es:

 S S 
Prob X  ta / 2  m  X  ta / 2   1 a
 n n

Con respecto al caso anterior (varianza de población conocida), basta con


reemplazar s por S y el valor de la normal por el valor de Student de n – 1
grados de libertad.
Caso multivariable:
regiones de confianza
Método de Bonferroni

Al tener varias variables (X1,… Xp), interesa definir intervalos de confianza


simultánea sobre las esperanzas de estas variables. Supongamos que, para cada
variable Xi, se tiene un intervalo de confianza 1 – a sobre su esperanza mi:

Probu1 ( X i )  m i  u2 ( X i )   1  a

Entonces, usando la desigualdad de Boole:

 p  p
Prob  u1 ( X i )  m i  u2 ( X i )   1  {1  Probu1 ( X i )  m i  u2 ( X i ) }  1  pa
 i 1  i 1
Caso multivariable:
regiones de confianza

La región rectangular de Rp definida por el producto de los intervalos de


confianza de cada variable Xi, tiene una confianza superior a 1 – pa para la
estimación conjunta de las esperanza m1,… mp. Para asegurar una confianza
conjunta de 1 – a, basta con utilizar intervalos de confianza 1 – a/p para cada
variable.

El método de Bonferroni puede ser aplicado cualquiera sea la estructura de


dependencia entre las variables. Se trata además de un método conservador,
pues la confianza obtenida puede ser mayor a 1 – a.
Caso multivariable:
regiones de confianza
Método de Sidák

Al suponer que las variables (X1,… Xp) son independientes, se puede refinar el
método de Bonferroni. Para asegurar una confianza conjunta de 1 – a, basta con
utilizar intervalos de confianza (1 – a)1/p para cada variable.

Por ejemplo, para p = 2 variables y a = 0.05, se tiene: (1 – a)1/p ≈ 0.975.

En el caso general, (1 – a)1/p ≤ 1 – a/p: el método de Sidák es menos exigente


que el de Bonferroni.
Caso multivariable:
regiones de confianza
Caso particular: esperanza de un vector Gaussiano

Sea X una variable Gaussiana vectorial con p componentes, de esperanza m


desconocida y matriz de varianza-covarianza C conocida. A partir de una
muestra de tamaño n, se tiene un vector (p×1) de medias experimentales X .

La variable
 2n  n( X  m )t C1 ( X  m )

tiene una distribución del chi cuadrado de n grados de libertad.


Caso multivariable:
regiones de confianza

Lo anterior permite definir una región de confianza para m:

Prob{n( X  m)t C1 ( X  m)  cn (a)}  1  a

donde cn(a) es el valor que tiene una probabilidad


a de ser superado por una variable del chi
cuadrado de n grados de libertad (se obtiene de
tablas de la distribución del chi cuadrado).

Por ejemplo, para p = 2 componentes, la región de


confianza es una elipse, centrada en X . Para p = 3
componentes, será un elipsoide.
Caso multivariable:
regiones de confianza

Observaciones

1) Los resultados son robustos frente a desviaciones pequeñas a moderadas de


la distribución Gaussiana, siempre que el número de datos (n) sea grande.
Esto se debe a que la media experimental X tiene una distribución
aproximadamente multigaussiana (teorema del límite central).

2) Si la matriz de varianza-covarianza C es desconocida, las ecuaciones se


modifican al reemplazar C por V (matriz de varianza-covarianza
experimental) y la distribución del chi cuadrado de n grados de libertad por
la T2de Hotelling de parámetros p y n–1. El valor que delimita la región de
n p 2
confianza se obtiene al plantear que la variable p ( n1) T tiene una
distribución de Fisher de p y n – p grados de libertad.
Lecturas recomendadas

Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.

Johnson, R., Wichern, D.W., 2002. Applied Multivariate Statistical Analysis.


Prentice-Hall, Upper Saddle River.

Lapin, L.L, 1990. Probability and Statistics for Modern Engineering. PWS-
Kent, Boston.

Montgomery, D.C., Runger, G.C., 1999. Applied Statistics and Probability for
Engineers. John Wiley and Sons, New York.

También podría gustarte