02 - Inferencia

Lección 2:
Inferencia estadística
Objetivos
A partir de las características (media, varianza, etc.) observadas en una

muestra, se desea conocer las mismas estadísticas para la población entera.
Las técnicas que permiten pasar de los valores observados en la muestra a los
parámetros desconocidos de la población pertenecen a la teoría de la
estimación. La operación intelectual que se hace en la estimación lleva el
nombre de “inferencia estadística”.
La estimación consiste en una elección / decisión en presencia de incertidumbre

(sólo se ha observado una muestra de la población), no es una deducción.
Objetivos
La problemática general es la siguiente:
• Se dispone de una muestra independiente (X1,... Xn) procedente de una variable

aleatoria X cuya distribución depende de un parámetro q desconocido (o,
quizás, de varios parámetros).
• Se busca un estadístico T = j(X1,... Xn) tal que el valor observado
qˆ  j( x1 ,... xn )
puede ser considerado una estimación de q. La variable aleatoria T se llama

estimador de q. La función j no debe depender analíticamente del parámetro
q a estimar.
Objetivos
Ejemplo
Sea X una variable aleatoria de media q desconocida
• T = X1 es un estimador de q
• T = X1 + 3 X2 es otro estimador de q
• T = X1 + X2 / q no es un estimador de q, pues depende de q
Ahora, acotaremos la definición del estimador al dar las propiedades interesantes

que debería tener en relación con el parámetro a estimar.
Propiedades de un estimador
Consistencia: la precisión de la estimación es cada vez mejor cuando el tamaño de

la muestra aumenta, o sea, T converge en probabilidad hacia q cuando n tiende a
infinito.
Ejemplo: si X tiene una esperanza m desconocida y una varianza finita, entonces el

valor promedio (media experimental) de la muestra es un estimador consistente de
la esperanza matemática m, acorde a la ley de los grandes números.
Más generalmente, el momento empírico de una muestra es un estimador

consistente del momento teórico de la variable aleatoria correspondiente. Esto da
lugar al método de estimación conocido como método de los momentos.
Insesgo: el sesgo de un estimador T se define como el valor esperado del “error”

T – q.
El estimador es insesgado si tiene un sesgo igual a cero. Significa que no se tiende

ni a sobre-estimar ni sub-estimar el parámetro desconocido.
Un estimador es asintóticamente insesgado si su sesgo tiende a 0 cuando el

tamaño de la muestra tiende a infinito. Un estimador consistente es
asintóticamente insesgado.
Ejemplos
• T = X1 es un estimador insesgado de la esperanza m
• T = X1 + 3 es un estimador sesgado de la esperanza m
1 n
• T   X i (media aritmética) es un estimador insesgado de m
n i 1
n
• T n 
i 1
Xi (media geométrica) es un estimador sesgado de m
• T = S2 (varianza empírica) es un estimador insesgado de la varianza s2
• T = S es un estimador sesgado de la desviación estándar s.

Optimalidad: además de la condición de insesgo, se suele buscar estimadores que

tienen la varianza mínima:
var(T )  var(T  q)
Esto corresponde a la intuición de maximizar la precisión, dado que la varianza

mide la amplitud que puede tener el error T – q.
Ejemplo: sea X variable aleatoria de esperanza m desconocida y varianza s2; sea

(X1,... Xn) una muestra de X
• T = X1 es un estimador insesgado de m; su varianza es s2
• T = (X1 + X2) / 2 es otro estimador insesgado de m; su varianza es s2 / 2
• T = X es un mejor estimador aún, puesto que su varianza es s2 / n

Suficiencia: sea X una variable aleatoria con una densidad de probabilidad

f(x,q) que depende de un parámetro desconocido q, (X1,... Xn) una muestra
independiente de X, T = j(X1,... Xn) un estimador de q cuya densidad de
probabilidad es g(t,q).
El estimador constituye un estadístico suficiente o exhaustivo para q si la

densidad de probabilidad de la muestra condicional a T no depende de q. En
otras palabras, T es un “resumen” exhaustivo de la información contenida en la
muestra, con respecto al parámetro q.
Ejemplo: sea X variable aleatoria Gaussiana de esperanza m desconocida y

varianza s2; sea (X1,... Xn) una muestra de X
• T = X1 no es un estadístico suficiente para m

(se pierde información al tomar solamente el primer individuo de la población
como estimador de la esperanza)
• T = mediana (X1,... Xn) tampoco es suficiente
• T = X sí es un estadístico suficiente para m
No siempre existe un estadístico suficiente para un parámetro q (sólo para algunos

tipos de distribuciones y algunos tipos de parámetros)
En resumen, para encontrar el “mejor” estimador posible de un parámetro q,

se debe buscar un estimador insesgado y suficiente (que no “desperdicia”
información).
Esta tarea no siempre se puede desarrollar analíticamente, por lo cual existen

enfoques alternativos:
• buscar un estimador que sea una combinación lineal de los valores de la

muestra (X1,... Xn) y que tenga la varianza más baja posible
• buscar un estimador por el método de los momentos
• buscar un estimador por el máximo de verosimilitud

• buscar un estimador por el método Bayesiano
• buscar un intervalo de confianza sobre el parámetro q

Intervalos de confianza
La estimación puntual consiste en tomar como valor de q el valor obtenido por el

estimador, planteando como modelo:
q  T ( x1 ,... xn )
 no toma en cuenta la incertidumbre en la estimación del parámetro (aunque el

estimador tenga varianza mínima, esta varianza no es 0)
 con otra muestra, se hubiese obtenido un valor distinto de q

En la práctica, es común buscar acotar el valor de q, definiendo dos límites y

precisando el grado de confianza en el intervalo entre estos límites
Las etapas para determinar un intervalo de confianza son las siguientes:
1) Elegir un estimador T del parámetro q
Es importante buscar un estimador que tenga una varianza pequeña. En

cambio, contrariamente a la estimación “puntual”, no es crucial que el
estimador sea insesgado.
2) Identificar la distribución de probabilidad del estimator g(t,q)
Para superar esta etapa, puede ser útil recurrir a la distribución asintótica
como aproximación de la distribución real.
3) Elegir un grado de confianza: 1 – a
4) Construir un intervalo de confianza sobre T, de medida 1 – a
Este intervalo puede o no ser simétrico. En esta etapa, se tendrá
Prob( t1 (q)  T  t 2 (q))  1  a
5) Despejar q y resolver la doble desigualdad
Prob(u1 (T )  q  u2 (T ))  1  a
6) Reemplazar T por su valor t0 en la muestra

Ejemplo 1: estimación de una media (población de varianza conocida)

Sea una variable X Gaussiana de esperanza m desconocida y de varianza s2
conocida.
La media de la muestra X es el estimador sin sesgo de varianza mínima. Se sabe

además que este estimador tiene una distribución normal:
X m
~ N (0,1)
s/ n
Considerando un grado de confianza de 95% (0.95), un intervalo simétrico en

torno a 0 para una N(0,1) es [-1.96;1.96]. Por lo tanto:
 X m 
Prob  1.96   1.96   0.95
 s/ n 
Si se despeja X , se obtiene (intervalo de probabilidad):
 s s 
Prob m  1.96  X  m  1.96   0.95
 n n
Si ahora se despeja m, se obtiene (intervalo de confianza):
 s s 
Prob X  1.96  m  X  1.96   0.95
 n n
Comentarios
• m aparece acotado en un intervalo cuyos límites son aleatorios. Se trata de un

intervalo de confianza para m.
• No se trata de un intervalo de probabilidad sobre m, puesto que m no es una

variable aleatoria (es un parámetro determinístico)
• La amplitud del intervalo depende de varios términos:
1) el factor 1.96 proviene del grado de confianza, fijado a 95%
2) el número de individuos n: cuando este número aumenta, el intervalo se

achica y la estimación se vuelve más precisa
3) el factor s/n1/2 se debe a la varianza del estimador: el intervalo de

confianza es más angosto cuando el estimador tiene poca varianza, por
lo cual es preferible buscar el estimador de varianza mínima
• Los resultados son robustos frente a desviaciones pequeñas a moderadas de la

distribución normal, siempre que el número de datos (n) sea grande. Esto se debe
a que la media experimental X tiene una distribución aproximadamente
Gaussiana (teorema del límite central).
Ejemplo 2: estimación de una media (población de varianza desconocida)

Sea ahora una variable X Gaussiana de esperanza m y varianza s2 desconocidas,
de la cual se tiene una muestra independiente (X1,... Xn). Denotemos como X y S2
la media y la varianza experimental de la muestra.
En este caso, se sabe que la variable
X m
Tn1  n
S
sigue una distribución de Student con n – 1 grados de libertad.

Considerando un grado de confianza de 1 – a, un intervalo simétrico en torno a 0

para una Student Tn-1 está dado por [-ta/2; ta/2], donde ta/2 viene dado por la tabla de
la distribución de Student.
 X m 
Por lo tanto: Prob  ta / 2   ta / 2   1  a
 S/ n 
y el intervalo de confianza sobre m es:
 S S 
Prob X  ta / 2  m  X  ta / 2   1 a
 n n
Con respecto al caso anterior (varianza de población conocida), basta con

reemplazar s por S y el valor de la normal por el valor de Student de n – 1
grados de libertad.
Caso multivariable:
regiones de confianza
Método de Bonferroni
Al tener varias variables (X1,… Xp), interesa definir intervalos de confianza

simultánea sobre las esperanzas de estas variables. Supongamos que, para cada
variable Xi, se tiene un intervalo de confianza 1 – a sobre su esperanza mi:
Probu1 ( X i )  m i  u2 ( X i )   1  a
Entonces, usando la desigualdad de Boole:
 p  p
Prob  u1 ( X i )  m i  u2 ( X i )   1  {1  Probu1 ( X i )  m i  u2 ( X i ) }  1  pa
 i 1  i 1
Caso multivariable:
La región rectangular de Rp definida por el producto de los intervalos de

confianza de cada variable Xi, tiene una confianza superior a 1 – pa para la
estimación conjunta de las esperanza m1,… mp. Para asegurar una confianza
conjunta de 1 – a, basta con utilizar intervalos de confianza 1 – a/p para cada
variable.
El método de Bonferroni puede ser aplicado cualquiera sea la estructura de

dependencia entre las variables. Se trata además de un método conservador,
pues la confianza obtenida puede ser mayor a 1 – a.
Caso multivariable:
Método de Sidák
Al suponer que las variables (X1,… Xp) son independientes, se puede refinar el
método de Bonferroni. Para asegurar una confianza conjunta de 1 – a, basta con
utilizar intervalos de confianza (1 – a)1/p para cada variable.
Por ejemplo, para p = 2 variables y a = 0.05, se tiene: (1 – a)1/p ≈ 0.975.
En el caso general, (1 – a)1/p ≤ 1 – a/p: el método de Sidák es menos exigente

que el de Bonferroni.
Caso multivariable:
Caso particular: esperanza de un vector Gaussiano
Sea X una variable Gaussiana vectorial con p componentes, de esperanza m

desconocida y matriz de varianza-covarianza C conocida. A partir de una
muestra de tamaño n, se tiene un vector (p×1) de medias experimentales X .
La variable
 2n  n( X  m )t C1 ( X  m )
tiene una distribución del chi cuadrado de n grados de libertad.

Caso multivariable:
Lo anterior permite definir una región de confianza para m:
Prob{n( X  m)t C1 ( X  m)  cn (a)}  1  a
donde cn(a) es el valor que tiene una probabilidad

a de ser superado por una variable del chi
cuadrado de n grados de libertad (se obtiene de
tablas de la distribución del chi cuadrado).
Por ejemplo, para p = 2 componentes, la región de

confianza es una elipse, centrada en X . Para p = 3
componentes, será un elipsoide.
Caso multivariable:
Observaciones
1) Los resultados son robustos frente a desviaciones pequeñas a moderadas de

la distribución Gaussiana, siempre que el número de datos (n) sea grande.
Esto se debe a que la media experimental X tiene una distribución
aproximadamente multigaussiana (teorema del límite central).
2) Si la matriz de varianza-covarianza C es desconocida, las ecuaciones se

modifican al reemplazar C por V (matriz de varianza-covarianza
experimental) y la distribución del chi cuadrado de n grados de libertad por
la T2de Hotelling de parámetros p y n–1. El valor que delimita la región de
n p 2
confianza se obtiene al plantear que la variable p ( n1) T tiene una
distribución de Fisher de p y n – p grados de libertad.
Lecturas recomendadas
Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.
Johnson, R., Wichern, D.W., 2002. Applied Multivariate Statistical Analysis.

Prentice-Hall, Upper Saddle River.
Lapin, L.L, 1990. Probability and Statistics for Modern Engineering. PWS-
Kent, Boston.
Montgomery, D.C., Runger, G.C., 1999. Applied Statistics and Probability for
Engineers. John Wiley and Sons, New York.

02 - Inferencia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

02 - Inferencia

Cargado por

Copyright:

Formatos disponibles

Lección 2:

A partir de las características (media, varianza, etc.) observadas en una

La estimación consiste en una elección / decisión en presencia de incertidumbre

La problemática general es la siguiente:

• Se dispone de una muestra independiente (X1,... Xn) procedente de una variable

• Se busca un estadístico T = j(X1,... Xn) tal que el valor observado

puede ser considerado una estimación de q. La variable aleatoria T se llama

Sea X una variable aleatoria de media q desconocida

• T = X1 + X2 / q no es un estimador de q, pues depende de q

Ahora, acotaremos la definición del estimador al dar las propiedades interesantes

Consistencia: la precisión de la estimación es cada vez mejor cuando el tamaño de

Ejemplo: si X tiene una esperanza m desconocida y una varianza finita, entonces el

Más generalmente, el momento empírico de una muestra es un estimador

Insesgo: el sesgo de un estimador T se define como el valor esperado del “error”

El estimador es insesgado si tiene un sesgo igual a cero. Significa que no se tiende

Un estimador es asintóticamente insesgado si su sesgo tiende a 0 cuando el

• T = X1 es un estimador insesgado de la esperanza m

• T = X1 + 3 es un estimador sesgado de la esperanza m

• T = S2 (varianza empírica) es un estimador insesgado de la varianza s2

• T = S es un estimador sesgado de la desviación estándar s.

Optimalidad: además de la condición de insesgo, se suele buscar estimadores que

Esto corresponde a la intuición de maximizar la precisión, dado que la varianza

Ejemplo: sea X variable aleatoria de esperanza m desconocida y varianza s2; sea

• T = X1 es un estimador insesgado de m; su varianza es s2

• T = (X1 + X2) / 2 es otro estimador insesgado de m; su varianza es s2 / 2

• T = X es un mejor estimador aún, puesto que su varianza es s2 / n

Suficiencia: sea X una variable aleatoria con una densidad de probabilidad

El estimador constituye un estadístico suficiente o exhaustivo para q si la

Ejemplo: sea X variable aleatoria Gaussiana de esperanza m desconocida y

• T = X1 no es un estadístico suficiente para m

• T = mediana (X1,... Xn) tampoco es suficiente

• T = X sí es un estadístico suficiente para m

No siempre existe un estadístico suficiente para un parámetro q (sólo para algunos

En resumen, para encontrar el “mejor” estimador posible de un parámetro q,

Esta tarea no siempre se puede desarrollar analíticamente, por lo cual existen

• buscar un estimador que sea una combinación lineal de los valores de la

• buscar un estimador por el método de los momentos

• buscar un estimador por el máximo de verosimilitud

• buscar un intervalo de confianza sobre el parámetro q

La estimación puntual consiste en tomar como valor de q el valor obtenido por el

 no toma en cuenta la incertidumbre en la estimación del parámetro (aunque el

 con otra muestra, se hubiese obtenido un valor distinto de q

En la práctica, es común buscar acotar el valor de q, definiendo dos límites y

Las etapas para determinar un intervalo de confianza son las siguientes:

1) Elegir un estimador T del parámetro q

Es importante buscar un estimador que tenga una varianza pequeña. En

2) Identificar la distribución de probabilidad del estimator g(t,q)

3) Elegir un grado de confianza: 1 – a

4) Construir un intervalo de confianza sobre T, de medida 1 – a

Este intervalo puede o no ser simétrico. En esta etapa, se tendrá

Prob( t1 (q)  T  t 2 (q))  1  a

5) Despejar q y resolver la doble desigualdad

6) Reemplazar T por su valor t0 en la muestra

Ejemplo 1: estimación de una media (población de varianza conocida)

La media de la muestra X es el estimador sin sesgo de varianza mínima. Se sabe

Considerando un grado de confianza de 95% (0.95), un intervalo simétrico en

Si se despeja X , se obtiene (intervalo de probabilidad):

Si ahora se despeja m, se obtiene (intervalo de confianza):

• m aparece acotado en un intervalo cuyos límites son aleatorios. Se trata de un

• No se trata de un intervalo de probabilidad sobre m, puesto que m no es una

• La amplitud del intervalo depende de varios términos:

1) el factor 1.96 proviene del grado de confianza, fijado a 95%

2) el número de individuos n: cuando este número aumenta, el intervalo se