Está en la página 1de 50

13.

MUESTREO Y ESTIMACIÓN

MUESTREO

Muestra Aleatoria de tamaño n es una colección de n variables aleatorias, todas con


la misma distribución y todas independientes. La colección de donde extraemos la
muestra aleatoria, se denomina Población. Nuestra intención al tomar una muestra, es
la de hacer Inferencia. Este término lo usamos en estadística para denotar al
procedimiento con el que hacemos afirmaciones acerca de valores generales de la
población mediante los números que observamos en la muestra.

A un valor calculado con los datos de una muestra es el Estadístico. Al valor del
parámetro en la población es el Estimador. Y es Estimador Puntual cuando se
estima el parámetro poblacional a partir de un valor único).

Características probabilísticas de un estimador. Cuando se tiene una fórmula para


estimar y se aplica a una muestra aleatoria, el resultado es aleatorio, es decir los
estimadores son variables aleatorias. Por ejemplo si se recibe un embarque de objetos
que pueden estar listos para usarse ó defectuosos. Podemos seleccionar, al azar,
algunos de ellos para darnos una idea de la proporción de defectuosos en el
embarque. El parámetro de interés es la proporción de defectuosos en toda la
población, pero lo que observamos es la proporción de defectuosos en la muestra.

Valor esperado de un estimador y sesgo. El valor esperado de un estimador nos da


un valor alrededor del cual es muy probable que se encuentre el valor del estimador.
Para poner un ejemplo, si supiéramos que el valor esperado de un estadístico es 4,
esto significaría que al tomar una muestra: No creemos que el valor de la estadística
vaya a ser 4, pero tampoco creemos que el valor de la estadística vaya a estar lejos de
4.

Ya que es muy probable que el valor del estimador esté cerca de su valor esperado,
una propiedad muy deseable es que ese valor esperado del estimador coincida con el
del parámetro que se pretende estimar. Al menos, quisiéramos que el valor esperado
no difiera mucho del parámetro estimado. Por esa razón es importante la cantidad
que, técnicamente llamamos sesgo.

Convención, para efectos del estudio de ahora en adelante se presentan la siguiente


convención,  y ˆ representan, el parámetro que estamos midiendo y el valor
obtenido en la medida o muestreado, respectivamente

1
El sesgo es la diferencia entre el valor esperado del estimador y el parámetro que
estima. E x    , Sesgo  E ()  ˆ

Si el sesgo 0, se dice que el estimador es insesgado y ésta es una característica buena


para un estimador. Un estimador que es insesgado tiene una alta probabilidad de
tomar un valor cercano al valor del parámetro.

Varianza de un estimador. Otra propiedad importante de un estimador es su


varianza. La importancia de la desviación estándar es que nos permite darle un
sentido numérico a la cercanía del valor del estimador a su valor esperado. Entre
menor sea la desviación estándar de un estimador, será más probable que su valor en
una muestra específica se encuentre mas cerca del valor esperado.

Para aclarar esto, considere dos estimadores T1 y T2, suponga que ambos son
insesgados y suponga que la varianza de T 1 es menor que la de T2, lo cual quiere decir
que los valores de T1 son más probables que los de T2. O sea que vamos a encontrar a
T1 más cerca del valor del parámetro que a T2. Esto hace que nuestras preferencias
estén con T1.

Cuando un estimador tiene una varianza menor que otro decimos que el estimador es
más eficiente.

La distribución de probabilidad de un estadístico. Quizá el resultado más


importante para la estadística es el Teorema del Límite Central. Este resultado nos
indica que, para el estadístico promedio de la muestra

- el valor esperado es la media de la población.


- la varianza es igual a la de la población dividida por el número de elementos de la
muestra.
- la distribución de probabilidad es la normal.

Este teorema es muy importante porque permite calcular probabilidades acerca de


dónde se encuentra el valor promedio muestra. Es sólo cuestión de usar la tabla
normal teniendo cuidado al estandarizar de usar la desviación estándar adecuada que
es la de la población dividida por la raíz cuadrada del número de elementos de la
muestra.

Estimación del error de una medida directa. La estimación del error de una
medida tiene siempre una componente subjetiva. En efecto, nadie mejor que un
observador experimentado para saber con buena aproximación cuál es el grado de
confianza que le merece la medida que acaba de tomar. No existe un conjunto de

2
reglas bien fundadas e inalterables que permitan determinar el error de una medida en
todos los casos imaginables.

Muchas veces es tan importante consignar cómo se ha obtenido un error como su


propio valor. Sin embargo, la aplicación de algunos métodos estadísticos permite
objetivar en gran medida la estimación de errores aleatorios. La estadística permite
obtener los parámetros de una población (en este caso el conjunto de todas las
medidas que es posible tomar de una magnitud), a partir de una muestra (el número
limitado de medidas que podemos tomar).

Mejor valor de un conjunto de medidas. Supongamos que medimos una magnitud


un número n de veces. Debido a la existencia de errores aleatorios, las n medidas
 x 1, x 2 ,..., x n  serán en general diferentes. El método más razonable para determinar
el mejor valor de estas medidas es tomar el valor medio. En efecto, si los errores son
debidos al azar, tan probable es que ocurran por defecto como por exceso, y al hacer
la media se compensarán, por lo menos parcialmente, y este es el valor que deberá
darse como resultado de las medidas.
1

n
x x
i 1 i
n

Tipos de estimación estadística. Un problema importante de la inferencia estadística


es la estimación de parámetros de la población, brevemente parámetros (tales como la
media y la variación de la población), de los correspondientes estadísticos muéstrales,
o simplemente estadísticos (tales como la media y la variación de la muestra).

Estimaciones sin sesgo. Si la media de las dispersiones de muestreo con un


estadístico es igual que la del correspondiente parámetro de la población, el
estadístico se llamara estimador sin sesgo o insesgado del parámetro; si no, si no se
llama estimador sesgado. Los correspondientes valores de tal estadístico se llaman
estimación sin sesgo, y estimación con sesgo respectivamente.

Ejemplo, la media de las distribuciones de muestreo de medias μ x o  , media de la


población. Por lo tanto, la media muestral es una estimación sin sesgo de la media de
la población.

Ejemplo, las medias de las distribuciones de muestreo de las variables son


n 1 2
 s2  
n
En donde, s 2 sea una estimación sin sesgo, sin embargo, s es una estimación
sesgada, pues, en términos del valor esperado es insesgado
E (X)   E (S 2 )   2

3
Estimación Eficiente. Si las distribuciones de muestreo de dos estadísticos tienen la
misma media (o esperanza), el de menor varianza se llama un estimador eficiente de
la media, mientras que el otro se llama un estimador ineficiente, respectivamente. Si
consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tiene la
misma media, aquel de varianza mínima se llama a veces, el estimador de máxima
eficiencia, ósea el mejor estimador.

Ejemplo, Las distribuciones de muestreo de media y mediana tienen ambas la misma


media, a saber, la media de la población. Sin embargo, la varianza de la distribución
de muestreo de medias es menor que la varianza de la distribución de muestreo de
medianas. Por tanto, la media muestral da una estimación eficiente de la media de la
población, mientras la mediana de la muestra da una estimación ineficiente de ella.

De todos los estadísticos que estiman la media de la población, la media muestral


proporciona la mejor (la más eficiente) estimación. En la práctica, estimaciones
ineficientes se usan con frecuencia a causa de la relativa sencillez con que se obtienen
algunas de ellas. Estimaciones de punto y estimaciones de intervalo, su fiabilidad,
una estimación de un parámetro de la población dada por un solo número se llama
una estimación de punto del parámetro. Una estimación de un parámetro de la
población dada por dos puntos, entre los cuales se pueden considerar encajado al
parámetro, se llama una estimación del intervalo del parámetro. Las estimaciones de
intervalo que indican la precisión de una estimación y son por tanto preferibles a las
estimaciones de punto

La Inferencia Estadística comprende los métodos que son usados para sacar
conclusiones de la población en base a una muestra tomada de ella. Incluye los
métodos de estimación de parámetros y las pruebas de hipótesis.

La Estimación de parámetros comprende a su vez la Estimación Puntual, en donde


se estudian los diversos métodos de encontrar estimadores y las propiedades óptimas
que deben tener éstos, y la Estimación por Intervalos de Confianza, en donde se
estima un parámetro usando un intervalo centrado en un estimado del parámetro y de
longitud igual a dos veces el error de estimación. El Error de estimación depende del
nivel de confianza deseado, usualmente, 90, 95 ó 99 por ciento.

En este texto solamente se tratará el cálculo de intervalos de confianza. Los diversos


métodos de encontrar estimadores y, las propiedades de estimadores óptimos son
discutidos en un curso de Estadística Matemática.

Una Hipótesis Estadística es una afirmación que se hace acerca de un parámetro


poblacional. La afirmación que está establecida y que se espera sea rechazada
después de aplicar una prueba estadística es llamada la hipótesis nula y se

4
representa por Ho. La afirmación que se espera sea aceptada después de aplicar una
prueba estadística es llamada la hipótesis alterna y se representa por Ha.

Una prueba estadística es una fórmula, basada en la distribución del estimador del
parámetro que aparece en la hipótesis y que va a permitir tomar una decisión acerca
de aceptar o rechazar una hipótesis nula.

Al igual que una prueba de laboratorio para detectar cierta enfermedad, una prueba
estadística no es ciento por ciento segura y puede llevar a una conclusión errónea.
Hay dos tipos de errores que pueden ocurrir. El error tipo I, que se comete cuando se
rechaza una hipótesis nula que realmente es cierta y el error tipo II que se comete
cuando se acepta una hipótesis nula que realmente es falsa.

El nivel de significación, representada por , es la probabilidad de cometer error tipo


I, y por lo general se asume que tiene un valor de 0.05 ó 0.01.También puede ser
interpretado como el área de la región que contiene todos los valores posibles donde
la hipótesis nula es rechazada.

La probabilidad de cometer error tipo II, se representa por  y al valor 1- se le llama
la potencia de la prueba. Una buena prueba estadística es aquella que tiene una
potencia alta. En este capítulo, primero se discutirá el cálculo de intervalos de
confianza y pruebas de hipótesis para la media poblacional, para una proporción y
finalmente para la varianza de una población. Luego se tratará los intervalos de
confianza y prueba de hipótesis para la razón de dos varianzas poblacionales, para la
diferencia de dos medias poblacionales y por último para la diferencia de dos
proporciones.

Estimaciones de Intervalos de Confianza para parámetros de población. Sean


 s y  s la media y la desviación típica (error típico) de la distribución de muestreo
de un estadístico S. Entonces, si la distribución de muestreo de s es aproximadamente
normal (que como hemos visto es cierto para muchos estadísticos si el tamaño de la
muestra es N  , entonces, podemos esperar hallar un estadístico muestral real S
que esté en el intervalo   s   s ,    s  ,   s  2 s ,   2 s  ,   s  3 s ,   3 s 
en un 68.27%, 95.45% y 99.70 %, respectivamente.

En la tabla siguiente, se muestran los niveles de confianza usados en la práctica. Para


niveles de confianza que no aparecen en la tabla, los valores Z c se pueden encontrar
gracias a las tablas de áreas bajo la curva Normal.

Nivel de
confianza 99.70 99.00 98.00 96.00 95.45 95.00 90.00
% 80.00 68.27 50.00

5
Zc 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28
1.00 0.6745

Intervalos de confianza para la media. Si el estadístico es de la media de X de la


muestra, entonces los limites de confianza  1.9 x y  2.58 x ,
respectivamente. Si el muestreo de la población es infinita por lo tanto viene dado por

X  Z
N

Ejemplo. Halar los límites de confianza de 98% y 90%. Lo anterior tiene la solución,
sea Z =Z tal que, al área bajo la curva Normal a la derecha sea 1%, entonces, por
simetría el área del lado izquierdo de Z=-Z . como el área total bajo la curva es 1,

Z=0.49 por tanto, Z=2.33, luego el limite de confianza para el 98% es,  2.33
n

Generalmente, la desviación típica de la población no es conocida. Así pues, para


obtener los limites usamos la estimación s o S es satisfactorio si N  30, si a
aproximación es pobre y debe de empleare la teoría de pequeñas muestras.

Cálculo del tamaño de la muestra. A la hora de determinar el tamaño que debe


alcanzar una muestra hay que tomar en cuenta varios factores, el tipo de muestreo, el
parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de
confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño
muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto
una estimación de los parámetros.

Error Muestral. Es la diferencia entre un estadístico y su parámetro correspondiente.


Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al
valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad
una estimación basada en una muestra se aleja del valor que se hubiera obtenido por
medio de un censo completo. Siempre se comete un error, pero la naturaleza de la
investigación nos indicará hasta qué medida podemos cometerlo (los resultados se
someten a error muestral e intervalos de confianza que varían muestra a muestra).
Varía según se calcule al principio o al final. Un estadístico será más preciso en
cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la
distribución muestral de un estadístico y su fiabilidad.

6
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la
realidad. Cualquier información que queremos recoger está distribuida según una ley
de probabilidad, así llamamos nivel de confianza a la probabilidad de que el intervalo
construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es


menor y el número de entrevistas necesarias para construir un modelo reducido del
universo, o de la población, será más pequeño. Generalmente es un valor desconocido
y hay que estimarlo a partir de datos de estudios previos.

Tamaño de muestra para estimar la media de la población. Veamos los pasos


necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio
simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de
confianza al que queremos trabajar; en segundo lugar, cual es el error máximo que
estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:

Obtener el tamaño muestral imaginando que n   , siendo Z  / 2 el Z con el valor


del nivel de confianza elegido,  2 varianza poblacional y e el error máximo
Z2 2
n   / 22 o aplicar
e
n
n
1   n  / n

Para obtener el tamaño de la muestra si hay grandes diferencias en el tamaño muestral


o hay escasez de información

Ejemplo, Una población a encuestar tiene 10000 personas y una varianza de 9.648.
Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error
máximo del 10%, ¿cuál debe ser el tamaño muestral para trabajar?
En las tablas de la curva Normal el valor de Z α / 2 que corresponde con el nivel de
confianza elegido, Z  / 2  1.96
n   1.96 2  9.648 / 0.12  3.706

Comprobamos que no se cumple, pues en este caso 10.000 < 3.706 (3.706 - 1);
10.000 < 13.730.730, por tanto, usamos
n   3.706 /(1  (3.706 / 10.000))  2.704

Tamaño de muestra para estimar la proporción de la población. Para calcular el


tamaño de muestra para la estimación de proporciones poblaciones hemos de tener en
cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirá
determinar el tamaño muestral es la siguiente,

7
N  Z 2 / 2  P  (1  P)
n
( N  1)  e 2  Z 2 / 2  P  (1  P)

Donde, Z  / 2 correspondiente al Z con el nivel de confianza elegido, P es la


proporción de una categoría de la variable, e es el error máximo, y N es el tamaño de
la población.

Una parte fundamental para realizar un estudio estadístico de cualquier tipo es


obtener unos resultados confiables y que puedan ser aplicables. Como ya se comentó
anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios
sobre toda una población, por lo que la solución es llevar a cabo el estudio basándose
en un subconjunto de ésta denominada muestra. Sin embargo, para que los estudios
tengan la validez y confiabilidad buscada es necesario que tal subconjunto de datos, o
muestra, posea algunas características específicas que permitan, al final, generalizar
los resultados hacia la población en total.

Esas características tienen que ver principalmente con el tamaño de la muestra y con
la manera de obtenerla. El muestro, implica algo de incertidumbre que debe ser
aceptada para poder realizar el trabajo, pues aparte de que estudiar una población
resulta ser un trabajo en ocasiones demasiado grande, por tanto, se ofrecen las
siguientes razones extras:

- Recursos limitados. Es decir, no existen los recursos humanos, materiales o


económicos para realizar el estudio sobre el total de la población. Es como cuando
se compra un aparato, un automóvil usado (por ejemplo), que se prueba unos
minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y
luego se adquiere, pero no se espera a probarlo toda la vida (encendiéndolo y
apagándolo o, simplemente, dejándolo encendida) antes de realizar la adquisición.

- Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el
estudio paleontológico de los dinosaurios sería muy bueno contar con, al menos,
muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta
sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas
criaturas en todo el mundo.

- Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la


población llevaría a la destrucción misma de la población.

- El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre
la población total puede causar errores por su tamaño o, en el caso de los censos,
que sea necesario utilizar personal no lo suficientemente capacitado; mientras que,

8
por otro lado, el estudio sobre una muestra podría ser realizada con menos
personal pero más capacitado.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
- El porcentaje de confianza con el cual se quiere generalizar los datos desde la
muestra hacia la población total.
- El porcentaje de error que se pretende aceptar al momento de hacer la
generalización.
- El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe


para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del
100% equivale a decir que no existe ninguna duda para generalizar tales resultados,
pero también implica estudiar a la totalidad de los casos de la población. Para evitar
un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prácticamente imposible el estudio de todos los casos, entonces se busca un
porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca
un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una


hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis
verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere
eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del
mismo tamaño que la población, por lo que conviene correr un cierto riesgo de
equivocarse. Comúnmente se aceptan entre el 4% y el 6% como error, tomando en
cuenta de que no son complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la


hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo
previo a la investigación actual. El porcentaje con que se aceptó tal hipótesis se
denomina variabilidad positiva y se denota por p, y el porcentaje con el que se
rechazó se la hipótesis es la variabilidad negativa, denotada por q. Hay que
considerar que p y q son complementarios, es decir, que su suma es igual a la unidad:
p+q=1. Además, cuando se habla de la máxima variabilidad, en el caso de no existir
antecedentes sobre la investigación (no hay otras o no se pudo aplicar una prueba
previa), entonces los valores de variabilidad es p=q=0.5.

Una vez que se han determinado estos tres factores, entonces se puede calcular el
tamaño de la muestra como a continuación se expone. Hablando de una población de
alrededor de 10,000 casos, o mínimamente esa cantidad, podemos pensar en la
manera de calcular el tamaño de la muestra a través de las siguientes fórmulas. Hay
que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en

9
instrumentos que no incluyan preguntas abiertas y que sean un total de alrededor de
30.

Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que
no se conozca con precisión el tamaño de la población, y es:
z 2 pq
n 2
e

Donde, n es el tamaño de la muestra; z es el nivel de confianza; p es la variabilidad


positiva; q es la variabilidad negativa; y e es la precisión o error.

Ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que


considerar la proporción correspondiente, que es 0.95. Lo que se buscaría en seguida
es el valor z para la variable aleatoria z tal que el área simétrica bajo la curva normal
desde -z hasta z sea igual a 0.95, es decir, P(-z<Z<z)=0.95.

Utilizando las tablas de la función de distribución Normal se puede calcular el valor


de z, que sería 1.96 (con una aproximación a dos decimales). Esto quiere decir que
P(-1.96<Z<1.96)=0.95.

En el caso de que sí se conozca el tamaño de la población entonces se aplica


z 2 pqN
n
Ne 2  z 2 pq

Donde, n es el tamaño de la muestra; z es el nivel de confianza; p es la variabilidad


positiva; q es la variabilidad negativa; y e es la precisión o error.

Ejemplo: Un Colegio desea realizar una investigación sobre los alumnos inscritos en
primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a
una muestra, pues los recursos económicos y el tiempo para procesar la información
resultaría insuficiente en el caso de aplicársele a la población estudiantil completa. En
primera instancia, suponiendo que no se conoce el tamaño exacto de la población,
pero con la seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la
primera fórmula.

Se considerará una confianza del 95%, un porcentaje de error del 5% y la máxima


variabilidad por no existir antecedentes en la institución sobre la investigación y
porque no se puede aplicar una prueba previa. Primero habrá que obtener el valor de
Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal que P(-
z<Z<z)=0.95. Entonces, z=1.96. Resultando, n=384.16

10
Las técnicas de muestreo probabilística son aquellas en las que se determina al azar
los individuos que constituirán la muestra. Estas técnicas nos sirven cuando se desean
generalizar los resultados que se obtienen a partir de la muestra hacia toda la
población. Lo anterior se dice dado que se supone que el proceso aleatorio permitirá
la obtención de una muestra representativa de la población.

Los muestreos probabilísticas pueden ser con o sin reemplazo. Los muestreos con
reemplazo son aquellos en los que una vez que ha sido seleccionado un individuo (y
estudiado) se le toma en cuenta nuevamente al elegir el siguiente individuo a ser
estudiado. En este caso cada una de las observaciones permanece independiente de
las demás, pero con poblaciones pequeñas tal procedimiento debe ser considerado
ante la posibilidad de repetir observaciones. En el caso de poblaciones grandes no
importa tal proceder, pues no afecta sustancialmente una repetición a las frecuencias
relativas.

Los muestreos sin reemplazo son los que una vez que se ha tomado en cuenta un
individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta
nuevamente. En este caso, y hablando específicamente para el caso de poblaciones
pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta
nuevamente el individuo se altera la probabilidad para la selección de otro individuo
de la población. Para el caso de las poblaciones grandes (por ejemplo la población de
un país) dicha probabilidad para la selección de un individuo se mantiene
prácticamente igual, por lo que se puede decir que existe independencia en las
observaciones.

Las técnicas de muestreo probabilística que mencionaremos serán básicamente tres:


el aleatorio simple, el aleatorio estratificado y el sistemático.

- Muestreo aleatorio simple. Podemos aquí mencionar que para el caso de que se
estuviese estudiando un propoción dentro de la población (una elección de
candidato, la aceptación o rechazo de una propuesta en una comunidad, la
presencia o ausencia de una característica hereditaria), y el en caso de un muestreo
aleatorio simple, la estimación que se puede hacer de la proporción buscada a
partir de la proporción hallada en la muestra se obtiene mediante la construcción
de un intervalo de confianza:
 = P ± tolerancia de la muestra

Donde  es la proporción buscada en la población y P es la proporción presente en la


muestra. Por otro lado, la tolerancia de la muestra está relacionada directamente con
el nivel de confianza y se obtiene a partir de la distribución normal al igual que como
se obtuvo para el cálculo del tamaño de las muestras. La representaremos con z para
obtener,

11
pq
Pz
n

- Muestras aleatorias. Para que las conclusiones de la teoría del muestreo y de la


inferencia estadística sean validas, las muestras deben escogerse representativas de
la población. El análisis de los métodos de muestreo y problemas relacionados se
llaman el diseño del experimento.

- Muestras no aleatorias. Cuando el método de extracción de las muestras no


asegure a cada individuo de la población o del estrato, igual probabilidad de ser
elegido, entonces la muestra obtenida no es aleatoria. A veces, esto se hace por
razones de practicidad en el sentido del costo o del tiempo. Si se desea tomar una
muestra probabilística de la población argentina no parece razonable usar a cada
individuo como unidad de muestreo. Lo mismo cuando se desea hacer un
muestreo a los escolares de una provincia, es muy difícil empadronar a todos
primero para luego sortear, y se tardaría demasiado para ubicarlos uno por uno
hasta terminar el trabajo.

- En el muestreo de etapas múltiples se utiliza para el caso de grandes poblaciones


humanas. Acá, la unidad de muestreo en la primera etapa son los departamentos de
cada provincia. Se los lista y se hace un primer sorteo para la selección. En una
segunda etapa se distingue la población rural de la urbana, subdividiendo en
fracciones (diferentes superficies con densidad de población semejante). Otra vez
se sortea para elegir, y se continúa con otra división en radios dentro de las
fracciones, segmentos dentro de radios, y así sucesivamente. La razón es repartir
equitativamente el trabajo del encuestador.

- En el muestreo por conglomerados se eligen conjuntos donde naturalmente se


agrupan los individuos. Es, por ejemplo, el caso de las escuelas para hacer un
muestreo alumnos en el sistema educativo, o las facultades para los universitarios.
Si se trata de estudiar las condiciones laborales de los empleados de comercio que
trabajan en supermercados, primero se empadronan a los lugares naturales de
trabajo (supermercados), y luego se sortea entre estos conglomerados para elegir a
uno. Luego se entrevista a todos los empleados del supermercado elegido, y se
acepta esto como una muestra representativa del sector.

- El muestreo sistemático se usa para el caso de sucesiones de elementos. Por


ejemplo, el caso de las historias clínicas de pacientes, certificados de nacimiento,
tarjetas de catálogo en una biblioteca, etc. Son los casos donde la información está
en archivos y hay que trabajar con estos para obtenerlas. Se elige una cifra entera,
razonable, tomando en cuenta el tamaño de la muestra y el de la población. Por
ejemplo, hay que tomar una muestra de tamaño 25 de un archivo que contiene 488

12
fichas; luego, el cociente entre población y muestra es 488 /25, aproximadamente
19. Notar que si se elige 20 el tamaño muestral no llega a 25. Entonces, se cuentan
las fichas y a llegar a la décimo novena se la extrae, se sigue hasta la número 38
que será la segunda escogida, y así sucesivamente hasta tener las 25 fichas
necesarias. Es también el caso de los soldados que se numeran de 1 en adelante y
cada 5 (u otro número cualquiera) dan un paso al frente. Es un método sencillo y
rápido de selección.

a. Números Aleatorios. Una forma para obtener una muestra representativa es


mediante el muestreo aleatorio, de acuerdo con el cual, cada miembro de la
población tiene la misma probabilidad de ser incluido en la muestra. Un método
para lograrlo es asignarle a cada uno un número, escribir cada número en una
papeleta, y realizar en una urna un soporte justo en ella. Un método alternativo
consiste en recurrir una tabla de números aleatorios.

b. Sistemático. Es análogo al anterior, aunque resulta más cómoda la elección de los


elementos. Si hemos de elegir 40 elementos de un grupo de 600, se comienza por
calcular el cociente 600/40 que nos dice que existen 40 grupos de 15 elementos
entre los 600. Se elige un elemento de salida entre los 15 primeros, y suponiendo
que sea el k-ésimo, el resto de los elementos serán los k-ésimos de cada grupo. En
concreto, si el elemento de partida es el número 6, los restantes serán los que
tengan los números: 15+6 ,2x15+6,......,39x15+6

Este procedimiento simplifica enormemente la elección de elementos, pero puede


dar al traste con la representatividad de la muestra, cuando los elementos se hayan
numerados por algún criterio concreto, y los k-ésimos tienen todos una
determinada característica, que haga conformarse una muestra no representativa.

c. Estratificado. A veces nos interesa, cuando las poblaciones son muy grandes,
dividir éstas en sub-poblaciones o estratos, sin elementos comunes, y que cubran
toda la población. Una vez hecho esto podemos elegir, por muestreo aleatorio
simple, de cada estrato, un número de elementos igual o proporcional al tamaño
del estrato. Este procedimiento tiene la gran ventaja de que se puede obtener una
mayor precisión en poblaciones no homogéneas (aunque en este curso no
estudiaremos los métodos necesarios) Si decidiéramos hacer una encuesta sobre la
incidencia del tabaco en nuestro centro, podríamos razonar de la siguiente forma:

MUESTRA CON Y SIN REPOSICION

Si sacamos el número de una urna, podemos volverlos en ella o no, antes de la


siguiente extracción. En el primer caso, ese número puede salir de nuevo más veces,
mientras que en el segundo pueda salir cada número una vez. Estos dos tipos de
muestras se llaman, respectivamente, Muestras con reposición y muestra sin

13
reposición. Las poblaciones son finitas o infinitas. Si por ejemplo, sacamos 10 bolas
sucesivamente, sin reposición, de una urna que contiene 100 bolas, estamos tomando
muestra de población finita; mientras que si lanzamos 50 veces una moneda contamos
el número de caras, estamos ante una muestra población infinita. Una población finita
en la que se efectúa muestra con reposición, puede considerarse infinita teóricamente,
ya que puede tomar cualquier número de muestras sin agotarla. Para muchos efectos
prácticos, una población muy grande se puede considerar como si fuera infinita.

PEQUEÑAS MUESTRAS

En este capítulo se presentan tres nuevos modelos estadísticos: el llamado t-Student,


el modelo de la Chi-cuadrado χ2 y el modelo F-Fisher. Los tres no requieren ya más
del supuesto de un tamaño muestral grande. Ahora con dos o más mediciones se
puede trabajar; por eso se usa la expresión Teoría de pequeñas muestras para este
tema. El empleo de cualquiera de ellos es enteramente similar al visto en el capítulo
anterior. Cambia la manera de calcular el estadígrafo de comparación y su respectiva
tabla de valores críticos de la distribución muestral.

Mientras que el modelo de la t se aplica a medias y proporciones, los dos últimos se


usan para el estudio de las desviaciones o dispersiones. También se la llama Teoría
Exacta del Muestreo, pues ahora no hay que efectuar la aproximación σ² ya que el
valor muestral viene en la fórmula de cálculo del estadígrafo de comparación, en
lugar del poblacional. Eso hace que no sea necesario efectuar una estimación y se
tiene una mayor exactitud que con la gaussiana. Es importante destacar que los tres
modelos son válidos tanto para pequeñas como para grandes muestras. Esto amplía el
campo de aplicación del modelo de Gauss. Además, al no tener que hacer tantas
pruebas disminuye el costo y se gana en tiempo. Todas estas ventajas tienen una
contrapartida: se pierde un poco de precisión pues, como se verá, el intervalo de
confianza se hace más grande para un mismo caso.

El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer
conclusiones acerca de la naturaleza de una población. Al ser la población grande y
no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones
obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos
lleva, en primer lugar a la justificación, necesidad y definición de las diferentes
técnicas de muestreo.
Los primeros términos obligados a los que debemos hacer referencia, definidos en el
primer capítulo, serán los de estadístico y estimador.

Dentro de este contexto, será necesario asumir un estadístico o estimador como una
variable aleatoria con una determinada distribución, y que será la pieza clave en las
dos amplias categorías de la inferencia estadística: la estimación y el contraste de
hipótesis.

14
El concepto de estimador, como herramienta fundamental, lo caracterizamos
mediante una serie de propiedades que nos servirán para elegir el ``mejor" para un
determinado parámetro de una población, así como algunos métodos para la
obtención de ellos, tanto en la estimación puntual como por intervalos.
¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población
cuando sólo conocemos una muestra?

Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar
la relación entre el fumar y el cáncer de pulmón e intentamos extender las
conclusiones obtenidas sobre una muestra al resto de individuos de la población. La
tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la
población a partir de una muestra extraída de la misma.

TÉCNICAS DE MUESTREO SOBRE UNA POBLACIÓN

La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre
la distribución de un carácter en dicha población y las distribuciones de dicho carácter
en todas sus muestras. Las ventajas de estudiar una población a partir de sus muestras
son principalmente:

Coste reducido: Si los datos que buscamos los podemos obtener a partir de una
pequeña parte del total de la población, los gastos de recogida y tratamiento de los
datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un
referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a
30.000.000;

Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio
de las primeras mesas electorales, se obtiene una aproximación bastante buena del
resultado final de unas elecciones, muchas horas antes de que el recuento final de
votos haya finalizado;

Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de
cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su
vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña
parte de ellas y sacar conclusiones sobre las demás. De este modo se ve que al hacer
estadística inferencial debemos enfrentarnos con dos problemas:
- Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este
capítulo.
- Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la
población (inferencia).

El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los


elementos de la población tienen la misma probabilidad de ser extraídos; Aunque

15
dependiendo del problema y con el objetivo de reducir los costes o aumentar la
precisión, otros tipos de muestreo pueden ser considerados como veremos más
adelante: muestreo sistemático, estratificado y por conglomerados.

Muestreo aleatorio. Consideremos una población finita, de la que deseamos extraer


una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los
elementos de la población la misma oportunidad de ser incluidos en dicha muestra,
denominamos al proceso de selección muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
- Sin reposición de los elementos;
- Con reposición.

Muestreo aleatorio sin reposición. Consideremos una población E formada por N


elementos. Si observamos un elemento particular, e pertenece a E, en un muestreo
aleatorio sin reposición se da la siguiente circunstancia:
- La probabilidad de que e sea elegido en primer lugar es 1/N;
- Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de (N-
1)/N, la probabilidad de que sea elegido en el segundo intento es de 1/(N-1).
- en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no
ha sido seleccionado previamente, la probabilidad de que lo sea en este momento
es de 1/(N-i).

Si consideramos una muestra de n≤N elementos, donde el orden en la elección de los


mismos tiene importancia, la probabilidad de elección de una muestra M=(e 1,…,en)
cualquiera es
P(M)=P(e1,…,en)=P(e1)*P(e2/e1)*…P(en/e1,...,en-1)
1 1 1 ( N  n )! 1
P( M)    
N N  1 N  (n  1) N! VN ,n

lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso


posible entre las VN,n posibles n-uplas de N elementos de la población. Si el orden no
interviene, la probabilidad de que una muestra M=(e1,…,en) sea elegida es la suma de
las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como
permutaciones en el orden de sus elementos sea posible, es decir
P(M)=P(e1,…,en)=n!*P(e1,...,en)
( N  n )! 1
P(M )  n! 
N! C N ,n

Muestreo aleatorio con reposición. Sobre una población E de tamaño N podemos


realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído
es repuesto al total de la población. De esta forma un elemento puede ser extraído

16
varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de
una cualquiera de ellas, formada por n elementos es:
1 1 1
  n
N N N

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de


la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea
posible. Es decir,
- sea n1 el número de veces que se repite cierto elemento e1 en la muestra;
- sea n2 el número de veces que se repite cierto elemento e2;
- sea nk el número de veces que se repite cierto elemento ek,
de modo que n=n1+...+nk. Entonces la probabilidad de obtener la muestra n1 veces e1,
n2 veces e2, y así sucesivamente hasta tener nk veces ek, es
1
* k!*n 1 !* n k !
Nn

El muestreo aleatorio con reposición es también denominado muestreo aleatorio


simple, que como hemos mencionado se caracteriza por que
- cada elemento de la población tiene la misma probabilidad de ser elegido, y
- las observaciones se realizan con reemplazo. De este modo, cada observación es
realizada sobre la misma población (no disminuye con las extracciones sucesivas).

Sea X una variable aleatoria definida sobre la población E, y f(x) su ley de


probabilidad. e 1  x 1  f ( x 1 )
e  x 2  f (x 2 / x1 )

E  n exp erimentos aleatorios  
2


e n
  x n  f ( x n / x 1 , .. ., x n 1 )

En una muestra aleatoria simple, cada observación tiene la distribución de


probabilidad de la población: f(x1)=f(x2)=…f(xn)=f. Además todos las observaciones
de la variable aleatoria son independientes, es decir, f=f(x1,…xn)=f(x1)*…f(xn)

Tablas de números aleatorios. Un ejemplo de una tabla de números aleatorios


consiste en la lista de los números de Lotería Nacional premiados a lo largo de su
historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser
elegido, y su elección es independiente de las demás extracciones. Un modo de
hacerlo es el siguiente. Supongamos que tenemos una lista de números aleatorios de
k=5 cifras (00000-99.999), una población de N=600individuos, y deseamos extraer
una muestra de n=6 de ellos. En este caso ordenamos a toda la población (usando
cualquier criterio) de modo que a cada uno de sus elementos le corresponda un
número del 1 al 600. En segundo lugar nos dirigimos a la tabla de números aleatorios,
y comenzando en cualquier punto extraemos un número t, y tomamos como primer
elemento de la muestra al elemento de la población:

17
 t * 600   t * 600 
1  k   1  
 10   100.000 

El proceso se repite tomando los siguientes números de la tabla de números


aleatorios, hasta obtener la muestra de 10 individuos. Las cantidades u=t/(10k) pueden
ser consideradas como observaciones de una variable aleatoria U, que sigue una
distribución uniforme en el intervalo [0,1]

Método de Montecarlo. El método de Montecarlo es una técnica para obtener


muestras aleatorias simples de una variable aleatoria X, de la que conocemos su ley
de probabilidad (a partir de su función de distribución F). Con este método, el modo
de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es:
1. Usando una tabla de números aleatorios se toma un valor u de una variable
aleatoria.
2. Si X es continua tomar como observación de X, la cantidad x=F-1(u). En el caso en
que X sea discreta se toma x como el percentil 100-u de X, es decir el valor más
pequeño que verifica que F(x)≥u

Este proceso se debe repetir n veces para obtener una muestra de tamaño n.

Ejemplo, Si queremos extraer n=10 muestras de una distribución N(0,1) podemos


recurrir a una tabla de números aleatorios de k=5cifras, en las que observamos las
cantidades, por ejemplo, 76.293, 31.776, 50.803, 71.153, 20.271, 33.717, 17.979,
52.125, 41.330, 95.141
A partir de ellas podemos obtener una muestra de X~N(0,1) usando una tabla de la
distribución normal:

Números aleatorios Muestra U(0,1) Muestra N(0,1)


ti ui=ti/105 xi = F-1(ui)
76.293 0.76 0.71
31.776 0.32 (=1-0'68) -0.47
50.803 0.51 0.03
71.153 0.71 0.55
20.271 0.20(=1-0'80) -0.84
33.717 0.34(=1-0'66) -0.41
17.979 0.18(=1-0'82) -0.92
52.125 0.52 0.05
41.330 0.41(=1-0'59) -0.23
95.141 0.95 1.65

Obsérvese que como era de esperar, las observaciones xi tienden a agruparse


alrededor de la esperanza matemática de Xi~N(0,1). Por otra parte, esto no implica

18
que el valor medio de la muestra sea necesariamente cero. Sin embargo como
sabemos por el teorema de Fisher que
10
X
X   i  N(0,0.1)
i 1 N

su dispersión con respecto al valor central es pequeña, lo que implica que


probablemente el valor medio estará muy próximo a 0, cuyo valor es 0.012

Obsérvese que si el problema fuese el inverso, donde únicamente conociésemos las


observaciones xi y que el mecanismo que generó esos datos hubiese sido una
distribución normal de parámetros desconocidos, con la media obtenida hubiésemos
tenido una buena aproximación del parámetro m desconocido.

Muestreo aleatorio estratificado. Un muestreo aleatorio estratificado es aquel en el


que se divide la población de N individuos, en k subpoblaciones o estratos,
atendiendo a criterios que puedan ser importantes en el estudio, de tamaños
respectivos N1, ..., Nk, tal que N= N1+ ...+Nk

y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de


tamaño ni , de donde i=1,…,k.

Ejemplo, Supongamos que realizamos un estudio sobre la población de estudiantes


de una Universidad, en el que a través de una muestra de 10 de ellos queremos
obtener información sobre el uso de barras de labios. En primera aproximación lo
que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos
reflexionar sobre el hecho de que el comportamiento de la población con respecto a
este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en
dos estratos:
- Estudiantes masculinos (60% del total);
- Estudiantes femeninos (40% restante).
de modo que se repartan proporcionalmente ambos grupos el número total de
muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es
lo que se denomina asignación proporcional.

Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad


reducida) que el comportamiento de los varones con respecto al carácter que se
estudia es muy homogéneo y diferenciado del grupo de las mujeres. Por otra parte,
con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el
grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza),
mientras que en el grupo de las mujeres habrá mayor dispersión. Cuando las
varianzas poblacionales son pequeñas, con pocos elementos de una muestra se
obtiene una información más precisa del total de la población que cuando la varianza

19
es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10
alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante
muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que
se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente
obtendríamos mejores resultados estudiando una muestra de 1 varón y 9 hembras.
Esto es lo que se denomina asignación óptima.

Asignación proporcional. Sea n el número de individuos de la población total que


forman parte de alguna muestra: n=n1+…+nk. Cuando la asignación es proporcional el
tamaño de la muestra de cada estrato es proporcional al tamaño del estrato
correspondiente con respecto a la población total: ni=n*Ni/N

Asignación óptima. Cuando se realiza un muestreo estratificado, los tamaños


muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello
puede basarse en alguno de los siguientes criterios:
- Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste
especificado, o bien,
- habiendo fijado la varianza que podemos admitir para el estimador, minimizar el
coste en la obtención de las muestras.

Así en un estrato dado, se tiende a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna (varianza);
- El muestreo es más barato en ese estrato.
Para ajustar el tamaño de los estratos cuando conocemos la dispersión interna de cada
uno de los mismos, tenemos el siguiente resultado:

Teorema de Neyman. Sea E una población con N elementos, dividida en k estratos,


con Ni elementos cada uno de ellos, i=1,…,k
E  E1  E 2    E k N  N1  N 2    N k

Sea n el número total de elementos al realizar el muestreo, y que se dividen en cada


estrato como n=n1+…+nk

Sea X la variable aleatoria que representa el carácter que intentamos estudiar. Sobre
cada estrato puede definirse entonces la variable aleatoria X i como el valor medio
de X obtenida en una muestra de tamaño ni en el estrato Ei. Sea V ( X i ) la varianza
de dicha variable aleatoria; Entonces
k

 V( X ) se minimiza cuando
i 1
i

20
N i  ŝ i
ni  n 1 Ni
k

 N ŝ j j
donde ŝ i    x ij  x i  2
N  1 j1
j i

es la cuasi-varianza del estrato Ei.

Muestreo sistemático. Cuando los elementos de la población están ordenados en


fichas o en una lista, una manera de muestrear consiste en,
- Sea k=N/n;
- Elegir aleatoriamente un número m, entre 1 y k;
- Tomar como muestra los elementos de la lista: (em,em+k,em+2k,…,em+(n-1)k)

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación


de los elementos en la lista es tal que los elementos más parecidos tienden a estar más
cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya
que recorre la población de un modo más uniforme. Por otro lado, es a menudo más
fácil no cometer errores con un muestreo sistemático que con este último.

El método tal como se ha definido anteriormente es sesgado si N/n no es entero, ya


que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar
este problema consiste en considerar la lista como si fuese circular (el elemento N+1
coincide con el primero) y:
- Sea k el entero más cercano a N/n;
- Se selecciona un número al azar m, entre 1 y N;
- Se toma como muestra los elementos de la lista que consisten en ir saltando de k
elementos en k, a partir de m, teniendo en cuenta que la lista es circular.
Se puede comprobar que con este método todos los elementos de la lista tienen la
misma probabilidad de selección.

Muestreo por conglomerados. Si intentamos hacer un estudio sobre los habitantes


de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que
estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos
distintos de la misma, de modo que en cada uno de ellos sólo se realiza una
entrevista. En esta situación es más económico realizar el denominado muestreo por
conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la
ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se
entrevista a todos los vecinos.

Propiedades deseables de un estimador. Sea X una variable aleatoria cuya función


de probabilidad (o densidad de probabilidad si es continua) depende de unos
parámetros 1 ,...,  k desconocidos. f ( x , 1 ,...,  k ) . Representamos mediante X1,
…,Xn una muestra aleatoria simple de la variable. Denotamos mediante fc a la función

21
de densidad conjunta de la muestra, que por estar formada por observaciones
independientes, puede factorizarse del siguiente modo:
f c ( x 1 ,..., x n , 1 ,...,  k )  f ( x 1 , 1 ,...,  k ) * f ( x 2 , 1 ,..., k ) *  * f ( x n , 1 ,...,  k )

Se denomina estimador de un parámetro i, a cualquier variable aleatoria ̂ i que


se exprese en función de la muestra aleatoria y que tenga por objetivo aproximar el
valor de qi, ˆ i ( X 1 ,..., X n )

Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya


que aunque depende unívocamente de los valores de la muestra observados (Xi=xi), la
elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido
elegida, se denomina estimación el valor numérico que toma el estimador sobre esa
muestra.
Intuitivamente, las características que serían deseables para esta nueva variable
aleatoria (que usaremos para estimar el parámetro desconocido) deben ser:

- Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor


estimado se aproxima al parámetro desconocido.

- Carencia de sesgo. El valor medio que se obtiene de la estimación para diferentes


muestras debe ser el valor del parámetro.

- Eficiencia. Al estimador, al ser variable aleatoria, no puede exigírsele que para


una muestra cualquiera se obtenga como estimación el valor exacto del parámetro.
Sin embargo podemos pedirle que su dispersión con respecto al valor central
(varianza) sea tan pequeña como sea posible.

- Suficiencia. El estimador debería aprovechar toda la información existente en la


muestra.

Ejemplo, Consideremos una variable aleatoria de la que sólo conocemos que su ley
de distribución es gaussiana, X~N(), con 1= y 2=2 desconocidos

Para muestras aleatorias de tamaño n=3, X1,X2,X3~N() un posible estimador del


parámetro  es
(X1  X 2  X 3 )   
1 (X1 , X 2 , X 3 )  X   N , 
3  3

Carencia de sesgo. Se dice que un estimador ̂ de un parámetro  es insesgado si


ˆ   . La carencia de sesgo puede interpretarse del siguiente modo: Supongamos
E ()
que se tiene un número indefinido de muestras de una población, todas ellas del

22
mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación concreta
del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha
cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es
 (el valor que se desea conocer).

Consistencia. Decimos que ̂ es un estimador consistente con el parámetro  si


 
  0, lim P ˆ      0
n 
o   0, lim P ˆ      1
n 
 
Teorema. Como consecuencia de de la desigualdad de Chebyshev se puede
demostrar el siguiente resultado y condiciones, lim E (ˆ )   y lim V(ˆ )  0
n  n 

entonces ̂ es consistente.

Eficiencia. Dados dos estimadores ˆ 1 y ˆ 2 de un mismo parámetro ̂ , diremos que


̂1 es más eficiente que ̂ 2 si V(ˆ 1 )  V(ˆ 2 )

Suficiencia. Diremos que ˆ  ˆ ( X 1 ,.., X n ) es un estimador suficiente del parámetro


̂ si P( X1  x 1 ,..., X n  x n ) no dependa de  para todo posible valor de  .

Teorema de Fisher-Neyman. Sea f ( x 1 ,..., x n , ) la distribución conjunta para las


muestras de tamaño n, X1,…,Xn. Entonces ˆ  ˆ (X 1 ,.., X n ) es un estimador
n 1 n  1 n 
suficiente si y solo si se cumple, f ( x ,..., x , )  h ( x ,..., x ) * r ˆ (X ,..., X ),  ,
1
siendo h una función no negativa que no depende de  y r una función que sólo
depende del parámetro y de la muestra a través del estimador.

CURVA CARACTERÍSTICA Y FUNCIÓN DE POTENCIA

Para calcular el error tipo II o  se debe especificar la hipótesis alternativa como una
hipótesis simple. Sin embargo, en la mayoría de los casos, esta hipótesis se plantea
como compuesta. Al plantearse la hipótesis alternativa como compuesta, no se puede
calcular el error tipo II asociado con la prueba. Sin embargo, para obviar esta
dificultad lo que se hace es asignarle varios valores a la hipótesis alternativa, calcular
el error tipo II y realizar una curva con estos valores. Esta curva recibe el nombre de
"Curva Característica Operativa o Curva OC", y es muy empleada principalmente en
estudios de control de calidad.

Considérese la hipótesis alternativa de la siguiente manera:


Ho:  = 0 = 10 H1:  > 0 n = 9,  = 0.05

23
La región crítica de esta prueba está en c = 10.548, es decir, se rechaza H 0  = 10 si
la media de la muestra es mayor de 10.548. Para construir la curva OC se presentan
en la tabla siguiente diferentes valores de la hipótesis alternativa con sus respectivas
probabilidades de aceptación.
 9.6 9.8 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6
 0.998 0.988 0.950 0.852 0.672 0.438 0.225 0.088 0.025 0.005 0.001

La siguiente es la Curva Característica Operativa ( vs ) de la prueba de hipótesis


planteada.

Si se tiene la hipótesis nula Ho: = 0 contra la hipótesis alternativa H1: = 1 el valor


del error tipo II se obtiene como una función de los valores alternativos de  bajo H1,
es decir, para cada valor de 1 se calcula  , valor que a veces denotamos por (). La
gráfica  vs () recibe, como ya se dijo, el nombre de Curva Característica
Operativa, Curva OC, o curva CO.

Recordemos que ( es la probabilidad de aceptar la hipótesis nula H0 cuando la


verdadera es la hipótesis alternativa H1. Por lo tanto, 1-() representa la probabilidad
de rechazar la hipótesis nula cuando la verdadera es la hipótesis alternativa, es decir,
representa la probabilidad de rechazar hipótesis falsas. Sin embargo, en la mayoría de
estudios diferentes a los de control de calidad, en vez de la curva característica
operativa se emplea la gráfica denominada "Función de Potencia", donde se grafica 
vs 1-( ).

Función de Potencia de una prueba. La función P() = 1-() recibe el nombre de


función de potencia, y representa la probabilidad de rechazar la hipótesis nula cuando
ésta es falsa, es decir, mide la probabilidad de rechazar hipótesis falsas.

El valor de la potencia es 1- y puede interpretarse como la probabilidad de rechazar


de manera correcta una hipótesis falsa. La potencia es una medida muy descriptiva y

24
concisa de la sensibilidad de una prueba estadística, donde por sensibilidad se
entiende la capacidad de una prueba para detectar diferencia. Considere la siguiente
prueba de hipótesis:
Ho:  = 0 = 10 H1:  > 0 n = 9, = 0.05, ² = 1.

Considere también las siguientes regiones críticas:


A: Rechazar Ho si > 10.65 B: Rechazar Ho si > 10.45

Para calcular () es necesario darle valores a  , y de ahí calcular la potencia 1-


().P() = P( >c/ = 1) = 1-()
Las tablas siguientes presentan los valores de los errores tipo II y de la potencia para
las pruebas planteadas.

Potencia de la prueba P()


 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6 11.8
Prueba 0.026 0.089 0.227 0.440 0.674 0.853 0.951 0.988 0.998 1.000
A
Prueba B 0.089 0.227 0.440 0.674 0.853 0.951 0.988 0.998 1.000 1.000
Error tipo II ()
 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6 11.8
Prueba 0.974 0.911 0.773 0.560 0.326 0.147 0.049 0.012 0.002 0.000
A
Prueba B 0.911 0.773 0.560 0.326 0.147 0.049 0.012 0.002 0.000 0.000

ESTIMACIÓN CONFIDENCIAL

La estimación confidencial consiste en determinar un posible rango de valores o


intervalo, en los que pueda precisarse --con una determinada probabilidad-- que el
valor de un parámetro se encuentra dentro de esos límites. Este parámetro será
habitualmente una proporción en el caso de variables dicotómicas, y la media o la
varianza para distribuciones gaussianas.

25
La técnica de la estimación confidencial consiste en asociar a cada muestra un
intervalo que se sospecha que debe contener al parámetro. A éste se le denomina
intervalo de confianza. Evidentemente esta técnica no tiene porqué dar siempre un
resultado correcto. A la probabilidad de que hayamos acertado al decir que el
parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza.
También se denomina nivel de significación a la probabilidad de equivocarnos.

Estimación Puntual. La inferencia estadística está relacionada con los métodos para
obtener conclusiones o generalizaciones acerca de una población. Estas conclusiones
sobre la población pueden estar relacionadas ó con la forma de la distribución de una
variable aleatoria, ó con los valores de uno o varios parámetros de la misma.

El campo de la inferencia estadística se divide en dos: Por un lado tenemos el


problema de la estimación de los parámetros de una distribución, y por el otro, las
pruebas de hipótesis. En el problema de estimación se trata de elegir el valor de un
parámetro de la población, mientras que en las pruebas de hipótesis se trata de decidir
entre aceptar o rechazar un valor especificado (por ejemplo, si la marca A es superior
a la marca B).

A su vez el problema de la estimación se puede dividir en dos áreas: La estimación


puntual, y la estimación por intervalos de confianza. En forma similar, en el campo de
las pruebas de hipótesis se pueden considerar dos áreas: Pruebas de hipótesis sobre
parámetros, para determinar si un parámetro de una distribución toma o no un
determinado valor, y Pruebas de Bondad de Ajuste, para definir si un conjunto de
datos se puede modelar mediante una determinada distribución.
Inferencia Estadística Estimación Puntual
Intervalos de Confianza

26
Pruebas de Hipótesis Sobre Parámetros
Sobre Distribuciones

En este capítulo trataremos el problema de la estimación (mediante un solo valor) de


los parámetros de una distribución, y en el capítulo siguiente la estimación de
parámetros mediante un intervalo, denominado intervalo de confianza.

Estimación. En el problema de estimación se trata de elegir el valor de un parámetro


de la población, según una estrategia de la naturaleza.

Estimación puntual. La estimación puntual consiste en utilizar el valor de una


estadística o un valor estadístico para calcular el parámetro de una población. Por
ejemplo, cuando usamos la media muestral x para estimar la media de una
población (), o la proporción de una muestra P para estimar el parámetro de una
distribución binomial .
Una estimación puntual de algún parámetro de una población  es un solo valor θ̂
obtenido a partir de un estadístico.

Estimador. Se denomina estimador de un parámetro  a un estadístico T =


t(X1,X2,..., Xn) que es usado para estimar el valor del parámetro  de una población.
Al valor observado del estadístico t = t(x 1,x2,...,xn) se le denomina estimativo de .
Cuando hablamos del parámetro  nos podemos estar refiriendo a un solo parámetro,
o a un conjunto de parámetros desconocidos. Si el parámetro  es estimado, lo
representamos como θ̂ . Es decir, θ̂ = T = t(X1,X2,...,Xn)

Los estimadores son variables aleatorias, y por lo tanto tienen una función de
densidad, correspondiente a las distribuciones muéstrales. Por lo tanto, no hay ningún
estimador perfecto, ya que siempre habrá algún error en el proceso de estimación.
Según lo anterior, deben estudiarse distintas propiedades estadísticas de los
estimadores para decidir cual es el más apropiado. Algunas de las propiedades a
estudiar corresponden al sesgo, mínima varianza, consistencia, eficiencia relativa y
suficiencia.

Para tratar de responder intuitivamente qué es un buen estimador, considere tres


productos A, B y C para los cuales se hacen proyecciones de demanda. Suponga que
al analizar la información histórica de cada producto, se calcula la diferencia entre el
pronóstico y el valor real para cada producto, y sus distribuciones resultantes son las
siguientes:

27
A: El método usado para pronosticar la demanda de A es el que mejor hace su
trabajo, ya que queda más cerca del valor real y tiene una menor varianza.

B: Su pronóstico es aproximadamente igual al valor real, pero tiene una mayor


varianza.

C: Peor proyección ya que sobrestima la demanda.

En conclusión, si se desea estimar una parámetro , entonces el estimador debe estar


distribuido alrededor de , y tener mínima varianza. Sea X1,X2,...,Xn una muestra
aleatoria proveniente de una población cuya función de densidad es f(x, ). Sea T =
t(X1,X2,...,Xn) un estadístico usado para estimar el parámetro . Nuestro problema
consiste en encontrar la "función t" que proporcione la mejor estimación del
parámetro .

PROPIEDADES DE LOS ESTIMADORES

Estimadores insesgados. Como no hay ningún estimador perfecto que de siempre la


respuesta correcta, debería hacerlo por lo menos en promedio. El valor esperado del
estimador debería ser igual al parámetro que trata de estimar. En caso de que lo sea,
se dice que el estimador es insesgado, en caso contrario se diría que es sesgado.

Definición. Un estadístico T es un estimador insesgado del parámetro  si y solo si


E(T)= para todo . En caso contrario decimos que es un estimador
sesgado.

Sesgo. Si T es un estimador sesgado, la diferencia E(T) -  recibe el nombre de sesgo.

28
Ejemplo. La media muestral es un estimador insesgado de la media poblacional 
ya que E( )=.

Ejemplo. T=X1 es un estimador insesgado de  ya que E(X1)=

Ejemplo. Si X es Binomial (n,), demostrar que X/n es un estimador insesgado del


parámetro .
X X 1 1
Solución. Sea P  E( P)     E (X)  n   por lo tanto es insesgado
n n n n

Ejemplo. Sea X1, X2,..., Xn una muestra aleatoria con E(Xi)=. Demostrar que si
i1 a i  1 entonces T = a1X1 + a2X2 +...+anXn es un estimador insesgado de .
N

Ejemplo: Si S² es la varianza de una muestra tomada al azar de una población infinita,


entonces S² es un estimador insesgado de ². Previamente habíamos demostrado que
E(S²) = ².

1 n
 
2
Ejemplo. Si V 2  
n i 1
X i  X , será un estimador insesgado de ²?. Se puede
n 1 2
demostrar que E (V 2 )  
n

1 n 2
Ejemplo. Sea W 2  i 1
 X i    , será un estimador insesgado de ² si  es un
n
parámetro conocido?.

1
 X i  X  , un estimador insesgado de la varianza ²
2

n
Ejemplo. Será S 2 
n 1 i 1

de una población finita?. No, si la población es finita de tamaño N, se puede


demostrar que el estimador insesgado de ² Aunque S² es un estimador insesgado de
la varianza de una población infinita, no es un estimador insesgado de la varianza de
una población finita. En ningún caso S es un estimador insesgado de 

Ejemplo. Suponga que X, el tiempo de reacción a cierto estímulo, tiene una


distribución uniforme en el intervalo de 0 a un límite superior  (desconocido). Es
decir,

Se desea estimar el parámetro  con base en una muestra aleatoria X 1, X2, ..., Xn de
tiempos de reacción. Como  es el tiempo máximo de reacción, para toda la

29
población, se cumple que  (X1, X2, ..., Xn), por lo cual podemos considerar como
un primer estimador el siguiente estadístico:
T1 = Máximo(X1, X2, ..., Xn).

Por ejemplo, si n = 5, y X = (12.4, 13.2, 15,7, 6.4, 10.7)  θ̂ = X3 = 15.7.


Es T1 un estimador insesgado de ?. S puede demostrar que
n
E (T1 )  
n 1
 n 1
El sesgo b está dado por  . Considere T2  Max ( X 1 ,  , X n ) . Es T2 un
n 1 n
estimador insesgado de? Si se tienen varios estimadores insesgados de un parámetro
por lo general se escoge el que tenga la menor varianza.

Estadísticos de orden. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n. Los
valores se presentan de acuerdo al orden en que son tomados. Suponga que la muestra
se ordena de menor a mayor. Sea X(1) el menor valor de la muestra, sea X(2) es
segundo valor, X(i) el valor que ocupa el puesto i al ordenar la muestra de menor a
mayor, y finalmente sea X(n) el mayor valor de la muestra. Esta muestra ordenada,
X(1), X(2),..., X(i),..., X(n) recibe el nombre de "estadísticos de orden". De acuerdo
con lo anterior, los estadísticos T1 y T2 formulados en el párrafo anterior se pueden
reformular como:
n 1
T1 = X(n) T2 
n
Los estadísticos de orden son variables aleatorias, y como tales tienen una función de
densidad, y se pueden usar para estimar los parámetros de las distribuciones.

Estimadores con mínima varianza. Si T1 y T2 son dos estimadores insesgados con


varianzas V(T1)y V(T2), respectivamente, y V(T1) < V(T2), se dice que T1 es más
eficiente que T2.
Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n. Sabemos que tanto X como X1
son estimadores insesgados de . Sin embargo es más eficiente que X1 para estimar
 ya que V( X ) = ²/n < V(X1) = ².

Eficiencia Relativa. Los estimadores insesgados suelen compararse en términos de


sus respectivas varianzas. Si T1 y T2 son dos estimadores insesgados de un parámetro
 y la varianza de T1 es menor que la varianza de T2, se dice que T1 es más eficiente
que T2. También se puede usar la siguiente relación V(T 1)/V(T2) para medir la
eficiencia relativa de T2 con respecto a T1.

Ejemplo. Al calcular la media de una población normal sobre la base de una muestra
de tamaño 2n+1, ¿cuál es la eficiencia de la mediana con relación a la media?

30
Se sabe que la varianza de la media X está dada por ²/(2n+1). Para una muestra
aleatoria de tamaño 2n+1 de una población normal se sabe que el valor esperado y la
varianza de la mediana están dados por:
~ ~ ~  2
E(X)   V (X) 
4n

La eficiencia relativa está dada por:

La eficiencia asintótica de la mediana con respecto a la media está dada por:

la media muestral es un estimador más eficiente de la media poblacional que la


mediana muestral.

La media requiere sólo el 64% de las observaciones que requiere la mediana para
estimar la media poblacional  con la misma confiabilidad. Estimador insesgado de
mínima varianza. Para saber si un estimador insesgado es de mínima varianza o con
sesgo mínimo, se usa la desigualdad de Crámer-Rao, dada en el siguiente teorema.

Teorema. Si T es un estimador insesgado de  y


1
V (T )  2
  ln f ( x , ) 
nE 
  

entonces, T es el estimador insesgado de mínima varianza de . La cantidad en el


denominador se denomina la "información" que da la muestra acerca del parámetro .

Ejemplo. Demuestre que X es el estimador insesgado de mínima varianza de la


media  de una población normal.

31
Por lo tanto se tiene que

Como sabemos que X es un estimador insesgado y su varianza es igual ²/n entonces


X es el estimador insesgado de mínima varianza de .

Teorema. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una población
normal con media  y varianza ². Entonces el estimador T    X es el "estimador
insesgado de mínima varianza" de , también denominado Minimum Variance
Unbiased Estimator.

Error cuadrático medio. Si T es un estimador sesgado de un parámetro  es


preferible juzgar sus méritos y realizar las comparaciones de eficiencia sobre la base
del "error cuadrático medio".

Definición. Sea T cualquier estimador de un parámetro . Se define el error


cuadrático medio como el valor esperado del cuadrado de la diferencia entre el
estimador T y el parámetro  que trata de estimar. ECM(T) = E{(T - )2}

Para saber por qué es tan importante el error cuadrático medio ECM, veamos cómo se
puede expresar: ECM(T) = E{(T - )²} = E(T² - 2T + ²) = E(T²) - 2E(T) +²
Sumando y restando [E(T)]² a ambos lados de la ecuación se tiene que:
ECM(T) = {E(T²) - [E(T)]²}+ {[E(T)]² - 2E(T) + ²}
ECM(T) = V(T) + [ - E(T)]²

De lo anterior se concluye que el ECM está compuesto por dos cantidades no


negativas, que son:
- La varianza del estimador T.
- El cuadrado del sesgo del estimador.

Es decir, el ECM involucra las dos propiedades más importantes de un estimador 


la varianza del estimador debe ser lo más pequeña posible, y la distribución de
muestreo del estimador debe concentrarse alrededor del parámetro.

Error estándar. Es un indicador de la precisión de un estimador (reporte de una


estimación puntual).

32
Definición. El error estándar de un estimador T es su desviación estándar
 T  V (T ) . Para la media el error estándar sería  T   n .

Aunque en el cálculo del error estándar intervienen parámetros desconocidos cuyos


valores se pueden estimar, la sustitución de estas estimaciones en el cálculo
produce el "error estándar estimado" del estimador. El error estándar estimado se
puede denotar por .

Ejemplo. Si la duración de un servicio se distribuye normalmente, entonces ˆ  X .


Si  = 2.5 minutos, y se usan muestras de tamaño 16, entonces T= 2.5/4 = 0.625
minutos. Si  es desconocido y usamos como estimador una desviación estándar
muestral de 2.8, entonces el error estándar estimado estará dado por 2.8/4 = 0.70
minutos.

Si estamos estimando una proporción , entonces su mejor estimativo será la


proporción muestral, es decir y el error estándar será

El error máximo ocurre cuando  = 0.5, y será

Si n = 50 el error máximo será

Estimadores consistentes. Es razonable esperar que un estimador mejore a medida


que se aumenta el tamaño de la muestra. Cuando el tamaño de la muestra es muy
grande los estimadores tomarán, por lo general, valores muy próximos a los
parámetros respectivos. Este concepto de proximidad se generalizará mediante la
siguiente definición de consistencia.

Definición. El estadístico T es un "estimador consistente" del parámetro  si y solo si


para cualquier constante positiva c se cumple que

ó en forma equivalente

Ejemplo. La media muestral es un estimador consistente de , y la proporción


muestral P = X/n es a su vez un estimador consistente de la proporción poblacional .
(Ver Ley de los grandes números).
La consistencia es una propiedad asintótica (propiedad límite).

33
Teorema. El estadístico T es un "estimador consistente" del parámetro  si
1) T es un estimador insesgado.
2) V(T)  0 cuando n.

Las dos condiciones anteriores son suficientes, pero no son necesarias. Es decir, si un
estimador cumple las dos condiciones, entonces ese estimador es consistente, pero el
hecho de no cumplirlas, no quiere decir que no lo sea. Un estimador sesgado puede
ser consistente solo si es asintóticamente insesgado, es decir, que se vuelve insesgado
cuando n .

Ejemplo. Es T = X1 un estimador consistente de la media poblacional ?


Solución. Tenemos que E(T) =E( X1) = , es decir es insesgado, y V(T) = V(X1) =
2. Como la varianza del estimador no tiende a cero, entonces no es consistente, lo
cual se puede verificar al aplicar la desigualdad de Chebyshev, que expresa lo
siguiente:

la cual no tiende a cero cuando n , es decir, que X1 no tiende a  cuando n es


grande.
Problema. Demostrar que la proporción muestral P = X/n es un estimador consistente
de la proporción poblacional .

Ejemplo. Demostrar que S² es un estimador consistente de ² cuando se toman


muestras de una población normal.
Solución: Sabemos que:

E(S²) = ²
Se observa que V(S²)  0 cuando n .

Ejemplo. Demuestre que es un estimador consistente de ².

Estimadores suficientes. Se dice que un estimador T es suficiente si utiliza toda la


información relevante de la muestra para estimar el parámetro  de la población. Es
decir, un estimador T es suficiente si todo el conocimiento que se obtiene acerca del
parámetro  es mediante la especificación real de todos los valores de la muestra.

Ejemplo. Se tiene una muestra aleatoria (X1, X2, ..., Xn) de tamaño 30 tomada de una
población exponencial f(x, ), donde  es un parámetro desconocido. Considere las
dos estadísticos siguientes:

34
1 1
T1  T2 
X1  X 3  X 5    X 29 X 1  X 2  X 3    X 30

El estadístico T1 no es un estimador suficiente del parámetro  mientras que T2 sí lo


es.

Definición. Se dice que un estadístico T = t(X 1, X2, ..., Xn) es suficiente para un
parámetro  si la distribución conjunta de X1, X2, ..., Xn dado T se encuentra libre de
, es decir, si se afirma T, entonces X1, X2, ..., Xn no tienen nada más que decir acerca
de .

Formalmente esto puede expresarse en términos de la distribución condicional de los


valores de la muestra, dado que  = T. Esta cantidad está dada por,
f ( x 1 ,.., x n , t ) f ( x 1 ,.., x n )
f (X1 ,..., X N n / t )  
g( t ) g( t )
donde la expresión final del numerador se sigue de la condición de suficiencia.

Utilidad. Si un estimador insesgado T de un parámetro  es una función de un


estadístico suficiente, entonces tendrá la varianza más pequeña entre todos los
estimadores insesgados de . Además, si existe el estimador más eficiente de , éste
será un estadístico suficiente.

Teorema de factorización de Neyman. Sea X1, X2, ..., Xn una muestra aleatoria de
una distribución con función de densidad f(x,). Se dice que el estadístico T = t(X1,
X2, ..., Xn) es un estadístico suficiente para  si y solo si la función de verosimilitud se
puede factorizar de la siguiente manera:
L(X,) = h(t, ) g(x1, x2, ..., xn)
para cualquier valor t(x1, x2, ..., xn) de T y donde g(x1, x2, ..., xn) no contiene el
parámetro .

Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución
gama, cuya función de densidad está dada por,
(t ) k 1
f ( t )   e  t , t≥0
( k )

La función de verosimilitud está dada por:


n n
nk e   t i  t i
L(X, )  i 1 i 1

(k )

35
Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución de
Poisson con parámetro  cuya función de densidad está dada por,
x e  
f (t) 
x!

Demostrar que el estimador eficiente para  es a su vez un estimador suficiente. La


función de verosimilitud está dada por:

, donde

ESTIMADORES DE MÁXIMA VEROSIMILITUD

Sea X una variable aleatoria con función de probabilidad f(x,). Las muestras
aleatorias simples de tamaño n, X1,..,Xn tienen por distribución de probabilidad
conjunta
f c ( x 1 ,.., x n ; )  f ( x 1 ,..., x n ; )  f ( x 1 , )  f ( x 2 , )  f ( x n , )

Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:
- Fijando  es una función de las n cantidades xi. Esto es la función de probabilidad
o densidad.
- Fijados los xi como consecuencia de los resultados de elegir una muestra mediante
un experimento aleatorio, es únicamente función de . A esta función de la
denominamos Función de Verosimilitud.

En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimación del parámetro es aquella que
maximiza la función de verosimilitud (cuidado no confundir V() con la varianza. En
algunos textos aparece la función de verosimilitud como L())
x1,…,xn fijados →Verosimilitud: V()=f(x1,..,xn;)

La función de verosimilitud se obtiene a partir de la función de densidad,


intercambiando los papeles entre parámetro y estimador. En una función de
verosimilitud consideramos que las observaciones x1, ..., xn, están fijadas, y se
representa la gráfica con el valor de los valores que tomaría la función de densidad
para todos los posibles valores del parámetro . El estimador máximo verosímil del
parámetro buscado, ̂ mv es aquel que maximiza su función de verosimilitud, V().

36
Como es lo mismo maximizar una función que su logaritmo (al ser este una función
estrictamente creciente), este máximo puede calcularse derivando con respecto a  la
función de verosimilitud (bien su logaritmo) y tomando como estimador máximo
verosímil al que haga la derivada nula:
 log V
( mv )  0


De modo más preciso, se define el estimador máximo verosímil como la variable


aleatoria ˆ mv  max f (X 1 ,..., X n ; ) . Los estimadores de máxima verosimilitud
ˆ 
tienen ciertas propiedades en general que a continuación enunciamos:

1. Son consistentes;
2. Son invariantes frente a transformaciones biunívocas, es decir, si ̂ mv es el
estimador máximo verosímil de  y g ( ˆ ) es una función biunívoca de  ,

entonces g (ˆ mv ) es el estimador máximo verosímil de g().


3. Si ̂ es un estimador suficiente de , su estimador máximo verosímil, ̂ mv es
función de la muestra a través de ̂ ;
4. Son asintóticamente normales;
5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes
de un parámetro , los de máxima verosimilitud son los de varianza mínima.
6. No siempre son insesgados.

Algunos estimadores fundamentales. Vamos a estudiar las propiedades de ciertos


estimadores que por su importancia en las aplicaciones resultan fundamentales:
estimadores de la esperanza matemática y varianza de una distribución de
probabilidad.

Estimador de la esperanza matemática. Consideremos las muestras de tamaño n,


X1,…,Xn, de un carácter sobre una población que viene expresado a través de una
variable aleatoria X que posee momentos de primer y segundo orden, es decir, existen
E(X) y V(X):

37
E(Xi)= V(Xi)=2

El estimador media muestral que denotaremos normalmente como X (en lugar de


1
̂ es X  (X 1    X n ) verifica:
n
E( X)   V( X )   2 n

Por tanto es un estimador insesgado. Si además sabemos que X se distribuye según


una ley gaussiana, es sencillo comprobar que coincide con el estimador de máxima
verosimilitud,

Proposición. X i  N(, )  X   mv  N ,  / n 

La demostración es, La función de densidad de una observación cualquiera de la


muestra es: Xi~N() para todo x que pertenezca al conjunto de los reales. Por tanto
la distribución conjunta de la muestra es
f c ( x 1 ,.., x n ; ,  2 )  ( x 1 , ,  2 )  f ( x 2 , ,  2 )  f ( x n , ,  2 )

Para unos valores x1,…,xn fijados, la función de verosimilitud es


V(  ,  2 )  ( x 1 , ,  2 )  f ( x 2 , ,  2 )  f ( x n , ,  2 )   
1 1 1
e   x1    e  x 2    e  x n   
2 2 2
/ 22 / 22 / 22
V(,  2 )  * **
 2  2  2
2
n 1  x i  
i 1
n
 1   
  

   e 2

  2 

(en principio escribimos también el otro parámetro desconocido, 2, aunque no nos
interesamos en su estimación por el momento). La expresión de la función de
verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:
2
n 1 n x 
log V( ,  )   log(2 2 )    i
2

2 2 i 1   

El máximo de la función de verosimilitud se alcanza donde lo hace su logaritmo


(monotonía), por tanto derivando con respecto a  e igualando a cero se llega a:
 log V n n 1  n 
0 ( mv ,  2 )  2  x i   mv  2   x i  n mv 
  i1   i1 
Es decir, el estimador máximo verosímil de la media poblacional,  , coincide con la
media muestral

38
1 n
 mv   x i como queríamos demostrar
n i 1

El estimador de máxima verosimilitud de  para una variable gaussiana es la media


muestral.

La distribución del estimador muestral X del parámetro poblacional , tiene por


valor esperado al mismo  (insesgado), y su dispersión disminuye a medida que
aumenta el número de observaciones

Estimador de la varianza. A la hora de elegir un estimador de 2=V(X), podemos


comenzar con el estimador más natural:
s2    x i  X
1 n 2

n i 1

Podemos comprobar que cuando el carácter que se estudia sobre la población es


gaussiano, en realidad este es el estimador máximo verosímil para la varianza. Sin

39
embargo se comprueba también su falta de sesgo, lo que hace mas adecuado que se
utilice como estimador de la varianza al siguiente concepto: cuasivarianza muestral

Proposición. Xi~N(), entonces, s  ˆ mv


2 2

Demostración: Recuperamos el logaritmo de la función de verosimilitud, donde en


esta ocasión el primer parámetro ya fue obtenido por el método de máxima
verosimilitud (y vimos que era la media muestral) y tratamos de maximizarla con
respecto al segundo parámetro:
2

log V( x ,  2 )    log(2)  log  2  


n 1 n
 i  x  x 
2 2  2 i 1
Derivando con respecto a  2 e igualando a cero se obtiene el estimador máximo
verosímil:
2
 log V n 1 1  n
  2  x  x
2
0 (, ˆ 2mv )    i
 2
2 mv 2  ˆ mv
2
 i 1

Despejando de esta ecuación se obtiene que el estimador máximo verosímil coincida


con la varianza muestral,
1 n
ˆ 2mv   ( x i  x ) 2
2 i 1

Proposición. El valor esperado del estimador


1 n
s 2   (X i  X ) 2
n i 1

no es 2, y por tanto el estimador máximo verosímil para la varianza no es insesgado.


Más aún, E(2)=(n-1)2/n

Demostración. Comenzamos escribiendo los valores esperados


1 n 2 1 n 2 2 1 n
E(s )  E  (X i  X )   E  X i  X    E(X i2 )  E( X 2 )
2

 n i 1   n i 1  n i 1
V (X i )  E (X i2 )  E (X i ) 2  E (X i2 )   2   2
2
V ( X )  E( X i2 )  E ( X i ) 2  E ( X i2 )   2
n

Luego
1 n  2  n 1 2
E(s 2 )  
n i 1
( 2   2 )     2   
 n  n

40
Cuasivarianza muestral. Para tener un estimador insesgado de la varianza
introducimos la cuasivarianza muestral ŝ 2 que se define como
n 2 1 n
ŝ 2 
n 1
s  
n  1 i 1
(X i  X ) 2

Es inmediato comprobar que realmente este estimador es insesgado


 n 2 n n 1 2
E (ŝ 2 )  E s    2
 n  1  n  1 n

Esa esperanza puede ser calculada de un modo más directo, ya que la distribución del
estimador 2 es conocida usando el teorema de Cochran:
2
ns 2 n
 Xi  X 
 2
  
i 1  
   2n 1

luego
 ns 2  n 1 2  ns 2  2(n  1) 4
E 2   n  1  E(s 2 )   V 2   2(n  1)  V(s 2 )  
  n   n2

La distribución de la cuasivarianza muestral es tal que


(n  1)ŝ 2
  2n 1
 2

Función de densidad del estadístico que relaciona ŝ 2 , 2 y los grados de libertad de


la muestra (n-1). La falta de simetría del mismo hace que su valor esperado (n-1) se
desplace a la derecha de la moda (asimetría positiva).

Teorema: Sean X1, X2 y X3 variables aleatorias que tienen una distribución conjunta
absolutamente continua, también la tiene un pare de ellas X 1,X3 y una función de
densidad de conjunta para estas dos puede escribirse,

41

f X 1,X 3 ( x 1 , x 3 )  
f X1X 2 X 3 ( x 1, x 2 , x 3 )dx 2

Teorema: Sean X1,...,X3 variables aleatorias que tienen una distribución conjunta
absolutamente continua, la condición suficiente y necesaria qpara que sean
independientes es que la densidad conjunta de ellas sea,
n
f X 1,...,X n ( x 1,..., x n )   fXj (x j )
j 1

La función de distribución condicional de un variable aleatoria X, con la condición de


que otra variable aleatoria Y tome el valor de y, Y=y, es
FX / Y ( x / y)  Lim P  X  x   y    Y  y    siempre y cuando este límite exista.
 0
x
Además se debe cumplir que, FX / Y ( x / y)  

f X / Y ( t / y)dt

Teorema: Si X y Y son variables aleatorias que tiene una distribución conjunta


absolutamente continua, entonces, en todo punto (x,y) en el que f X,Y(x,y) sea continua
y, además, sea fY(y)>0 continua, existe una densidad condicionada de X dada Y,
f X , Y ( x , y)
f X / Y ( x / y) 
f Y ( y)

Densidades de funciones de variables aleatorias. Sean las variables aleatorias X 1,...Xn


que tienen distribución conjunta absolutamente continua, y es necesario calcular la
densidad de una variable aleatoria Y que es función de X 1,...,Xn, siendo ella suma de
éstas. Sea S  E(n) un conjunto incluido en el espacio Euclideo E de dimensión n, el
cual se define como
S  {( x 1 ,..., x n ) u 1 ( x 1 ,..., x n )  a 1 ,..., u n ( x 1 ,...x n )  a n }
con ai constantes. Las probabilidades
P[(X 1 ,..., X n )  S]   ... f X ,..., x ( x 1 ,..., x n )dx 1 ...dx n 1 n
S

Y sea que el determinante del Jacobiano no sea nulo para (u1,..., u n )  , siendo
  {(u1,. .u n ) a i  xi (u1,. ., u n )  bi , 1  i  n}

x 1 x 1 x 1
...
u 1 u 2 u n
x 2 x 2 x 2
 ( x 1 ,.., x n ) ...
 u u 2 u n
 (u 1 ...u n ) 1
... ... ... ...
x n x n x n
...
u 1 u 2 u n

42
El cual se transforma mediante el cambio de variables en las integrales múltiples para
la caso particular de coordenadas polares,
 ( x , y) cos   rsen
 =r,
 ( r , ) sen r cos 

para n=2, u1=r, u2=  , x1=X=rcos  , x2=y=rsen  , y por consiguiente,


x x y y
 cos,  rsen,  sen y  r cos
r  r 

y por tanto se tendrá


b1 b2
 
a1 a2
H ( x , y)dxdy   H(r cos , rsen)rdrd
R

de donde R  (r, ) a 1  r cos  b1 , a 2  rsen  b 2 

Teorema: Sean X1,...,Xn variables aleatorias que tienen una distribución conjunta
absolutamente continua, y sean u1(x1,...,xn),...,un(x1,...,xn) una aplicación en el espacio
E(n) en sí mismo que satisface a las condiciones exigidas en el teorema anterior con
cambio de variables en las integrales múltiples. Sea Ui=ui(X1,..,Xn), Entonces,
U1,...,Un tiene distribución conjunta absolutamente continua y densidad,
 ( x 1 ,..., x n )
f U1 ,...,U n (u 1 ,.., u n )  f X1 ,..,X n  x 1 (u 1 ,.., u n ),..., x n ( u 1 ,.., u n ) 
 (u 1 ,..., u n )

Teorema: Sean X1,...,Xn variables aleatorias independientes, cada una de ellas con
una distribución absolutamente continua, y sean r 1,...,rk, k enteros positivos, tales que,
r1+...+rk=n. Entonces, la k variables aleatorias
X1  . .  X r , X r 1  . .X r r ,. ., X nr 1  . .  X n
1 1 1 2 k

son independientes.

ESTIMACIÓN PUNTUAL

Sea  un conjunto fundamental de probabilidades asociado con una sigma - algebra


de sucesos w y probabilidad P, y se tendrá en X una variable aleatoria definida sobre
.
 ( n ) está constituido por todos los posibles (w 1,...,wn) para todas las elecciones
posibles w1,...,w2 en  . Se trabajará con w(n) al elemento de  ( n )

El sigma - anillo  de sucesos compuestos por los sucesos elementales de este


conjunto fundamental de probabilidad  ( n ) , entonces para toda A 1 ,.., A n  , se
define,
A 1    A n  { w (n)   ( n) w 1  A 1,..., w n  A n }

43
Este suceso es el suceso compuesto que sigue: A 1 ocurre en la primera prueba, A2 en
la segunda, y así sucesivamente. A un suceso compuesto así, es lo llamado suceso
rectangular, y es necesario que la sigma – algebra contenga todos estos sucesos.

Sea  ( n ) el conjunto de todos los sucesos rectangulares y sea ( n ) el mínimo sigma


– anillo de subconjuntos de  ( n ) que contienen a  ( n ) , esto significa que ( n ) son
la intersección de todos los sigma anillos de subconjuntos de  ( n ) que contienen a
 ( n ) . Por lo anterior solo hay que demostrar,
- La intersección de cualquier sigma – anillo de  ( n ) es un sigma - anillo
- El conjunto de sigma – anillos que contienen a  ( n ) no es vacío

Lema: Sea {  ,   } el conjunto no vacío de sigma –anillos de subconjuntos de


  es un sigma – anillo.
 ( n ) , entonces, 


Otro problema importante, es definir la probabilidad P(n) sobre ( n) , y para cada


suceso rectangular en ( n) , A 1      A n lo que se define como
n
P ( n ) (A 1      A n )  P(A i )
i 1

Al tomar una muestra con restitución, permite manejar elementos independientes,


 
n
entonces, P( n ) A i ,i  P(A i ) . Esto es, P (A 1      A n )  P(A i )
(n ) (n)

i 1

Teorema: Las funciones X1,..,Xn definidas sobre  ( n ) como se ha explicado


anteriormente, son variables aleatorias independientes entre sí y cada una con la
misma función que X

Las variables aleatorias X1,..,Xn independientes e idénticamente distribuidas, indica


que en n observaciones de la variable X no guardan relación entre sí.

Si tomamos la muestra sin restitución de elementos de  , cada n-upla w(n) vendría


constituida por n elementos procedentes de la población  , entonces  ( n ) sería el
conjunto de estas n-uplas.

Sea la sucesión infinita X1,..,Xn de variables aleatorias, como observaciones


independientes, w (  )  ( w 1 ,.., w n ,...)   (  ) y se define
 
X n w (  )  X n ( w n ) para todo n positivo y entero.

44
Estimaciones Imparciales y Consistentes. Sea una población  con una variable
aleatoria X definida sobre ella, y sea  una constante asociada a ella, que se pretende
valorar. Sea la extensión de la muestra n, y considerando la variable aleatoria U
definida sobre  ( n ) .

Una variable aleatoria U es una estimación Imparcial de  , sui la esperanza de U


existe y es E[U]=  , cualquiera sea el valor de este parámetro: E[U/  ]= 

Una sucesión {Un} es Consistente de estimaciones de la constante  , si Un P   ,


cualquiera sea  . En otras palabras, P U n      0, para n   , con   0, 

Teorema: Sea  una población y X una variable aleatoria observada definida sobre
la misma población, la cual tiene distribución discreta o absolutamente continua y
donde existe el segundo momento de orden finito. Si X1,..,Xn son n observaciones
independientes de X y sí X=(X1+...+Xn)/n, entonces, Xn es una estimación imparcial y
consistente de E[X]

Teorema: Tanto  n2 como s n2 son estimaciones consistentes de Var[X]. Demostrar


que s n2 es una estimación imparcial de Var[X], pero no  n2 , siendo Var[X[ una
estimación imparcial.

Teorema: Sea Un una variable aleatoria definida sobre  ( n ) , y supongamos que ella
es una estimación imparcial de  y además que E[Un2 ]   . Si V1,V2,... es una
sucesión de observaciones independientes de Un, y sea Zn=(V1+...Vn)/n para todo n,
entonces la sucesión {Zn} es una sucesión consistente de 

Sea  una población y sean ligadas a ella una serie de constantes  1,...,  k que
están por conocerse, y no se pueden medir directamente, entonces, sea X una variable
aleatoria definida sobre la población de tamaño n, y {X n} es una sucesión de
observaciones independientes de X, y sobre la cual conocemos la distribución
FX ( x /  i ) . El problema consiste en hallar las estimaciones.

El gran problema reside, y para ello trabajemos con dos variables desconocidas
 1,  2 , en que se debe suponer que E[ X 4 ]   y que se conocen los dos primeros
momentos m1 y m2 y que son funciones de 1 y  2 . Además hay que suponer que
1 n 2 P
X n 
P
m1 y Vn   Xk  m2
n k1

y por último, que las funciones 1( x, y) y  2 (x, y) son tales que
1 (X n , Vn ) 
P
1 (m1 , m 2 ) y 2 (X n , Vn ) 
P
 2 (m1 , m 2 ) ,

45
con lo cual finalmente se demuestra que, 1 (X n , Vn ) y  2 (X n , Vn ) son sucesiones consistentes
de estimaciones de 1 y  2 , respectivamente.

Teorema: Sea f(x,y) una función y sean {X n} y {Yn} unas sucesiones de las variables
aleatorias tales que X n P
a yYn 
P
b , siendo a y b constantes, entonces, f es continua
en (a,b) y si f(Xn,Yn) es variable aleatoria para cualquier n, entonces,
f  X n , Yn  

P
f (a , b)

Estimación de Varianza Mínima. Trabajando con la distribución de Poisson como


ejemplo. Sea X una variable aleatoria definida sobre una población  , con
distribución de Poisson P[ X  x ]  e   x / x!, x  0,1... ,

siendo   0 la constante desconocida, entonces al realizar n pruebas independientes


de X, sean X1,...,Xn y a partir de ellas hacer la estimación de esta variable.

Se calcula E[X] y E[X2] y se tienen unos valores de  y  2+  , de donde la


varianza resulta ser  , y por tanto, X n como s n2 son estimadores consistentes e
imparciales de 

Sea X una variable aleatoria definida sobre la población  y sean X1,...,Xn sus n
observaciones independientes, y supongamos que la función de distribución de X es
absolutamente continua (lo cual es válido para el caso discreto), entonces la función
fX(x) es la densidad de X que es de una variable desconocida  , f(x/  ).

Para trabajar con un ejemplo, sea X  N(0,1) , entonces la función de densidad


1  ( x  ) 2 
puede ser, f ( x / )  exp1 ,    x  
2  2 

Sea   = (X1,...,Xn) una estimación imparcial de  . Y además, para mínima


varianza de lo anterior se debe cumplir: El conjunto A de todos los valores posible de
f ( x /  )
 mes un intervalo abierto, acotado o no; debe existir para todo

   n 
  x ; las expresiones    i1
... 
  f ( x i / ) dx 1 ...dx n

y

ˆ ( x ,..., x ) 
  n

  1
...  n  f ( x i  
 i 1
dx 1 ...dx n

46
puedan derivarse bajo el signo integral con respecto a  ; y finalmente,
2
 Logf ( X ) 
E

 
 para todo  A
  

Teorema. (Desigualdad de Cramer – Rao): Con las hipótesis mencionadas


anteriormente, demostrar,
2

Var   1 n 
ˆ ( X ,..., X )  1 E
n 

Logf ( X ) 
  A

 ,
 
teniendo en cuanta que el signo igual solo es válido cuando exista una constante k,
que depende de  y n, tal que la probabilidad
2
 1  Logf ( X ) 
k 1  Logf (X k )  n E
n

 
 

Principio de Máxima Probabilidad. Sea X una variable aleatoria definida sobre una
población  con una distribución discreta o absolutamente continua. Sea f(x/  ) la
densidad dependiente de x y de  desconocido. El problema es estimar  . Sean
X1,...,Xn observaciones de X con una densidad conjunta f(x1,...,xn/  )

Se debe procurar siempre encontrar una estimación  (X1,...,Xn) de  para la cual


f(X1,...,Xn/  ) sea máximo. En la práctica es hallar  como una función de x1,...,xn
ˆ ( X ,..., X ) para qua la función f(x1,...,xn/  ) resulte maximizada y entonces se
1 n

sustituyen las observaciones.

Teorema: Supuestas las condiciones impuestas en al numeral anterior, relativo ala


estimación de la varianza, si ˆ ( X 1 ,..., X n ) es una estimación imparcial de  con
varianza mínima en el sentido dela desigualdad de Cramer – Rao, entonces,
ˆ ( X ,..., X ) es una estimación de  ˆ ( X ,..., X ) con máxima probabilidad.
1 n 1 n

Sea X una variable aleatoria discreta o continua cuya función de probabilidad f(x)
depende de un parámetro  . Se efectúa n veces un experimento y se obtiene x 1,...,xn
resultados independientes

La probabilidad de que la muestra conste de n elementos es   f ( x 1 )  f ( x n ) y en el


caso continuo de que la muestra conste de pequeños valores
x 1  x  x 1  x, x 2  x  x 2  x,... es f ( x 1 )xf ( x 2 ) x   (x ) n

Sí están dados y son fijos los x1,x2,... entonces  es una función de  y es la función
de verosimilitud

47
Se trata de escoger la aproximación para  , para que  sea tan pequeño como sea

posible (el cual debe ser derivable),  0 para que exista el máximo, lo cual

conduce a la solución y es la estimación de máxima verosimilitud para  :
 
 0, , 0
1  r

Intervalo de Confianza: Es la estimación por intervalos teniendo en cuenta el error


máximo, intervalo en le cual está el valor exacto. Se escoge una probabilidad 
cercana a 1 y se determinan dos cantidades 1 y  2 , tal que, que la probabilidad de que
incluyan el valor exacto desconocido del parámetro  sea igual a 
P ( 1     2 )  
y este es el intervalo de confianza Conf {1     2 } que son los limites de confianza

Ejemplo, para el valor medio de la distribución normal con varianza conocida y un


nivel de confianza del 95%, tenemos, con   0,95, c  1,96 y calculamos el valor medio de la
c
muestra x1,...,xn de tamaño n, y luego, k  , quedando el nivel de confianza
n
Conf {x  k    x  k}

Si  es grande, una observación de X será útil para reducir la incertidumbre en la


predicción de Y

La independencia indica que las variables no están relacionadas, y por tanto, el


coeficiente de correlación tiende a cero. Lo anterior es válido en este sentido, pero no
existe el reciproco.

El coeficiente de correlación mide la dependencia lineal entre dos variables


aleatorias, y si y solo sí, existe relación funcional lineal entre las variables, de la
forma Y=a+bX

Propiedades
E[ Z]   ( x  y)p XY ( x , y)
x y

E[g 1 (X, Y)  g 2 (X, Y )]  E[g 1 (X, Y )]  E[g 2 ( X, Y )]


Cov[X, Y ]  E[( X  m x )( Y  m y )]  E[XY ]  E[X ]E[Y ]

48
n
Teorema: Si Y  g (X1 ,..., X n )   a i X i , entonces,
i 1

n  n
E[Y]  E  a i X i    a i E[X i ]
 i 1  i 1
n n n

y V[Y]   a i V[X i ]  2  a i a j Cov[X i , Yj ]


2

i 1 i 1 j i 1

Teorema: Sea Z=aX+bY, entonces se cumple que,


V[ Z]  a 2 V[X]  b 2 V[Y]  2abCov[X, Y]

Teorema: Si Z=XY, entonces, E[ Z]  Cov[X, Y]  E[X]E[Y] ,


y sí X y Y están correlacionadas, entonces, E[Z]=E[X]E[Y].
Y si X y Y son independientes, entonces, E[XY]  m x  y  m y  x   x  y
2 2 2 2 2 2

La esperanza condicional es útil para la predicción. La medida es la predicción de Y


que tiene un error cuadrático esperado mínimo E[(Y  m y ) ]
2

Aproximaciones: Y=g(X) si esta relación se comporta bien y el coeficiente de


variación de X no es muy grande, entonces son válidas las aproximaciones
E[Y] = E[g(X)]  g(E[X])
2
 dg ( x ) 
V[Y] = V[g(X)]  V[X ] mx 
 dx 
 dg ( x ) 
lo cual se puede expresar en otras palabras como,  y   mx   x que es la
 dx
derivada de g(x) con respecto a x calculada en mx.

Si el coeficiente de variación es menos que el 10%, es claro que el error de esta


aproximación es menor que el 1%. Si el valor de V x es pequeño, X es probablemente
muy cercano a mx, entonces, es aplicable la serie de Taylor,
dg( x ) (X  m x ) 2 d 2 g( x )
g( X)  g(m x )  (X  m x ) mx   
dx 2 dx 2
para encontrar la distribución aproximada de Y, al menos en la región media.

Desarrollando Taylor de Y=g(X) dejando los dos primeros términos lineales de X:


 dg( x )   dg( x ) 
Y  g(m x )  m x  m  m X
 dx   dx 
x x

1  y  a
que es de la forma Y=a+bX y sabiendo que f y ( y)  fx   , tenemos entonces,
b  b 

49
  dg ( x ) 
1  ya 1  y  g(m x )  m x  dx mx  
f y ( y)  
fx   fx  
b  b  dg( x )  dg ( x ) 
mx mx
dx  dx 

Un estimador de máxima verosimilitud  de una muestra aleatoria X1,...,Xn es el


valor de  que maximiza a L(X1,...,Xn;  ) con L(X1,...,Xn;  )=f(X1;  )f(X2; 
)...f(Xn;  ) siendo f(x;  ) la función de distribución de probabilidad de X calculada
en x, como para P[X=x] si X es discreta

Sea X1,..,Xn la muestra aleatoria de la variable aleatoria X y x 1,...,xn sus valores


muéstrales, la función de probabilidad L, L(X1,...,Xn;  )=f(X1;  )...f(Xn;  )

Si X es discreta L(x1,...,xn;  ) representa P[X1=x1,X2=x2,...,Xn=xn]


Si X es continua L(x1,...,xn;  ) representa la función de distribución de probabilidad
conjunta de (X1,X2,...,Xn)

Propiedades: El estimador puede ser sesgado, el cual se puede evitar multiplicación


por una constante apropiada. En condiciones generales son convergentes, esto es, si n
es muy grande, el estimador tiende al valor del parámetro.

Si  es un estimador para  definido sobre la muestra aleatoria X1,...,Xn de una


variable aleatoria X, entonces, para n grande, la variable aleatoria   tiene
aproximadamente una distribución N  ,1 / B  siendo
2
  
B  nE  Lnf ( X; )  ,
  

f es la función de probabilidad puntual o función de distribución de probabilidad de X


dependiendo de sí X es discreta o continua y se supone que  es un número real.

50

También podría gustarte