Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Documento 13 Muestreo y Estimacion
Documento 13 Muestreo y Estimacion
MUESTREO Y ESTIMACIÓN
MUESTREO
A un valor calculado con los datos de una muestra es el Estadístico. Al valor del
parámetro en la población es el Estimador. Y es Estimador Puntual cuando se
estima el parámetro poblacional a partir de un valor único).
Ya que es muy probable que el valor del estimador esté cerca de su valor esperado,
una propiedad muy deseable es que ese valor esperado del estimador coincida con el
del parámetro que se pretende estimar. Al menos, quisiéramos que el valor esperado
no difiera mucho del parámetro estimado. Por esa razón es importante la cantidad
que, técnicamente llamamos sesgo.
1
El sesgo es la diferencia entre el valor esperado del estimador y el parámetro que
estima. E x , Sesgo E () ˆ
Para aclarar esto, considere dos estimadores T1 y T2, suponga que ambos son
insesgados y suponga que la varianza de T 1 es menor que la de T2, lo cual quiere decir
que los valores de T1 son más probables que los de T2. O sea que vamos a encontrar a
T1 más cerca del valor del parámetro que a T2. Esto hace que nuestras preferencias
estén con T1.
Cuando un estimador tiene una varianza menor que otro decimos que el estimador es
más eficiente.
Estimación del error de una medida directa. La estimación del error de una
medida tiene siempre una componente subjetiva. En efecto, nadie mejor que un
observador experimentado para saber con buena aproximación cuál es el grado de
confianza que le merece la medida que acaba de tomar. No existe un conjunto de
2
reglas bien fundadas e inalterables que permitan determinar el error de una medida en
todos los casos imaginables.
3
Estimación Eficiente. Si las distribuciones de muestreo de dos estadísticos tienen la
misma media (o esperanza), el de menor varianza se llama un estimador eficiente de
la media, mientras que el otro se llama un estimador ineficiente, respectivamente. Si
consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tiene la
misma media, aquel de varianza mínima se llama a veces, el estimador de máxima
eficiencia, ósea el mejor estimador.
La Inferencia Estadística comprende los métodos que son usados para sacar
conclusiones de la población en base a una muestra tomada de ella. Incluye los
métodos de estimación de parámetros y las pruebas de hipótesis.
4
representa por Ho. La afirmación que se espera sea aceptada después de aplicar una
prueba estadística es llamada la hipótesis alterna y se representa por Ha.
Una prueba estadística es una fórmula, basada en la distribución del estimador del
parámetro que aparece en la hipótesis y que va a permitir tomar una decisión acerca
de aceptar o rechazar una hipótesis nula.
Al igual que una prueba de laboratorio para detectar cierta enfermedad, una prueba
estadística no es ciento por ciento segura y puede llevar a una conclusión errónea.
Hay dos tipos de errores que pueden ocurrir. El error tipo I, que se comete cuando se
rechaza una hipótesis nula que realmente es cierta y el error tipo II que se comete
cuando se acepta una hipótesis nula que realmente es falsa.
La probabilidad de cometer error tipo II, se representa por y al valor 1- se le llama
la potencia de la prueba. Una buena prueba estadística es aquella que tiene una
potencia alta. En este capítulo, primero se discutirá el cálculo de intervalos de
confianza y pruebas de hipótesis para la media poblacional, para una proporción y
finalmente para la varianza de una población. Luego se tratará los intervalos de
confianza y prueba de hipótesis para la razón de dos varianzas poblacionales, para la
diferencia de dos medias poblacionales y por último para la diferencia de dos
proporciones.
Nivel de
confianza 99.70 99.00 98.00 96.00 95.45 95.00 90.00
% 80.00 68.27 50.00
5
Zc 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28
1.00 0.6745
Ejemplo. Halar los límites de confianza de 98% y 90%. Lo anterior tiene la solución,
sea Z =Z tal que, al área bajo la curva Normal a la derecha sea 1%, entonces, por
simetría el área del lado izquierdo de Z=-Z . como el área total bajo la curva es 1,
Z=0.49 por tanto, Z=2.33, luego el limite de confianza para el 98% es, 2.33
n
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto
una estimación de los parámetros.
6
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la
realidad. Cualquier información que queremos recoger está distribuida según una ley
de probabilidad, así llamamos nivel de confianza a la probabilidad de que el intervalo
construido en torno a un estadístico capte el verdadero valor del parámetro.
Ejemplo, Una población a encuestar tiene 10000 personas y una varianza de 9.648.
Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error
máximo del 10%, ¿cuál debe ser el tamaño muestral para trabajar?
En las tablas de la curva Normal el valor de Z α / 2 que corresponde con el nivel de
confianza elegido, Z / 2 1.96
n 1.96 2 9.648 / 0.12 3.706
Comprobamos que no se cumple, pues en este caso 10.000 < 3.706 (3.706 - 1);
10.000 < 13.730.730, por tanto, usamos
n 3.706 /(1 (3.706 / 10.000)) 2.704
7
N Z 2 / 2 P (1 P)
n
( N 1) e 2 Z 2 / 2 P (1 P)
Esas características tienen que ver principalmente con el tamaño de la muestra y con
la manera de obtenerla. El muestro, implica algo de incertidumbre que debe ser
aceptada para poder realizar el trabajo, pues aparte de que estudiar una población
resulta ser un trabajo en ocasiones demasiado grande, por tanto, se ofrecen las
siguientes razones extras:
- Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el
estudio paleontológico de los dinosaurios sería muy bueno contar con, al menos,
muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta
sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas
criaturas en todo el mundo.
- El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre
la población total puede causar errores por su tamaño o, en el caso de los censos,
que sea necesario utilizar personal no lo suficientemente capacitado; mientras que,
8
por otro lado, el estudio sobre una muestra podría ser realizada con menos
personal pero más capacitado.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:
- El porcentaje de confianza con el cual se quiere generalizar los datos desde la
muestra hacia la población total.
- El porcentaje de error que se pretende aceptar al momento de hacer la
generalización.
- El nivel de variabilidad que se calcula para comprobar la hipótesis.
Una vez que se han determinado estos tres factores, entonces se puede calcular el
tamaño de la muestra como a continuación se expone. Hablando de una población de
alrededor de 10,000 casos, o mínimamente esa cantidad, podemos pensar en la
manera de calcular el tamaño de la muestra a través de las siguientes fórmulas. Hay
que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en
9
instrumentos que no incluyan preguntas abiertas y que sean un total de alrededor de
30.
Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que
no se conozca con precisión el tamaño de la población, y es:
z 2 pq
n 2
e
Ejemplo: Un Colegio desea realizar una investigación sobre los alumnos inscritos en
primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a
una muestra, pues los recursos económicos y el tiempo para procesar la información
resultaría insuficiente en el caso de aplicársele a la población estudiantil completa. En
primera instancia, suponiendo que no se conoce el tamaño exacto de la población,
pero con la seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la
primera fórmula.
10
Las técnicas de muestreo probabilística son aquellas en las que se determina al azar
los individuos que constituirán la muestra. Estas técnicas nos sirven cuando se desean
generalizar los resultados que se obtienen a partir de la muestra hacia toda la
población. Lo anterior se dice dado que se supone que el proceso aleatorio permitirá
la obtención de una muestra representativa de la población.
Los muestreos probabilísticas pueden ser con o sin reemplazo. Los muestreos con
reemplazo son aquellos en los que una vez que ha sido seleccionado un individuo (y
estudiado) se le toma en cuenta nuevamente al elegir el siguiente individuo a ser
estudiado. En este caso cada una de las observaciones permanece independiente de
las demás, pero con poblaciones pequeñas tal procedimiento debe ser considerado
ante la posibilidad de repetir observaciones. En el caso de poblaciones grandes no
importa tal proceder, pues no afecta sustancialmente una repetición a las frecuencias
relativas.
Los muestreos sin reemplazo son los que una vez que se ha tomado en cuenta un
individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta
nuevamente. En este caso, y hablando específicamente para el caso de poblaciones
pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta
nuevamente el individuo se altera la probabilidad para la selección de otro individuo
de la población. Para el caso de las poblaciones grandes (por ejemplo la población de
un país) dicha probabilidad para la selección de un individuo se mantiene
prácticamente igual, por lo que se puede decir que existe independencia en las
observaciones.
- Muestreo aleatorio simple. Podemos aquí mencionar que para el caso de que se
estuviese estudiando un propoción dentro de la población (una elección de
candidato, la aceptación o rechazo de una propuesta en una comunidad, la
presencia o ausencia de una característica hereditaria), y el en caso de un muestreo
aleatorio simple, la estimación que se puede hacer de la proporción buscada a
partir de la proporción hallada en la muestra se obtiene mediante la construcción
de un intervalo de confianza:
= P ± tolerancia de la muestra
11
pq
Pz
n
12
fichas; luego, el cociente entre población y muestra es 488 /25, aproximadamente
19. Notar que si se elige 20 el tamaño muestral no llega a 25. Entonces, se cuentan
las fichas y a llegar a la décimo novena se la extrae, se sigue hasta la número 38
que será la segunda escogida, y así sucesivamente hasta tener las 25 fichas
necesarias. Es también el caso de los soldados que se numeran de 1 en adelante y
cada 5 (u otro número cualquiera) dan un paso al frente. Es un método sencillo y
rápido de selección.
c. Estratificado. A veces nos interesa, cuando las poblaciones son muy grandes,
dividir éstas en sub-poblaciones o estratos, sin elementos comunes, y que cubran
toda la población. Una vez hecho esto podemos elegir, por muestreo aleatorio
simple, de cada estrato, un número de elementos igual o proporcional al tamaño
del estrato. Este procedimiento tiene la gran ventaja de que se puede obtener una
mayor precisión en poblaciones no homogéneas (aunque en este curso no
estudiaremos los métodos necesarios) Si decidiéramos hacer una encuesta sobre la
incidencia del tabaco en nuestro centro, podríamos razonar de la siguiente forma:
13
reposición. Las poblaciones son finitas o infinitas. Si por ejemplo, sacamos 10 bolas
sucesivamente, sin reposición, de una urna que contiene 100 bolas, estamos tomando
muestra de población finita; mientras que si lanzamos 50 veces una moneda contamos
el número de caras, estamos ante una muestra población infinita. Una población finita
en la que se efectúa muestra con reposición, puede considerarse infinita teóricamente,
ya que puede tomar cualquier número de muestras sin agotarla. Para muchos efectos
prácticos, una población muy grande se puede considerar como si fuera infinita.
PEQUEÑAS MUESTRAS
El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer
conclusiones acerca de la naturaleza de una población. Al ser la población grande y
no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones
obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos
lleva, en primer lugar a la justificación, necesidad y definición de las diferentes
técnicas de muestreo.
Los primeros términos obligados a los que debemos hacer referencia, definidos en el
primer capítulo, serán los de estadístico y estimador.
Dentro de este contexto, será necesario asumir un estadístico o estimador como una
variable aleatoria con una determinada distribución, y que será la pieza clave en las
dos amplias categorías de la inferencia estadística: la estimación y el contraste de
hipótesis.
14
El concepto de estimador, como herramienta fundamental, lo caracterizamos
mediante una serie de propiedades que nos servirán para elegir el ``mejor" para un
determinado parámetro de una población, así como algunos métodos para la
obtención de ellos, tanto en la estimación puntual como por intervalos.
¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población
cuando sólo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar
la relación entre el fumar y el cáncer de pulmón e intentamos extender las
conclusiones obtenidas sobre una muestra al resto de individuos de la población. La
tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la
población a partir de una muestra extraída de la misma.
La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre
la distribución de un carácter en dicha población y las distribuciones de dicho carácter
en todas sus muestras. Las ventajas de estudiar una población a partir de sus muestras
son principalmente:
Coste reducido: Si los datos que buscamos los podemos obtener a partir de una
pequeña parte del total de la población, los gastos de recogida y tratamiento de los
datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un
referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a
30.000.000;
Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio
de las primeras mesas electorales, se obtiene una aproximación bastante buena del
resultado final de unas elecciones, muchas horas antes de que el recuento final de
votos haya finalizado;
Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de
cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su
vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña
parte de ellas y sacar conclusiones sobre las demás. De este modo se ve que al hacer
estadística inferencial debemos enfrentarnos con dos problemas:
- Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este
capítulo.
- Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la
población (inferencia).
15
dependiendo del problema y con el objetivo de reducir los costes o aumentar la
precisión, otros tipos de muestreo pueden ser considerados como veremos más
adelante: muestreo sistemático, estratificado y por conglomerados.
16
varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de
una cualquiera de ellas, formada por n elementos es:
1 1 1
n
N N N
e n
x n f ( x n / x 1 , .. ., x n 1 )
17
t * 600 t * 600
1 k 1
10 100.000
Este proceso se debe repetir n veces para obtener una muestra de tamaño n.
18
que el valor medio de la muestra sea necesariamente cero. Sin embargo como
sabemos por el teorema de Fisher que
10
X
X i N(0,0.1)
i 1 N
19
es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10
alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante
muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que
se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente
obtendríamos mejores resultados estudiando una muestra de 1 varón y 9 hembras.
Esto es lo que se denomina asignación óptima.
Así en un estrato dado, se tiende a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna (varianza);
- El muestreo es más barato en ese estrato.
Para ajustar el tamaño de los estratos cuando conocemos la dispersión interna de cada
uno de los mismos, tenemos el siguiente resultado:
Sea X la variable aleatoria que representa el carácter que intentamos estudiar. Sobre
cada estrato puede definirse entonces la variable aleatoria X i como el valor medio
de X obtenida en una muestra de tamaño ni en el estrato Ei. Sea V ( X i ) la varianza
de dicha variable aleatoria; Entonces
k
V( X ) se minimiza cuando
i 1
i
20
N i ŝ i
ni n 1 Ni
k
N ŝ j j
donde ŝ i x ij x i 2
N 1 j1
j i
21
de densidad conjunta de la muestra, que por estar formada por observaciones
independientes, puede factorizarse del siguiente modo:
f c ( x 1 ,..., x n , 1 ,..., k ) f ( x 1 , 1 ,..., k ) * f ( x 2 , 1 ,..., k ) * * f ( x n , 1 ,..., k )
Ejemplo, Consideremos una variable aleatoria de la que sólo conocemos que su ley
de distribución es gaussiana, X~N(), con 1= y 2=2 desconocidos
22
mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación concreta
del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha
cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es
(el valor que se desea conocer).
entonces ̂ es consistente.
Para calcular el error tipo II o se debe especificar la hipótesis alternativa como una
hipótesis simple. Sin embargo, en la mayoría de los casos, esta hipótesis se plantea
como compuesta. Al plantearse la hipótesis alternativa como compuesta, no se puede
calcular el error tipo II asociado con la prueba. Sin embargo, para obviar esta
dificultad lo que se hace es asignarle varios valores a la hipótesis alternativa, calcular
el error tipo II y realizar una curva con estos valores. Esta curva recibe el nombre de
"Curva Característica Operativa o Curva OC", y es muy empleada principalmente en
estudios de control de calidad.
23
La región crítica de esta prueba está en c = 10.548, es decir, se rechaza H 0 = 10 si
la media de la muestra es mayor de 10.548. Para construir la curva OC se presentan
en la tabla siguiente diferentes valores de la hipótesis alternativa con sus respectivas
probabilidades de aceptación.
9.6 9.8 10.0 10.2 10.4 10.6 10.8 11.0 11.2 11.4 11.6
0.998 0.988 0.950 0.852 0.672 0.438 0.225 0.088 0.025 0.005 0.001
24
concisa de la sensibilidad de una prueba estadística, donde por sensibilidad se
entiende la capacidad de una prueba para detectar diferencia. Considere la siguiente
prueba de hipótesis:
Ho: = 0 = 10 H1: > 0 n = 9, = 0.05, ² = 1.
ESTIMACIÓN CONFIDENCIAL
25
La técnica de la estimación confidencial consiste en asociar a cada muestra un
intervalo que se sospecha que debe contener al parámetro. A éste se le denomina
intervalo de confianza. Evidentemente esta técnica no tiene porqué dar siempre un
resultado correcto. A la probabilidad de que hayamos acertado al decir que el
parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza.
También se denomina nivel de significación a la probabilidad de equivocarnos.
Estimación Puntual. La inferencia estadística está relacionada con los métodos para
obtener conclusiones o generalizaciones acerca de una población. Estas conclusiones
sobre la población pueden estar relacionadas ó con la forma de la distribución de una
variable aleatoria, ó con los valores de uno o varios parámetros de la misma.
26
Pruebas de Hipótesis Sobre Parámetros
Sobre Distribuciones
Los estimadores son variables aleatorias, y por lo tanto tienen una función de
densidad, correspondiente a las distribuciones muéstrales. Por lo tanto, no hay ningún
estimador perfecto, ya que siempre habrá algún error en el proceso de estimación.
Según lo anterior, deben estudiarse distintas propiedades estadísticas de los
estimadores para decidir cual es el más apropiado. Algunas de las propiedades a
estudiar corresponden al sesgo, mínima varianza, consistencia, eficiencia relativa y
suficiencia.
27
A: El método usado para pronosticar la demanda de A es el que mejor hace su
trabajo, ya que queda más cerca del valor real y tiene una menor varianza.
28
Ejemplo. La media muestral es un estimador insesgado de la media poblacional
ya que E( )=.
Ejemplo. Sea X1, X2,..., Xn una muestra aleatoria con E(Xi)=. Demostrar que si
i1 a i 1 entonces T = a1X1 + a2X2 +...+anXn es un estimador insesgado de .
N
1 n
2
Ejemplo. Si V 2
n i 1
X i X , será un estimador insesgado de ²?. Se puede
n 1 2
demostrar que E (V 2 )
n
1 n 2
Ejemplo. Sea W 2 i 1
X i , será un estimador insesgado de ² si es un
n
parámetro conocido?.
1
X i X , un estimador insesgado de la varianza ²
2
n
Ejemplo. Será S 2
n 1 i 1
Se desea estimar el parámetro con base en una muestra aleatoria X 1, X2, ..., Xn de
tiempos de reacción. Como es el tiempo máximo de reacción, para toda la
29
población, se cumple que (X1, X2, ..., Xn), por lo cual podemos considerar como
un primer estimador el siguiente estadístico:
T1 = Máximo(X1, X2, ..., Xn).
Estadísticos de orden. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n. Los
valores se presentan de acuerdo al orden en que son tomados. Suponga que la muestra
se ordena de menor a mayor. Sea X(1) el menor valor de la muestra, sea X(2) es
segundo valor, X(i) el valor que ocupa el puesto i al ordenar la muestra de menor a
mayor, y finalmente sea X(n) el mayor valor de la muestra. Esta muestra ordenada,
X(1), X(2),..., X(i),..., X(n) recibe el nombre de "estadísticos de orden". De acuerdo
con lo anterior, los estadísticos T1 y T2 formulados en el párrafo anterior se pueden
reformular como:
n 1
T1 = X(n) T2
n
Los estadísticos de orden son variables aleatorias, y como tales tienen una función de
densidad, y se pueden usar para estimar los parámetros de las distribuciones.
Ejemplo. Al calcular la media de una población normal sobre la base de una muestra
de tamaño 2n+1, ¿cuál es la eficiencia de la mediana con relación a la media?
30
Se sabe que la varianza de la media X está dada por ²/(2n+1). Para una muestra
aleatoria de tamaño 2n+1 de una población normal se sabe que el valor esperado y la
varianza de la mediana están dados por:
~ ~ ~ 2
E(X) V (X)
4n
La media requiere sólo el 64% de las observaciones que requiere la mediana para
estimar la media poblacional con la misma confiabilidad. Estimador insesgado de
mínima varianza. Para saber si un estimador insesgado es de mínima varianza o con
sesgo mínimo, se usa la desigualdad de Crámer-Rao, dada en el siguiente teorema.
31
Por lo tanto se tiene que
Teorema. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una población
normal con media y varianza ². Entonces el estimador T X es el "estimador
insesgado de mínima varianza" de , también denominado Minimum Variance
Unbiased Estimator.
Para saber por qué es tan importante el error cuadrático medio ECM, veamos cómo se
puede expresar: ECM(T) = E{(T - )²} = E(T² - 2T + ²) = E(T²) - 2E(T) +²
Sumando y restando [E(T)]² a ambos lados de la ecuación se tiene que:
ECM(T) = {E(T²) - [E(T)]²}+ {[E(T)]² - 2E(T) + ²}
ECM(T) = V(T) + [ - E(T)]²
32
Definición. El error estándar de un estimador T es su desviación estándar
T V (T ) . Para la media el error estándar sería T n .
ó en forma equivalente
33
Teorema. El estadístico T es un "estimador consistente" del parámetro si
1) T es un estimador insesgado.
2) V(T) 0 cuando n.
Las dos condiciones anteriores son suficientes, pero no son necesarias. Es decir, si un
estimador cumple las dos condiciones, entonces ese estimador es consistente, pero el
hecho de no cumplirlas, no quiere decir que no lo sea. Un estimador sesgado puede
ser consistente solo si es asintóticamente insesgado, es decir, que se vuelve insesgado
cuando n .
E(S²) = ²
Se observa que V(S²) 0 cuando n .
Ejemplo. Se tiene una muestra aleatoria (X1, X2, ..., Xn) de tamaño 30 tomada de una
población exponencial f(x, ), donde es un parámetro desconocido. Considere las
dos estadísticos siguientes:
34
1 1
T1 T2
X1 X 3 X 5 X 29 X 1 X 2 X 3 X 30
Definición. Se dice que un estadístico T = t(X 1, X2, ..., Xn) es suficiente para un
parámetro si la distribución conjunta de X1, X2, ..., Xn dado T se encuentra libre de
, es decir, si se afirma T, entonces X1, X2, ..., Xn no tienen nada más que decir acerca
de .
Teorema de factorización de Neyman. Sea X1, X2, ..., Xn una muestra aleatoria de
una distribución con función de densidad f(x,). Se dice que el estadístico T = t(X1,
X2, ..., Xn) es un estadístico suficiente para si y solo si la función de verosimilitud se
puede factorizar de la siguiente manera:
L(X,) = h(t, ) g(x1, x2, ..., xn)
para cualquier valor t(x1, x2, ..., xn) de T y donde g(x1, x2, ..., xn) no contiene el
parámetro .
Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución
gama, cuya función de densidad está dada por,
(t ) k 1
f ( t ) e t , t≥0
( k )
(k )
35
Ejemplo. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n de una distribución de
Poisson con parámetro cuya función de densidad está dada por,
x e
f (t)
x!
, donde
Sea X una variable aleatoria con función de probabilidad f(x,). Las muestras
aleatorias simples de tamaño n, X1,..,Xn tienen por distribución de probabilidad
conjunta
f c ( x 1 ,.., x n ; ) f ( x 1 ,..., x n ; ) f ( x 1 , ) f ( x 2 , ) f ( x n , )
Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:
- Fijando es una función de las n cantidades xi. Esto es la función de probabilidad
o densidad.
- Fijados los xi como consecuencia de los resultados de elegir una muestra mediante
un experimento aleatorio, es únicamente función de . A esta función de la
denominamos Función de Verosimilitud.
En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimación del parámetro es aquella que
maximiza la función de verosimilitud (cuidado no confundir V() con la varianza. En
algunos textos aparece la función de verosimilitud como L())
x1,…,xn fijados →Verosimilitud: V()=f(x1,..,xn;)
36
Como es lo mismo maximizar una función que su logaritmo (al ser este una función
estrictamente creciente), este máximo puede calcularse derivando con respecto a la
función de verosimilitud (bien su logaritmo) y tomando como estimador máximo
verosímil al que haga la derivada nula:
log V
( mv ) 0
1. Son consistentes;
2. Son invariantes frente a transformaciones biunívocas, es decir, si ̂ mv es el
estimador máximo verosímil de y g ( ˆ ) es una función biunívoca de ,
37
E(Xi)= V(Xi)=2
2
(en principio escribimos también el otro parámetro desconocido, 2, aunque no nos
interesamos en su estimación por el momento). La expresión de la función de
verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:
2
n 1 n x
log V( , ) log(2 2 ) i
2
2 2 i 1
38
1 n
mv x i como queríamos demostrar
n i 1
n i 1
39
embargo se comprueba también su falta de sesgo, lo que hace mas adecuado que se
utilice como estimador de la varianza al siguiente concepto: cuasivarianza muestral
n i 1 n i 1 n i 1
V (X i ) E (X i2 ) E (X i ) 2 E (X i2 ) 2 2
2
V ( X ) E( X i2 ) E ( X i ) 2 E ( X i2 ) 2
n
Luego
1 n 2 n 1 2
E(s 2 )
n i 1
( 2 2 ) 2
n n
40
Cuasivarianza muestral. Para tener un estimador insesgado de la varianza
introducimos la cuasivarianza muestral ŝ 2 que se define como
n 2 1 n
ŝ 2
n 1
s
n 1 i 1
(X i X ) 2
Esa esperanza puede ser calculada de un modo más directo, ya que la distribución del
estimador 2 es conocida usando el teorema de Cochran:
2
ns 2 n
Xi X
2
i 1
2n 1
luego
ns 2 n 1 2 ns 2 2(n 1) 4
E 2 n 1 E(s 2 ) V 2 2(n 1) V(s 2 )
n n2
Teorema: Sean X1, X2 y X3 variables aleatorias que tienen una distribución conjunta
absolutamente continua, también la tiene un pare de ellas X 1,X3 y una función de
densidad de conjunta para estas dos puede escribirse,
41
f X 1,X 3 ( x 1 , x 3 )
f X1X 2 X 3 ( x 1, x 2 , x 3 )dx 2
Teorema: Sean X1,...,X3 variables aleatorias que tienen una distribución conjunta
absolutamente continua, la condición suficiente y necesaria qpara que sean
independientes es que la densidad conjunta de ellas sea,
n
f X 1,...,X n ( x 1,..., x n ) fXj (x j )
j 1
Y sea que el determinante del Jacobiano no sea nulo para (u1,..., u n ) , siendo
{(u1,. .u n ) a i xi (u1,. ., u n ) bi , 1 i n}
x 1 x 1 x 1
...
u 1 u 2 u n
x 2 x 2 x 2
( x 1 ,.., x n ) ...
u u 2 u n
(u 1 ...u n ) 1
... ... ... ...
x n x n x n
...
u 1 u 2 u n
42
El cual se transforma mediante el cambio de variables en las integrales múltiples para
la caso particular de coordenadas polares,
( x , y) cos rsen
=r,
( r , ) sen r cos
Teorema: Sean X1,...,Xn variables aleatorias que tienen una distribución conjunta
absolutamente continua, y sean u1(x1,...,xn),...,un(x1,...,xn) una aplicación en el espacio
E(n) en sí mismo que satisface a las condiciones exigidas en el teorema anterior con
cambio de variables en las integrales múltiples. Sea Ui=ui(X1,..,Xn), Entonces,
U1,...,Un tiene distribución conjunta absolutamente continua y densidad,
( x 1 ,..., x n )
f U1 ,...,U n (u 1 ,.., u n ) f X1 ,..,X n x 1 (u 1 ,.., u n ),..., x n ( u 1 ,.., u n )
(u 1 ,..., u n )
Teorema: Sean X1,...,Xn variables aleatorias independientes, cada una de ellas con
una distribución absolutamente continua, y sean r 1,...,rk, k enteros positivos, tales que,
r1+...+rk=n. Entonces, la k variables aleatorias
X1 . . X r , X r 1 . .X r r ,. ., X nr 1 . . X n
1 1 1 2 k
son independientes.
ESTIMACIÓN PUNTUAL
43
Este suceso es el suceso compuesto que sigue: A 1 ocurre en la primera prueba, A2 en
la segunda, y así sucesivamente. A un suceso compuesto así, es lo llamado suceso
rectangular, y es necesario que la sigma – algebra contenga todos estos sucesos.
i 1
44
Estimaciones Imparciales y Consistentes. Sea una población con una variable
aleatoria X definida sobre ella, y sea una constante asociada a ella, que se pretende
valorar. Sea la extensión de la muestra n, y considerando la variable aleatoria U
definida sobre ( n ) .
Teorema: Sea una población y X una variable aleatoria observada definida sobre
la misma población, la cual tiene distribución discreta o absolutamente continua y
donde existe el segundo momento de orden finito. Si X1,..,Xn son n observaciones
independientes de X y sí X=(X1+...+Xn)/n, entonces, Xn es una estimación imparcial y
consistente de E[X]
Teorema: Sea Un una variable aleatoria definida sobre ( n ) , y supongamos que ella
es una estimación imparcial de y además que E[Un2 ] . Si V1,V2,... es una
sucesión de observaciones independientes de Un, y sea Zn=(V1+...Vn)/n para todo n,
entonces la sucesión {Zn} es una sucesión consistente de
Sea una población y sean ligadas a ella una serie de constantes 1,..., k que
están por conocerse, y no se pueden medir directamente, entonces, sea X una variable
aleatoria definida sobre la población de tamaño n, y {X n} es una sucesión de
observaciones independientes de X, y sobre la cual conocemos la distribución
FX ( x / i ) . El problema consiste en hallar las estimaciones.
El gran problema reside, y para ello trabajemos con dos variables desconocidas
1, 2 , en que se debe suponer que E[ X 4 ] y que se conocen los dos primeros
momentos m1 y m2 y que son funciones de 1 y 2 . Además hay que suponer que
1 n 2 P
X n
P
m1 y Vn Xk m2
n k1
y por último, que las funciones 1( x, y) y 2 (x, y) son tales que
1 (X n , Vn )
P
1 (m1 , m 2 ) y 2 (X n , Vn )
P
2 (m1 , m 2 ) ,
45
con lo cual finalmente se demuestra que, 1 (X n , Vn ) y 2 (X n , Vn ) son sucesiones consistentes
de estimaciones de 1 y 2 , respectivamente.
Teorema: Sea f(x,y) una función y sean {X n} y {Yn} unas sucesiones de las variables
aleatorias tales que X n P
a yYn
P
b , siendo a y b constantes, entonces, f es continua
en (a,b) y si f(Xn,Yn) es variable aleatoria para cualquier n, entonces,
f X n , Yn
P
f (a , b)
Sea X una variable aleatoria definida sobre la población y sean X1,...,Xn sus n
observaciones independientes, y supongamos que la función de distribución de X es
absolutamente continua (lo cual es válido para el caso discreto), entonces la función
fX(x) es la densidad de X que es de una variable desconocida , f(x/ ).
ˆ ( x ,..., x )
n
1
... n f ( x i
i 1
dx 1 ...dx n
46
puedan derivarse bajo el signo integral con respecto a ; y finalmente,
2
Logf ( X )
E
para todo A
Var 1 n
ˆ ( X ,..., X ) 1 E
n
Logf ( X )
A
,
teniendo en cuanta que el signo igual solo es válido cuando exista una constante k,
que depende de y n, tal que la probabilidad
2
1 Logf ( X )
k 1 Logf (X k ) n E
n
Principio de Máxima Probabilidad. Sea X una variable aleatoria definida sobre una
población con una distribución discreta o absolutamente continua. Sea f(x/ ) la
densidad dependiente de x y de desconocido. El problema es estimar . Sean
X1,...,Xn observaciones de X con una densidad conjunta f(x1,...,xn/ )
Sea X una variable aleatoria discreta o continua cuya función de probabilidad f(x)
depende de un parámetro . Se efectúa n veces un experimento y se obtiene x 1,...,xn
resultados independientes
Sí están dados y son fijos los x1,x2,... entonces es una función de y es la función
de verosimilitud
47
Se trata de escoger la aproximación para , para que sea tan pequeño como sea
posible (el cual debe ser derivable), 0 para que exista el máximo, lo cual
conduce a la solución y es la estimación de máxima verosimilitud para :
0, , 0
1 r
Propiedades
E[ Z] ( x y)p XY ( x , y)
x y
48
n
Teorema: Si Y g (X1 ,..., X n ) a i X i , entonces,
i 1
n n
E[Y] E a i X i a i E[X i ]
i 1 i 1
n n n
i 1 i 1 j i 1
1 y a
que es de la forma Y=a+bX y sabiendo que f y ( y) fx , tenemos entonces,
b b
49
dg ( x )
1 ya 1 y g(m x ) m x dx mx
f y ( y)
fx fx
b b dg( x ) dg ( x )
mx mx
dx dx
50