FUNDAMENTOS DE INFERENCIA
Inferir es, en general, establecer un nuevo conocimiento partiendo de uno ya "dado". La inferencia
estadística va a ser una forma especial de realizar este proceso. Consiste, básicamente, en determinar
algunas características desconocidas de una población partiendo de datos muestrales conocidos. Estas
características poblacionales serán "inferidas" utilizando los recursos de la TEORÍA MATEMATICA DE
LA PROBABILIDAD.
Conceptos básicos.
POBLACION: Colectivo sujeto del estudio .Cabe distinguir entre Población (colectivo en el que
estamos considerando la magnitud sujeta a estudio) y Universo (colectivo de todos los elementos
sujetos del estudio ,en el que no consideramos la magnitud). El universo es , por tanto, el conjunto de
individuos que poseen la característica o características sujetas a estudio , y éstas en su conjunto
forman la población
MUESTRA: Un subconjunto cualquiera de la población. Para que la muestra nos sirva para extraer
conclusiones sobre la población deber ser representativa, lo que se consigue seleccionando sus
elementos al azar, lo que da lugar a una muestra aleatoria
El estudio de muestras para poblaciones grandes consideraremos sólo el muestreo simple .En el
estudio de muestras de poblaciones finitas es, sin embargo , fundamental analizar las distribuciones
muestrales que generará su adecuado muestreo irrestricto)
(Cada dato muestral genérico) recorre todos los posibles valores que puede tomar el j-simo elemento
de una muestra de n elementos.
Por tanto, una muestra concreta (ya obtenida) será un valor particular (una realización concreta) de la
muestra genérica.
En la medida en que en el muestreo aleatorio cada elemento de la población tiene una probabilidad
de ser elegido, cada dato muestral genérico será una variable aleatoria que tendrá asociada una
función de probabilidad f(x) (de cuantía o de densidad) según una determinada distribución que
llamaremos distribución básica, madre, o, simplemente, distribución de la población y recorrerá
todos los posibles valores de la población.
Si trabajamos con un muestreo aleatorio simple (M.A.S.), cada dato muestral genérico será
estocásticamente independiente de los demás y por tanto la función de probabilidad (cuantía o
densidad) conjunta de la muestra genérica será:
A modo de ejemplo podemos decir que son estadísticos la media muestral ,la varianza muestral , la
cuasivarianza muestral , dado que son funciones de valores muéstrales exclusivamente y no sería
estadístico la función
Que si bien contiene la varianza muestral, también depende de la poblacional y por tanto no es
función exclusiva de la muestra.
Como hemos visto, los estadísticos son variables aleatorias por lo que tendrán determinas
distribuciones de probabilidad y determinados parámetros ( media , varianza , etc) .Para el desarrollo
de la inferencia es imprescindible conocer dichas distribuciones y parámetros , consiguiendo
establecer entonces las relaciones entre éstas y las de la población , pudiendo entonces inferir las
características desconocidas de ésta.
Tras un breve recorrido por las técnicas de muestreo pasaremos a desarrollar las distribuciones de
probabilidad de los principales estadísticos.
TÉCNICAS DE MUESTREO
Es evidente que un conocimiento previo por parte del investigador de las características de la realidad
de la población mejora o debe mejorar los resultados inferenciales que se pueden obtener de la
obtención de una muestra; parace claro que si bien el método de selección aleatoria conlleva los
mejores resultados, quizá el adecuar la manera de extraer la muestra a las posibles distintas
naturalezas de las poblaciones puede mejorar el rendimiento, aunque sólo fuere a nivel de coste. No
es por tanto lo mismo intentar conocer la altura media de los habitantes de un país, que el número de
errores en una gran contabilidad, dado que la naturaleza de su universo y por tanto el
comportamiento poblacional son distintos. Es por ello, que para distintas "naturalezas" del problema
han de plantearse distintas soluciones , si bien todas ,o casi todas, pasan por la aleatoriedad ; de ahí
que se establezcan diversas "técnicas" o "métodos" de muestreo , de los que brevemente
enumeramos algunos .
Muestreo aleatorio sistemático. Esta técnica consiste en extraer elementos de la población mediante
una regla sistematizadora que previamente hemos creado (sencillamente cada K elementos). Así;
numerada la población, se elige (aleatoriamente) un primer elemento base , partiendo de éste se
aplica la regla para conseguir los demás hasta conseguir el tamaño muestral adecuado . Este
procedimiento conlleva el riesgo de dar resultados sesgados si en la población se dan periodicidades
o rachas.
*afijación simple: a cada estrato le corresponde igual número de elementos (extracciones) muestrales.
*afijación proporcional: la distribución se hace de acuerdo con el peso (tamaño) relativo de cada
estrato.
*afijación óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica.
Muestreo por unidades monetarias .Este tipo de muestreo es especifico en auditoría , viene a
solucionar el problema que plantea la selección aleatoria de partidas contables que no tienen
(evidentemente) el mismo monto económico y por ello en un muestreo estrictamente aleatorio se
"primaría" la inspección de las numerosas partidas pequeñas irrelevante s dejando sin inspección las
importantes y cuantiosas. Para solucionarlo el M.U.M plantea la selección aleatoria no de asientos o partidas
sino de unidades monetarias (ordenadas y numeradas) de tal manera que el defecto anterior se subsana al
tener una partida cuantiosa más probabilidades de ser elegida pues contiene más unidades monetarias.
Otros tipos de muestreo. Es evidente que los planteados no son las únicas técnicas de muestreo. Existen otras
como las no aleatorias: Cuotas, Intencional, Incidental, bola de nieve, etc. Y otras aleatorias y complicadas como
el muestreo por superpoblaciones, y que en este curso no podemos desarrollar.
Esquemáticamente pueden plantearse algunos de los posibles escenarios que darán origen a las diversas
distribuciones muéstrales que después desarrollaremos.
Una vez esquematizadas las distribuciones de algunos de los principales estadísticos muestrales
pasamos a desarrollar algunas de ellas.
en efecto :
así :
Tendríamos que
dado que en el muestreo aleatorio simple las observaciones o elementos son independientes
tendremos covarianzas iguales a cero y dado que :
para todo i
Tendremos
evidentemente la desviación típica será
en el caso de que el muestreo que hayamos realizado no sea aleatorio simple y que sea irrestricto y
por tanto se plantee que no hay reemplazamiento siendo la población finita la media de la media
muestral no sufrirá variaciones , pero no así la varianza de la media muestral que se verá afectada por
el "coeficiente corrector de poblaciones finitas" (C .C .P.F. ), o "coeficiente de exhaustividad" , ya
conocido del estudio de la distribución hipergeométrica. Así la varianza de la media muestral quedaría
:
Dado que ya conocemos la media y la varianza de la media muestral , y dado que podríamos tomar la
muestra genérica como una sucesión de variables aleatorias independientes de media y varianza
conocida , aunque con distribución desconocida , y en aplicación del T.C.L. , tendremos que la ley de la
media muestral sea cual sea la distribución poblacional viene dada por :
Al igual que la media muestral la varianza muestral tendrá media y varianza dado que se trata
también de una variable aleatoria.
= =
dado que
y también
De todas las posibles distribuciones básicas es, sin duda, la distribución normal la más importante por
el gran número de poblaciones que se distribuyen así, real o asintóticamente, (en virtud de los
Teoremas Límite).
L [S2] que nos llevaría a conclusiones próximas a las anteriormente descritas en el apartado en el que la
población no era normal, es más conveniente la utilización de la variable aleatoria
Así tendríamos:
lo que da lugar a :
expresión que relaciona ambas medias y la varianza muestral con una distribución conocida
Por su importancia incluimos esta distribución si bien podría considerarse un caso particular de la
media muestral con distribución poblacional desconocida.
Así dada una población que por sus características consideramos binomial pues nuestra intención es
inferir la proporción de éxitos p y por tanto la población sería B (N,p) podemos considerar cada
realización muestral xi una D(p) cuya media sería p y su varianza pq
la variable dado que las xi son independientes y en aplicación del TCL tendríamos
que
DISTRIBUCIÓN DE LA DIFERENCIA DE DOS MEDIAS MUESTRALES DE DOS POBLACIONES
NORMALES.
Por último y dado el gran número de intervalos y contrastes que emanan de la utilización de esta
distribución creemos necesario incluirla . Así:
e
realizado un MA.S de tamaños nx y ny respectivamente tendremos por conocido que y también
En el resultado anterior, veíamos que la suma de variables aleatorias normales es otra variable
aleatoria normal. Sin embargo, la normalidad de una suma de variables no se limita solo a las
variables normales. El teorema central del límite es un resultado matemático que garantiza que, si
sumamos variables cualesquiera (no necesariamente normales), la variable suma también seguirá una
distribución normal (esto siempre que se cumplan algunas condiciones básicas).
Con un tamaño típico se quiere garantizar que las contribuciones tienen que “estar controladas”,
esto es, las contribuciones extremas tienen que estar controladas por una probabilidad muy
pequeña (En jerga matemática las contribuciones tiene que tener varianza finita).
A continuación se presenta el enunciado del TCL en la versión de Lindeberg y Lévy.
Teorema:
Sea X1, X2, ..., Xn, un conjunto de variables aleatorias independientes idénticamente
distribuidas, cada una de ellas con función de distribución F, y supongamos que E(Xk)
= μ y var(Xk) = σ2 para cualquier elemento del conjunto. Si designamos a la suma
normalizada de n términos con el símbolo:
La convergencia a la Normal tipificada se produce con cualquier tipo de variable que cumpla las
condiciones del teorema, sea discreta o absolutamente continua.
Un sinónimo para indicar que una sucesión converge en ley a una Normal es señalar que es
asintóticamente Normal.
Existen otras versiones del TCL dónde se relajan las condiciones de la versión de Lindeberg y Lévy, que,
como se ha visto, obliga a las variables aleatorias a tener idénticas medias varianzas. Dichas versiones
del TCL necesitan el conocimiento de conceptos matemáticos que exceden el nivel al que se orienta
Statmedia, y por esta razón se omite su enunciado.
El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y
todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se
distribuye según una distribución normal.
Ejemplo: la variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si lanzamos la
moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye
según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Los parámetros de la distribución normal son:
Veamos un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada
lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con media
0,5 y varianza 0,25.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución
norma
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada
equivalente:
Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan sólo del 2,28%
3- El error estándar de estimación es una medida del error que se comete al tomar la
media muestral como estimación de la media poblacional.
DISTRIBUCIÓN MUESTRAL
Si suponemos que la estatura promedio de las argentinas entre 19 y 49 años es de 161 centímetros
con una desviación estándar de 6,99, estos serían los parámetros de la población. Si sacamos cinco
muestras aleatorias de veinte observaciones de esta población van a arrojar resultados distintos a
estos valores. Algunas muestras van a tener una media por arriba de la media real y otras van a tener
una media por debajo.
Como lo podemos observar en la figura 5.1 la distribución de las muestras es simétrica y normal. La
media de nuestras muestras es 161,42; ligeramente por arriba de la media real, y la desviación
estándar es de 6,17; más de medio centímetro por debajo de la desviación estándar de la población.
La distribución muestral tiene algunas propiedades que son útiles para nuestro trabajo estadístico:
* Se aproxima a una distribución normal. Esto se conoce como el teorema del límite central.
* La media de la distribución es igual (o casi igual) a la media de la población.
* La dispersión es menor a la de la población general.
El número (3) de la lista tiene su lógica ya que en una muestra aleatoria un valor frecuente tiene más
probabilidad de ser seleccionada que un valor extremo. La diferencia entre curva normal de la
población y la curva de la distribución muestral está ilustrada en la figura 5.2
El error estándar de estimación se puede calcular para todas las medidas que se obtienen
en las muestras (por ejemplo, error estándar de estimación de la media o error estándar
de estimación de la desviación estándar) y mide el error que se comete al estimar la
verdadera medida poblacional a partir de su valor muestral
Error estándar = desviación estándar de la población dividida por la raíz cuadrada del
tamaño de la muestra.
Ejemplos de cálculo
Suponga que está tratando de estimar la proporción de personas en la población que
tienen una conducta A, y se desea tener un 95% de confianza en sus resultados.
Ejercicios resueltos
Ejercicio 1
Se toma una muestra de 800 personas y se determina que 560 personas en la muestra
tiene preferencia por la fórmula láctea enriquecida. Determine un intervalo en el cual se
pueda esperar se encuentre la proporción poblacional y la proporción de otras muestras que
se puedan tomar de la población, con un 95% de confianza
p = 560/800 = 0.70
q = 1 – p = 1 – 0.70 = 0.30
grande (mayores a 30). Entonces, se aplica la llamada regla 68 – 95 – 99.7 y se tiene que:
Se puede esperar que la proporción de muestra del 70% cambie hasta en 3.18 puntos
porcentuales si toma una muestra diferente de 800 individuos o que la proporción real de
la población está entre 70 – 3.18 = 66.82% y 70 + 3.18 = 73.18%.
Ejercicio 2
Del total de calificaciones de matemáticas de los alumnos de primer año de una universidad
se tomó una muestra aleatoria de 50 calificaciones en la que la media encontrada fue 75
puntos y la desviación estándar, 10 puntos. ¿Cuáles son los límites de confianza de 95%
para la estimación de la media de las calificaciones de matemática de la universidad?
c) Se puede esperar que la media de la muestra cambie hasta en 2.7718 puntos si se toma una
muestra diferente de 50 calificaciones o que la media real de las calificaciones de matemática de la
población de la universidad está entre 47.2282 puntos y 52.7718 puntos.