Está en la página 1de 89

Introducción al Muestreo

Nicolás Abbate - Mayo 2020

Este es una presentación en desarrollo y se agradece que cualquier error o sugerencia sea
enviada a abbatenicolas@gmail.com
Bibliografía 1. Conceptos básicos
Obligatoria (Cap. 6)
2. Distribuciones de
Capítulo 6 y 7 - “Estadística
Muestreo (Cap. 6)
para Adm. y Economía” de
Levin y Rubin 3. Estimación puntual
(excepto apartados Experimentos
Factoriales y logros de eficiencia)
(Cap. 7)
1. Conceptos Básicos
Conceptos Básicos
Conjunto de Unidades Experimentales que
Universo poseen características comunes de interés
para el investigador.

El conjunto de una variable a analizar del


Población universo.

Subconjunto de una población sobre la cual se


Muestra busca hacer un juicio general de la población
Conceptos Básicos

Censo Muestreo

Es el análisis de todas las Es el análisis de un


unidades experimentales subconjunto de la
de una población. población.
Estadísticos y Parámetros
Durante la unidad de variables aleatorias llamamos a las medidas que
resumen información como “parámetros” (por ejemplo, 𝜇 o 𝜎). ¿A qué nos
referíamos?

Son las medidas que resumen información


Parámetros de una población.

Son las medidas que resumen información de


Estadísticos o una muestra y se los utiliza para realizar
Estimadores inferencias sobre los parámetros poblacionales
Estadísticos y Parámetros
Durante la unidad de variables aleatorias llamamos a las medidas que
resumen información como “parámetros” (por ejemplo, 𝜇 o 𝜎). ¿A qué nos
referíamos?

Parámetros
Estadísticos y Parámetros
Durante la unidad de variables aleatorias llamamos a las medidas que
resumen información como “parámetros” (por ejemplo, 𝜇 o 𝜎). ¿A qué nos
referíamos?

Parámetros
Estadísticos y Parámetros
Para distinguir entre un estadístico (muestral) y un parámetro
(poblacional) vamos a usar letras distintas: en griego o letras mayúsculas
distinguimos a los parámetros, mientras que en letras latinas minúsculas
a los estadísticos:

Media Desvío Proporción Tamaño

Estimador X̄ S p n
Parámetro 𝜇 𝞼 𝞹 N
Proceso de Inferencia (paramétrica)
Con los conceptos que estuvimos viendo podemos caracterizar el
proceso de inferencia paramétrica:

que refiere a la
Parámetro

con el que
concluimos
algo sobre un
calculamos
Estimadores

Lo que vamos a
estudiar esta unidad!
Proceso de Inferencia (paramétrica)
Por ejemplo:

que refiere a la
𝜇
con el que
concluimos
algo sobre
calculamos

Sobre la Inferencia paramétrica
El proceso de inferencia estadístico no se trata de encontrar el valor de un
parámetro. ¿Por qué? Porque no tenemos forma de saber cuál fue. Lo que
vamos a hacer es estimarlo.

Lo que hacer la inferencia estadística es medir con qué grado de


precisión o certeza esta estimación representa al parámetro, y de allí
viene la complejidad del método.
Muestreo
Se llama muestreo a la técnica utilizada para obtener una muestra a partir
de una población.

Para lograr una buena inferencia, es importante generar una muestra


adecuada, que sea representativa de la población. Consideremos el siguiente
ejemplo:

“Estoy realizando un estudio sobre la opinión de la gente en CABA con


respecto a la ley de Interrupción Voluntaria del Embarazo. Para ello, tomo
una muestra de 500 personas en las puertas de las iglesias de la ciudad.”

¿Por qué esta no es una muestra representativa de la población?


Tipos de Muestreo
Se llama muestreo a la técnica utilizada para obtener una muestra a
partir de una población. Vamos a ver dos tipos de muestreo:

“En el muestreo aleatorio o de probabilidad, todos los elementos de la


población tienen la oportunidad de ser escogidos para la muestra.

En el muestreo de juicio, se emplea el conocimiento y la opinión personal


para identificar a los elementos de la población que deben incluirse en la
muestra.“ (L&R)

El muestreo aleatorio nos garantiza la objetividad necesaria para poder


realizar una objetiva (y correcta!) inferencia de la población
Muestreo Aleatorio
Dentro del muestreo aleatorio, hay al menos cuatro métodos que
pueden utilizarse:

Muestreo Aleatorio
Muestreo Sistemático
Simple

Muestreo Muestreo de Racimo o


Estratificado por conglomerados

Queda a cargo del alumno leer sobre estos cuatro métodos. En la


práctica, nos vamos a concentrar en el muestreo Aleatorio Simple.
Diseño de Experimentos

Estudiarlo del libro, si tienen consultas les


respondemos!!
2. Distribuciones de Muestreo
Una pequeña nota introductoria

La teoría estadística sobre la inferencia paramétrica es algo compleja para


las personas que nunca estuvieron en contacto o están entrando en
contacto con los conceptos de probabilidad. Para poder entender el proceso
de cómo pasar de un valor muestral a uno poblacional tenemos que
entender primero cómo se generan los estimadores. Por ello, en la
explicación hacemos un proceso inverso al de la inferencia: vamos desde la
población a la construcción del estimador. Una vez que entendamos esto…
¡Vamos a estar listos para hacer inferencias!
Estimadores en el proceso de
Muestreo
Partamos de una variable que queremos estudiar, por ejemplo, la edad de
los Argentinos. Como hemos visto, la edad es una variable aleatoria porque
está sujeta a incertidumbre. Si tomamos una muestra aleatoria y calculamos
algun estimador, por ejemplo, el promedio…

¿Es el promedio una variable aleatoria?


Estimadores como variables
aleatorias
¿Es el promedio una variable aleatoria?

El razonamiento es simple: elijo 100 personas al azar y obtengo la edad


promedio de ese grupo. Repito el experimento con otras 100 personas…

¡El resultado es distinto! El promedio, el desvío, y todas las medidas que


resumen información que vimos, cuando son indicadores de una muestra (es
decir, son estadísticos o estimadores), son variables aleatorias.
¿El promedio es siempre una VA?
No! Si el promedio se calcula a partir de datos censales, es un parámetro. Si
el promedio se calcula con datos muestrales, es una variable aleatoria. Lo
mismo aplica para el resto de las medidas que resumen información.

Valores fijos (para un


Parámetros momento dado, el promedio
poblacional es un número)

Estimadores Variables aleatorias


Parámetros y Estimadores
Variables aleatorias

Media Desvío Proporción Tamaño

Estimadores X̄ S p n
Parámetro 𝜇 𝞼 𝞹 N

Valores fijos
Distribuciones de Estimadores
Sigamos con el ejemplo de la edad. Nosotros queremos tomar una muestra
de 500 personas y calcular la edad promedio. En Argentina hay aprox. 44
millones de personas. Eso significa que hay virtualmente infinitas muestras
distintas que podríamos tomar: las diferentes combinaciones de 500
personas de Argentina.

Podríamos imaginarnos que tomamos infinitas muestras de esa población


y ver qué forma tiene su distribución de probabilidades.

Veamos este simulador de muestreo:


http://onlinestatbook.com/stat_sim/sampling_dist/
Distribuciones de Muestreo
“Una distribución de probabilidad de todas las medias posibles de las
muestras es una distribución de las medias de las muestras. Los especialistas
en estadística la conocen como distribución de muestreo de la media.“
(L&R)

También podemos obtener distribuciones de muestreo de la varianza, de


una proporción, de la mediana, etc.

En Variables Aleatorias caracterizamos las distribuciones a partir de su


media y su desvío… ¿Eso se mantiene en distribuciones de muestreo?
Caracterización de las
distribuciones de Muestreo
Como en VA, vamos a caracterizar las distribuciones de muestreo a partir de
su Media y su Desvío. Sin embargo, al desvío estándar de una distribución
de un estimador se le llama ERROR ESTÁNDAR.

¿Por qué error estándar?

Porque es la magnitud en que se espera que se desvíe el estimador del


verdadero valor del parámetro, es una medida para el error de muestreo
promedio con respecto al parámetro.
Error estándar
El Error estándar es un buen indicador de la precisión del instrumento que
vamos a utilizar! Si el EE es grande, se espera que en promedio el estimador
se encuentre lejos del parámetro. Por el contrario, si el EE es pequeño, se
espera un valor muy cercano al parámetro.
Error estándar
Error estándar
Distribuciones de muestreo de
Poblaciones Normales
Media, Error estándar y tamaño de
muestra
Dijimos que el error estándar es la magnitud en que se espera que se
desvíe el estimador del verdadero valor del parámetro, es el desvío
estándar de una distribución de un estimador.

¿Qué creen que ocurrirá con la precisión de un estimador cuando aumente


la muestra? ¿Que creen que ocurrirá con el promedio del estimador en
relación a la media poblacional de la variable aleatoria?

Veamos qué pasa en el simulador!


http://onlinestatbook.com/stat_sim/sampling_dist/
Propiedades de la distribución de
muestreo de la media
Podemos concluir a partir de los gráficos dos propiedades importantes con
respecto a la distribución de muestreo de la media:
Error estándar y tamaño de
muestra
El error estándar de la media de una distribución normal es:
Error estándar y Desvío Estándar
Distribución del muestreo de la
media de una VA normal
Si partimos de una variable aleatoria x tal que:

y tomamos una muestra aleatoria a partir de la cual obtenemos la media:

Entonces sabemos que


Error estándar
Calculo de probabilidades de la
media:
Como la media muestral es una variable aleatoria que se distribuye
normalmente, podemos calcular las probabilidades estandarizando la media
con el estadígrafo de transformación:

¡Buscamos P(Z<z) en la tabla de


la dist. normal estandarizada!
Calculo de probabilidades de la
media: Ejemplo
La variable x representa la altura de los estudiantes de FCE, tal que:

El ejercicio a) pide:

¡Para resolver necesitamos saber cómo se distribuye la media muestral!

A partir de las propiedades, sabemos que:

Queda entonces conocer el error estándar de la media:


Por lo tanto, tenemos la distribución de la media muestral:

El ejercicio a) pide:

Tengo que estandarizar la variable xraya:

Entonces:

La prob. de que la altura promedio de la muestra sea inferior a 171 es de 0.09


b) Quiero saber qué valor de n, que tamaño de muestra necesito para que:

Para encontrar el valor de n, recordemos el estadígrafo de transformación de


la normal estandarizada:

Además, en la tabla de fractiles podemos encontrar:


Reemplazando z en el estadígrafo:

Despejando n se obtiene:

Rta: Para que la probabilidad de que la media muestral sea superior a 175 sea
0.2 se necesita una muestra de 71.
Distribuciones de muestreo de
Poblaciones no Normales
¿Qué hacemos con la no
normalidad?
En la práctica, rara vez trabajamos con variables que se distribuyan
normalmente. Es por ello que necesitamos alguna forma de sistematizar y
lograr obtener conclusiones incluso fuera del supuesto de normalidad.

Vamos de nuevo al simulador de muestras y analicemos qué ocurre cuando


tomamos muestras de una distribución no normal.

http://onlinestatbook.com/stat_sim/sampling_dist/
¿Qué hacemos con la no
normalidad?
Hay tres cuestiones claves que observamos:

1. Al igual que en el caso de distribuciones normales, el


promedio de la distribución de la media muestral es el
mismo que el de la variable aleatoria
2. A medida que crece n, la distribución de la media muestral
tiene menor variabilidad, es decir, un menor error
estándar.
3. A medida que crece n… ¡La distribución de la media toma
forma de distribución normal!
Teorema Central del Límite
El tercer punto que acabamos de explicar es un resultado clave para la
teoría estadística, que se enuncia como el Teorema Central de Límite. Este
Teorema tiene varios enunciados, pero vamos a quedarnos con el resultado
general que demuestra:

“la distribución de muestreo de la media se aproxima a la normal al incrementarse


el tamaño de la muestra “ (L&R)

Esto significa que, incluso sin conocer la distribución de una variable


aleatoria, como suele ocurrir en la práctica, sabemos que la media
muestral se distribuye normalmente
Teorema Central del Límite
El tercer punto que acabamos de explicar es un resultado clave para la
teoría estadística, que se enuncia como el Teorema Central de Límite. Este
Teorema tiene varios enunciados, pero vamos a quedarnos con el resultado
general que demuestra:

“la distribución de muestreo de la media se aproxima a la normal al incrementarse


el tamaño de la muestra “ (L&R)

Esto significa que, incluso sin conocer la distribución de una variable


aleatoria, como suele ocurrir en la práctica, sabemos que la media
muestral se distribuye normalmente. Vamos a considerar “muestra grande”
a una donde n>30.
Teorema Central del Límite
Matemáticamente, si tenemos una muestra aleatoria de una variable x tal
que:

Entonces sabemos por el Teorema Central del Límite que:


Corrección del error estándar
para poblaciones finitas
Corrección por finitud
En los puntos anteriores estuvimos calculando probabilidades y obteniendo
la distribución de la media muestral a partir de muestras infinitas (o lo
suficientemente grandes). Sin embargo… ¿Estos resultados se sostienen
para poblaciones finitas?

Si!. Sin embargo, necesitamos hacer una corrección, ya que dentro de una
muestra como tal los sucesos son dependientes.

La corrección se hace en el error estándar de la distribución del estimador.


Corrección por finitud
Para la media muestral, se modifica el error estándar multiplicándolo por un
factor de corrección por finitud o Multiplicador de población finita:

Factor de corrección

Este factor tiende a 1 cuando N→∞, es decir, cuando la población es muy


grande, el factor desaparece. Cuando la población (N) es pequeña, el factor
reduce el error estándar.
Propiedades de la Esperanza y la
Varianza - Demostración de la
distribución de la media muestral
Propiedades de la Esperanza y la
Varianza
El operador matemático (como los son la suma, la multiplicación o la
derivada) Esperanza y el operador Varianza tienen algunas propiedades
útiles. Si c es una constante, y X una variable aleatoria, se cumple que:

Esperanza Varianza

1) E(c)=c V(c)=0

2) E(c+X)=E(c)+E(X)=c+E(X) V(c+x)=V(c)+V(X)=V(X)

3) E(c.X)=c.E(X) V(c.X)=c2.V(X)
¿De dónde salen las propiedades
de la distribución de la media?
Podemos demostrar brevemente a partir de estas propiedades de donde
surgen las propiedades de la media muestral:
¿De dónde salen las propiedades
de la distribución de la media?
También lo podemos hacer con el error estándar:
Estimación puntual
¿Qué es una estimación puntual?
“Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace
una estimación de la velocidad del automóvil que se acerca, de la distancia
que hay entre usted y el auto y de su propia velocidad. Habiendo hecho
rápidamente todas estas estimaciones, usted decide si espera, camina o
corre.“

Una estimación puntual es un número que se utiliza para estimar un


parámetro desconocido de una población.
Ejemplo de estimación puntual
Ejemplo de estimación puntual
Desventaja de las Estimaciones
Puntuales
“A menudo, una estimación puntual es insuficiente debido a que sólo tienen
dos opciones: es correcta o está equivocada.“

¿Cómo sabemos si la estimación del PIB, la inflación o el desempleo de año


pasado fueron buenas estimaciones? ¿Cuándo una estimación es buena?
¿Cuándo es mala?

Una estimación puntual es mucho más útil si viene acompañada por una
estimación del error que podría estar implicado
Estimador y Estimaciones
“Cualquier estadístico de la muestra que se utilice para estimar un
parámetro poblacional se conoce como estimador, es decir, un estimador es
un estadístico de la muestra utilizado para estimar un parámetro
poblacional. [...]

Una estimación es un valor específico observado de un estadístico.


Hacemos una estimación si tomamos una muestra y calculamos el valor que
toma nuestro estimador en esa muestra.“
Estimador y Estimaciones
Estimadores y Parámetros
Un estadístico es también un estimador si se utiliza para para estimar un
parámetro poblacional. Algunos ejemplos de estimadores de parámetros
que vimos son:

Media Desvío Proporción

Estadístico X̄ S p
Parámetro 𝜇 𝞼 𝞹
Propiedades de los Buenos
Estimadores
Propiedades de Buenos
Estimadores
No todos los estimadores son igual de buenos. Por ejemplo, puedo
utilizar el salario mínimo vital y movil como estimador del salario
promedio de la Argentina. Sin dudas, este estimador no será uno bueno…
¿Qué propiedades debería tener un estimador que sí sea bueno?

1. Insesgadez
2. Eficiencia
3. Consistencia
4. Suficiencia

Vamos a analizar en particular cada una de estas.


Insesgadez
Un estimador insesgado es un estimador cuya esperanza es igual al
parámetro. Es decir, en promedio, el estimador va a medir el parámetro
verdadero.
Insesgadez
Un estimador insesgado es un estimador cuya esperanza es igual al
parámetro. Es decir, en promedio, el estimador va a medir el parámetro
verdadero.

En términos matemáticos, el estimador 𝞡hat es un estimador insesgado


del parámetro a estimar 𝞡 (tita o theta) si se cumple que:
Consistencia
La eficiencia se refiere al tamaño del error estándar del estadístico. Si
comparamos dos estadísticos de una muestra del mismo tamaño y
tratamos de decidir cuál de ellas es un estimador más eficiente,
escogeríamos la estadística que tuviera el menor error estándar o la
menor desviación estándar de la distribución muestral.
Consistencia
Un estimador es consistente si al aumentar el tamaño de la muestra al
infinito, el valor del estimador es el parámetro a estimar. Si un estimador
es consistente, se vuelve más confiable al tener tamaños de muestra más
grandes. Si el estimador es inconsistente… ¡No vale la pena tomar una
muestra grande! TODO ESTIMADOR INSESGADO ES CONSISTENTE

En términos matemáticos:
Eficiencia
La eficiencia se refiere al tamaño del error estándar del estadístico. Si
comparamos dos estadísticos de una muestra del mismo tamaño y
tratamos de decidir cuál de ellas es un estimador más eficiente,
escogeríamos la estadística que tuviera el menor error estándar o la
menor desviación estándar de la distribución muestral.
Eficiencia
En términos matemáticos, si tenemos dos estimadores 𝞡hat1 y 𝞡hat2,
𝞡hat1 es un estimador más eficiente del parámetro 𝞡 si:
Suficiencia
Un estimador es suficiente si utiliza la totalidad de la información
disponible en la muestra. Por lo tanto, ningún otro estimador puede
extraer información adicional acerca del parámetro de población que se
está estimando.

¿La media es suficiente? ¿La Mediana? ¿La Moda?


Los Estimadores que vamos a
utilizar
¿Qué estimadores usar?
Como vimos, cada parámetro tiene varios estimadores, pero estos tienen
que tener ciertas propiedades para ser buenos. Veamos qué estimadores
que vamos a utilizar para estimar estos tres parámetros que son de suma
importancia:

1. Media poblacional
2. Varianza Poblacional
3. Proporción poblacional
Un estimador para 𝝁
Para la media poblacional, como podemos imaginarnos, el mejor
estimador es la media muestral. Es insesgada, consistente, suficiente y
además se puede demostrar que su error estándar es el mínimo que se
puede lograr. Es decir, Xraya es el Mejor estimador para el parámetro 𝝁.
Un estimador para 𝞼2
Para la varianza poblacional, podemos utilizar el estimador varianza
muestral. Pero tiene una ligera diferencia con respecto a la varianza que
usamos en estadística descriptiva:

En vez de dividir por n, lo hacemos por n-1. Con esto, el estimador es


insesgado, consistente y suficiente de la varianza poblacional. Es decir, S2
es un buen estimador para el parámetro 𝞼2.
Un estimador para 𝞹
Para la proporción poblacional (𝞹), es decir, la proporción de una
población que tiene un determinado atributo, un estimador posible es:

Este estimador es insesgado, consistente y suficiente, de la proporción


poblacional. Además, se puede demostrar que su error estándar es el
mínimo que se puede obtener. Es decir, phat es el mejor estimador para
el parámetro 𝞹.
Los estimadores que
vamos a usar:
Como resumen, se muestran los estimadores que vamos a usar para
estimar los parámetros poblacionales:

Media Desvío Proporción

Estadístico X̄ S p
Parámetro 𝜇 𝞼 𝞹
Ejercicios 4 y 6
Intervalos con respecto a la media
Intervalos con respecto a la
media
Si expresamos un intervalo con respecto a los errores estándar (o
desvíos estándar)... ¡La probabilidad no depende de los parámetros de la
distribución normal!
Intervalos con respecto a la
media
Entonces, independientemente de los parámetros de la distribución
normal, podemos construir estos intervalos:
Ejercicio:
Los precios de los artículos que vende un
supermercado, tienen media US$ 4 y desvío estándar
US$ 0,75. ¿Cuál es la probabilidad de que la media
muestral se encuentre a dos desvíos estándar de la
media poblacional, si se toma una muestra de 100
personas?
Ejercicio
Como n>30, podemos aplicar el teorema central del límite para la
distribución de la media muestral. Por lo tanto:

El ejercicio nos está pidiendo el intervalo:


Ejercicio
Estandarizando las variables, vamos a encontrar que:

Como habíamos comentado… Si expresamos un intervalo con respecto a


los errores estándar (o desvíos estándar) ¡La probabilidad no depende de
los parámetros de la distribución normal!
Estimación por intervalos

También podría gustarte