Está en la página 1de 7

UNIDAD 1: CONCEPTOS BÁSICOS DE LA

TEORÍA DEL MUESTREO

Alejandro Alberto Miliano

07/03/2022

LA ESTADÍSTICA Y EL MUESTREO

El Muestreo como ciencia

Definición (Teoría del Muestreo)


El Muestreo o la Teoría del Muestreo es la rama de la Estadística que se encarga de proponer las
distintas maneras de seleccionar una muestra de la población. Se trata de estudiar los esquemas de selección
de sólo una parte de toda la población de tal forma que se puedan generalizar los resultados obtenidos a
toda la población de individuos.
La teoría del muestreo desarrolla los métodos de muestreo que son técnicas estadísticas que estudian
la forma de seleccionar una muestra representativa de una población cuya información permita inferir las
propiedades o características de toda la población cometiendo un error medible y acotable.
Definición (Muestreo probabilístico)
El muestreo es probabilístico cuando puede establecerse la probabilidad de obtener cada una de las muestras
que sea posible seleccionar, esto es, cuando la selección de muestras constituya un fenómeno aleatorio prob-
abilizable. Esto permitirá medir los errores cometidos en el proceso de muestreo (a través de la varianza u
otras medidas estadísticas).

Ramas de la Estadística relacionadas con la Teoría del Muestreo

El Muestreo tiene estrecha relación con la Inferencia estadística, aunque también requiere de conocimientos
de diversas ramas como el Cómputo y la Teoría de probabilidades.
Definición (Inferencia estadística)
La Inferencia estadística es una de las ramas de la estadística que se encarga de obtener conclusiones
válidas a nivel poblacional partiendo de una muestra aleatoria de dicha población. La Inferencia estadística
usa técnicas de estimación puntual, intervalos de confianza y pruebas de hipótesis para lograr establecer
conclusiones con cierto nivel de confianza.
Hay inferencia estadística bajo el enfoque frecuentista o inferencia clásica y también hay inferencia bayesiana.
Definición (Teoría de probabilidades)
La Probabilidad es una rama de las matemáticas que se ocupa de medir o determinar cuantitativamente
la posibilidad de ocurra un determinado suceso o evento.
Actualmente la teoría de la probabilidad es una herramienta importante en la mayoría de las área de inge-
niería, ciencias, economía y adminitración. Poder efectuar el cálculo de probabilidades es fundamental para

1
el éxito de muchas empresas, en particular las casas encuestadoras o las compañías de seguros, ya que estas
requieren obtener inferencias sobre los parámetros poblacionales o cuantificar el riesgo en el que incurren al
cubrir a sus clientes. Además de las casas encuestadoras y compañías de seguros, la probabilidad encuentra
aplicaciones en la medicina, meteorología, mercadotecnia, finanzas, etc.

CONCEPTOS INICIALES EN LA TEORÍA DEL MUESTREO


Población

Definición (Población) Desde el punto de vista de la Inferencia estadística, una población es un conjunto
de personas, objetos o eventos, de los cuales nos interesa estudiar algunas de sus características. Cada uno
de los elementos de la población reciben el nombre de unidades estadísticas, individuos o elementos.
En un estudio estadístico, la población debe especificarse lo más completamente posible. Esto depende de
lo que se desee o se pueda estudiar u observar, y de la forma en la que sea posible medir las características
de nuestro interés.
Ejemplos de población:
Los siguientes conjuntos pueden ser considerados como poblaciones para algún estudio estadístico.

• El conjunto de personas afectadas por una cierta enfermedad.


• El conjunto de personas extranjeras que llegan al país en un día.
• El conjunto de artículos defectuosos producidos en una fábrica.
• El conjunto de infracciones de tránsito que se cometen en una ciudad.
• El conjunto de goles que anota un equipo de futbol.
• El conjunto de boletas inválidas en un proceso electoral.

Población finita
Una población finita es aquella población cuyo número de individuos es una cantidad finita N .
Población infinita
Una población infinita es aquella población cuyo número de individuos es una cantidad infinita.

Población objetivo

Definición (Población objetivo) En un contexto de muestreo, la población objetivo es la colección completa


de todas las unidades que se quieren estudiar.

Muestra y muestra representativa

Definición (Muestra): Una muestra es cualquier subconjunto de una población. Al número de elementos
de la muestra, que denotaremos por la letra n, se le llama tamaño de la muestra.
Definición (Muestra representativa):
No cualquier muestra de una población puede considerarse representativa de una población. Para que una
muestra sea representativa debe reflejar las características de la población, es decir, debe representar las
mismas propiedades y proporciones que la de la población a la que pertenece.

Unidad de muestreo

La unidad de muestreo es el objeto a ser seleccionado en la muestra que permitirá el acceso a la unidad de
observación.

2
Marco de muestreo

El marco de muestreo es un listado de unidades de muestreo. El marco de muestreo teóricamente debe


coincidir con la población objetivo. Un marco será mejor en la medida que mejor cubra la población objetivo,
es decir, cuanto menor sea el error de cobertura.
El marco puede estar constituido por unidades elementales de muestreo o por unidades compuestas. Una
unidad elemental (o simple) es la unidad de muestreo más sencilla posible y una unidad compuesta o
unidad primaria está formada por varias unidades elementales. Como en la práctica no es fácil disponer de
marcos de unidades elementales, se intenta conseguir marcos de unidades compuestas que son más accesibles.

Unidad de observación

La unidad de observación es el objeto sobre el que finalmente se realiza la observación.

Variable de interés

La variable de interés es la característica propia de los individuos sobre la que se realiza la inferencia para
resolver los objetivos de la investigación.

Parámetro y Estimador

Definición de Parámetro poblacional: Un parámetro es una valor numérico que describe una carac-
terística de la población. Los parámetros se estiman a partir de la información recabada por la muestra de
la población.
Definición de muestra aleatoria: En Teoría de Probabilidad e Inferencia estadística se define una muestra
aleatoria una colección de variables aleatorias X1 , ..., Xn que son independientes e idénticamente distribuidas.
Las dos hipótesis mencionadas son características ideales de n observaciones de la variable aleatoria y que
no necesariamente se cumplen en una situación real, pero facilitan considerablemente el análisis probabilís-
tico de los modelos. Sobre la independencia, tenemos que un valor observado para una de las variables
no influye o afecta la distribución de probabilidad de cualquier otra variable, siendo esta distribución la
misma para obtener cada una de las observaciones. Esto último se refiere a la idéntica distribución. Supon-
dremos, entonces, que todas las variables de una muestra aleatoria tienen la misma función de densidad o
de probabilidad f (x, θ).
En particular, la primera observación x1 puede ser un valor de X1 , la segunda observación x2 puede ser
un valor de X2 , etcétera. Así, las variables aleatorias X1 ,. . . ,Xn representan n observaciones al azar e
independientes de la variable aleatoria en estudio. Al número entero n se le llama tamaño de la muestra
aleatoria y, a menos que se especifique los contrario, supondremos que este entero es conocido.
Definición de estadística: Una estadística es una función de una muestra aleatoria que no depende de
parámetros desconocidos. Se suele denotar como T (X1 , X2 , ..., Xn ).
Si tienes una realización de la muestra aleatoria, digamos x1 ,x2 ,. . . ,xn , un posible valor de la estadística
T (X1 , X2 , ..., Xn ) es T (x1 , x2 , ..., xn ).
Definición de estimador de un parámetro poblacional:
Un estimador puntual para un parámetro desconocido θ es una estadística denotada por θ̂ que se propone
para estimar el parámetro.
Observemos que si x1 ,. . . ,xn son valores particulares de las variables de la muestra aleatoria, entonces el
número θ̂(x1 , ..., xn ) es una estimación de θ, mientras que la variable aleatoria θ̂(X1 , ..., Xn ) es un estimador
para θ. Si se omiten los argumentos, ambos objetos se escriben simplemente como θ̂,y puede representar, tal
vez con un poco de confusión, tanto una estimación(un número) como un estimador (una variable aleatoria).

3
Ejemplos de parámetros y estimadores más comunes en estadística

Símbolo del Estimador(variable


Nombre del parámetro parámetro aleatoria) Estimación(número)
Media poblacional µ X̄ = x̄ =
X1 + X2 + · · · + Xnx1 + x2 + · · · + xn
n n
Varianza poblacional σ2 2
Sn−1 = s2n−1 =
1 Pn 1 Pn
i=1 (Xi − (xi −
n−1 n − 1 i=1
2 2
X̄) x̄)
Desviación estándar poblacional σ r S = r s =
1 Pn 1 Pn
(Xi − X̄)2 (xi − x̄)2
n − 1 i=1 n − 1 i=1
Proporción poblacional p P̂ = X̄ p̂ = x̄
Correlación poblacional ρ rxy rxyPn=
(xi − x̄)(yi − ȳ)
pPn i=1 pPn
2 2
i=1 (xi − x̄) i=1 (yi − ȳ)
−1
Coeficientes de regresión β β̂ = β̂ = (xťx) xťy
(XťX)−1 Xťy
Diferencia de medias poblacionales µ1 − µ2 X̄1 − X̄2 x̄1 − x̄2
Diferencia de proporciones P Pˆ1 − P̂2 pˆ1 − p̂2
σ12 σ̂12 σ̂12
Cociente de varianzas poblacionales
σ22 σ̂22 σ̂22

Ejemplo de parámetros de la población de adultos en México

Suponga que tu población está conformada por todas las personas adultas de México. Algunos parámetros
que podrían ser de tu interés:

• Porcentaje de personas casadas


• Edad promedio
• Cuántas personas de la tercera edad hay

Ejemplo de parámetros del conjunto de escuelas en México

Suponga la población conformada por todas las escuelas México. Algunos parámetros que podrían ser de tu
interés:

• Porcentaje de preparatorias
• Número promedio de estudiantes por plantel

Ejemplo gráfico: datos de toda la población versus muestra representativa

De la prueba ENLACE tenemos a la población de escuelas primarias de la Ciudad de México: 3,200 escuelas
Veamos un ejemplo donde tomamos una muestra de 300 escuelas primarias de la Ciudad de México, de un
universo de 3,200 escuelas,

4
# universo o población, importamos la base de datos llamada "primaria"

library(readxl)
primarias = read_excel("C:/Users/Alejandro Alberto/OneDrive - Universidad Autónoma Chapingo/Escritorio/U
#View(primarias)

set.seed(16021)
n<-300 # Tamaño de muestra
#muestra aleatoria
primarias_muestra<-sample_n(primarias,n) %>% mutate(clase = "muestra")

para cada escuela en la muestra tenemos la medida xi , conformada por el promedio de las calificaciones en
español de los alumnos de tercero y sexto de primaria (prueba ENLACE 2010):

xi = (esp3i , esp6i )

En este ejemplo contamos con un censo de las escuelas y tomamos la muestra aleatoria de la tabla de datos
general, sin embargo, es común contar únicamente con la muestra.
Para español 3o de primaria la media observada es

mean(primarias_muestra$esp_3)

## [1] 577.4845

Para español 6o de primaria la media observada es

mean(primarias_muestra$esp_6)

## [1] 579.3399

La media muestral es una estadística descriptiva de la muestra, pero también la podemos usar
para describir a la población de escuelas.
La siguiente figura compara la distribución poblacional y la distribución empírica.

primarias_long <- primarias %>%


mutate(clase = "población") %>%
rbind(primarias_muestra) %>%
gather(grado, calif, esp_3:esp_6)

ggplot(primarias_long, aes(x = calif)) +


geom_histogram(aes(y = ..density..), binwidth = 20, fill = "darkblue") +
facet_grid(grado ~ clase)

5
muestra población

0.008

0.006

esp_3
0.004

0.002
density

0.000

0.008

0.006

esp_6
0.004

0.002

0.000
400 500 600 700 800 400 500 600 700 800
calif

En la siguiente gráfica la curva negra representa la función de distribución acumulada empírica (la que
proviene de la muestra) y la curva con relleno rojo la función de distribución acumulada poblacional.

ggplot() +
stat_ecdf(data = filter(primarias_long, clase == "población"),
aes(x = calif, ymin=0, ymax=..y..), geom = "ribbon", pad = TRUE, alpha = 0.5,
fill = "gray", color = "red") +
stat_ecdf(data = filter(primarias_long, clase == "muestra"),
aes(x = calif), geom = "step", color = "black") +
facet_grid(~ grado) +
labs(color = "")

6
esp_3 esp_6

1.00

0.75

0.50
y

0.25

0.00

400 500 600 700 800 400 500 600 700 800
calif

También podría gustarte