Documentos de Académico
Documentos de Profesional
Documentos de Cultura
07/03/2022
LA ESTADÍSTICA Y EL MUESTREO
El Muestreo tiene estrecha relación con la Inferencia estadística, aunque también requiere de conocimientos
de diversas ramas como el Cómputo y la Teoría de probabilidades.
Definición (Inferencia estadística)
La Inferencia estadística es una de las ramas de la estadística que se encarga de obtener conclusiones
válidas a nivel poblacional partiendo de una muestra aleatoria de dicha población. La Inferencia estadística
usa técnicas de estimación puntual, intervalos de confianza y pruebas de hipótesis para lograr establecer
conclusiones con cierto nivel de confianza.
Hay inferencia estadística bajo el enfoque frecuentista o inferencia clásica y también hay inferencia bayesiana.
Definición (Teoría de probabilidades)
La Probabilidad es una rama de las matemáticas que se ocupa de medir o determinar cuantitativamente
la posibilidad de ocurra un determinado suceso o evento.
Actualmente la teoría de la probabilidad es una herramienta importante en la mayoría de las área de inge-
niería, ciencias, economía y adminitración. Poder efectuar el cálculo de probabilidades es fundamental para
1
el éxito de muchas empresas, en particular las casas encuestadoras o las compañías de seguros, ya que estas
requieren obtener inferencias sobre los parámetros poblacionales o cuantificar el riesgo en el que incurren al
cubrir a sus clientes. Además de las casas encuestadoras y compañías de seguros, la probabilidad encuentra
aplicaciones en la medicina, meteorología, mercadotecnia, finanzas, etc.
Definición (Población) Desde el punto de vista de la Inferencia estadística, una población es un conjunto
de personas, objetos o eventos, de los cuales nos interesa estudiar algunas de sus características. Cada uno
de los elementos de la población reciben el nombre de unidades estadísticas, individuos o elementos.
En un estudio estadístico, la población debe especificarse lo más completamente posible. Esto depende de
lo que se desee o se pueda estudiar u observar, y de la forma en la que sea posible medir las características
de nuestro interés.
Ejemplos de población:
Los siguientes conjuntos pueden ser considerados como poblaciones para algún estudio estadístico.
Población finita
Una población finita es aquella población cuyo número de individuos es una cantidad finita N .
Población infinita
Una población infinita es aquella población cuyo número de individuos es una cantidad infinita.
Población objetivo
Definición (Muestra): Una muestra es cualquier subconjunto de una población. Al número de elementos
de la muestra, que denotaremos por la letra n, se le llama tamaño de la muestra.
Definición (Muestra representativa):
No cualquier muestra de una población puede considerarse representativa de una población. Para que una
muestra sea representativa debe reflejar las características de la población, es decir, debe representar las
mismas propiedades y proporciones que la de la población a la que pertenece.
Unidad de muestreo
La unidad de muestreo es el objeto a ser seleccionado en la muestra que permitirá el acceso a la unidad de
observación.
2
Marco de muestreo
Unidad de observación
Variable de interés
La variable de interés es la característica propia de los individuos sobre la que se realiza la inferencia para
resolver los objetivos de la investigación.
Parámetro y Estimador
Definición de Parámetro poblacional: Un parámetro es una valor numérico que describe una carac-
terística de la población. Los parámetros se estiman a partir de la información recabada por la muestra de
la población.
Definición de muestra aleatoria: En Teoría de Probabilidad e Inferencia estadística se define una muestra
aleatoria una colección de variables aleatorias X1 , ..., Xn que son independientes e idénticamente distribuidas.
Las dos hipótesis mencionadas son características ideales de n observaciones de la variable aleatoria y que
no necesariamente se cumplen en una situación real, pero facilitan considerablemente el análisis probabilís-
tico de los modelos. Sobre la independencia, tenemos que un valor observado para una de las variables
no influye o afecta la distribución de probabilidad de cualquier otra variable, siendo esta distribución la
misma para obtener cada una de las observaciones. Esto último se refiere a la idéntica distribución. Supon-
dremos, entonces, que todas las variables de una muestra aleatoria tienen la misma función de densidad o
de probabilidad f (x, θ).
En particular, la primera observación x1 puede ser un valor de X1 , la segunda observación x2 puede ser
un valor de X2 , etcétera. Así, las variables aleatorias X1 ,. . . ,Xn representan n observaciones al azar e
independientes de la variable aleatoria en estudio. Al número entero n se le llama tamaño de la muestra
aleatoria y, a menos que se especifique los contrario, supondremos que este entero es conocido.
Definición de estadística: Una estadística es una función de una muestra aleatoria que no depende de
parámetros desconocidos. Se suele denotar como T (X1 , X2 , ..., Xn ).
Si tienes una realización de la muestra aleatoria, digamos x1 ,x2 ,. . . ,xn , un posible valor de la estadística
T (X1 , X2 , ..., Xn ) es T (x1 , x2 , ..., xn ).
Definición de estimador de un parámetro poblacional:
Un estimador puntual para un parámetro desconocido θ es una estadística denotada por θ̂ que se propone
para estimar el parámetro.
Observemos que si x1 ,. . . ,xn son valores particulares de las variables de la muestra aleatoria, entonces el
número θ̂(x1 , ..., xn ) es una estimación de θ, mientras que la variable aleatoria θ̂(X1 , ..., Xn ) es un estimador
para θ. Si se omiten los argumentos, ambos objetos se escriben simplemente como θ̂,y puede representar, tal
vez con un poco de confusión, tanto una estimación(un número) como un estimador (una variable aleatoria).
3
Ejemplos de parámetros y estimadores más comunes en estadística
Suponga que tu población está conformada por todas las personas adultas de México. Algunos parámetros
que podrían ser de tu interés:
Suponga la población conformada por todas las escuelas México. Algunos parámetros que podrían ser de tu
interés:
• Porcentaje de preparatorias
• Número promedio de estudiantes por plantel
De la prueba ENLACE tenemos a la población de escuelas primarias de la Ciudad de México: 3,200 escuelas
Veamos un ejemplo donde tomamos una muestra de 300 escuelas primarias de la Ciudad de México, de un
universo de 3,200 escuelas,
4
# universo o población, importamos la base de datos llamada "primaria"
library(readxl)
primarias = read_excel("C:/Users/Alejandro Alberto/OneDrive - Universidad Autónoma Chapingo/Escritorio/U
#View(primarias)
set.seed(16021)
n<-300 # Tamaño de muestra
#muestra aleatoria
primarias_muestra<-sample_n(primarias,n) %>% mutate(clase = "muestra")
para cada escuela en la muestra tenemos la medida xi , conformada por el promedio de las calificaciones en
español de los alumnos de tercero y sexto de primaria (prueba ENLACE 2010):
xi = (esp3i , esp6i )
En este ejemplo contamos con un censo de las escuelas y tomamos la muestra aleatoria de la tabla de datos
general, sin embargo, es común contar únicamente con la muestra.
Para español 3o de primaria la media observada es
mean(primarias_muestra$esp_3)
## [1] 577.4845
mean(primarias_muestra$esp_6)
## [1] 579.3399
La media muestral es una estadística descriptiva de la muestra, pero también la podemos usar
para describir a la población de escuelas.
La siguiente figura compara la distribución poblacional y la distribución empírica.
5
muestra población
0.008
0.006
esp_3
0.004
0.002
density
0.000
0.008
0.006
esp_6
0.004
0.002
0.000
400 500 600 700 800 400 500 600 700 800
calif
En la siguiente gráfica la curva negra representa la función de distribución acumulada empírica (la que
proviene de la muestra) y la curva con relleno rojo la función de distribución acumulada poblacional.
ggplot() +
stat_ecdf(data = filter(primarias_long, clase == "población"),
aes(x = calif, ymin=0, ymax=..y..), geom = "ribbon", pad = TRUE, alpha = 0.5,
fill = "gray", color = "red") +
stat_ecdf(data = filter(primarias_long, clase == "muestra"),
aes(x = calif), geom = "step", color = "black") +
facet_grid(~ grado) +
labs(color = "")
6
esp_3 esp_6
1.00
0.75
0.50
y
0.25
0.00
400 500 600 700 800 400 500 600 700 800
calif