Está en la página 1de 6

Muestreo

Nombre: Jhonny Criollo


Fecha: 10-11-2021
Curso: Quinto 1

## Paquetes necesarios

```r
library(datos)
library(dplyr)

##
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':


##
## filter, lag

## The following objects are masked from 'package:base':


##
## intersect, setdiff, setequal, union

Plantillas para muestreo de datos


Remplazar los valores que se encuentran entre < > con lo que corresponda

Muestreo Aleatorio Simple


df_muestra <- tamanio_muestra <- con_remplazo <- <valor boleano que indica si (T) se
hará muestreo con remplazo o no (F)>
muestra <- df_muestra %>% sample_n(tamanio_muestra,replace = con_remplazo) muestra
df_muestra <- vuelos
tamanio_muestra <- 20
con_remplazo <- F

muestra <- df_muestra %>% sample_n(tamanio_muestra,replace = con_remplazo)


muestra

## # A tibble: 20 x 19
## anio mes dia horario_salida salida_programada atraso_salida
## <int> <int> <int> <int> <int> <dbl>
## 1 2013 5 12 1055 1059 -4
## 2 2013 12 12 640 645 -5
## 3 2013 12 26 1633 1615 18
## 4 2013 4 19 1842 1730 72
## 5 2013 2 4 1853 1856 -3
## 6 2013 1 8 1757 1800 -3
## 7 2013 5 27 1927 1930 -3
## 8 2013 8 1 1810 1625 105
## 9 2013 7 31 1701 1655 6
## 10 2013 1 7 1149 1155 -6
## 11 2013 3 6 1126 1100 26
## 12 2013 1 17 2055 2029 26
## 13 2013 2 25 1153 1200 -7
## 14 2013 11 14 1517 1500 17
## 15 2013 12 30 847 852 -5
## 16 2013 1 6 1029 1020 9
## 17 2013 12 9 1832 1515 197
## 18 2013 12 19 1428 1429 -1
## 19 2013 1 7 2156 2135 21
## 20 2013 7 25 555 600 -5
## # ... with 13 more variables: horario_llegada <int>, llegada_programada
<int>,
## # atraso_llegada <dbl>, aerolinea <chr>, vuelo <int>, codigo_cola <chr>,
## # origen <chr>, destino <chr>, tiempo_vuelo <dbl>, distancia <dbl>,
## # hora <dbl>, minuto <dbl>, fecha_hora <dttm>

Muestreo Aleatorio Estratificado


estratos <- c() total_x_estrato <- c() tamanio_muestra <-
df_muestra <- data.frame(estratos,total_x_estrato) tamanio_poblacion <-
summarise(df_muestra, sum(total_x_estrato))[1,1] tabla_muestreo_estratificado <-
df_muestra %>%
mutate(frecuencia_relativa = total_x_estrato/tamanio_poblacion, numero_muestreado =
round(tamanio_muestra*frecuencia_relativa)) tabla_muestreo_estratificado
estratos <- c("primero","segundo","tercero","cuarto")
total_x_estrato <- c(120,50,20,11)
tamanio_muestra <- 30

df_muestra <- data.frame(estratos,total_x_estrato)


tamanio_poblacion <- summarise(df_muestra, sum(total_x_estrato))[1,1]
tabla_muestreo_estratificado <- df_muestra %>%
mutate(frecuencia_relativa = total_x_estrato/tamanio_poblacion,
numero_muestreado = round(tamanio_muestra*frecuencia_relativa))
tabla_muestreo_estratificado

## estratos total_x_estrato frecuencia_relativa numero_muestreado


## 1 primero 120 0.59701493 18
## 2 segundo 50 0.24875622 7
## 3 tercero 20 0.09950249 3
## 4 cuarto 11 0.05472637 2

Ejemplos
Resumen de dataframe vuelos
glimpse(vuelos)

## Rows: 336,776
## Columns: 19
## $ anio <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,
201~
## $ mes <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, ~
## $ dia <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, ~
## $ horario_salida <int> 517, 533, 542, 544, 554, 554, 555, 557, 557,
558, 5~
## $ salida_programada <int> 515, 529, 540, 545, 600, 558, 600, 600, 600,
600, 6~
## $ atraso_salida <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -
2, -2~
## $ horario_llegada <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838,
753, ~
## $ llegada_programada <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846,
745, ~
## $ atraso_llegada <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -
3, 7~
## $ aerolinea <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV",
"B6~
## $ vuelo <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708,
79, 30~
## $ codigo_cola <chr> "N14228", "N24211", "N619AA", "N804JB",
"N668DN", "~
## $ origen <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR",
"EWR", "L~
## $ destino <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD",
"FLL", "I~
## $ tiempo_vuelo <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140,
138, 14~
## $ distancia <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229,
944, 7~
## $ hora <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5,
6, ~
## $ minuto <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0,
0, 5~
## $ fecha_hora <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00,
2013-01-~
Ejemplo de Muestreo Aleatorio Simple
df_muestra <- vuelos
tamanio_muestra <- 10
con_remplazo <- F

muestra <- df_muestra %>% sample_n(tamanio_muestra,replace = con_remplazo)


muestra

## # A tibble: 10 x 19
## anio mes dia horario_salida salida_programada atraso_salida
## <int> <int> <int> <int> <int> <dbl>
## 1 2013 5 2 755 800 -5
## 2 2013 2 15 1515 1516 -1
## 3 2013 3 23 1301 1249 12
## 4 2013 1 4 555 600 -5
## 5 2013 9 2 558 600 -2
## 6 2013 10 13 1711 1714 -3
## 7 2013 8 14 2007 2007 0
## 8 2013 4 7 1639 1643 -4
## 9 2013 10 17 1642 1645 -3
## 10 2013 3 1 957 1000 -3
## # ... with 13 more variables: horario_llegada <int>, llegada_programada
<int>,
## # atraso_llegada <dbl>, aerolinea <chr>, vuelo <int>, codigo_cola <chr>,
## # origen <chr>, destino <chr>, tiempo_vuelo <dbl>, distancia <dbl>,
## # hora <dbl>, minuto <dbl>, fecha_hora <dttm>

Ejemplo de Muestreo Aleatorio Estratificado


estratos <- c("30% y mas","De 20% a 30%", "De 10% a 20%", "de 0% a 10%",
"Deficit")
total_x_estrato <- c(8,35,189,115,5)
tamanio_muestra <- 50

df_muestra <- data.frame(estratos,total_x_estrato)


tamanio_poblacion <- summarise(df_muestra, sum(total_x_estrato))[1,1]
tabla_muestreo_estratificado <- df_muestra %>%
mutate(frecuencia_relativa = total_x_estrato/tamanio_poblacion,
numero_muestreado = round(tamanio_muestra*frecuencia_relativa))
tabla_muestreo_estratificado

## estratos total_x_estrato frecuencia_relativa numero_muestreado


## 1 30% y mas 8 0.02272727 1
## 2 De 20% a 30% 35 0.09943182 5
## 3 De 10% a 20% 189 0.53693182 27
## 4 de 0% a 10% 115 0.32670455 16
## 5 Deficit 5 0.01420455 1
EJERCICIOS
Realizar un muestreo aleatorio simple de 20 aeropuertos del dataframe aeropuertos
df_muestra <- aeropuertos
tamanio_muestra <- 20
con_remplazo <- F

muestra <- df_muestra %>% sample_n(tamanio_muestra,replace = con_remplazo)


muestra

## # A tibble: 20 x 8
## codigo_aeropuerto nombre latitud longitud altura zona_horaria
horario_verano
## <chr> <chr> <dbl> <dbl> <dbl> <dbl> <chr>

## 1 FNL Fort C~ 40.5 -105. 5016 -7 A

## 2 LAF Purude~ 40.4 -86.9 606 -5 A

## 3 STS Charle~ 38.5 -123. 125 -8 A

## 4 DLG Dillin~ 59.0 -159. 74 -9 A

## 5 SVA Savoon~ 63.7 -170. 53 -9 A

## 6 TRI Tri-Ci~ 36.5 -82.4 1519 -5 A

## 7 MRN Foothi~ 35.8 -81.6 1270 -5 A

## 8 JMS Jamest~ 46.9 -98.7 1498 -6 A

## 9 FUL Fuller~ 33.5 -118. 96 -8 A

## 10 54J DeFuni~ 30.7 -86.2 289 -6 A

## 11 MQT Sawyer~ 46.4 -87.4 1221 -5 A

## 12 PSM Pease ~ 43.1 -70.8 100 -5 A

## 13 SPZ Silver~ 39.4 -119. 4269 -8 A

## 14 RBK French~ 33.6 -117. 1350 -8 A

## 15 FZG Fitzge~ 31.7 -83.3 365 -5 A

## 16 A50 Colora~ 38.9 -104. 6145 -7 A


## 17 CEW Bob Si~ 30.8 -86.5 213 -6 A

## 18 FYV Drake ~ 36.0 -94.2 1251 -6 A

## 19 TMA Henry ~ 31.4 -83.5 355 -5 A

## 20 ANQ Tri-St~ 41.6 -85.1 995 -5 A

## # ... with 1 more variable: zona_horaria_iana <chr>

Se desea sacar una muestra de 382 individuos de los siguientes cantones de la provincia de
Chimborazo:
Riobamba: 146324 individuos
Guano: 6872 individuos
Chambo: 3515 individuos
Licto: 7807 individuos
Lican: 7963 individuos
Obtenga la tabla de muestreo estratificado para saber cuantos individuos se deben
muestrar de cada canton.
estratos <- c("Riobamba","Guano","Chambo","Licto","Lican")
total_x_estrato <- c(146324,6872,3515,7807,7963)
tamanio_muestra <- 382

df_muestra <- data.frame(estratos,total_x_estrato)


tamanio_poblacion <- summarise(df_muestra, sum(total_x_estrato))[1,1]
tabla_muestreo_estratificado <- df_muestra %>%
mutate(frecuencia_relativa = total_x_estrato/tamanio_poblacion,
numero_muestreado = round(tamanio_muestra*frecuencia_relativa))
tabla_muestreo_estratificado

## estratos total_x_estrato frecuencia_relativa numero_muestreado


## 1 Riobamba 146324 0.84834851 324
## 2 Guano 6872 0.03984207 15
## 3 Chambo 3515 0.02037906 8
## 4 Licto 7807 0.04526296 17
## 5 Lican 7963 0.04616740 18

También podría gustarte