IE - T1 - Muestreo

MUESTREO ESTADÍSTICO
El muestreo es un conjunto de técnicas estadísticas que implican el análisis y la obtención de conclusiones

acerca de un determinado tema de un subgrupo o subconjunto pequeño de elementos (muestra) para
extrapolarlas o inferirlas a todo el conjunto de elementos de interés (población). Esto supone que las
conclusiones obtenidas de la muestra las consideraremos válidas o aceptables para toda la población, es
decir, las generalizaremos a todo el conjunto de elementos.
Para que las conclusiones acerca de una población sean fiables y se puedan tomar como válidas, la muestra
de elementos a estudiar debe ser lo más representativa posible de la población. Esto significa que los
elementos que forman parte de la muestra deben recoger las características esenciales presentes en todo el
conjunto de elementos a estudiar, incluyendo sus similitudes y diferencias.
Existen dos grandes grupos en lo referente al muestreo, el muestreo aleatorio o probabilistico y el no

aleatorio o probabilistico. En este artículo aunque citemos los elementos del muestreo no aleatorio nos
centraremos en el aleatorio.
1- Muestreo aleatorio
Los elementos de la población tienen la misma probabilidad de ser elegidos miembros de la muestra a
estudiar. Este grupo de técnicas de muestreo son las más fiables y representativas de la población al
realizarse la selección de los elementos de la muestra de manera aleatoria. Las técnicas de muestreo de este
tipo son:
1.1- Muestreo simple

Todos los elementos de la población tienen la misma probabilidad de ser seleccionados. Este método es
muy sencillo y es el más utilizado, pero es el menos eficaz en poblaciones muy extensas cuyo tamaño de la
muestra es muy grande.
Existe muestreo simple de dos tipo:
Muestreo simple sin reposición: Si un miembro de la población ha sido elegido no puede volver a ser
elegido.
Muestreo simple con reposición: Si un miembro de la poblacion ha sido elegido puede volver a ser
elegido de nuevo.
1.2- Muestreo sistemático

Se enumeran todos los elementos de la población, luego se elige el primer elemento de la muestra de
manera aleatoria y los siguientes de manera periódica. Pueden darse casos en los que en la población haya
ciclos o periodicidades y que al utilizar este método haya una elevada homogeneidad en la muestra y que,
por lo tanto, esta no sea representativa de la población.
1.3- Muestreo estratificado
Se agrupan los elementos de la población en grupos o estratos en función de características esenciales de
interés para el estudio a realizar (homogeneidad) y se seleccionan los elementos de la muestra de cada uno
de los estratos de manera aleatoria. El número de elementos de la muestra pertenecientes a cada estrato es
proporcional al número de elementos de cada uno de ellos con respecto a la población total. Se consigue
aumentar la representatividad de la muestra y son más fiables.
1.4- Muestreo por conglomerados

Las poblaciones están formadas generalmente por determinados grupos o conglomerados, por ejemplo, un
ayuntamiento está integrado por pueblos. En estas técnicas, en vez de seleccionar los elementos de la
muestra directamente, lo que se escoge son de manera aleatoria algunos de estos grupos o conglomerados.
1.5- Muestreo polietápico

Se van realizando muestras por etapas utilizando cualquiera de los tipos anteriores en cada una de las
etapas, hasta llegar a los individuos que formarán parte de la muestra.
2- Muestreo no aleatorio
Son técnicas de muestreo donde se eligen determinados criterios que no están basados en la
equiprobabilidad para la selección de los elementos de la muestra. Estos métodos de muestreo son menos
fiables que los aleatorios o probabilísticos, porque su nivel de representatividad de la población es menor y
se utilizan cuando no es posible la realización de los otros debido a restricciones principalmente de coste o
cuando se está realizando una exploración inicial y se quiere obtener cierto grado de representatividad. Las
técnicas de muestreo de este tipo son:
2.1- Muestreo por cuotas

Para seleccionar los elementos de la muestra se fijan una serie de características o condiciones
representativas del estudio o análisis a realizar, y se selecciona un determinado número de elementos que
las cumplen, llamado tamaño de la muestra. Es necesario conocer a fondo la población objeto del estudio
para seleccionar las variables o características adecuadas. Es el método más utilizado en las encuestas de
opinión.
2.2- Muestreo intencional

Se determinan o eligen intencionadamente los elementos de la muestra o de grupos típicos de la población,
ya que se entiende que la muestra será representativa de la población. Implica un gran conocimiento de las
características esenciales de la población para la elección. Es la técnica más empleada en las encuestas de
intención de voto.
2.3- Muestreo por cadena
Se seleccionan unos determinados elementos de la población y estos están en contacto o relacionados con
otros elementos que se van agregando a la muestra hasta completar su tamaño. Se usan, por ejemplo, en
estudios de grupos sesgados o marginales, como relacionados con delincuencia, enfermedades…
2.4- Muestreo discrecional

Los elementos son escogidos deliberadamente por el responsable del estudio, ya que son los más
adecuados para el objeto de investigación.
3- Ejemplos con python

In [1]: # Importaciones
import pandas as pd
import random
import math
# Carga de los dataframes de ejemplo

iris = pd.read_csv('Iris.csv')
wc = pd.read_csv('worldcup.csv')
3.1- Muestreo aleatorio simple sin reposición

In [2]: # Selecionamos los indices de manera aleatoria
indices = random.sample(range(len(iris)), 5)
indices
[80, 133, 32, 137, 3]

Out[2]:
In [3]: # Filtramos el dataset por los indices generados anteriormente

iris.iloc[indices, :]
Out[3]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species
80 81 5.5 2.4 3.8 1.1 Iris-versicolor
133 134 6.3 2.8 5.1 1.5 Iris-virginica
32 33 5.2 4.1 1.5 0.1 Iris-setosa
137 138 6.4 3.1 5.5 1.8 Iris-virginica
3 4 4.6 3.1 1.5 0.2 Iris-setosa
3.2- Muestreo aleatorio simple con reposición

In [4]: # Selecionamos los indices de manera aleatoria
indices_con_repo = random.choices(range(len(iris)), k = 5)
indices_con_repo
[104, 118, 138, 13, 118]

Out[4]:
In [5]: # Filtramos el dataset por los indices generados anteriormente
iris.iloc[indices_con_repo, :]
104 105 6.5 3.0 5.8 2.2 Iris-virginica
118 119 7.7 2.6 6.9 2.3 Iris-virginica
138 139 6.0 3.0 4.8 1.8 Iris-virginica
13 14 4.3 3.0 1.1 0.1 Iris-setosa
118 119 7.7 2.6 6.9 2.3 Iris-virginica
3.3- Muestreo sistemático

In [6]: # Seleccionamos el primer indice de manera aleatoria
p_indice = random.sample(range(len(iris)), 1)[0]
p_indice
103
Out[6]:
In [7]: # Fijamos el numero de elementos que compondran nuestra muestra, en este caso 10
n = 10
n
10
Out[7]:
In [8]: # Ahora hallamos el incremento

incremento = math.floor(len(iris) / n)
incremento
15
Out[8]:
In [9]: # Producimos los diferentes indices de manera sistemática

indices_sistematicos = [p_indice + incremento * i for i in range(n)]
indices_sistematicos
[103, 118, 133, 148, 163, 178, 193, 208, 223, 238]
Out[9]:
In [10]: # Como nuestra población esta compuesta por 150 y algunos

# Indices se salen del rango haremos el modulo entre 150
indices_sistematicos = [i % len(iris) for i in indices_sistematicos]
indices_sistematicos
[103, 118, 133, 148, 13, 28, 43, 58, 73, 88]
Out[10]:
In [11]: iris.iloc[indices_sistematicos, :].head(4)
103 104 6.3 2.9 5.6 1.8 Iris-virginica
118 119 7.7 2.6 6.9 2.3 Iris-virginica
133 134 6.3 2.8 5.1 1.5 Iris-virginica
148 149 6.2 3.4 5.4 2.3 Iris-virginica

3.4- Muestreo estratificado
In [12]: # Consideraremos que iris esta dividido en 3 estratos,
# 1 estrato por cada especie y queremos una muestra de 12
# elementos. Haremos 4 por cada estrato.
# Creamos un dataframe para cada estrato y recogemos la muestra
iris_virginica = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-virginica']\
.index), 4),:]
iris_setosa = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-setosa']\
.index), 4), :]
iris_versicolor = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-versicolor'
.index), 4), :]
# Creamos un dataframe que contenga las diferentes muestras de diferentes estratos
iris_strat = pd.concat((pd.concat((iris_setosa,iris_virginica), axis = 0), iris_versicol
axis = 0)
iris_strat
32 33 5.2 4.1 1.5 0.1 Iris-setosa
11 12 4.8 3.4 1.6 0.2 Iris-setosa
5 6 5.4 3.9 1.7 0.4 Iris-setosa
24 25 4.8 3.4 1.9 0.2 Iris-setosa
143 144 6.8 3.2 5.9 2.3 Iris-virginica
126 127 6.2 2.8 4.8 1.8 Iris-virginica
127 128 6.1 3.0 4.9 1.8 Iris-virginica
105 106 7.6 3.0 6.6 2.1 Iris-virginica
79 80 5.7 2.6 3.5 1.0 Iris-versicolor
94 95 5.6 2.7 4.2 1.3 Iris-versicolor
51 52 6.4 3.2 4.5 1.5 Iris-versicolor
95 96 5.7 3.0 4.2 1.2 Iris-versicolor
3.5- Muestreo por conglomerados

In [13]: # Elegiremos por conglomerados la variable
# país. Seleccionaremos aleatoriamente
# 4 paises y la muestra estará compuesta por
# las observaciones las cuales tengan ese país
paises_elegidos = random.sample(list(wc['Team'].unique()), 4)
muestra_cong = wc[wc['Team'].isin(paises_elegidos)]
muestra_cong.head()
Out[13]: Player Team Position Time Shots Passes Tackles Saves
11 Aguilar Mexico Defender 55 0 31 2 0
13 Ahn Young-Hak North Korea Midfielder 270 1 123 11 0
34 Baptista Brazil Midfielder 82 0 42 1 0
36 Barrera Mexico Midfielder 149 4 59 2 0
43 Bautista Mexico Forward 45 0 8 3 0

3.6- Muestreo polietápico
In [14]: # Para realizar este ejemplo de muestreo polietápico
# haremos un muestre por conglomerados como el anterior
# eligiendo los conglomerados como los equipos y de esos
# conglomerados sacaremos una muestra aleatoria de 5
# la combinación de esos 20 resultados será nuestra muestra
a = random.sample(list(wc[wc['Team'] == paises_elegidos[0]].index), 5)
b = random.sample(list(wc[wc['Team'] == paises_elegidos[1]].index), 5)
c = random.sample(list(wc[wc['Team'] == paises_elegidos[2]].index), 5)
d = random.sample(list(wc[wc['Team'] == paises_elegidos[3]].index), 5)
muestra_polie = wc.iloc[a + b + c + d, :]
muestra_polie.head()
Out[14]: Player Team Position Time Shots Passes Tackles Saves
549 Vela Mexico Forward 100 1 25 1 0
221 Hernandez Mexico Forward 169 6 37 1 0
174 Franco Mexico Forward 253 4 71 2 0
477 Salcido Mexico Defender 360 9 174 15 0
267 Juarez Mexico Defender 235 0 128 6 0

IE - T1 - Muestreo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IE - T1 - Muestreo

Cargado por

Copyright:

Formatos disponibles

MUESTREO ESTADÍSTICO

El muestreo es un conjunto de técnicas estadísticas que implican el análisis y la obtención de conclusiones

Existen dos grandes grupos en lo referente al muestreo, el muestreo aleatorio o probabilistico y el no

1.1- Muestreo simple

Existe muestreo simple de dos tipo:

1.2- Muestreo sistemático

1.4- Muestreo por conglomerados

1.5- Muestreo polietápico

2.1- Muestreo por cuotas

2.2- Muestreo intencional

2.4- Muestreo discrecional

3- Ejemplos con python

# Carga de los dataframes de ejemplo

3.1- Muestreo aleatorio simple sin reposición

[80, 133, 32, 137, 3]

In [3]: # Filtramos el dataset por los indices generados anteriormente

Out[3]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

80 81 5.5 2.4 3.8 1.1 Iris-versicolor

133 134 6.3 2.8 5.1 1.5 Iris-virginica

32 33 5.2 4.1 1.5 0.1 Iris-setosa

137 138 6.4 3.1 5.5 1.8 Iris-virginica

3 4 4.6 3.1 1.5 0.2 Iris-setosa

3.2- Muestreo aleatorio simple con reposición

[104, 118, 138, 13, 118]

Out[5]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

104 105 6.5 3.0 5.8 2.2 Iris-virginica

118 119 7.7 2.6 6.9 2.3 Iris-virginica

138 139 6.0 3.0 4.8 1.8 Iris-virginica

13 14 4.3 3.0 1.1 0.1 Iris-setosa

118 119 7.7 2.6 6.9 2.3 Iris-virginica

3.3- Muestreo sistemático

In [8]: # Ahora hallamos el incremento

In [9]: # Producimos los diferentes indices de manera sistemática

In [10]: # Como nuestra población esta compuesta por 150 y algunos

In [11]: iris.iloc[indices_sistematicos, :].head(4)

Out[11]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

103 104 6.3 2.9 5.6 1.8 Iris-virginica

118 119 7.7 2.6 6.9 2.3 Iris-virginica

133 134 6.3 2.8 5.1 1.5 Iris-virginica

148 149 6.2 3.4 5.4 2.3 Iris-virginica

Out[12]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

32 33 5.2 4.1 1.5 0.1 Iris-setosa

11 12 4.8 3.4 1.6 0.2 Iris-setosa

5 6 5.4 3.9 1.7 0.4 Iris-setosa

24 25 4.8 3.4 1.9 0.2 Iris-setosa

143 144 6.8 3.2 5.9 2.3 Iris-virginica

126 127 6.2 2.8 4.8 1.8 Iris-virginica

127 128 6.1 3.0 4.9 1.8 Iris-virginica

105 106 7.6 3.0 6.6 2.1 Iris-virginica

79 80 5.7 2.6 3.5 1.0 Iris-versicolor

94 95 5.6 2.7 4.2 1.3 Iris-versicolor

51 52 6.4 3.2 4.5 1.5 Iris-versicolor

95 96 5.7 3.0 4.2 1.2 Iris-versicolor

3.5- Muestreo por conglomerados

Out[13]: Player Team Position Time Shots Passes Tackles Saves

11 Aguilar Mexico Defender 55 0 31 2 0

13 Ahn Young-Hak North Korea Midfielder 270 1 123 11 0

34 Baptista Brazil Midfielder 82 0 42 1 0

36 Barrera Mexico Midfielder 149 4 59 2 0

43 Bautista Mexico Forward 45 0 8 3 0

Out[14]: Player Team Position Time Shots Passes Tackles Saves

549 Vela Mexico Forward 100 1 25 1 0

221 Hernandez Mexico Forward 169 6 37 1 0