Está en la página 1de 6

MUESTREO ESTADÍSTICO

El muestreo es un conjunto de técnicas estadísticas que implican el análisis y la obtención de conclusiones


acerca de un determinado tema de un subgrupo o subconjunto pequeño de elementos (muestra) para
extrapolarlas o inferirlas a todo el conjunto de elementos de interés (población). Esto supone que las
conclusiones obtenidas de la muestra las consideraremos válidas o aceptables para toda la población, es
decir, las generalizaremos a todo el conjunto de elementos.

Para que las conclusiones acerca de una población sean fiables y se puedan tomar como válidas, la muestra
de elementos a estudiar debe ser lo más representativa posible de la población. Esto significa que los
elementos que forman parte de la muestra deben recoger las características esenciales presentes en todo el
conjunto de elementos a estudiar, incluyendo sus similitudes y diferencias.

Existen dos grandes grupos en lo referente al muestreo, el muestreo aleatorio o probabilistico y el no


aleatorio o probabilistico. En este artículo aunque citemos los elementos del muestreo no aleatorio nos
centraremos en el aleatorio.

1- Muestreo aleatorio
Los elementos de la población tienen la misma probabilidad de ser elegidos miembros de la muestra a
estudiar. Este grupo de técnicas de muestreo son las más fiables y representativas de la población al
realizarse la selección de los elementos de la muestra de manera aleatoria. Las técnicas de muestreo de este
tipo son:

1.1- Muestreo simple


Todos los elementos de la población tienen la misma probabilidad de ser seleccionados. Este método es
muy sencillo y es el más utilizado, pero es el menos eficaz en poblaciones muy extensas cuyo tamaño de la
muestra es muy grande.

Existe muestreo simple de dos tipo:

Muestreo simple sin reposición: Si un miembro de la población ha sido elegido no puede volver a ser
elegido.
Muestreo simple con reposición: Si un miembro de la poblacion ha sido elegido puede volver a ser
elegido de nuevo.

1.2- Muestreo sistemático


Se enumeran todos los elementos de la población, luego se elige el primer elemento de la muestra de
manera aleatoria y los siguientes de manera periódica. Pueden darse casos en los que en la población haya
ciclos o periodicidades y que al utilizar este método haya una elevada homogeneidad en la muestra y que,
por lo tanto, esta no sea representativa de la población.
1.3- Muestreo estratificado
Se agrupan los elementos de la población en grupos o estratos en función de características esenciales de
interés para el estudio a realizar (homogeneidad) y se seleccionan los elementos de la muestra de cada uno
de los estratos de manera aleatoria. El número de elementos de la muestra pertenecientes a cada estrato es
proporcional al número de elementos de cada uno de ellos con respecto a la población total. Se consigue
aumentar la representatividad de la muestra y son más fiables.

1.4- Muestreo por conglomerados


Las poblaciones están formadas generalmente por determinados grupos o conglomerados, por ejemplo, un
ayuntamiento está integrado por pueblos. En estas técnicas, en vez de seleccionar los elementos de la
muestra directamente, lo que se escoge son de manera aleatoria algunos de estos grupos o conglomerados.

1.5- Muestreo polietápico


Se van realizando muestras por etapas utilizando cualquiera de los tipos anteriores en cada una de las
etapas, hasta llegar a los individuos que formarán parte de la muestra.

2- Muestreo no aleatorio
Son técnicas de muestreo donde se eligen determinados criterios que no están basados en la
equiprobabilidad para la selección de los elementos de la muestra. Estos métodos de muestreo son menos
fiables que los aleatorios o probabilísticos, porque su nivel de representatividad de la población es menor y
se utilizan cuando no es posible la realización de los otros debido a restricciones principalmente de coste o
cuando se está realizando una exploración inicial y se quiere obtener cierto grado de representatividad. Las
técnicas de muestreo de este tipo son:

2.1- Muestreo por cuotas


Para seleccionar los elementos de la muestra se fijan una serie de características o condiciones
representativas del estudio o análisis a realizar, y se selecciona un determinado número de elementos que
las cumplen, llamado tamaño de la muestra. Es necesario conocer a fondo la población objeto del estudio
para seleccionar las variables o características adecuadas. Es el método más utilizado en las encuestas de
opinión.

2.2- Muestreo intencional


Se determinan o eligen intencionadamente los elementos de la muestra o de grupos típicos de la población,
ya que se entiende que la muestra será representativa de la población. Implica un gran conocimiento de las
características esenciales de la población para la elección. Es la técnica más empleada en las encuestas de
intención de voto.
2.3- Muestreo por cadena
Se seleccionan unos determinados elementos de la población y estos están en contacto o relacionados con
otros elementos que se van agregando a la muestra hasta completar su tamaño. Se usan, por ejemplo, en
estudios de grupos sesgados o marginales, como relacionados con delincuencia, enfermedades…

2.4- Muestreo discrecional


Los elementos son escogidos deliberadamente por el responsable del estudio, ya que son los más
adecuados para el objeto de investigación.

3- Ejemplos con python


In [1]: # Importaciones
import pandas as pd
import random
import math

# Carga de los dataframes de ejemplo


iris = pd.read_csv('Iris.csv')
wc = pd.read_csv('worldcup.csv')

3.1- Muestreo aleatorio simple sin reposición


In [2]: # Selecionamos los indices de manera aleatoria
indices = random.sample(range(len(iris)), 5)
indices

[80, 133, 32, 137, 3]


Out[2]:

In [3]: # Filtramos el dataset por los indices generados anteriormente


iris.iloc[indices, :]

Out[3]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

80 81 5.5 2.4 3.8 1.1 Iris-versicolor

133 134 6.3 2.8 5.1 1.5 Iris-virginica

32 33 5.2 4.1 1.5 0.1 Iris-setosa

137 138 6.4 3.1 5.5 1.8 Iris-virginica

3 4 4.6 3.1 1.5 0.2 Iris-setosa

3.2- Muestreo aleatorio simple con reposición


In [4]: # Selecionamos los indices de manera aleatoria
indices_con_repo = random.choices(range(len(iris)), k = 5)
indices_con_repo

[104, 118, 138, 13, 118]


Out[4]:
In [5]: # Filtramos el dataset por los indices generados anteriormente
iris.iloc[indices_con_repo, :]

Out[5]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

104 105 6.5 3.0 5.8 2.2 Iris-virginica

118 119 7.7 2.6 6.9 2.3 Iris-virginica

138 139 6.0 3.0 4.8 1.8 Iris-virginica

13 14 4.3 3.0 1.1 0.1 Iris-setosa

118 119 7.7 2.6 6.9 2.3 Iris-virginica

3.3- Muestreo sistemático


In [6]: # Seleccionamos el primer indice de manera aleatoria
p_indice = random.sample(range(len(iris)), 1)[0]
p_indice

103
Out[6]:

In [7]: # Fijamos el numero de elementos que compondran nuestra muestra, en este caso 10
n = 10
n

10
Out[7]:

In [8]: # Ahora hallamos el incremento


incremento = math.floor(len(iris) / n)
incremento

15
Out[8]:

In [9]: # Producimos los diferentes indices de manera sistemática


indices_sistematicos = [p_indice + incremento * i for i in range(n)]
indices_sistematicos

[103, 118, 133, 148, 163, 178, 193, 208, 223, 238]
Out[9]:

In [10]: # Como nuestra población esta compuesta por 150 y algunos


# Indices se salen del rango haremos el modulo entre 150
indices_sistematicos = [i % len(iris) for i in indices_sistematicos]
indices_sistematicos

[103, 118, 133, 148, 13, 28, 43, 58, 73, 88]
Out[10]:

In [11]: iris.iloc[indices_sistematicos, :].head(4)

Out[11]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

103 104 6.3 2.9 5.6 1.8 Iris-virginica

118 119 7.7 2.6 6.9 2.3 Iris-virginica

133 134 6.3 2.8 5.1 1.5 Iris-virginica

148 149 6.2 3.4 5.4 2.3 Iris-virginica


3.4- Muestreo estratificado
In [12]: # Consideraremos que iris esta dividido en 3 estratos,
# 1 estrato por cada especie y queremos una muestra de 12
# elementos. Haremos 4 por cada estrato.
# Creamos un dataframe para cada estrato y recogemos la muestra
iris_virginica = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-virginica']\
.index), 4),:]
iris_setosa = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-setosa']\
.index), 4), :]
iris_versicolor = iris.iloc[random.sample(list(iris[iris["Species"] == 'Iris-versicolor'
.index), 4), :]
# Creamos un dataframe que contenga las diferentes muestras de diferentes estratos
iris_strat = pd.concat((pd.concat((iris_setosa,iris_virginica), axis = 0), iris_versicol
axis = 0)
iris_strat

Out[12]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species

32 33 5.2 4.1 1.5 0.1 Iris-setosa

11 12 4.8 3.4 1.6 0.2 Iris-setosa

5 6 5.4 3.9 1.7 0.4 Iris-setosa

24 25 4.8 3.4 1.9 0.2 Iris-setosa

143 144 6.8 3.2 5.9 2.3 Iris-virginica

126 127 6.2 2.8 4.8 1.8 Iris-virginica

127 128 6.1 3.0 4.9 1.8 Iris-virginica

105 106 7.6 3.0 6.6 2.1 Iris-virginica

79 80 5.7 2.6 3.5 1.0 Iris-versicolor

94 95 5.6 2.7 4.2 1.3 Iris-versicolor

51 52 6.4 3.2 4.5 1.5 Iris-versicolor

95 96 5.7 3.0 4.2 1.2 Iris-versicolor

3.5- Muestreo por conglomerados


In [13]: # Elegiremos por conglomerados la variable
# país. Seleccionaremos aleatoriamente
# 4 paises y la muestra estará compuesta por
# las observaciones las cuales tengan ese país
paises_elegidos = random.sample(list(wc['Team'].unique()), 4)
muestra_cong = wc[wc['Team'].isin(paises_elegidos)]
muestra_cong.head()

Out[13]: Player Team Position Time Shots Passes Tackles Saves

11 Aguilar Mexico Defender 55 0 31 2 0

13 Ahn Young-Hak North Korea Midfielder 270 1 123 11 0

34 Baptista Brazil Midfielder 82 0 42 1 0

36 Barrera Mexico Midfielder 149 4 59 2 0

43 Bautista Mexico Forward 45 0 8 3 0


3.6- Muestreo polietápico
In [14]: # Para realizar este ejemplo de muestreo polietápico
# haremos un muestre por conglomerados como el anterior
# eligiendo los conglomerados como los equipos y de esos
# conglomerados sacaremos una muestra aleatoria de 5
# la combinación de esos 20 resultados será nuestra muestra

a = random.sample(list(wc[wc['Team'] == paises_elegidos[0]].index), 5)
b = random.sample(list(wc[wc['Team'] == paises_elegidos[1]].index), 5)
c = random.sample(list(wc[wc['Team'] == paises_elegidos[2]].index), 5)
d = random.sample(list(wc[wc['Team'] == paises_elegidos[3]].index), 5)

muestra_polie = wc.iloc[a + b + c + d, :]
muestra_polie.head()

Out[14]: Player Team Position Time Shots Passes Tackles Saves

549 Vela Mexico Forward 100 1 25 1 0

221 Hernandez Mexico Forward 169 6 37 1 0

174 Franco Mexico Forward 253 4 71 2 0

477 Salcido Mexico Defender 360 9 174 15 0

267 Juarez Mexico Defender 235 0 128 6 0

También podría gustarte