Está en la página 1de 11

ASIGNATURA

MÉTODOS CUANTITATIVOS
MARÍA ELISA BALEN
SEMESTRE 2020-I

Semana 6, sesión 1:
Diseño de muestras
En esta sesión: muestreo
 Vamos a empezar con algunas definiciones: estadística, muestra,
población.
 Luego, especificaremos en qué consiste la inferencia (y su relación con
el muestreo)
 Asociado a esto están los que se conocen como Tipos de error I y II –en los
cuales voy a detenerme brevemente.
 La representatividad estadística de una muestra está relacionada con la
distribución normal, un concepto en cuya lógica voy a detenerme por si
a alguien le interesa pero que no es esencial que comprendan.
 Después, volveremos a un resumen de los tipos de muestreo (que aplica

en las investigaciones que hagan, tanto si usan métodos cuantitativos,


cualitativos o una combinación de éstos).
Y luego, pasaremos a un ejercicio práctico.
Algunas definiciones
 Población teórica: hacia quién queremos generalizar
 Población de estudio: a qué población tenemos acceso
 Marco de muestra: cómo obtenemos el acceso
 Muestra: quien está en nuestro estudio. Es una selección
de la población.
 Estadística: transformación matemática o fórmula
aplicada a un dato numérico.
 El promedio, la mediana, la moda y la desviación estándar
son ejemplos de estadísticas (aplicadas a una sola variable).
La inferencia estadística
 Se usa para, a partir de una muestra, hacer inferencias sobre una población.
 Usar hechos que se saben (respuestas de una muestra) para entender hechos que no se
saben (respuestas de una población) Gilbert, N Researching Social Life, 2008:167.
 Noten que la estadística descriptiva suele reducir o sintetizar la información sobre una
población. La estadística inferencial tiene como objetivo generalizar de una muestra a una
población.
 Para poder hacer esa extrapolación, la muestra tiene que ser “representativa” de la
población.
 Esto aplica tanto para información cuantitativa como cualitativa!
Antes de seguir, piense:
¿Cómo debiéramos haber seleccionado la muestra del taller I (Influencia de la ocupación de
los padres y madres en la selección de carrera) para que los resultados fueran
representativos al nivel de los estudiantes de sociología de la Universidad Nacional?

Ahora, tal vez los resultados serían distintos si se toman la Universidad Nacional y la
Universidad de los Andes.
¿Qué muestra necesitaríamos para que los resultados fueran representativos de los
estudiantes de sociología a nivel nacional?
Validez, confianza, y tipos de error
 Hay dos tipos de error relacionados con problemas de muestreo:
 Error tipo I: su hipótesis era falsa, pero usted concluyó que era verdadera a
partir de una muestra no representativa.
 Por ejemplo, a partir de la encuesta entre estudiantes de la Universidad Nacional usted
confirma su hipótesis de que la profesión de padres y madres no influye en la selección
de carrera de los estudiantes de sociología –y resulta que en el caso de los estudiantes de
la otra Universidad sí hay una influencia.
 Error tipo II: rechazó su hipótesis, que era verdadera para la población, a partir
de una muestra sesgada.
 Por ejemplo, usted quería confirmar la hipótesis de que la mayoría de estudiantes de
sociología son mujeres (como enfatiza la vicepresidente Marta Lucía Ramírez) y
rechaza esa hipótesis al ver que, en sociología de la Nacional, la mayoría son hombres.
A nivel nacional esa la hipótesis es cierta, pero usted se equivocó extrapolando con base
en el departamento de sociología de la Universidad Nacional, que es una excepción.
 ¿Cómo saber que su muestra es sesgada, o no representativa?
¿Reconocen esta imagen?

Aparece en el libro El Principito, de Antoine


de Saint-Exupery, que comienza con un niño
cuyo dibujo de una serpiente que se ha
comido un elefante no entiende ningún adulto
(le dicen que si es un sombrero), entonces se
ve obligado a hacer explícito lo que está
adentro.
Esa forma, con una gran concentración de
masa en el centro y dos “colas” a lado y lado,
se parece mucho a una imagen importante en
estadística conocida por diferentes nombres:
la curva de campana, la curva de Gauss, o la
curva de distribución normal:
La distribución normal
Para tener una muestra no-sesgada, es importante evitar que una muestra específica
caiga en una de las colas de la distribución: que sea un extremo.
Ahora, los valores de cada variable se
distribuyen de distintas maneras (imagínese,
por ejemplo, como se vería una gráfica de la
distribución de los ingresos de la población
colombiana). Pero, hay un teorema
matemático conocido como el teorema
central del límite según el cual las
¿Cómo leer esta gráfica de la curva normal? diferentes muestras de estadísticas de una
En esta gráfica, “µ” es la media o promedio, y “σ” es la población, particularmente a medida que
desviación estándar (si no se acuerdan qué quiere decir esto, es aumenta el tamaño de la muestra, tenderán
el momento de refrescar su memoria buscando en internet). Lo
a distribuirse de una manera normal. En
que indica esta gráfica es que:
- el 68.2% de las observaciones (34.1+34.1=68.2), están esta convención se basan los cálculos de
entre una desviación estándar por debajo y una desviación representatividad de las muestras. (No
estándar por encima de la media (entre µ-σ y µ+σ). Y, tienen que saber esto o aprenderlo de
- el 95% de las observaciones están entre aprox. dos
desviaciones por debajo y dos desviaciones por encima de memoria, es sólo por si les interesa la lógica
la media (entre µ-2σ y µ+2σ). detrás de la fórmula que vamos a utilizar).
¿Cómo calcular el tamaño de una muestra?

Repasando: una característica de la distribución normal es que el 68% de las


observaciones están en el rango de +- una desviación estándar de la media.
- El rango +- 1.96 desviaciones estándar cubre el 95 % de los valores
- El rango +- 2.58 desviaciones estándar cubre el 99 % de los valores.
Hay fórmulas que, dependiendo del tamaño de la población, le van a decir cuál es el
tamaño de la muestra que debe usar para tener un nivel de confianza de 95% o 99%.
En el drive del curso encontrarán una hoja de excel con esa fórmula, para usar en los
ejercicios.
Ojo: esto asume que la muestra ha sido aleatoria,
Y que no hay “No-respuestas”
Importancia de las no-respuestas
 Le pueden estar dando información: i.e., es una pregunta sensible que no se
quiso responder
 Afecta la representatividad de la muestra si quienes no responden tienden a
tener ciertas características (i.e. son los que tienen más dinero. U otro factor
directamente relacionado con la variable de interés).
 Por ahora, lo clave para tener en cuenta es que
 todo lo que se haga con las no-respuestas debe ponderarse, analizarse y
justificarse muy bien
 Se puede aumentar el tamaño de la muestra para que con las no-respuestas no
quede por debajo del nivel de confianza
 Se pueden ponderar resultados cuando se sabe que las no respuestas están
asociadas a una característica, se tiene otras observaciones de personas con las
mismas características, y se sabe cuál es el peso relativo de ese grupo en la
población.
Retomando: Tipos de muestreo
 Aleatorio o Probabilístico
 Simple: todos tienen igual probabilidad de ser elegidos
 Estratificado:
1. se divide en estratos o grupos
2. Se seleccionan sujetos de cada grupo (para mantener proporción de la población)
 Conglomerados
1. Se eligen conglomerados (i.e. hospitales de un municipio, o universidades)
2. Elección aleatoria entre ellos.
 Sistemático:
1. Elementos ordenados
2. Muestras a partir de una regla determinística (i.e, cada 5 personas se selecciona una)
 Multietápico: por lo general por conglomerado y luego otro probabilístico
 No aleatorio o probabilístico (menor representatividad –basada en aleatoriedad).
 Intencional
 Bola de nieve
 Por cuotas o accidental (se escoge a un número de sujetos que cumplan características
determinadas)
Actividad
 Ahora sí, con la fórmula de muestreo a mano (ver
hoja de Excel en el drive), resuelvan el siguiente
ejericio.

También podría gustarte