Está en la página 1de 40

 Parte de los conceptos de la teoría del muestreo han sido

discutidos con anterioridad. Aquí los repasaremos y


ampliaremos. Por ejemplo, hemos mencionado que las
poblaciones están formadas por individuos, pero sería mejor
denominarlas unidades de muestreo o unidades de estudio:
• Personas, células, familias, hospitales, países…

 La población ideal que se pretende estudiar se denomina


población objetivo.
• No es fácil estudiarla por completo. Aproximamos mediante
muestras que den idealmente la misma probabilidad a cada
individuo de ser elegido.
• Tampoco es fácil elegir muestras de la población objetivo:
 Si llamamos por teléfono excluimos a los que no tienen.
 Si elegimos indiv. en la calle, olvidamos los que están trabajando...

 El grupo que en realidad podemos estudiar (v.g. los que


tienen teléfono) se denomina población de estudio.
Fuentes de sesgo
 Las poblaciones objetivo y de estudio pueden diferir
en cuanto a las variables que estudiamos.
 El nivel económico en la población de estudio es mayor
que en la objetivo,...
 Los individuos que se eligen en la calle pueden ser de
mayor edad (mayor frecuencia de jubilados p.ej.)…
• En este caso, diremos que las muestras que se elijan estarán
sesgadas. Al tipo de sesgo debido a diferencias sistemáticas
entre población objetivo y población de estudio se denomina
sesgo de selección.
 Hay otras fuentes de error/sesgo
• No respuesta a encuestas embarazosas
 Consumo de drogas, violencia doméstica, prácticas
poco éticas,…
• Mentir en las preguntas “delicadas”.

 Para evitar este tipo de sesgo se utilizan la técnica


de respuesta aleatorizada.
Técnicas de respuesta aleatorizada
 Reducen la motivación para mentir (o no responder)
a las encuestas.
• ¿Si digo la verdad, se me verá el plumero…?

 ¿Cómo se hace?
Pídele que lance una moneda antes de responder y…
• Si sale cara que diga la “opción compremetida”
 (no tiene por qué avergonzarse, la culpa es de la
moneda)
• Si sale cruz que diga la verdad
 (no tiene por qué avergonzarse, el encuestador no sabe
si ha salido cara o cruz)

 Aunque no podamos saber cuál es la verdad en cada


individuo, podemos hacernos una idea porcentual
sobre la población, viendo en cuánto se alejan las
respuestas del 50%.
Ejemplo: ¿Ha tomado drogas alguna vez?
Sin respuesta 100% No Insinseros!!
aleatorizada

Con respuesa
aleatorizada Diferencia entre los que han dicho sí y los que debían hacerlo
40% No por que así lo indicaba la moneda
60% Sí
0,6  0,5
¡No son mitad y mitad! p 
*
 0,2  20%
El porcentaje estimado de ind. que tomó drogas es: 1  0,5
Los que deben decir la verdad
Bioestadística. U. Málaga. Tema 6: Muestreo 5
Técnicas de muestreo
 Cuando elegimos individuo de una población de
estudio para formar muestras podemos
encontrarnos en las siguientes situaciones:
• Muestreos probabilistas
 Conocemos la probabilidad de que un individuo sea elegido
para la muestra.
 Interesantes para usar estadística matemática con ellos.
• Muestreos no probabilistas
 No se conoce la probabilidad.
 Son muestreos que seguramente esconden sesgos.
 En principio no se pueden extrapolar los resultados a la
población.
• A pesar de ello una buena parte de los estudios que se publican
usan esta técnica. ¡Buff!
 En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas): aleatorio simple, sistemático,
estratificado y por grupos.
Muestreo aleatorio simple (m.a.s.)
 Se eligen individuos de la población de estudio, de
manera que todos tienen la misma probabilidad
de aparecer, hasta alcanzar el tamaño muestral
deseado.

 Se puede realizar partiendo de listas de individuos


de la población, y eligiendo individuos
aleatoriamente con un ordenador.

 Normalmente tiene un coste bastante alto su


aplicación.

 En general, las técnicas de inferencia estadística


suponen que la muestra ha sido elegida usando
m.a.s., aunque en realidad se use alguna de las
que veremos a continuación.
Muestreo sistemático
 Se tiene una lista de los individuos de la
población de estudio. Si queremos una muestra
de un tamaño dado, elegimos individuos
igualmente espaciados de la lista, donde el
primero ha sido elegido al azar.

 CUIDADO: Si en la lista existen periodicidades,


obtendremos una muestra sesgada.

• Un caso real: Se eligió una de cada cinco casas para un


estudio de salud pública en una ciudad donde las casas
se distribuyen en manzanas de cinco casas. Salieron
con mucha frecuencia las de las esquinas, que reciben
más sol, están mejor ventiladas,…
Muestreo estratificado
 Se aplica cuando sabemos que hay ciertos
factores (variables, subpoblaciones o estratos)
que pueden influir en el estudio y queremos
asegurarnos de tener cierta cantidad mínima de
individuos de cada tipo:
• Hombres y mujeres,
• Jovenes, adultos y ancianos…

 Se realiza entonces una m.a.s. de los individuos


de cada uno de los estratos.

 Al extrapolar los resultados a la población hay


que tener en cuenta el tamaño relativo del
estrato con respecto al total de la población.
Muestreo por grupos o conglomerados
 Se aplica cuando es difícil tener una lista de todos los
individuos que forman parte de la población de estudio, pero
sin embargo sabemos que se encuentran agrupados
naturalmente en grupos.

 Se realiza eligiendo varios de esos grupos al azar, y ya


elegidos algunos podemos estudiar a todos los individuos de
los grupos elegidos o bien seguir aplicando dentro de ellos
más muestreos por grupos, por estratos, aleatorios simples,…

• Para conocer la opinión de los médicos del sistema nacional de


salud, podemos elegir a varias regiones de España, dentro de
ellas varias comarcas, y dentro de ellas varios centros de salud,
y…

 Al igual que en el muestreo estratificado, al extrapolar los


resultados a la población hay que tener en cuenta el tamaño
relativo de unos grupos con respecto a otros.
• Regiones con diferente población pueden tener probabilidades
diferentes de ser elegidas, comarcas, hospitales grandes frente a
pequeños,…
Estimación
 Un estimador es una cantidad numérica calculada sobre
una muestra y que esperamos que sea una buena
aproximación de cierta cantidad con el mismo significado
en la población (parámetro).

 En realidad ya hemos trabajado con estimadores cada vez


que hacíamos una práctica con muestras extraídas de una
población y suponíamos que las medias, etc… eran
próximas de las de la población.

• Para la media de una población:


 “El mejor” es la media de la muestra.

• Para la frecuencia relativa de una modalidad de una variable:


 “El mejor” es la frecuencia relativa en la muestra.

 Habría que precisar que se entiende por “el mejor


estimador” pero eso nos haría extendernos demasiado. Ver
libro.
¿Es útil conocer la distribución de un estimador?
 Es la clave para hacer inferencia. Ilustrémoslo con un
ejemplo que ya tratamos en el tema anterior (teorema del
límite central).

• Si de una variable conocemos μ y σ, sabemos que para


muestras “grandes”, la media muestral es:
aproximadamente normal,

 con la misma media y, EE 


 desviación típica mucho menor (error estándar) n
• Es decir si por ejemplo μ=60 y σ=5, y obtenemos muestras de
tamaño n=100,
 La desv. típica de la media muestral (error estándar) es
EE=5/raiz(100)=0,5
 como la media muestral es aproximadamente normal, el 95% de los
estudios con muestras ofrecerían estimaciones entre 60±1
 Dicho de otra manera, al hacer un estudio tenemos una confianza
del 95% de que la verdadera media esté a una distancia de ±1.
 En el ejemplo anterior la situación no era
muy realista, pues como de todas
maneras no conozco σ desconoceré el
intervalo exacto para μ.

 Sin embargo también hay estimadores


para σ y puedo usarlo como aproximación.

 Para tener una idea intuitiva, analicemos


el siguiente ejemplo. Nos servirá como
introducción a la estimación puntual y por
intervalos de confianza.
 Ejemplo: Una muestra de n=100 individuos de una
población tiene media de peso 60 kg y desviación
5kg.
• Dichas cantidades pueden considerarse como
aproximaciones (estimaciones puntuales)
 60 kg estima a μ
 5 kg estima a σ
 5/raiz(n)= 0,5 estima el error estándar (típico) EE
• Estas son las llamadas estimaciones puntuales: un número
concreto calculado sobre una muestra es aproximación de un
parámetro.

• Una estimación por intervalo de confianza es una que


ofrece un intervalo como respuesta. Además podemos
asignarle una probabilidad aproximada que mida nuestra
confianza en la respuesta:

 Hay una confianza del 68% de que μ esté en 60±0,5


 Hay una confianza del 95% de que μ esté en 60±1.

 Ojo: He hecho un poco de trampa. ¿La ves?


Estimación puntual y por intervalos
 Se denomina estimación puntual de un parámetro al ofrecido
por el estimador sobre una muestra.

 Se denomina estimación confidencial o intervalo de confianza


para un nivel de confianza 1-α dado, a un intervalo que ha sido
construido de tal manera que con frecuencia 1-α realmente
contiene al parámetro.

• Obsérvese que la probabilidad de error (no contener al parámetro) es


α.
 En el siguiente tema se llamará prob. de error de tipo I o nivel de
significación.
 Valores típicos: α=0,10 ; 0,05 ; 0,01

• En general el tamaño del intervalo disminuye con el tamaño muestral


y aumenta con 1-α.

• En todo intervalo de confianza hay una noticia buena y otra mala:


 La buena: hemos usado una técnica que en % alto de casos acierta.
 La mala: no sabemos si ha acertado en nuestro caso.
Aplicación
 Al final del tema 2

Descriptivos para Número de hijos dejamos sin interpretar


parte de los resultados
Media
Estadístico Error típ. que obteníamos con
1,90 ,045
Intervalo de Límite
SPSS.
1,81
confianza para la inferior
media al 95% Límite
superior
 ¿Sabrías interpretar lo
1,99
que falta por sombrear?
Media recortada al 5%
1,75  ¿Puedes dar un intervalo
Mediana 2,00
de confianza para la
Varianza 3,114 media al 68% de
Desv. típ. 1,765 confianza?
Mínimo 0
Máximo 8  Observa la asimetría.
Rango 8
¿Crees probable que la
Amplitud intercuartil
3,00 asimetría en la población
pueda ser cero ya que la
Asimetría 1,034 ,063 obtenida en la muestra es
Curtosis 1,060 ,126 aprox. 1?
¿Qué hemos visto?
 Sesgo de selección
• Población objetivo
• Población de estudio
 Otros sesgos
• Técnica de respuesta aleatorizada
 Técnicas de muestreo
• No probabilistas
• Probabilistas
 m.a.s.
 Sistemático
 Estratificado
 Conglomerados
• Estimación
 Estimador
• Estimación puntual
• Error estándar
 Estimación confidencial
 Nivel de confianza 1-α
Tema.12. Inferencia
estadística

Principales conceptos.
Muestreo. Distribución
muestral de un estadístico.
Principales distribuciones
muestrales.
Principales conceptos en inferencia estadística

Idea básica: Hacer inferencias sobre la población a


partir de la muestra que hemos extraído de la misma.

Ello nos lleva a tratar (brevemente) el tema del


muestreo. Pensemos que la muestra habrá de ser
representativa de la población, para que podamos
efectuar inferencias que tengan sentido.
Muestreo
Definición: Proceso que nos permite la extracción de
una muestra a partir de una población

Hay dos tipos básicos de muestreo:


1. Muestreo probabilístico. En este tipo de muestreo, la
probabilidad de aparición en una muestra de cualquier elemento
de la población es conocida (o calculable). Es el único
científicamente válido, y es sobre el que nos extenderemos
especialmente.
2. Muestreo no probabilístico. Es aquel en el que la selección de
los elementos de la muestra no se hacen al azar.
Muestreo probabilístico

Este muestreo garantiza que, a la larga, las muestras que se van


obteniendo de la población sean representativas de la misma. Vamos a
ver varios tipos de muestreo probabilístico.

1. Muestreo aleatorio simple


2. Muestreo estratificado
3. Muestreo por conglomerados
4. Muestreo por etapas (o polietápico)
5. Muestreo sistemático (?)
Muestreo probabilístico

1. Muestreo aleatorio simple

Es aquel en el que, a priori, todos los elementos de la muestra tienen la


misma probabilidad de aparición.

Supongamos que tengamos una población de 50.000 individuos, y que


tenemos un listado con sus nombres. Si queremos elegir 100 personas,
lo que necesitamos es que el ordenador elija al azar a 100 individuos de
esos 50.000.
Muestreo probabilístico

2. Muestreo estratificado

En el muestreo estratificado, los investigadores han de


dividir a los sujetos en diferentes subpoblaciones (o
estratos), en función de cierta característica relevante, y
después lo que hacen es un muestro aleatorio simple de
cada estrato.
Evidentemente, cada individuo debe pertenecer a un estrato
(y solo uno), y cada individuo del estrato habrá de tener la
misma probabilidad de ser escogido como parte de la
muestra.
Ejemplo: Supongamos que, en Valencia, 70% de los niños
de primaria van a escuela pública y el 30% a concertada. Si
queremos 1,000 niños, lo que haremos es dividir los
alumnos en 2 estratos (pública y concertada) y se eligen
aleatoriamente 700 niños de la pública y aleatoriamente 300
de la concertada.
Muestreo probabilístico

3. Muestreo por conglomerados

En el muestreo por conglomerados, en lugar de considerar


cada elemento de la población, lo que consideramos son
“conglomerados de elementos”. El proceso es elegir
aleatoriamente uno o varios conglomerados y la muestra
estará formada por TODOS los elementos de los
conglomerados.

Ejemplos:
-En las encuestas durante las elecciones, los
conglomerados pueden ser las mesas electorales, y lo que
se hace es escoger algunas mesas al azar (y de ahí se toman
todos los votos de las mesas seleccionadas).
-En otros ejemplos, los conglomerados pueden ser los
bloques de viviendas, los municipios, etc.
Muestreo probabilístico

4. Muestreo por etapas

En este caso se combina el muestreo aleatorio


simple con el muestreo por conglomerados:

Primero se realiza un muestreo por conglomerados (v.g., si


los conglomerados son colegios en Valencia, se seleccionan
aleatoriamente varios de ellos).
Segundo, no se eligen todos los alumnos (como ocurriría en
un muestro por conglomerados), sino que se elige una
muestra aleatoria. (Dicha muestra puede ser obtenida por
muestreo aleatorio simple o puede ser estratificado.)
Es decir, hemos tenido 2 etapas de muestreo. Y claro está,
es posible tener más de 2 etapas...
Muestreo probabilístico

5. Muestreo aleatorio sistemático


Supongamos que tengamos una lista de N elementos
(e.g., estudiantes de secundaria) y queramos una
muestra de tamaño “n”. En este caso, lo que se hace
es ordenarlos (v.g., en función de los apellidos) y
después se elige aleatoriamente un elemento entre los
N/n=k primeros, y luego se elige de manera sistemática
el que esté k lugares después del primer elemento, y
así sucesivamente.
Ejemplo: Tenemos 10000 estudiantes (en una lista) y
queremos obtener una muestra de 100 estudiantes.
Primero elegimos al azar un estudiante entre los
10000/100=100 primeros (supongamos que salga el
26), el segundo elemento será el estudiante 100+26
(126), el siguiente será el 226, luego el 326, etc.
Muestreo no probabilístico

1. Muestreo sin norma (o de conveniencia)


Se elige a una muestra por ser conveniente, fácil,
económica. Pero no se hace en base a un criterio de
aleatoridad.
Ejemplo: las encuestas en los periódicos
electrónicos; el muestreo habitual en los trabajos en
psicología.

2. Muestreo intencional
En este caso, si bien el muestreo no es
probabilístico, los investigadores procuran que se
garantice la representatividad de la muestra
Distribución muestral de un estadístico

Supongamos que tenemos una variable aleatoria,


cuya distribución es f(x)
Supongamos, por simplicidad, que obtenemos una
muestra aleatoria simple con tamaño n
X1, X2, ... Xn

Entonces, un estadístico es cualquier función h


definida sobre X1, X2, ... Xn y que no incluye parámetro
desconocido alguno:
Y=h(X1, X2, ... Xn)
La distribución de dicho estadístico Y la vamos a denominar g(y)
Distribución muestral de un estadístico
Observad:
f(x) es la distribución de la v.a. bajo estudio
g(y) es la distribución del estadístico que tenemos

Es vital conocer la distribución muestral del


estadístico de interés para poder efectuar
inferencias sobre el parámetro correspondiente.

Esto es, para efectuar inferencias sobre la media


poblacional , necesitamos conocer la distribución
muestral de X
Distribución muestral de la media

Veremos primero el caso de que la distribución


subyacente sea normal, con media  y varianza  2

La media de la distribución muestral de medias es


La varianza de la distribución muestral de medias es 2 /n

La forma de la distribución muestral de la media es normal.

Nota: La desviación típica de la distribución muestral suele ser denominada:


error típico de tal estadístico (v.g., “error típico de la media”, etc.)
Distribución muestral de la media. Ejemplo 1

Distribución poblacional
400 subyacente (dist. Normal):
La línea (en este y sucesivos ejemplos) es una curva
normal Media=100
(Varianza=225)
300
Desv.Típica=15

200
Distribución muestral
de la media:

100 Tamaño muestral=10


Desv. típ. = 4.75 Media=100
Media = 99.9
N = 3600.00
(Varianza=225/10=22.
0
5)
Desv.típica= 22.5  4.74
N10
En este y sucesivos gráficos: Número de réplicas
Distribución muestral de la media. Ejemplo 2

Distribución
500 poblacional
subyacente (dist.
Normal):
400
Media=100
Desv.Típica=15
300

Distribución
200 muestral de la
media:

100 Tamaño
Desv. típ. = 3.36 muestral=20
Media = 100.0
0 N = 3600.00 Media=100
(Varianza=225/20=1
1.3)
N20
Desv.típica=3.35
Distribución muestral de la media. Ejemplo 3

Distribución
700 poblacional
subyacente (dist.
600 Normal):

500
Media=100
Desv.Típica=15
400

300 Distribución muestral


de la media:
200
Tamaño muestral=50
Desv. típ. = 2.12
100 Media=100
Media = 99.95

0 N = 3600.00 (Varianza=225/50=4.5)
Desv.típica=2.12

N50
Distribución muestral de la media

Veremos ahora el caso de que la distribución


subyacente sea arbitraria, si bien sabemos que la
media es  y la varianza sea  2

La media de la distribución muestral de medias es 


La varianza de la distribución muestral de medias es  2 / n
La forma de la distribución muestral de la media TAMBIÉN
tiende a ser normal. En concreto, la distribución muestral se
acercará más y más a la distribución normal (media  y
varianza 2/n) a medida que se aumente el tamaño de cada
muestra.
Distribución muestral de la media. Ejemplo 4

Distribución poblacional La distribución GAMMA tiene 2 parámetros:


subyacente (dist. GAMMA):  que es un parámetro de escala (1)
p 100
Media=100=   100
 1 p que es un parámetro de forma (100)
p 100
Varianza=100=   100
 2 12

0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
80 85 90 95 100 105 110 115 120
Distribución muestral de la media. Ejemplo 4

Distribución poblacional
subyacente (dist. GAMMA):
500
Media=100
Varianza=100
400

300

200
Distribución muestral de la
media:
100
Desv. típ. = 3.12 Tamaño muestral=10
Media = 100.0
0 N = 3600.00 Media=100
(Varianza=100/10=10)
DISGAMMA Desv.típica= 10  3.16
Distribución muestral de la media. Ejemplo 5

Distribución poblacional (dist.


EXPONENCIAL): La distribución EXPONENCIAL tiene 1
Media=0.1=1/ parámetro: (en el ejemplo: 10)

Varianza=0.01=1/2

12

10

0
0 0.1 0.2 0.3 0.4 0.5 0.6

Ejemplo de distr.exponencial en psicología: v.g., tiempo transcurrido entre 2


pulsaciones de una rata en una caja de Skinner.
Distribución muestral de la media. Ejemplo 5a

Distribución poblacional
400
(dist. EXPONENCIAL):
Media=0.1=1/
300 Varianza=0.01=1/2

200

100
Distribución muestral de la
Desv. típ. = .03 media:
Media = .100

0 N = 3600.00 Tamaño muestral=10


.0 .0 .0 .0 .0 .0 .1 .1 .1 .1 .1 .1 .1 .1 .2 .2 .2 .2
31 44 56 69 81 94 06 19 31 44 56 69 81 94 06 19 31 44
Media=.100
EXPON10 (Varianza=0.01/10=.001)

Observad que la dist. muestral se aproxima a la normal Desv.típica=.03


Distribución muestral de la media. Ejemplo 5b
500
Distribución poblacional
(dist. EXPONENCIAL):
400
Media=0.1=1/

300
Varianza=0.01=1/2

200

100
Desv. típ. = .02
Media = .099 Distribución muestral de la
0 N = 3600.00 media:
Tamaño muestral=20
EXPON20 Media=.100

Observad que la distribución muestral se aproxima


(Varianza=0.01/20=.0005)
más a la normal (al elevar el tamaño muestral). Desv.típica=.022
OTRAS DISTRIBUCIONES MUESTRALES (1)

Distribución muestral de X 
s / n
Cuando la distribución de la que obtenemos las medias muestrales es
gaussiana (“distr.normal”), la expresión anterior se distribuye según la
distribución t de Student con tn-1 grados de libertad. (Esta distribución es
básica para efectuar inferencias entre dos medias.)
2
Distribución muestral de s1
 Asumiendo varianzas
poblacionales iguales
2
s2

Cuando las distribuciones de la que obtenemos las varianzas muestrales


son gaussianas, la expresión anterior se distribuye según la distribución
F de Fisher con n1-1 grados de libertad en el numerador y n2-1 grados
de libertad en el denominador. (Recordad que la distribución F es básica
para la razón de varianzas: ANOVA.)
OTRAS DISTRIBUCIONES MUESTRALES (2)

Distribución muestral de ns 2 /  2

Cuando las distribución de la que obtenemos la varianza muestral es


gaussiana, la anterior expresión se distribuye según la distribución chi-
cuadrado con n-1 grados de libertad.

También podría gustarte