Tema 4. Distribución Muestral. Intervalos de Confianza

INFERENCIA Y CONTRASTE
DE HIPÓTESIS.
1. Estimación puntual y por

intervalos
Objetivo de un estudio
Por lo general es conocer las características de
los individuos de una población (distribución de
la variable estudiada y parámetros que la
definen). Pero eso resulta prácticamente
imposible: costes, definición de la población,
tiempo, diseño del estudio.
→ Recurrimos a una muestra a partir de la que

podamos inferir características de la población.
Estimación de parámetros
Conocer exactamente el valor de un parámetro

implica observar a todos los individuos de la
población
Inferencia estadística
Métodos que nos van a permitir obtener

conclusiones de la población a partir de la
información proporcionada por una muestra
DISEÑO DE ESTUDIO
↓ coste POBLACION DE ESTUDIO
↑ rapidez
↑ facilidad
↑ exactitud
MUESTRA
INFERENCIA
RESULTADOS
ESTIMACIÓN DE PARÁMETROS
En general, dada una población en la que
se observa un fenómeno, sus parámetros
nos son desconocidos
• ¿cuál es la prevalencia de alérgicos a productos
lácteos?
• ¿cuál es la proporción de fumadores varones
mayores de 16 años?
• ¿cuál es la renta media anual por familia?
• ¿cuál será el porcentaje de curación del nuevo
fármaco?
• Etc, etc,…
Estadística inferencial
• Extrae conclusiones de la colección
de datos observados
Finalidades:
1) Estimación de parámetros
(puntual y por intervalos)
2) Contraste de hipótesis
OBJETIVO DE LOS ESTUDIOS
EPIDEMIOLÓGICOS
 Estimar valores de frecuencia de enfermedad o

medidas de efecto con el menor error posible
 Meta fundamental: exactitud en la medición
FUENTES DE ERROR
•ERROR ALEATORIO (azar)
•ERROR SISTEMÁTICO
FUENTES DE ERROR EN
ESTUDIOS EPIDEMIOLÓGICOS
X XXX
X
X X X XX
X
X XX
X X
X
X X
VALOR REAL ERROR ERROR

ALEATORIOS SISTEMÁTICO
ERROR ALEATORIO (azar):
 Produce una desviación del resultado obtenido respecto al verdadero

valor (puede ir en cualquier dirección: simétrico).
 Obtención de una muestra representativa al azar (error de muestreo: error

aleatorio).
 Depende del tamaño muestral (disminuye al aumentar el tamaño).
 El estudio se repite un número infinito de veces, el valor obtenido sería un

valor medio igual al valor real.
 Inevitable, pero estimable.
 La estadística estima y controla el error aleatorio.
Ausencia de error aleatorio Precisión o fiabilidad

ERROR SISTEMÁTICO:
 Produce una desviación del resultado obtenido respecto al verdadero

valor (siempre en la misma dirección, asimétrico).
 No depende del tamaño muestral.
 No disminuye al aumentar el tamaño muestral (lo único que se obtiene

es un aumento en la precisión de la estimación).
 El estudio se repite un número infinito de veces, el valor obtenido sería

un valor medio diferente al real.
 Prevención y control a través de la Epidemiología.
Ausencia de error sistemático Validez

PRINCIPALES DIFERENCIAS ENTRE ERROR
ALEATORIO Y EL ERROR SISTEMÁTICO
ERROR
ALEATORIO SISTEMÁTICO
(SESGO)
Causa -Muestreo -Diseño, ejecución y análisis:
-Variabilidad del Selección de los sujetos
parámetro Obtención de la información
Disminuye al
aumentar el Sí No
tamaño muestral
Afecta a Precisión Validez
VALIDEZ DEL ESTUDIO
Población de
Población de referencia:
referencia población donde se quiere
extrapolar los resultados.
Población de
estudio Población de estudio: sujetos
elegibles o seleccionados para
Muestra llevar a cabo el estudio.
Muestra: se obtienen para
realizar el estudio y desean
participar.
VALIDEZ DEL ESTUDIO
La validez expresa el grado en que la
prueba puede medir realmente lo que
pretende medir.
La validez se divide en dos

componentes:
 Validez interna
 Validez externa
VALIDEZ INTERNA
 Hace referencia a la capacidad de inferir los

resultados desde la muestra estudiada hasta la
población de referencia.
Responde a la pregunta: ¿los resultados qué

se observan son aplicables a la población de
referencia?
VALIDEZ EXTERNA
 Tiene relación con la capacidad de generalización

de los resultados desde el grupo de sujetos
estudiados hasta la población general (sujetos fuera
de la población de referencia)
 Responde a la pregunta: ¿los resultados qué se

observan en el estudio son aplicables a cualquier
grupo?
Ante un estudio nos tenemos que
preguntar:
1) Son correctos los resultados?
2) Pueden ser atribuidos al azar?
3) Son aplicables a otros contextos?

Sesgos
Cualquier hecho en el diseño o ejecución de un estudio que hace
que los resultados del estudio de desvíen o se aparten de la
realidad.
Sesgos de Distorsión del efecto medido debida a

selección los procedimientos usados para
seleccionar a los sujetos.
Sesgos de Distorsión del efecto medido debida

información a los procedimientos usados para
obtener la información y clasificar a
los sujetos.
Sesgo de selección
• Autoselección
• No respuesta
• Berkson Población de referencia
• Abandono Enfermos Sanos

Expuestos Expuestos
Enfermos Sanos
No expuestos No expuestos
La muestra
no representa
a la población
diana
Muestra del estudio

Sesgo de información
Sesgo debido a errores de medición de Malaclasificación
la exposición  no diferencial
• recuerdo  diferencial
• entrevistador
• entrevistado
Técnicas de muestreo
Los métodos para seleccionar una muestra representativa
podemos clasificarlos en:
Probabilístico: No Probabilístico:
Todos los individuos tienen una La elección de los individuos no
probabilidad conocida de poder ser depende de la probabilidad, sino
seleccionado y esta probabilidad no del proceso de toma de
es nula para ningún elemento de la decisiones del investigador.
población.
Importante:
Muestreo equiprobabilístico: forma • Las muestras seleccionadas
especial de diseño probabilístico por decisiones subjetivas tienden
donde todos los sujetos de la a estar sesgadas.
población tienen la misma
probabilidad de ser seleccionados.
Técnicas de muestreo
PROBABILÍSTICO:
Muestreo aleatorio simple.
Muestreo aleatorio estratificado.
Muestreo sistemático.
Muestreo aleatorio por conglomerados.
NO PROBABILÍSTICO:
•Muestreo por cuotas.
•Muestreo por conveniencia.
•Muestreo por oportunidad.
•Muestreo consecutivo.
MUESTREO ALEATORIO SIMPLE (M.A.S.)
 Se eligen individuos de la población de estudio, de

manera que todos tienen la misma probabilidad de
aparecer (o una probabilidad conocida), hasta alcanzar el
tamaño maestral deseado.
 Se puede realizar partiendo de listas de individuos de la

población, y eligiendo individuos aleatoriamente con un
ordenador.
 Se necesita un lista numerado de los sujetos que

componen la población de estudio.
MUESTREO ALEATORIO SIMPLE (M.A.S.)
MUESTREO SISTEMÁTICO
 Se tiene una lista de los individuos de la población de estudio.

 Si queremos una muestra de un tamaño dado, elegimos
individuos igualmente espaciados de la lista, donde el primero
ha sido elegido al azar.
 Elaboramos una lista ordenada de los N individuos de la
población Marco Muestral.
 Después dividimos el marco muestral en “n” fragmentos donde
n es el tamaño de muestra que deseamos
 El tamañao será K= N/n
 Obtenemos un número aleatorio y lo aplicamos, siendo este el

primer sujeto para la muestra.
 Seleccionamos el resto de individuos a partir de este primero.
MUESTREO SISTEMÁTICO
MUESTREO SISTEMÁTICO (Ejemplo)
• Tenemos un marco muestral (N) de 5.000 pacientes y deseamos

obtener una muestra “aleatoria” de 100 de estos pacientes (n).
– Dividimos el marco muestral en 100 “fragmentos” de 50
pacientes (K=N/n; K=5000/100=50).
– Obtenemos un número aleatoria entre 1 y 50 (ejemplo:24)
– Seleccionamos un paciente del primer fragmento

• Número 24.
• A partir de este paciente queda definida la muestra porque
extraeremos individuos de la lista con intervalos de 50
pacientes:
– 24 ; 74 (50+24) : 124 (74+50); ……; 4974.
MUESTREO ESTRATIFICADO
 Se aplica cuando sabemos que hay ciertos factores (variables,

subpoblaciones o estratos, por ejemplo grupos de edad y sexo)
que pueden influir en el estudio y queremos asegurarnos de
tener cierta cantidad mínima de individuos de cada tipo.
 Lo ideal es que los estratos en la muestra tenga un tamaño

relativo (%) proporcional al de la población.
 Se realiza entonces una m.a.s. de los individuos de cada uno

de los estratos.
MUESTREO POR CONGLOMERADOS (O POR GRUPOS)
• Se aplica cuando es difícil tener una lista de todos los individuos que forman
parte de la población de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos. Las unidades de muestreo NO son
individuos sino GRUPOS de individuos
• Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos

podemos estudiar a todos los individuos de los grupos elegidos o bien seguir
aplicando dentro de ellos más muestreos por grupos, por estratos, aleatorios
simples.
MUESTREOS NO PROBABILÍSTICOS
•Muestreo por cuotas (encuestas de opinión y de mercado): se establece un
número determinado de sujetos necesarios en cada estrato (para mantener la
representatividad) pero no se seleccionan dentro de cada estrato por azar.
•Muestreo por consecutivo (más utilizado): seleccionar a los participantes que

cumplen los criterios de inclusión de manera consecutiva durante periodo de
reclutamiento (ingresados, diagnosticados en una consulta, etc.)
•Muestreo por conveniencia: los participantes son seleccionados al ser fácilmente

accesibles para el investigador o porque deseen participar voluntariamente.
• Muestreo por oportunidad

DISTRIBUCIONES
MUESTRALES. TEOREMA
CENTRAL DEL LÍMITE
DISTRIBUCIÓN MUESTRAL
• El estudio de determinadas características de una
población (μ,σ,p, etc.) se efectúa a través de muestras que
se extraen de ellas.
• Muestreo de la población de partida (finita o infinita) a

través de un muestreo aleatorio (con o sin reposición).
• Se consideran las posibles muestras de tamaño n de una

población.
• Para cada muestra calcular un estadísticos (media, s,

proporción, etc.) que variará de una a otra, y de esa
manera obtenemos una distribución del estadístico que se
denomina distribución muestral.
DISTRIBUCIÓN MUESTRAL MEDIAS
Población: Adultos EEUU ≥ 18 años, medida de estatura (cm).
Distribución muestral: medias muestrales obtenidas
aleatoriamente de muestras n=20.
Todas en el mismo gráfico
Población: μ=167 cm, σ=2,5cm
Resultados de nuestras distribuciones muestrales
Tamaño muestral Media de 1.000 medias DE de 1.000 medias

muestrales muestrales
n=20 167 cm 0,56 cm
n=50 167 cm 0,35 cm
n=150 167 cm 0,20 cm

La variablidad de la medias muestrales depende del tamaño
muestral de cada muestra, no depende del número de medias
obtenidas.
Resumen de los hallazgos del experimento
• La distribución de las medias muestrales presentan una

distribución similar a la distribución normal.
• Las medias de las diferentes distribuciones muestrales

son estables en los tres escenarios de tamaño muestral
(n=20, n=50 y n=150) planteados.
• La variabilidad de la distribución de las medias

muestrales disminuye al aumentar el tamaño (n) de las
muestras.
DISTRIBUCIÓN MUESTRAL PROPORCIONES
Población: Residentes ciudad de baltimore, porporción de

indigencia
Distribución muestral: proporciónes muestrales obtenidas



Todas en el mismo gráfico

Población: p=22,9%
Resultados de nuestras distribuciones muestrales
Tamaño muestral Media de 1.000 prop. DE de 1.000 prop.

muestrales muestrales
n=50 0,232 (23,2%) 0,58 (5,8%)
n=150 0,229 (22,9%) 0,34 (3,4%)
n=500 0,229 (22,9%) 0,18 (1,8%)

Resumen de los hallazgos del experimento
• La distribución muestral de medias de las proporciones

muestrales presentan una distribución similar a la
distribución normal.
• Las medias de las diferentes distribuciones muestrales

son estables en los tres escenarios de tamaño muestral
(n=50, n=150 y n=500) planteados.
• La variabilidad de la distribución de las medias

muestrales disminuye al aumentar el tamaño (n) de las
muestras.
Teorema Central del Límite: TCL
Existe un teorema matemático que generaliza estas propiedades: Teorema

central del límite (TCL).
El TCL establece que la distribución muestral teórica de algunos estadísticos

muestral (por ejemplo: media y frecuencia):
• Es aproximadamente normal.
• La media de dicha distribución coincide con el verdadero valor poblacional.
• La variabilidad de de la distribución muestral es una función entre la variación

de los valores individuales de la población y el tamaño muestral de las
muestras (n). Esta variación de las distribuiones muestrales de denomina
Error Estándar.
Teorema Central del Límite: TCL
Según el TCL, si tomamos múltiples muestras aleatorias del

mismo tamaño muestral (n) de la misma población, y
observamos la distribución de los estadísticos muestrales
tendría un aspecto:
Error estándar de la media
Ejemplo: distribución de medias muestrales de tamaño n
Error estándar muestral indica la

variabilidad de la distribución
Error estándar de la media=

DE
n
μ
Teorema Central del Límite
Supongamos la siguiente población de 25000 individuos, que
claramente no sigue una distribución normal.
5000
N = 25000
4000
DE = 70,3
3000
Media = 63,9
2000
1000
0
100
120
140
160
180
200
220
240
260
280
300
20
40
60
80
0
Tomamos 100 muestras aleatorias de tamaño 30. Obteniendo la
siguiente distribución de medias muestrales:
30
N = 100 MUESTRA
DE = 13,6
20
Media = 62,6
10
0
20 30 40 50 60 70 80 90 100
5000
N = 25000 POBLACIÓN
4000
DE = 70,3
3000
Media = 63,9
2000
1000
0
100
120
140
160
180
200
220
240
260
280
300
20
40
60
80
0
Por el teorema central del límite se tiene que la distribución de las
medias muestrales sigue una distribución normal con media: la
media poblacional y desviación estándar: el error estándar de la
media
140
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80 90 100
La distribución de las medias muestrales es NORMAL con:

Media de las medias muestrales Media poblacional
DE
Desviación estándar de las Error estándar de la media =
medias muestrales n
DE 70.3
En nuestro ejemplo, el EE de la media sería   12.8  13.6
n 30
Error estándar de la proporción
Ejemplo: distribución de proporciones muestrales de tamaño

n
Error estándar muestral indica la

variabilidad de la distribución
Error estándar de una p (1  p )

proporción=
n
p
Características de la N(μ,σ)
Simétrica con forma de campana
Coinciden media, mediana y moda.
Cumple que:
P([μ-1σ, μ+1σ ]) ≈ 68%
P([μ-2σ, μ+2σ ]) ≈ 95%
P([μ-3σ, μ+3σ ]) ≈ 99%
Es la distribución que siguen muchas variables biológicas y

algunos de los estimadores estadísticos calculados en una muestra
(como la media o la frecuencia relativa) [ver Teorema Central del Límite]
Error estándar de la media
En investigación sólo obtenemos una estimación puntual de

la media, ¿cómo nos ayuda el TCL?
Error estándar de la media=

DE
n
- 2EEM + 2EEM
Verdadero valor poblacional

P([μ-2EEM, μ+EMM ]) ≈ 95%
El 95% de las medias muestrales caen dentro del intervalo ±2EEM
INTERVALO DE PROBABILIDAD
DE UNA MEDIA
Puesto que la distribución de las medias
muestrales es normal podemos intentar
calcular el intervalos que contenga con
una probabilidad 1-α los valores de las
medias muestrales.
μ
DISTRIBUCIÓN NORMAL
TIPIFICADA N(0,1)
1-α
- Z α/2 + Z α/2
Z alfa/2
Valor que define en una normal teórica el 95% de confianza con un error
del 5% a ambos lados
Este valor deja un área por debajo de 0,975 y por encima 0,025
Luego entre el valor negativo -1,96 y el valor positivo +1,96 esta el 0,950
z = (x – μ) / (σ/√n)
1-α
- Z α/2 + Z α/2
Sabemos que para una normal tipificada dicho intervalo es:
P (-zα/2 ≤ z ≤ +zα/2) = 1-α

Operando obtenemos:
P(-zα/2 ≤ (x-μ)/ (σ/√n) ≤ +zα/2) = 1-α
P(x-zα/2 σ/√n ≤ μ ≤ x+zα/2 σ/√n) = 1-α

INTERVALO DE CONFIANZA DE
UNA MEDIA
Ahora lo que hemos hecho es estimar una
media en una muestra de tamaño n y
queremos construir un intervalo que tiene
una probabilidad de 1-α de contener a la
media poblacional μ.
μ estará en el intervalo:
[x – zα/2 σ/√n, x + zα/2 σ/√n]
Recordar que para α=0.05,
zα/2=1.96
UNA MEDIA. EJEMPLO
En una muestra de 100 individuos se ha determinado
el valor del pulso, se ha encontrado una media de 74
pulsaciones por minuto, con una desviación típica de
10 pulsaciones por minuto. Calcular el intervalo de
confianza del 95% de la media.
μ estará en el intervalo: Recordar que para α=0.05,

zα/2=1.96
[x – zα/2 σ/√n, x + zα/2 σ/√n]
UNA MEDIA. EJEMPLO
ESTIMACIÓN DE UNA PROPORCIÓN
Por el Teorema Central del Límite:

Proporción poblacional Media de las proporciones muestrales
Error Estandar √ pq
↓ con n
n
0i p 02
UNA PROPORCIÓN
Ahora lo que hemos hecho es estimar una
proporción po en una muestra de tamaño n y
queremos construir un intervalo que tiene
una probabilidad de 1-α de contener a la
proporción poblacional p.
p estará en el intervalo:
[po- zα/2√poqo/n, po+ zα/2√poqo/n]
Recordar que para α=0.05, zα/2=1.96

Una idea gráfica…
Si tomamos 20 muestras para estimar una media y consideramos las
medias muestrales obtenidas y sus intervalos de confianza al 95% ¿en
cuántos intervalos de los calculados esperarías no encontrar (por término
medio) a la verdadera media de la población ?
UNA PROPORCIÓN. EJEMPLO
En un estudio para la salud oral de una ciudad, se toma una
muestra de 280 varones entre 35 y 40 años y se estudia el
nº de piezas dentarias en la boca. Se desea realizar la
estimación por intervalo de confianza al 95% de la
proporción de individuos de esta población con 28 o más
dientes, considerando este valor como dentición completa.
Tras la revisión se nos informa que hay 70 individuos con
dentición completa.
p estará en el intervalo: Recordar que para α=0.05,
[po- zα/2√poqo/n, po+ zα/2√poqo/n] zα/2=1.96

UNA PROPORCIÓN. EJEMPLO
Interpretación : En 95 de 100 estudios, que realizara

sobre la misma población, la proporción estimada
estaría entre 0,20 y 0,30, y en 5 estudios estaría fuera
del intervalo.
UNA MEDIA. EJEMPLO
El tiempo diario que los adultos de una determinada ciudad
dedican a actividades deportivas, expresado en minutos, se
puede aproximar a una variable aleatoria continua con
a) Para una muestra aleatoria de 250 habitantes de esa

ciudad se ha obtenido un tiempo medio de dedicación a
actividades deportivas de 90 minutos, con una desviación
estándar de 20 minutos. Calcúlese un intervalo de confianza
al 90% para μ.
UNA MEDIA. EJEMPLO
α = 10%
90%
5% 5%
- Z α/2 + Z α/2
UNA MEDIA. EJEMPLO
Con una confianza del 90%, podemos afirmar que la verdadera

media poblacional del tiempo dedicado a actividades deportivas
en esa ciudad estará entre 89.9 y 92.1 minutos.
UNA MEDIA. EJEMPLO
El tiempo diario que los adultos de una determinada ciudad
dedican a actividades deportivas, expresado en minutos, se
puede aproximar a una variable aleatoria continua con
b) ¿Qué tamaño mínimo debe de tener una muestra

aleatoria para que el error máximo cometido en la
estimación de μ por la media muestral sea menor que 1
minuto con el mismo nivel de confianza?
UNA MEDIA. EJEMPLO
Error ≤ 1 Zα/2 x σ/√n ≤ 1
1.64 x 20/√n ≤ 1 1.64 x 20/1 ≤ √n
32.8 ≤ √n (32.8)2 ≤ n
1075.8 ≤ n n = 1076 personas

Tema 4. Distribución Muestral. Intervalos de Confianza

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4. Distribución Muestral. Intervalos de Confianza

Cargado por

Copyright:

Formatos disponibles

INFERENCIA Y CONTRASTE

1. Estimación puntual y por

→ Recurrimos a una muestra a partir de la que

Conocer exactamente el valor de un parámetro

Métodos que nos van a permitir obtener

↓ coste POBLACION DE ESTUDIO

 Estimar valores de frecuencia de enfermedad o

 Meta fundamental: exactitud en la medición

VALOR REAL ERROR ERROR

 Produce una desviación del resultado obtenido respecto al verdadero

 Obtención de una muestra representativa al azar (error de muestreo: error

 Depende del tamaño muestral (disminuye al aumentar el tamaño).

 El estudio se repite un número infinito de veces, el valor obtenido sería un

 Inevitable, pero estimable.

 La estadística estima y controla el error aleatorio.

Ausencia de error aleatorio Precisión o fiabilidad

 Produce una desviación del resultado obtenido respecto al verdadero

 No depende del tamaño muestral.

 No disminuye al aumentar el tamaño muestral (lo único que se obtiene

 El estudio se repite un número infinito de veces, el valor obtenido sería

 Prevención y control a través de la Epidemiología.

Ausencia de error sistemático Validez

La validez se divide en dos

 Hace referencia a la capacidad de inferir los

Responde a la pregunta: ¿los resultados qué

 Tiene relación con la capacidad de generalización

 Responde a la pregunta: ¿los resultados qué se

1) Son correctos los resultados?

2) Pueden ser atribuidos al azar?

3) Son aplicables a otros contextos?

Sesgos de Distorsión del efecto medido debida a

Sesgos de Distorsión del efecto medido debida

• Abandono Enfermos Sanos

Muestra del estudio

 Se eligen individuos de la población de estudio, de

 Se puede realizar partiendo de listas de individuos de la

 Se necesita un lista numerado de los sujetos que

 Se tiene una lista de los individuos de la población de estudio.

 Obtenemos un número aleatorio y lo aplicamos, siendo este el

• Tenemos un marco muestral (N) de 5.000 pacientes y deseamos

– Obtenemos un número aleatoria entre 1 y 50 (ejemplo:24)

– Seleccionamos un paciente del primer fragmento

 Se aplica cuando sabemos que hay ciertos factores (variables,

 Lo ideal es que los estratos en la muestra tenga un tamaño

 Se realiza entonces una m.a.s. de los individuos de cada uno

• Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos

•Muestreo por consecutivo (más utilizado): seleccionar a los participantes que

•Muestreo por conveniencia: los participantes son seleccionados al ser fácilmente

• Muestreo por oportunidad

• Muestreo de la población de partida (finita o infinita) a

• Se consideran las posibles muestras de tamaño n de una

• Para cada muestra calcular un estadísticos (media, s,

Tamaño muestral Media de 1.000 medias DE de 1.000 medias

n=20 167 cm 0,56 cm

n=50 167 cm 0,35 cm

n=150 167 cm 0,20 cm

• La distribución de las medias muestrales presentan una

• Las medias de las diferentes distribuciones muestrales

• La variabilidad de la distribución de las medias

Población: Residentes ciudad de baltimore, porporción de

Distribución muestral: proporciónes muestrales obtenidas

Distribución muestral: proporciónes muestrales obtenidas

Distribución muestral: proporciónes muestrales obtenidas