Está en la página 1de 72

INFERENCIA Y CONTRASTE

DE HIPÓTESIS.

1. Estimación puntual y por


intervalos
Objetivo de un estudio
Por lo general es conocer las características de
los individuos de una población (distribución de
la variable estudiada y parámetros que la
definen). Pero eso resulta prácticamente
imposible: costes, definición de la población,
tiempo, diseño del estudio.

→ Recurrimos a una muestra a partir de la que


podamos inferir características de la población.
Estimación de parámetros

Conocer exactamente el valor de un parámetro


implica observar a todos los individuos de la
población

Inferencia estadística

Métodos que nos van a permitir obtener


conclusiones de la población a partir de la
información proporcionada por una muestra
DISEÑO DE ESTUDIO

↓ coste POBLACION DE ESTUDIO

↑ rapidez
↑ facilidad
↑ exactitud
MUESTRA
INFERENCIA

RESULTADOS
ESTIMACIÓN DE PARÁMETROS
En general, dada una población en la que
se observa un fenómeno, sus parámetros
nos son desconocidos
• ¿cuál es la prevalencia de alérgicos a productos
lácteos?
• ¿cuál es la proporción de fumadores varones
mayores de 16 años?
• ¿cuál es la renta media anual por familia?
• ¿cuál será el porcentaje de curación del nuevo
fármaco?
• Etc, etc,…
Estadística inferencial
• Extrae conclusiones de la colección
de datos observados

Finalidades:

1) Estimación de parámetros
(puntual y por intervalos)
2) Contraste de hipótesis
OBJETIVO DE LOS ESTUDIOS
EPIDEMIOLÓGICOS

 Estimar valores de frecuencia de enfermedad o


medidas de efecto con el menor error posible

 Meta fundamental: exactitud en la medición

FUENTES DE ERROR
•ERROR ALEATORIO (azar)

•ERROR SISTEMÁTICO
FUENTES DE ERROR EN
ESTUDIOS EPIDEMIOLÓGICOS

X XXX
X
X X X XX
X
X XX
X X
X
X X

VALOR REAL ERROR ERROR


ALEATORIOS SISTEMÁTICO
ERROR ALEATORIO (azar):

 Produce una desviación del resultado obtenido respecto al verdadero


valor (puede ir en cualquier dirección: simétrico).

 Obtención de una muestra representativa al azar (error de muestreo: error


aleatorio).

 Depende del tamaño muestral (disminuye al aumentar el tamaño).

 El estudio se repite un número infinito de veces, el valor obtenido sería un


valor medio igual al valor real.

 Inevitable, pero estimable.

 La estadística estima y controla el error aleatorio.

Ausencia de error aleatorio Precisión o fiabilidad


ERROR SISTEMÁTICO:

 Produce una desviación del resultado obtenido respecto al verdadero


valor (siempre en la misma dirección, asimétrico).

 No depende del tamaño muestral.

 No disminuye al aumentar el tamaño muestral (lo único que se obtiene


es un aumento en la precisión de la estimación).

 El estudio se repite un número infinito de veces, el valor obtenido sería


un valor medio diferente al real.

 Prevención y control a través de la Epidemiología.

Ausencia de error sistemático Validez


PRINCIPALES DIFERENCIAS ENTRE ERROR
ALEATORIO Y EL ERROR SISTEMÁTICO

ERROR
ALEATORIO SISTEMÁTICO
(SESGO)
Causa -Muestreo -Diseño, ejecución y análisis:
-Variabilidad del Selección de los sujetos
parámetro Obtención de la información
Disminuye al
aumentar el Sí No
tamaño muestral
Afecta a Precisión Validez
VALIDEZ DEL ESTUDIO

Población de
Población de referencia:
referencia población donde se quiere
extrapolar los resultados.
Población de
estudio Población de estudio: sujetos
elegibles o seleccionados para
Muestra llevar a cabo el estudio.
Muestra: se obtienen para
realizar el estudio y desean
participar.
VALIDEZ DEL ESTUDIO
La validez expresa el grado en que la
prueba puede medir realmente lo que
pretende medir.

La validez se divide en dos


componentes:
 Validez interna

 Validez externa
VALIDEZ INTERNA

 Hace referencia a la capacidad de inferir los


resultados desde la muestra estudiada hasta la
población de referencia.

Responde a la pregunta: ¿los resultados qué


se observan son aplicables a la población de
referencia?
VALIDEZ EXTERNA

 Tiene relación con la capacidad de generalización


de los resultados desde el grupo de sujetos
estudiados hasta la población general (sujetos fuera
de la población de referencia)

 Responde a la pregunta: ¿los resultados qué se


observan en el estudio son aplicables a cualquier
grupo?
Ante un estudio nos tenemos que
preguntar:

1) Son correctos los resultados?

2) Pueden ser atribuidos al azar?

3) Son aplicables a otros contextos?


Sesgos
Cualquier hecho en el diseño o ejecución de un estudio que hace
que los resultados del estudio de desvíen o se aparten de la
realidad.

Sesgos de Distorsión del efecto medido debida a


selección los procedimientos usados para
seleccionar a los sujetos.

Sesgos de Distorsión del efecto medido debida


información a los procedimientos usados para
obtener la información y clasificar a
los sujetos.
Sesgo de selección
• Autoselección
• No respuesta
• Berkson Población de referencia

• Abandono Enfermos Sanos


Expuestos Expuestos

Enfermos Sanos
No expuestos No expuestos

La muestra
no representa
a la población
diana

Muestra del estudio


Sesgo de información
Sesgo debido a errores de medición de Malaclasificación
la exposición  no diferencial
• recuerdo  diferencial
• entrevistador
• entrevistado
Técnicas de muestreo
Los métodos para seleccionar una muestra representativa
podemos clasificarlos en:
Probabilístico: No Probabilístico:
Todos los individuos tienen una La elección de los individuos no
probabilidad conocida de poder ser depende de la probabilidad, sino
seleccionado y esta probabilidad no del proceso de toma de
es nula para ningún elemento de la decisiones del investigador.
población.
Importante:
Muestreo equiprobabilístico: forma • Las muestras seleccionadas
especial de diseño probabilístico por decisiones subjetivas tienden
donde todos los sujetos de la a estar sesgadas.
población tienen la misma
probabilidad de ser seleccionados.
Técnicas de muestreo
PROBABILÍSTICO:
Muestreo aleatorio simple.
Muestreo aleatorio estratificado.
Muestreo sistemático.
Muestreo aleatorio por conglomerados.

NO PROBABILÍSTICO:
•Muestreo por cuotas.
•Muestreo por conveniencia.
•Muestreo por oportunidad.
•Muestreo consecutivo.
MUESTREO ALEATORIO SIMPLE (M.A.S.)

 Se eligen individuos de la población de estudio, de


manera que todos tienen la misma probabilidad de
aparecer (o una probabilidad conocida), hasta alcanzar el
tamaño maestral deseado.

 Se puede realizar partiendo de listas de individuos de la


población, y eligiendo individuos aleatoriamente con un
ordenador.

 Se necesita un lista numerado de los sujetos que


componen la población de estudio.
MUESTREO ALEATORIO SIMPLE (M.A.S.)
MUESTREO SISTEMÁTICO

 Se tiene una lista de los individuos de la población de estudio.


 Si queremos una muestra de un tamaño dado, elegimos
individuos igualmente espaciados de la lista, donde el primero
ha sido elegido al azar.
 Elaboramos una lista ordenada de los N individuos de la
población Marco Muestral.
 Después dividimos el marco muestral en “n” fragmentos donde
n es el tamaño de muestra que deseamos
 El tamañao será K= N/n

 Obtenemos un número aleatorio y lo aplicamos, siendo este el


primer sujeto para la muestra.
 Seleccionamos el resto de individuos a partir de este primero.
MUESTREO SISTEMÁTICO
MUESTREO SISTEMÁTICO (Ejemplo)

• Tenemos un marco muestral (N) de 5.000 pacientes y deseamos


obtener una muestra “aleatoria” de 100 de estos pacientes (n).
– Dividimos el marco muestral en 100 “fragmentos” de 50
pacientes (K=N/n; K=5000/100=50).

– Obtenemos un número aleatoria entre 1 y 50 (ejemplo:24)

– Seleccionamos un paciente del primer fragmento


• Número 24.
• A partir de este paciente queda definida la muestra porque
extraeremos individuos de la lista con intervalos de 50
pacientes:
– 24 ; 74 (50+24) : 124 (74+50); ……; 4974.
MUESTREO ESTRATIFICADO

 Se aplica cuando sabemos que hay ciertos factores (variables,


subpoblaciones o estratos, por ejemplo grupos de edad y sexo)
que pueden influir en el estudio y queremos asegurarnos de
tener cierta cantidad mínima de individuos de cada tipo.

 Lo ideal es que los estratos en la muestra tenga un tamaño


relativo (%) proporcional al de la población.

 Se realiza entonces una m.a.s. de los individuos de cada uno


de los estratos.
MUESTREO POR CONGLOMERADOS (O POR GRUPOS)

• Se aplica cuando es difícil tener una lista de todos los individuos que forman
parte de la población de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos. Las unidades de muestreo NO son
individuos sino GRUPOS de individuos

• Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos


podemos estudiar a todos los individuos de los grupos elegidos o bien seguir
aplicando dentro de ellos más muestreos por grupos, por estratos, aleatorios
simples.
MUESTREOS NO PROBABILÍSTICOS
•Muestreo por cuotas (encuestas de opinión y de mercado): se establece un
número determinado de sujetos necesarios en cada estrato (para mantener la
representatividad) pero no se seleccionan dentro de cada estrato por azar.

•Muestreo por consecutivo (más utilizado): seleccionar a los participantes que


cumplen los criterios de inclusión de manera consecutiva durante periodo de
reclutamiento (ingresados, diagnosticados en una consulta, etc.)

•Muestreo por conveniencia: los participantes son seleccionados al ser fácilmente


accesibles para el investigador o porque deseen participar voluntariamente.

• Muestreo por oportunidad


DISTRIBUCIONES
MUESTRALES. TEOREMA
CENTRAL DEL LÍMITE
DISTRIBUCIÓN MUESTRAL
• El estudio de determinadas características de una
población (μ,σ,p, etc.) se efectúa a través de muestras que
se extraen de ellas.

• Muestreo de la población de partida (finita o infinita) a


través de un muestreo aleatorio (con o sin reposición).

• Se consideran las posibles muestras de tamaño n de una


población.

• Para cada muestra calcular un estadísticos (media, s,


proporción, etc.) que variará de una a otra, y de esa
manera obtenemos una distribución del estadístico que se
denomina distribución muestral.
DISTRIBUCIÓN MUESTRAL MEDIAS
Población: Adultos EEUU ≥ 18 años, medida de estatura (cm).
DISTRIBUCIÓN MUESTRAL MEDIAS
Distribución muestral: medias muestrales obtenidas
aleatoriamente de muestras n=20.
DISTRIBUCIÓN MUESTRAL MEDIAS
Distribución muestral: medias muestrales obtenidas
aleatoriamente de muestras n=50.
DISTRIBUCIÓN MUESTRAL MEDIAS
Distribución muestral: medias muestrales obtenidas
aleatoriamente de muestras n=150.
DISTRIBUCIÓN MUESTRAL MEDIAS
Todas en el mismo gráfico
DISTRIBUCIÓN MUESTRAL MEDIAS
Población: μ=167 cm, σ=2,5cm
Resultados de nuestras distribuciones muestrales

Tamaño muestral Media de 1.000 medias DE de 1.000 medias


muestrales muestrales

n=20 167 cm 0,56 cm

n=50 167 cm 0,35 cm

n=150 167 cm 0,20 cm


DISTRIBUCIÓN MUESTRAL MEDIAS
La variablidad de la medias muestrales depende del tamaño
muestral de cada muestra, no depende del número de medias
obtenidas.
DISTRIBUCIÓN MUESTRAL MEDIAS
Resumen de los hallazgos del experimento

• La distribución de las medias muestrales presentan una


distribución similar a la distribución normal.

• Las medias de las diferentes distribuciones muestrales


son estables en los tres escenarios de tamaño muestral
(n=20, n=50 y n=150) planteados.

• La variabilidad de la distribución de las medias


muestrales disminuye al aumentar el tamaño (n) de las
muestras.
DISTRIBUCIÓN MUESTRAL PROPORCIONES

Población: Residentes ciudad de baltimore, porporción de


indigencia
DISTRIBUCIÓN MUESTRAL PROPORCIONES

Distribución muestral: proporciónes muestrales obtenidas


aleatoriamente de muestras n=50.
DISTRIBUCIÓN MUESTRAL PROPORCIONES

Distribución muestral: proporciónes muestrales obtenidas


aleatoriamente de muestras n=150.
DISTRIBUCIÓN MUESTRAL PROPORCIONES

Distribución muestral: proporciónes muestrales obtenidas


aleatoriamente de muestras n=500.
DISTRIBUCIÓN MUESTRAL PROPORCIONES

Todas en el mismo gráfico


DISTRIBUCIÓN MUESTRAL PROPORCIONES

Población: p=22,9%
Resultados de nuestras distribuciones muestrales

Tamaño muestral Media de 1.000 prop. DE de 1.000 prop.


muestrales muestrales

n=50 0,232 (23,2%) 0,58 (5,8%)

n=150 0,229 (22,9%) 0,34 (3,4%)

n=500 0,229 (22,9%) 0,18 (1,8%)


DISTRIBUCIÓN MUESTRAL PROPORCIONES

Resumen de los hallazgos del experimento

• La distribución muestral de medias de las proporciones


muestrales presentan una distribución similar a la
distribución normal.

• Las medias de las diferentes distribuciones muestrales


son estables en los tres escenarios de tamaño muestral
(n=50, n=150 y n=500) planteados.

• La variabilidad de la distribución de las medias


muestrales disminuye al aumentar el tamaño (n) de las
muestras.
Teorema Central del Límite: TCL

Existe un teorema matemático que generaliza estas propiedades: Teorema


central del límite (TCL).

El TCL establece que la distribución muestral teórica de algunos estadísticos


muestral (por ejemplo: media y frecuencia):

• Es aproximadamente normal.

• La media de dicha distribución coincide con el verdadero valor poblacional.

• La variabilidad de de la distribución muestral es una función entre la variación


de los valores individuales de la población y el tamaño muestral de las
muestras (n). Esta variación de las distribuiones muestrales de denomina
Error Estándar.
Teorema Central del Límite: TCL

Según el TCL, si tomamos múltiples muestras aleatorias del


mismo tamaño muestral (n) de la misma población, y
observamos la distribución de los estadísticos muestrales
tendría un aspecto:
Error estándar de la media

Ejemplo: distribución de medias muestrales de tamaño n

Error estándar muestral indica la


variabilidad de la distribución

Error estándar de la media=


DE
n

μ
Teorema Central del Límite
Supongamos la siguiente población de 25000 individuos, que
claramente no sigue una distribución normal.

5000

N = 25000
4000
DE = 70,3
3000
Media = 63,9

2000

1000

0
100
120
140
160
180
200
220
240
260
280
300
20
40
60
80
0
Teorema Central del Límite
Tomamos 100 muestras aleatorias de tamaño 30. Obteniendo la
siguiente distribución de medias muestrales:
30
N = 100 MUESTRA
DE = 13,6
20

Media = 62,6
10

0
20 30 40 50 60 70 80 90 100

5000
N = 25000 POBLACIÓN
4000
DE = 70,3
3000
Media = 63,9
2000

1000

0
100
120
140
160
180
200
220
240
260
280
300
20
40
60
80
0
Teorema Central del Límite
Por el teorema central del límite se tiene que la distribución de las
medias muestrales sigue una distribución normal con media: la
media poblacional y desviación estándar: el error estándar de la
media
140
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80 90 100

La distribución de las medias muestrales es NORMAL con:


Media de las medias muestrales Media poblacional
DE
Desviación estándar de las Error estándar de la media =
medias muestrales n

DE 70.3
En nuestro ejemplo, el EE de la media sería   12.8  13.6
n 30
Error estándar de la proporción

Ejemplo: distribución de proporciones muestrales de tamaño


n

Error estándar muestral indica la


variabilidad de la distribución

Error estándar de una p (1  p )


proporción=
n

p
Características de la N(μ,σ)
Simétrica con forma de campana

Coinciden media, mediana y moda.

Cumple que:
P([μ-1σ, μ+1σ ]) ≈ 68%
P([μ-2σ, μ+2σ ]) ≈ 95%
P([μ-3σ, μ+3σ ]) ≈ 99%

Es la distribución que siguen muchas variables biológicas y


algunos de los estimadores estadísticos calculados en una muestra
(como la media o la frecuencia relativa) [ver Teorema Central del Límite]
Error estándar de la media

En investigación sólo obtenemos una estimación puntual de


la media, ¿cómo nos ayuda el TCL?

Error estándar de la media=


DE
n

- 2EEM + 2EEM

Verdadero valor poblacional


P([μ-2EEM, μ+EMM ]) ≈ 95%
El 95% de las medias muestrales caen dentro del intervalo ±2EEM
INTERVALO DE PROBABILIDAD
DE UNA MEDIA
Puesto que la distribución de las medias
muestrales es normal podemos intentar
calcular el intervalos que contenga con
una probabilidad 1-α los valores de las
medias muestrales.

μ
DISTRIBUCIÓN NORMAL
TIPIFICADA N(0,1)

1-α

- Z α/2 + Z α/2
Z alfa/2
Valor que define en una normal teórica el 95% de confianza con un error
del 5% a ambos lados

Este valor deja un área por debajo de 0,975 y por encima 0,025
Luego entre el valor negativo -1,96 y el valor positivo +1,96 esta el 0,950
z = (x – μ) / (σ/√n)
1-α

- Z α/2 + Z α/2

Sabemos que para una normal tipificada dicho intervalo es:

P (-zα/2 ≤ z ≤ +zα/2) = 1-α


Operando obtenemos:

P(-zα/2 ≤ (x-μ)/ (σ/√n) ≤ +zα/2) = 1-α

P(x-zα/2 σ/√n ≤ μ ≤ x+zα/2 σ/√n) = 1-α


INTERVALO DE CONFIANZA DE
UNA MEDIA
Ahora lo que hemos hecho es estimar una
media en una muestra de tamaño n y
queremos construir un intervalo que tiene
una probabilidad de 1-α de contener a la
media poblacional μ.

μ estará en el intervalo:
[x – zα/2 σ/√n, x + zα/2 σ/√n]
Recordar que para α=0.05,
zα/2=1.96
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO
En una muestra de 100 individuos se ha determinado
el valor del pulso, se ha encontrado una media de 74
pulsaciones por minuto, con una desviación típica de
10 pulsaciones por minuto. Calcular el intervalo de
confianza del 95% de la media.

μ estará en el intervalo: Recordar que para α=0.05,


zα/2=1.96
[x – zα/2 σ/√n, x + zα/2 σ/√n]
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO
ESTIMACIÓN DE UNA PROPORCIÓN

Por el Teorema Central del Límite:


Proporción poblacional Media de las proporciones muestrales

Error Estandar √ pq
↓ con n
n

0i p 02
INTERVALO DE CONFIANZA DE
UNA PROPORCIÓN
Ahora lo que hemos hecho es estimar una
proporción po en una muestra de tamaño n y
queremos construir un intervalo que tiene
una probabilidad de 1-α de contener a la
proporción poblacional p.
p estará en el intervalo:
[po- zα/2√poqo/n, po+ zα/2√poqo/n]

Recordar que para α=0.05, zα/2=1.96


Una idea gráfica…
Si tomamos 20 muestras para estimar una media y consideramos las
medias muestrales obtenidas y sus intervalos de confianza al 95% ¿en
cuántos intervalos de los calculados esperarías no encontrar (por término
medio) a la verdadera media de la población ?
INTERVALO DE CONFIANZA DE
UNA PROPORCIÓN. EJEMPLO
En un estudio para la salud oral de una ciudad, se toma una
muestra de 280 varones entre 35 y 40 años y se estudia el
nº de piezas dentarias en la boca. Se desea realizar la
estimación por intervalo de confianza al 95% de la
proporción de individuos de esta población con 28 o más
dientes, considerando este valor como dentición completa.
Tras la revisión se nos informa que hay 70 individuos con
dentición completa.

p estará en el intervalo: Recordar que para α=0.05,

[po- zα/2√poqo/n, po+ zα/2√poqo/n] zα/2=1.96


INTERVALO DE CONFIANZA DE
UNA PROPORCIÓN. EJEMPLO

Interpretación : En 95 de 100 estudios, que realizara


sobre la misma población, la proporción estimada
estaría entre 0,20 y 0,30, y en 5 estudios estaría fuera
del intervalo.
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO
El tiempo diario que los adultos de una determinada ciudad
dedican a actividades deportivas, expresado en minutos, se
puede aproximar a una variable aleatoria continua con
distribución normal.

a) Para una muestra aleatoria de 250 habitantes de esa


ciudad se ha obtenido un tiempo medio de dedicación a
actividades deportivas de 90 minutos, con una desviación
estándar de 20 minutos. Calcúlese un intervalo de confianza
al 90% para μ.
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO

α = 10%
90%
5% 5%

- Z α/2 + Z α/2
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO

Con una confianza del 90%, podemos afirmar que la verdadera


media poblacional del tiempo dedicado a actividades deportivas
en esa ciudad estará entre 89.9 y 92.1 minutos.
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO
El tiempo diario que los adultos de una determinada ciudad
dedican a actividades deportivas, expresado en minutos, se
puede aproximar a una variable aleatoria continua con
distribución normal.

b) ¿Qué tamaño mínimo debe de tener una muestra


aleatoria para que el error máximo cometido en la
estimación de μ por la media muestral sea menor que 1
minuto con el mismo nivel de confianza?
INTERVALO DE CONFIANZA DE
UNA MEDIA. EJEMPLO

Error ≤ 1 Zα/2 x σ/√n ≤ 1

1.64 x 20/√n ≤ 1 1.64 x 20/1 ≤ √n

32.8 ≤ √n (32.8)2 ≤ n

1075.8 ≤ n n = 1076 personas

También podría gustarte