Está en la página 1de 89

MÓDULO 3

Análisis de datos

Curso-Taller:
“Estrategias para el Fortalecimiento de la
Investigación en Salud”
09:00 09:30 Registro
Recuerdo de la clase anterior
09:30 10:00
10:00 10:30 Muestra: Conceptos
10:30 11:00 Error tipo 1 y Error tipo 2
11:00 11:30 Receso
Estadística descriptiva: Medidas de tendencia central, Medidas
11:30 12:00 de forma
Estadística descriptiva: Medidas de tendencia central, Medidas
12:00 12:30 de forma
12:30 13:00 Ejercicios
Posible: Introducción a estadística inferencial Medidas de
13:00 13:30 asociación
13:30 14:00 Preguntas y respuestas
Recordemos rápidamente lo aprendido
en la clase anterior
Clasificación
Proceso estadístico
1. Planteamiento del problema/hipótesis
2. Decisión: qué datos se recogerán
3. Recogida de datos
4. Exploración/descripción de los datos
5. Inferencia
Conceptos básicos
• POBLACIÓN
• MUESTRA
• CENSO
• UNIDAD ELEMENTAL
• OBSERVACIÓN
• VARIABLES
• PARÁMETRO
• ESTIMADOR O ESTADÍSTICO
Variables: tipos
Observaciones, variables, datos…
Variables

# de Edad Sexo Glucosa


participante en
ayunas Datos
(mg/dL)
1 23 Hombre 78
2 56 Mujer 182
3 54 Mujer 101
Observaciones
. . . .
. . . .
n Edadn Sexon Glucosan
Exploración de variables
¿Preguntas?, ¿Comentarios?
CRITERIOS DE SELECCIÓN FORMULA DE TAMAÑO MUESTRAL
TIPO DE MUESTREO

población Población de Muestra


estudio
Muestra

Parte o subconjunto de la población


de estudio en donde, para cada uno
de sus miembros de miden o
determinan las características
importantes
Muestra
Las muestras son útiles cuando es impráctico o muy
costoso obtener la información de toda la población

ENSANUT 2006: la muestra es el conjunto de


individuos seleccionados haya o no aceptado
responder el cuestionario, notemos que en esta
encuesta se conformaron distintas muestras
representativas: habitantes del hogar, niños,
adolescentes
Muestra

Una muestra representativa permite


obtener conclusiones generalizables
a toda la población (las muestras
representativas son resultado de
procesos estructurados de selección
ligados a procesos probabilísticos)
Muestra
Ejemplo: pirámide de edad por sexo: compatible con la
mencionada representatividad
CRITERIOS DE SELECCIÓN FORMULA DE TAMAÑO MUESTRAL
TIPO DE MUESTREO O DISEÑO
MUESTRAL

Población Población de Muestra


20000 estudio 625
7538
Muestra

REPRESENTATIVA NO REPRESENTATIVA
EN CUANTO A LOS ESTUDIOS CLÍNICOS
EXPERIMENTALES

SE USA FÓRMULA DE TAMAÑO


MUESTRAL EN BASE AL PILOTO
DE ESTUDIO O A LOS
ANTECEDENTES GRUPO
EXPERIMENTAL

GRUPO DE NO GENERALIZAMOS
ESTUDIO

GRUPO
CONTROL
Conceptos elementales: Muestreo

• Teoría del muestreo:


Estudia la relación entre una población y las
muestras tomadas de ellas.
Ejemplo: Para estimar los parámetros de una
población como la media y la varianza, se
parte del conocimiento de estas
magnitudes en una muestra (estimadores o
estadísticos).
Muestreo

• Muestra aleatoria: Cada miembro de la


población tiene cierta probabilidad
conocida de ser incluido en la muestra.
• Otros tipos de muestreo:
– Por Conveniencia
– Autoselección en la muestra
– Por cuotas…etc.
Tipos de muestreo

probabilístico
Azar o suerte
Aleatorio simple
Fórmula :
población de
estudio/muestra
Sistemático
Estratos o
subgrupos (sexo,
edad, etc)
Estratificado
Población muy
grande Conglomerado
Aleatorio simple
Sistemático
Estratificado
Conglomerado
No probabilístico
OBSERVEMOS EN NUESTROS ARTÍCULOS, EN
LAS SECCIONES DE MATERIALES Y MÉTODOS:
TIPO DE MUESTREO

ENCUENTRE: POBLACIÓN DE ESTUDIO,


MUESTRA, CRITERIOS DE SELECCIÓN
Tamaño de muestra
- Cada estudio tiene un tamaño de muestra idóneo
- Cada tipo de estudio tiene una fórmula
estadística apropiada. Se basan en el error
estándar, que mide el intervalo de confianza de
cada parámetro que se analiza (media,
porcentaje, diferencia de medias, etc.)
Tamaño de muestra

- La precisión estadística aumenta (el


error estándar disminuye) cuando el
tamaño de la muestra crece.
- Para cada caso en concreto es
necesaria la consulta de literatura o
algún programa computacional
Tamaño de muestra
MARGEN DE ERROR:

Supongamos que queremos conocer con un 95%


de confianza el valor se un parámetro pero no
queremos que nuestra estimación sea más
imprecisa que cierto margen de error (nos
interesa que la amplitud del IC sea determinada
por nosotros de manera que nos dé información
útil)
Tamaño de muestra
MARGEN DE ERROR:

No nos sirve saber con un 99% de confianza que


la estatura promedio de los estudiantes está entre
1 y 2 metros.
Tamaño de muestra
MARGEN DE ERROR:

Los factores que influyen en la amplitud del IC


con una confianza dada son:
- Variabilidad intrínseca de la variable estudiada
(directamente proporcional)
- Tamaño de muestra (inversamente
proporcional)
Tamaño de muestra
MARGEN DE ERROR:

Solo podemos manipular el tamaño de muestra


Tamaño de muestra
Intervalo de confianza de la media (TLC)

 s 
IC100%  (1   )  x  z1 2  
 n
Tamaño de muestra
• El intervalo de confianza se extiende…
 s 
z1 2  
 n
…por arriba y por debajo de la media.

• Por lo tanto la amplitud L del intervalo de confianza es…

 s 
L  2 z1 2  
 n
Podemos también pensar en L como el margen de error en la
estimación del parámetro de interés.
Tamaño de muestra
Ejemplo: nos interesa estimar con un 95% de confianza
la estatura promedio de los estudiantes con un margen
de error de 3cm. Supongamos que la desviación
estándar de la estatura es de 6cm.

• ¿Qué datos tenemos?


– L, el margen de error es de 3 cm
– el coeficiente de confianza de 95 % es igual a 1.96
– s , la desviación estándar de la estatura que es de 6 cm
• ¿Cuál es entonces el tamaño de muestra que necesitamos?
Tamaño de muestra
• Retomando, si…
 s 
L  2 z1 2  
 n
… entonces…

2  s 
2
n  4 z1 2  2 
L 
Tamaño de muestra
• Volviendo al ejemplo de estatura, sustituimos en la fórmula…

6 
2
2
n  4(1.96)  2 
3 
n  61.47  62
• ¡Así que el tamaño de muestra necesario para estimar el
promedio de estatura con 95% de confianza y un margen de
error de 3 cm es de 62 sujetos!
Tamaño de muestra
• En el caso de las proporciones se sigue el
mismo razonamiento…
 pˆ qˆ 
L  2 z1 2  
 n 

2  pˆ qˆ 
n  4z 1 2  2
L 
Tamaño de muestra
Nunca debemos olvidar que el cálculo de tamaño de
muestra se basa en muchos supuestos y representa
nuestro “mejor estimado”,
pero…

siempre debe hacerse


Tamaño de muestra
El cálculo del tamaño de muestra tiene los siguientes
objetivos:
- Uso adecuado de recursos
- Factibilidad
- Definición metodológica
- Variable de interés clínico
- Diseño
- Manejo estadístico
Tamaño de muestra

Preguntas Clave:
1. ¿Cuál es el resultado final (outcome) primario?
2. ¿Cuál es su escala de medición?
3. ¿Cuál es la variabilidad?
4. ¿Cuál es el nivel deseado de Significancia y de Poder?
5. ¿Hay características especiales en el diseño del estudio?
6. ¿Qué sería Clínicamente Relevante (tamaño del efecto)?
Tamaño de muestra

 Error Tipo I (Alfa): Riesgo de rechazar la


hipótesis nula cuando en realidad es
verdadera (Falso Positivo)
 Decir que SI hay diferencias cuando en realidad
no las hay
Tamaño de muestra

• ¿Por qué puede ocurrir Error Tipo I?


– Por el Azar
• ¿Cómo puede evitarse (o mitigarse) el
riesgo de cometer Error Tipo I?
– Teniendo un alfa muy bajo (<0.05)
Tamaño de muestra

 Error Tipo II (Beta): Riesgo de aceptar la


hipótesis nula cuando en realidad es Falsa
(Falso Negativo)
 Decir que NO hay diferencias cuando en realidad
si las hay
Tamaño de muestra
• ¿Por qué puede ocurrir Error Tipo II?
– Por no tener suficiente número de sujetos
• ¿Cómo puede evitarse (o mitigarse) el
riesgo de cometer Error Tipo II?
– Teniendo poder la prueba (1-B) muy alto (> 80%)
– Esto es, ¡ Haciendo un cálculo de tamaño de muestra !
Tamaño de muestra
Verdad
No hay Si hay
Resultado ECC
diferencias diferencias

No hay Conclusión Correcta Error Tipo II o β


diferencias (Verdadero Negativo) (Falso Negativo)

Error Tipo I o α (Falso Conclusión Correcta


Si hay Positivo) (Verdadero Positivo)
diferencias Poder > 80%
Tamaño de muestra

– Si un valor de “p” resulta significativo


(p<0.05), hay 2 posibilidades:
1. Realmente si hay diferencias/efecto
(Verdadero Positivo)
2. Mala suerte, realmente no hay
diferencias pero tu estudio/muestra
sugiere que si las hay (Falso Positivo
por azar)
Tamaño de muestra
– Si un valor de “p” resulta no significativo
(p>0.05), hay 3 posibilidades:
1. Realmente no hay diferencias/efecto
(Verdadero Negativo)
2. Mala suerte, si hay diferencias pero tu
estudio/muestra no las reflejó (Falso
Negativo por azar)
3. Realmente hay diferencias/efecto, pero el
tamaño de muestra fue demasiado pequeño
para alcanzar significancia estadística (Falso
Negativo por pobre diseño)
Calculo de Tamaño de Muestra
– En la Práctica:
1. Define variable de interés (outcome)
1. Dicotómica vs. contínua
2. Decide si las muestras son pareadas o
independientes
3. Define la dirección de la diferencia esperada (una o
dos colas)
4. Decide la magnitud de la diferencia esperada entre
los grupos (anticipa los valores de cada grupo)
5. Anticipa la desviación estándar
6. Decide el poder la prueba y el valor Alfa
7. Ve y haz el ejercicio, prueba alternativas
Estadística descriptiva:

Elementos necesarios para la fase exploratoria :


Medidas de tendencia central
Media aritmética
• Promedio
• Se obtiene sumando todas las observaciones de un conjunto de datos y
dividiendo entre el total de mediciones.
• La media es sensible a valores extremos
• La media se define como:

1 n
x   xi
n i 1
• La media poblacional (parámetro) se denota como m.
Media aritmética, propiedades

• Es única, para un conjunto de datos hay sólo


una.
• Simplicidad en el cálculo.
• Está afectada por cada valor del conjunto de
datos.
Ejemplo
Nombre No. • n=5
Retardos
Juan 10
Pedro 54 1 5 10  54  21  33  53 171
x   xi    34.2
Luis 21 5 i 1 5 3
Jose 33
Antonio 53
Mediana
• Se define como el valor que divide a un conjunto de valores
en 2 partes iguales.
• Se clasifica en rangos una lista de mediciones de menor a
mayor , la mitad de los valores son mayores o iguales a la
mediana y la otra mitad es menor o igual a ésta.
• Toma en cuenta el orden y magnitud relativa de las
observaciones.
• Si el conjunto de datos contiene un total de n observaciones
en las que n es impar la mediana es la
[(n+1)/2]-ésima medición
• Si n es par la mediana se toma como el promedio de los
valores centrales. Es decir, el promedio de (n/2)-ésima y
[(n+1)/2]-ésima.
Mediana, propiedades

• No es sensible al valor de cada medición. Es


robusta.
• Es única
• Simplicidad en el cálculo.
Nombre No. Nombre No.
Retardos Retardos
Juan 10 Juan 10
Ordeno
Mediana 33
Pedro 54 Luis 21

Luis 21 Jose 33

Jose 33 Antonio 53

Antonio 53 Pedro 54
Moda

• Es la observación que surge más a menudo.


• Si todos los valores son diferentes, no hay
moda.
• Un conjunto de datos puede tener más de 1
moda.
• Si los datos son simétricos la media, mediana
y moda deberían ser aproximadamente las
mismas.
• Cuando los datos no son simétricos la
mediana es mejor medida de tendencia
central porque la media es sensible a
observaciones extremas.
Medidas de dispersión
Dispersión

Aunque resulta útil saber donde se ubica


el centro de los datos, esta información
normalmente no es suficiente para
caracterizar una distribución entera de
mediciones.
Dispersión
• Los dos siguientes grupos tienen la misma media…. ¿son
iguales?

Nombre Calificación Nombre Calificación


Juan 6 Jorge 5
Pedro 2 Pablo 6
Luis 10 Simón 6

Jose 8 Sara 6
Antonio 4 María 7

• La diferencia es que los datos de la izquierda tienen mayor


variabilidad (o dispersión).
Rango o Amplitud
• Describe la variabilidad de un conjunto de
datos
• Es la diferencia entre la observación mayor y
la menor.
• Sólo toma en cuenta los valores extremos del
conjunto de datos.
• Por tanto es sensible a estos valores.
Rango o Amplitud
Nombre No. Retardos

R (amplitud) = XL – Xs
Juan 10
R = 54-10 = 44
Luis 21
•Su utilidad es limitada
•Es simple de calcular Jose 33
•Sólo toma 2 valores del conjunto por
lo que es una medida pobre de Antonio 53
dispersión.
Pedro 54
Cuantiles
• Son los valores que, al ordenar los datos por su
magnitud, dividen a la muestra en C partes iguales.
• Ejemplos:
– Los valores que dividen a la muestra en en cien partes iguales se
llaman percentiles
– ...en cuatro partes cuartiles (Q1, Q2, Q3)
– … en tres partes se llaman terciles
– … en diez partes deciles
– Nota: el cuartil 1 coresponde al percentil 25, y el cuartil 3 al
percentil 75.
¿A qué es igual el cuartil 2?
Percentiles
• El percentil k se define como el valor por debajo del
cual están el k-por ciento de los datos.
• Para determinar el percentil k de un conjunto de datos:
– Si nk/100 es entero, el percentil k de los datos es el promedio
de la observación número (nk/100) y la (nk/100 +1) más
grandes.
– Si nk/100 no es entero, el percentil k es la (j+1)-ésima
medición más grande, donde j es el entero menor más
cercano a nk/100.
Ejemplo
Volumen de espiración forzada en 1 s de 13 adolescentes
con asma
Para determinar el p25
Individuo VEF
Individuo VEF nk/100
1 2.30 2 2.15

2 2.15 8 2.25 13(25)/100 = 3.25, no es entero


3 3.50 1 2.3 (j+1)-ésima medición
4 2.60 4 2.6
9 2.68
Por lo que el p25 es la medición número=
5 2.75
5 2.75
3+1=4
6 2.82
6 2.82
Para determinar el p75
7 4.05
12 2.85
nk/100
8 2.25
10 3
13(75)/100 = 9.75, no entero
9 2.68
13 3.38
(j+1)-ésima medición
10 3.0
3 3.5
Por lo que el p75 es la medición número=
11 4.02
11 4.02
9+1=10
12 2.85
13 3.38 7 4.05
Rango intercuartil
• Se calcula restando el percentil 25 de los datos
del percentil 75. Por tanto abarca el 50% de
las observaciones.
• Es robusto pues no influyen en él fácilmente
los valores extremos.
p75-p25 = 3.38-2.6 =0.78
Varianza y desviación estándar
Varianza

• Cuantifica la variabilidad, o dispersión, alrededor de la


media de las mediciones.
• Cuando los valores de un conjunto de observaciones se
encuentran ubicados cerca de su media, la dispersión
es menor que cuando estan esparcidos.
• Para calcularla se resta la media de cada uno de los
valores individuales, las diferencias se elevan al
cuadrado y después se suman entre sí. Esta suma se
divide entre el tamaño de la muestra menos 1
Varianza
Nombre No. Retardos (xi-x) (xi-x)2
Juan 10 10-34.2=-24.2 585.64
Luis 21 21-34.2=-13.2 174.24
Jose 33 33-34.2=-1.2 1.44
Antonio 53 53-34.2= 18.8 353.44
Pedro 54 54-34.2= 19.8 392.04
Media 34.2 1506.8
n

å ( xi - x ) 2
i =1
s2= 1506.8/5-1=376.7
S2 = n -1
Desviación estándar
• Es la raíz cuadrada positiva de la varianza.
• Se utiliza más que la varianza ya que tiene las
mismas unidades de medición que la media,
en lugar de unidades cuadradas.
• El grupo de datos con menor desviación
estándar tiene las observaciones más
homogéneas.
• La desviación estándar poblacional
(parámetro) se denota como s
Desviación estándar

s = s2

S = 376.7 = 19.4

La desviación estándar se expresa en las unidades originales de la variable.


Dispersión relativa

• Coeficiente de variación:
– La desviación estándar puede ser grande o
pequeña dependiendo del promedio de los
datos, ejemplo:
• Una desviación estándar de 10 cm…
– Denota mucha variabilidad si hablamos de una
población humana con un promedio de estatura de
160 cm
– Denota poca variabilidad si hablamos de una
población de árboles con un promedio de estatura de
16 metros (1600 cm).
Dispersión relativa
• Coeficiente de variación (sigue):
– El coeficiente de variación V nos da una medida de la dispersión
relativa al promedio:

s
V
x

– Ejemplo (sigue): En el caso de la población humana el coeficiente de


variación es de 0.0625 o 6.25% mientras que en los árboles es de
0.00625 o 0.625%.
– Esta medida pierde su utilidad si la media es cercana a cero.
Ponderación
• En el cálculo de la media y la desviación estándar, en ocasiones algunas
observaciones pesan más que otras.
• Estos “pesos” se denotan como wi.
• El cálculo de la media ponderada es como sigue…

w x  w2 x2  ...  wk xk w x i i
x 1 1  i 1
k
w1  w2  ...  wk
w
i 1
i
Ponderación
• Ejemplo:
– Si el examen final de un curso cuenta 3 veces más que una
evaluación parcial y un estudiante tiene 7.0 y 9.0 en los
parciales y 8.5 en el final. ¿Cuál es su promedio?

1(8.5)  1(9.0)  3(8.5) 43


x   8.6
11 3 5
AGRUPACIÓN DE DATOS
y algunas herramientas gráficas de uso común
Agrupación de datos y distribución de
frecuencias
• Un conjunto de observaciones de una variable
continua es más comprensible a través de la
agrupación de sus datos.

• Para agrupar datos se debe de seleccionar


intervalos contiguos que no se traslapen, para
que cada valor pueda ser puesto en uno y solo
uno de los intervalos “intervalos de clase”.
¿Cuántos intervalos debemos incluir?

• Determinados por precedentes (arbitrariamente)


• Fórmula de Sturges
k= 1+3.322(log10n)
k= número de intervalos de clase
n=número de valores en el conjunto de datos en observación.

• Ejemplo:
• Si se tiene una muestra de 57 pesos de tumores
abdominales
k = 1+ 3.322(1.7558) = 6.8 ≈ 7 intervalos
¿Cúal es la dimensión de los intervalos de
clase?

• w=R
k
R (amplitud) = diferencia entre la observación más grande y más pequeña

Si tenemos el peso en onzas de 57 tumores abdominales, de los cuales el


menor pesa 12 y el mayor 79

w = 79-12 = 67 = 9.6
7 7
Tabla de distribución de frecuencias
PESO DE LOS TUMORES ABDOMINALES
• En ella se muestran
como se distribuyen Intervalos de Frecuencias
los valores dentro clase
de los intervalos de 10-19 5
clase especificados.
20-29 19
30-39 10
40-49 13
50-59 4
60-69 4
70-79 2
Total 57
Tabla de distribución de frecuencias

Intervalos de Frecuencias Frecuencia Frecuencia Frecuencia


clase acumulada relativa acumulada
relativa
10-19 5 5 0.0877 0.0877
20-29 19 24 0.3333 0.4210
30-39 10 34 0.1754 0.5964
40-49 13 47 0.2281 0.8245
50-59 4 51 0.0702 0.8947
60-69 4 55 0.0702 0.9649
70-79 2 57 0.0351 1.0000
Total 57 1.000
Histograma
• Para presentar una

20
distribución de
frecuencia en una forma

15
gráfica.
• Los valores de la variable

Frequency
10
se ponen en el eje
horizontal y las
5
frecuencias en el eje
vertical.
0

0 20 40 60 80
pesotumor
Gráfico de caja
• En lugar de ubicar cada observación
presentan un resumen de los datos.

80
• La caja se extiende del p25 al p75.
• La línea media de la caja es el p50
• Los “bigotes” o valores adyacentes
son las observaciones más extremas

60
en el conjunto de datos no mayores
de 1.5 veces la altura de la caja más
allá de cada cuartil.

40
– 1.5x(p75-p25). Los datos que
sobrepasan este límite se incluyen
como un punto.
• En los conjuntos de datos
20
aproximadamente simétricos los
valores adyacentes contienen aprox.
el 99% de las mediciones.
0

También podría gustarte