Está en la página 1de 83

DIPLOMADO EN INVESTIGACIÓN CLÍNICA

Gráficos y Medidas de resumen


usuales en Bioestadística
Percy Soto, MD, MSc(c)
2019
Introducción
• En el mundo real, existe variabilidad entre individuos, por lo que se
requieren estrategias para poder describir o comparar poblaciones.
• Bioestadística permite obtener conclusiones acerca de “comportamiento”
de variables en poblaciones.
• Medidas de resumen
• Gráficos de distribución
• Permite obtener conclusiones acerca de la comparación de variables entre
poblaciones.
• Pruebas de hipótesis
• Métodos de regresión
• Otros
Gráficos estadísticos
Siempre grafica los datos
• Permite identificar valores
extremos.
• Permite identificar datos
que no tienen sentido.
• Permite entender cómo
están distribuidos los
datos.
¿Cómo están distribuidos los datos?
• Datos categóricos
• ¿Cuáles son las frecuencias absolutas y porcentajes en cada
categoría?
• Datos numéricos
• ¿Cuál es la forma de distribución (p. ej., normalmente distribuida
o sesgada?)?
• ¿Dónde está el centro de los datos?
• ¿Cuál es la dispersión/variabilidad de los datos?
Gráficos de “frecuencia” (univariados)
• Datos categóricos
• Gráfico de pie
• Gráfico de barras
• Datos numéricos/continuos
• Gráfico de cajas
• Histogramas
Gráficos estadísticos: Circular

• Análisis de UNA variable categórica.


• Las categorías deben ser
mutuamente excluyentes.
• Regla del pulgar: NO más de cinco
categorías.
• No suelen ser muy utilizados en
publicaciones biomédicas.
• De hecho, algunas revistas los prohíben
(p. ej., JAMA).
Gráficos estadísticos: Barras
• Análisis de UNA o MÁS variables
categóricas.
• Muestran frecuencias absolutas,
relativas y tasas.
• Permiten comparaciones visuales
rápidas entre categorías.
• Pueden mostrar variables
cuantitativas discretas.
Gráficos estadísticos: Barras
Gráficos estadísticos: Cajas y bigotes
• Muestra la distribución de una
variable cuantitativa en función
a sus cuartiles.
Gráfico de cajas de ejercicio
maximum or
Q3 + 1.5 * IQR

75th percentile (6)

interquartile range
(IQR) = 6-2 = 4 median (3.25)
25th percentile (2)

minimum or
Q1 - 1.5 * IQR
Gráfico de cajas de intensidad de dolor
maximum (100)

75th percentile (85)


interquartile range median (78)
(IQR) = 85 – 68 = 17 25th percentile (68)

Q1 – 1.5 * IQR =
“outliers” 68 – 1.5 * 17 = 42.5
minimum (27)
Gráficos estadísticos: Histograma
• Ayudan a evaluar la distribución
de una variable cuantitativa
continua.
• La unión de los puntos medios
de cada barra generan el
polígono de frecuencias.
Eje Y:
Histograma de ejericio
Porcentaje de Barra de tamaño= 2 horas/semana
observaciones
que caen dentro
de la barra
Histograma de ejericio
Barra de tamaño= 2 horas/semana

42% de los
estudiantes (n=21)
se ejercitan entre 2
y 3.999… horas
por semana.

12% de los
estudiantes (n=6) se
ejercitan entre 0 y
1.999… horas por
semana.
Histograma de ejericio
Barra de tamaño= 2 horas/semana

2% de los
estudiantes (n=1)
se ejercitan ≥ 12
h/semana
Histograma de ejericio
Barra de tamaño= 2 horas/semana

Notar el “sesgo hacia la derecho”


Histograma de ejericio
Barra de tamaño= 2 horas/semana

¡Mucho detalle!
Histograma de ejericio
Barra de tamaño= 2 horas/semana

¡Muy poco detalle!


Histograma de intensidad de dolor

Notar el “sesgo hacia la


izquierda”

También, podría ser


descrita como “bimodal”
(dos picos, dos grupos).
Forma de la distribución

• Sesgo a la izqueirda/Simétrico/Sesgo hacia la derecha

Sesgo izquierda Simétrico Sesgo derecha


Forma de la distribución
• Simetría
• Curva de campana (“distribución normal”)
Distribución normal
Útil por muchas razones:
-Comportamiento predecible
-Muchas variables siguen DN
en población
68% de
**Muchos estadísticos siguen
los datos DN (próxima clase)**

95% de datos
99.7% de datos
Datos de ejemplo: Optimismo
Consumo de frutas y vegetales
(porciones/día)…
Tarea (horas/semana)…
Alcohol (bebidas/semana)
Afinidad a matemáticas (0=más bajo,
100=más alto)

Aproximadamente
normal!
Ejercicio. ¿Qué gráficos podría usar? ¿Por qué?

Sexo Freq. Percent Cum.

Femenino 125 60.10 60.10


Masculino 83 39.90 100.00

Total 208 100.00


Ejercicio. ¿Qué gráficos usaría? ¿Por qué?
Ejercicio. ¿Qué gráficos usaría? ¿Por qué?
Ejercicio. ¿Qué gráficos usaría? ¿Por qué?
Medidas de resumen en
datos numéricos
Medidas de resumen
• Valores numéricos únicos que proporcionan información importante
sobre el conjunto de datos en que fueron calculados.
• Transmite información, de forma rápida y simple, sobre las
características de una población o muestra.
• Hay varias formas de resumir los datos, cada uno con pros y contras.
• Complementar la información de varias medidas de resumen puede
ser más útil.
Análisis descriptivo: V. numéricas
• Medida de tendencia central. Valor numérico que proporcionan
información sobre el valor medio (central) de un conjunto de datos
numéricos.
• Medida de dispersión. Valor numérico que proporciona información
sobre la magnitud de la variabilidad presente dentro de un conjunto
de datos numéricos.
• Otras medidas de posición: Cuantiles. Puntos de corte que dividen
las observaciones de una muestra en intervalos continuos de igual
frecuencia relativa.
M. Tendencia Central: Media Aritmética

• Valor característico de una serie de (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 )


datos numéricos. 𝑥ҧ =
• Cálculo: sumar todos los valores 𝑛
medidos, de una variable, y dividirlo
entre el número de valores sumados.
• Afectada por todos los valores; σ𝑛𝑖=1 𝑥𝑖
especialmente valores extremos. 𝑥ҧ =
• Visualmente, representa el centro de 𝑛
gravedad del histograma.
Media de tareas

Media= 11.4 horas/semana

Centro de gravedad (“punto de equilibrio”)


Media es afectada por valores extremos…

Media= 2.3 bebidas/semana

Punto de equilibrio
Media es afectada por valores extremos…

Media= 2.9 bebidas/semana


M. Tendencia Central: Media Aritmética
M. Tendencia Central: Mediana

• Valor de posición central en una


serie de datos ordenados.
• Divide a un conjunto ordenado
de datos exactamente por la
mitad.
• No muy afectados por valores
extremos.
• Conjunto par: promedio de los
dos valores centrales.
Mediana de tarea
50% 50%
de de masa Mediana= 10
masa horas/semana
Mediana de consume de alcohol

50% 50%
Mediana= 2.0
de de masa
bebidas/semana
masa
La mediana no es afectada por valores
extremos…
La mediana no es afectada por valores
extremos…
50% 50%
de Mediana = 2.0
De masa
masa
bebidas/semana
¿Debería presenter medias o medianas?

• Para datos con valores extremos, la mediana es preferible


debido a que la media puede estar equivocada.
• Para datos sesgados, la mediana es preferible debido a que la
media puede estar equivocada.
• Aunque muchas veces las comparaciones de medias pueden ser
válidas entre datos sesgados, es necesario tener mucho cuidado.
Ejemplo hipotético: media versus medianas

10 siguen dieta 1 vs. 10, dieta 2

Group 1 (n=10) pierde un promedio de 34.5 lbs.

Group 2 (n=10) pierde un promedio de 18.5 lbs.

Conclusión: ¿dieta 1 es mejor?


Histograma, dieta 2…

30

25 Media=-18.5 lbs.
20 Mediana=-19 lbs.
P
er
ce 15
nt
10

0
-30 -25 -20 -15 -10 -5 0 5 10 15 20
Weight change
Histograma, dieta 1…

30

25 Media=-34.5 lbs.
20 Mediana=-4.5 lbs.
P
er
ce 15
nt
10

0
-300 -280 -260 -240 -220 -200 -180 -160 -140 -120 -100 -80 -60 -40 -20 0 20
Weight Change
M. Tendencia Central: Mediana
M. Tendencia Central: Moda

• Valor que más se repite dentro de


una serie de datos.
• Puede existir más de una moda.
M. Tendencia Central: Moda
Medidas de variabilidad
• Rango
• Desviación estándar/varianza
• Percentiles
• Rango inter-quartil (RIQ)
M. Dispersión
Rango.
• Es la diferencia entre el valor máximo y el valor mínimo de un
conjunto de datos.
Rango = 𝑥𝑚𝑎𝑥. − 𝑥𝑚𝑖𝑛.
M. Dispersión: Varianza

• Desviación cuadrada media de σ𝑁 2


2 𝑖=1 𝑥𝑖 − µ
los valores individuales respecto 𝜎 =
a la media. 𝑁
• Cálculo: sumar el cuadrado de
las diferencias entre cada valor y σ𝑛 2
2 𝑖=1 𝑥𝑖 − 𝑥ҧ
el promedio; y dividirlo entre N 𝑠 =
(población) o n-1 (muestra). 𝑛−1
M. Dispersión: Desviación Estándar

• Desviación media de los valores 2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2


individuales respecto a la media. 𝜎=
• A diferencia de la varianza, la 𝑁
desviación estándar representa
la desviación en su unidad
original.
• Varianza y DE también son
2 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
s=
afectadas por valores extremos. 𝑛−1
Tareas (hora/semana)

Media = 11.4
Desviación estándar = 10.5

Sin persona con 40 h/sem:


Desviación estándar = 9.8
Afinidad a matemáticas (0=más baja,
100=más alta)
Media = 61
Desviación estándar = 21
Entendiendo la desviación estándar:

Media = 15 Media = 15 Media = 15


SD = 0.9 SD = 3.7 SD = 5.1
Cuantiles
• Puntos de corte que dividen las
observaciones en intervalos
continuos de igual tamaño.
• El número de cuantiles es uno
menos al número de grupos
creados.
• Terciles
• Deciles
• Percentiles
Percentiles

• Basados en el orden (ranking/rango) de los datos


• 90th percentil es el valor para el cual el 90% de las observaciones son menores.
• 50th percentil es la mediana.
• 10th percentil es el varlor para el cual el 10% de las observaciones son menores.
• Percentiles no son afectados por valores extremos (a diferencia de
desviaciones estándares).
Rango intercuartil

• Rango intercuartil = 3rd quartil – 1st quartil


• La mitad (50%) de los datos.
• Rango intercuartil no es afectado por datos extremos.
Gráfico de cajas de intensidad de dolor
(0=No dolor, 100=Dolor extremo)

75th percentile (85)


interquartile range
(IQR) = 85 – 68 = 17 25th percentile (68)
Ejercicios: Cuartiles
Medidas de resumen en
datos categóricos
Análisis descriptivo: V. Categóricas
• Frecuencia absoluta: Número de veces que un valor en particular se
repite dentro de un conjunto de datos.

• Frecuencia relativa: Fracción de veces que un valor en particular se


repite dentro de un conjunto de datos.

• Frecuencia acumulada: Suma de frecuencias relativas.

• Reportar frecuencias absolutas y relativas es importante para pintar el


panorama completo.
¿Cuál es el error con esto?
• Resultados de un estudio:
“La puntuación objetiva de los investigadores ciegos indicó que el
tratamiento resultó en una mejoría en todos (100%) de los sujetos. De
los pacientes que mostraron una mejoría general, el 78% recibió una
mejoría excelente o moderada.”

Estudio con tamaño de muestra 10 (N = 10).


Estudio con tamaño de muestra 80 (N = 80).
Estudio con tamaño de muestra 270 (N = 270).
¿Qué sucede para variables
categóricas?
Sexo Freq. Percent Cum.

Femenino 125 60.10 60.10


Masculino 83 39.90 100.00

Total 208 100.00

Frecuencias Frecuencias Frecuencias


Absolutas Relativas Acumuladas
¿Qué sucede con las medidas de resumen de
variables categóricas en investigación clínica?
Todos casos Nuevos casos
Incidencia acumulada
Proporción Prevalencia
(Riesgo absoluto)

Razón Odds prevalente Odds incidente

• Aunque podríamos usar razones (odds) para resumir datos categóricos, no suelen
utilizarse para describir por su interpretación no intuitiva.
• Odds se reservan para su medidas de asociación.
• Frecuencias relativas (proporciones) tienen matices importantes dependiendo del
diseño y deben incorporarse en la interpretación de estas.
Ejemplo 1 - Ensayo Clínico: Vioxx vs.
Naproxen
Comparación de la toxicidad gastrointestinal de rofecoxib y
naproxeno en pacientes con artritis reumatoide.(Bombardier et al. N
Engl J Med 2000; 343: 1520-8).

Métodos: Investigadores asignaron al azar a 8076 pacientes con


artritis reumatoide para que reciban rofecoxib (Vioxx) o naproxeno
(antiinflamatorio no esteroideo) dos veces al día. El estudio fue
doble ciego. El endpoint primario fue la confirmación de eventos
gastrointestinales superiores clínicos (como úlceras y sangrado).
Incidencia acumulada, eventos GI:
Número Número
por de Incidencia
grupo eventos Cálculo acumulada
GI
(F. Relativa/Proporción)

(F. Absoluta)

Vioxx 4047 56 56/4047= 1.38%

Naproxen 4029 121 121/4029= 3.00%


Nota: Incidencia acumulada depende de la
duración del seguimiento
• En este estudio, el tiempo de seguimiento fue de 6.8 meses.
• Si hubieramos seguido 1 año, esperaríamos que la incidencia
acumulada sea de 2.1% en el grupo Vioxx y 4.5% en el grupo
Naproxen.
• Si hubieramos seguido 2 años, ¿cuál sería la incidencia
acumulada en ese período?
• Siempre debe reportarse el tiempo de seguimiento cuando
se reporta a la incidencia acumulada.
Ejemplo: estudio transversal
• Relationship between atherosclerosis and late-life depression (Tiemeier
et al. Arch Gen Psychiatry, 2004).
• Métodos: Investigadores midieron la prevalencia de la
calcificación de la arteria coronaria (aterosclerosis) y la
prevalencia de los síntomas depresivos en una gran muestra
de hombres y mujeres de edad avanzada en Rotterdam (n =
1920).
Datos de ejemplo, estudio transversal
Desórdenes depresivos por nivel de calcificación:

Coronary Number
calcification with depressive
level Total number disorders
0-100 894 9
101-500 487 11
>500 539 16
Tiemeier et al. Arch Gen Psychiatry, 2004
Prevalencia de desórdenes depresivos
Prevalencia de desórdenes depresivos por nivel de calcificación:
Coronary Number
calcification Total with dep. Prevalence of
level number disorders depressive disorders
(Frecuencia absoluta) (Frecuencia relativa/proporción)

0-100 894 9 9/894=0.9%


101-500 487 11 11/487=2.3%
>500 539 16 16/539=3.0%
Tiemeier et al. Arch Gen Psychiatry, 2004
Ejercicio. Interprete los resultados
Medidas de resumen en
datos tiempo-evento
Datos ¿tiempo-evento?
• ¿Son categóricos?
• Muerto/Vivo
• ¿Son numéricos?
• Tiempo hasta muerte
• Sujeto 1: Información
completa.
• Sujetos 2 y 3:
Información parcial.
¿Cómo resumir datos tiempo-evento?
• Opción A:
• Manejarla como binaria (muerte).
• Proporción = 1/3 (33.3%)
• Problema: Tiempo en riesgo varía entre cada
individuo. Proproción asume igual influencia.
• Opción B:
• Manejarla como numérica (tiempo).
• Promedio = 4 años.
• Problema: Solo 1 murió, todavía no sabemos cuánto
tardarán los otros 2 en morir (y seguramente lo
harán).
• Opción C:
• Manejarla como tiempo-evento.
¿Cómo resumir datos tiempo-evento?
• Opción C:
• Manejarla como tiempo-evento.

• Número total de eventos que ocurrieron en


seguimiento dividido entre la cantidad de tiempo que
contribuyeron individuos seguidos.
• Nota: Tiene varias limitaciones (se revisarán en
Fundamentos de Epi 1).
Todos casos Nuevos casos
Incidencia acumulada
Proporción Prevalencia
(Riesgo absoluto)

Tasa de incidencia /
Tasa Hazard rate
(riesgo instantáneo)

Razón Odds prevalente Odds incidente


Ejemplo: Vioxx vs. Naproxen
Gastrointestinal events in the Vioxx and naproxen groups:
Number Person-years Number of
per group of follow-up GI events
Vioxx group 4047 2315 56
Naproxen 4029 2316 121
group
Bombardier C, Laine L, Reicin A, et al. N Engl J Med 2000; 343: 1520-8.
Tasas de incidencia, eventos GI:
Number Person-
of GI years of
events follow-up Calculation Incidence Rate
Vioxx 56 2315 56/2315 2.1 events per
group person- 100 person-
years=.021 years
Naprox 121 2316 121/2316 4.5 events per
en person- 100 person-
group years=.045 years

También podría gustarte