Está en la página 1de 41

MED-3001: Introducción a la Bioestadística

Clase 3: Datos agrupados y uso de tablas y


gráficos

Septiembre 2, 2022
Iván Sisa, MD MPH MS
isisa@usfq.edu.ec
Lo aprendido en la clase anterior
— Medidas de tendencia central
◦ Media
◦ Mediana
◦ Moda
— Medidas de disperción
◦ Rango
◦ DS
◦ Rango intercuartil
Temas de la clase
— Datos agrupados

— Intervalos de clase y rango

— Frecuencias relativa y acumulada

— Comunicación de resultados con gráficos


Objetivos de la clase
— Al final de esta clase, se espera que el
estudiante pueda:

◦ Ordenar datos agrupados

◦ Construir una tabla de frecuencias

◦ Utilizar adecuadamente según sea el caso un


gráfico o tabla
Datos agrupados
— Datos individuales agrupados de forma
ordenada en intervalos de clase

— Dilema entre perder información y


comunicar de forma significativa la data
◦ Elegir un apropiado ancho de interval
◦ ¿Qué pasa si tengo muy pocos intervalos?
◦ ¿Qué pasa si tengo muchos intervalos?
Datos agrupados
Datos agrupados
Datos agrupados
Distribución de frecuencias
1. Determinar el rango de los datos
R= nmax – nmin

2. Determinar el # de intervalos de clase


- Empíricamente entre 10 a 20 intervalos ó entre 6
y 15

- Fórmula de Sturges
k = 1 + 3.322 (log 10n)
Distribución de frecuencias
3. Determinar la amplitud de cada intervalo (i)
w= R/k
— ** (i) es costumbre que el límite inferior sea
divisible de manera exacta entre i

4. Determinar los límites de cada intervalo


— Deben ser continuos y mutuamente excluyentes

5. Cuantificar la frecuencia de cada intervalo


Ejemplo #1
Ejemplo #1
1. Determinar el rango de los datos
R= nmax - nmin
R = 99 – 46 = 53

2. Determinar el # de intervalos de clase


- Vamos a determinar 10 intervalos

3. Determinar la amplitud de cada intervalo (i)


w = R/k
w = 53/10
w = 5.3
Ejemplo #1
4. Determinar los límites de cada intervalo
— Deben ser continuos y mutuamente excluyentes

— En nuestra base de datos nmin es 46, no es divisible de


manera exacta entre 5 entonces elegimos 45.

— Así nuestro intervalo empieza desde 45 y tiene 5


unidades de ancho:
— 45 – 49

— 5. Cuantificar la frecuencia de cada


intervalo
Ejemplo #1
Ejemplo #2
Ejemplo #2
1. Determinar el rango de los datos
R= nmax - nmin
R = 79 – 12 = 67

2. Determinar el # de intervalos de clase


k = 1 + 3.322 (log 10n)
k = 1 + 3.322 (log 1057)
k = 1 + 3.322 (1.7559)
k=7

3. Determinar la amplitud de cada intervalo (i)


w = R/k
w = 67/7
w = 9.6
Ejemplo #2
4. Determinar los límites de cada intervalo
— Deben ser continuos y mutuamente excluyentes
— 12/10 = 1.2
— 11/10 = 1.1
— 10/10 = 1
10—19
20—29
70—79

5. Cuantificar la frecuencia de cada


intervalo
Ejemplo #2
Frecuencias
— Acumulada
◦ Indica el número de datos que caen por debajo del
límite real superior de cada intervalo

— Relativa
◦ Indica el % del número total de datos que aparecen
en un determinado intervalo

— Relativa acumulado
◦ Indica el % de datos que caen por debajo del límite
real superior de cada intervalo
Frecuencias, ejemplo
Comunicación de resultados con
gráficos
— Basado en las frecuencias de una tabla

— Dos ejes, uno vertical o Y, y otro


horizontal o X

— Tipos de gráficos
◦ Gráfico de barras
◦ Histograma
◦ Polígono de frecuencias
◦ De caja
Gráfico de barras
— Distribución de datos nominales u
ordinales

— La altura de cada barra es la f de cada


categoría

— Las barras no se tocan entre si, enfatiza la


carencia de una relación cuantitativa entre
las categorías
Gráfico de barras
Gráfico de barras
Histograma
— Representa frecuencias o % pertenecientes a
intervalos

— Igual que el gráfico de barras pero cada barra


representa un intervalo de clase

— La altura de la barra corresponde a la f o % del


intervalo de clase

— Las barras se tocan porque los intervalos son


continuos
Histograma

Histogram of change in total function scores using 5-point categories. (Data used with permission, from Hébert R, Brayne C, Spiegelhalter D: Incidence
of functional decline and improvement in a community-dwelling, very elderly population. Am J Epidemiol 1997;145:935–944. Graph produced with SPSS,
a registered trademark of SPSS, Inc.; used with permission.)

Source: Chapter 3. Summarizing Data & Presenting Data in Tables & Graphs, Basic & Clinical Biostatistics, 4e
Citation: Dawson B, Trapp RG. Basic & Clinical Biostatistics, 4e; 2004 Available at:
http://accessmedicine.mhmedical.com/content.aspx?bookid=356&sectionid=40086282 Accessed: September 05, 2017
Copyright © 2017 McGraw-Hill Education. All rights reserved
Polígono de frecuencia
— Otra forma de presentar datos de tipo intervalo o
%

— En lugar de barras, grafíca el punto medio de cada


intervalo

— A diferencia del histograma, este gráfico muestra


los datos como si estuviesen concentradas en el
punto medio del intervalo y no de manera
uniforme en el interval

— No se usan para datos nominales u ordinales


Frequency polygon of shock index for patients with a pulmonary embolism. (Data, used with permission, from Kline JA, Nelson RD, Jackson RE,
Courtney DM: Criteria for the safe use of d-dimer testing in emergency department patients with suspected pulmonary embolism: A multicenter US study.
Ann Emergency Med 2002;39:144–152. Plot produced with NCSS; used with permission.)

Source: Chapter 3. Summarizing Data & Presenting Data in Tables & Graphs, Basic & Clinical Biostatistics, 4e
Citation: Dawson B, Trapp RG. Basic & Clinical Biostatistics, 4e; 2004 Available at:
http://accessmedicine.mhmedical.com/content.aspx?bookid=356&sectionid=40086282 Accessed: September 05, 2017
Copyright © 2017 McGraw-Hill Education. All rights reserved
Polígono de frecuencia
Histograma vs. Polígono
— Para datos nominales, ordinales y
continuos
◦ Histograma

— Datos proporcionales y con varios grupos


◦ Polígono
Gráfico de caja
— Gráfico que ilustra cierta localización dentro de
una distribución, utiliza cuartiles (Q1-Q3)

— La longitud de la caja es una representación


visual del RIQ

— Las líneas verticales a los extremos se llaman


bigotes o whiskers, se extienden 1.5 veces del
RIQ
Gráfico de caja

• En la parte inferior en rojo está ubicado el percentil 25 de la muestra


(Q1=27.5)
• En la parte superior en verde está ubicado el percentil 75 de la muestra
(Q3=47)
• La línea horizontal que separa los dos colores está ubicado la mediana
(Q2=34)
• El valor de la media (41.3) ususalmente se le asigna un signo de “+” dentro de
la caja
• Un valor extremo (outlier) es cualquier valor > (Q3 + 1.5*RIQ) = 76.3 o
<(Q1 – 1.5*RIQ) = -1.8
• El cambio de score va desde -10
hasta 55
• La mitad del cambio esta ubicado
entre 0 y 5
• La media un poco más de 0
• Hay 7 valores “outliers”
• 4 pacientes tienen un cambio de
score mayor a 35 puntos

Box plot of SMAF score changes for subjects 85 years old or older. (Data used with permission, from Hébert R, Brayne C, Spiegelhalter D: Incidence of
functional decline and improvement in a community-dwelling, very elderly population. Am J Epidemiol 1997;145:935–944. Plot produced with NCSS;
used with permission.)
Source: Chapter 3. Summarizing Data & Presenting Data in Tables & Graphs, Basic & Clinical Biostatistics, 4e
Citation: Dawson B, Trapp RG. Basic & Clinical Biostatistics, 4e; 2004 Available at:
http://accessmedicine.mhmedical.com/content.aspx?bookid=356&sectionid=40086282 Accessed: September 05, 2017
Copyright © 2017 McGraw-Hill Education. All rights reserved
Percentiles
— Es una medida de posición relativa

— Es el valor sobre una escala de medida, donde


debajo del cual cae un % dado de los datos

— Ej: Considere la tabla de crecimiento de niñas


desde el nacimiento hasta los 36 meses de edad.
Para niñas de 21 meses, el percentil 95% de
peso es 12kg.
Standard physical growth chart. (Reproduced, with permission, from Ross Laboratories.)
Source: Chapter 3. Summarizing Data & Presenting Data in Tables & Graphs, Basic & Clinical Biostatistics, 4e
Citation: Dawson B, Trapp RG. Basic & Clinical Biostatistics, 4e; 2004 Available at: http://mhmedical.com/ Accessed: September 04, 2017
Copyright © 2017 McGraw-Hill Education. All rights reserved
Gráfico tipo pastel

— Grafica datos de tipo nominal, ordinal, y


cuantitativo discreto

— Cada pieza del círculo representa cierto


% del total de la frecuencia
Gráfico tipo pastel
Gráfico de dispersión (Scatter plot)
— Gráfico de dos variables cuantitativas

— Cada punto del gráfico representa dos


mediciones

— Muestra la relación entre dos variables


cuantitativas

— Relación positiva o negativa


Gráfico de dispersión (Scatter plot)
100 Scatter plot of Diastolic versus Systolic Blood Pressure

D
i
a
s
t
o
l
i 80
c

B
l
o
o
d

P 60
r
e
s
s
u
r
e

40
40 60 80 100 120 140 160 180 200
Systolic Blood Pressure
Resumen de gráficos

Cortesía: Dr. Rajaram´s lecture notes.


Lo aprendido hoy
— Datos agrupados

— Tabla de distribución

— Tipos de gráficos

También podría gustarte