Documentos de Académico
Documentos de Profesional
Documentos de Cultura
02 Guiones Bioestadistica CAP.2
02 Guiones Bioestadistica CAP.2
ESTADÍSTICA DESCRIPTIVA
II.1. Tipos de Datos (R.2.1)
1 A 0 70,502
2 B 3 67,231
--- --- --- ---
500 AB 2 71,676
• Para ello hay que definir lo siguiente (primera columna de las tablas que se
aludidirán):
4 II.- ESTADÍSTICA DESCRIPTIVA
Tabla 2.2
Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad.
Grupo Frecuencia absoluta Frecuencia relativa Porcentaje
sanguíneo (fi) (hi) (%)
A 150 0,30 30%
B 75 0,15 15%
AB 25 0,05 5%
O 250 0,50 50%
Total 500 1,00 100%
Tabla 2.3
Distribución del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad
Número de hermanos fi hi %
0 72 0,144 14,4%
1 155 0,310 31,0%
2 97 0,194 19,4%
3 81 0,162 16,2%
4 30 0,060 6,0%
5 27 0,054 5,4%
6 20 0,040 4,0%
7 o más 18 0,036 3,6%
Total 500 1,000 100,0%
Tabla 2.4
Distribución del peso (x) en kg de una muestra de 500 alumnos varones de una Universidad.
II.3.1. Histograma
• Si sobre cada punto (intervalo) del eje de abscisas se levanta una barra (rectángulo) de
tanta altura como frecuencia haya (absoluta o relativa), se obtiene un diagrama de
barras (histograma) ⇒ Figuras 2.1 a 2.3.
• Con frecuencia, la palabra “histograma” alude a ambas representaciones.
60 160
50 140
120
40
100
% 30 f 80
20 60
10 40
20
0
0
A B AB O
0 1 2 3 4 5 6 >6
Figura 2.1 Figura 2.2
Histograma (diagrama de barras) de frecuencias Histograma (diagrama de barras) de
relativas de la Tabla 2.2 frecuencias absolutas de la Tabla 2.3
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 7
180
160
140
120
100
f
80
60
40
20
0
4 0-45 45-50 50-55 55-60 60-65 65-70 70-7 5 75-80 80-85 85 -90 90-95
Figura 2.3
Histograma de frecuencias absolutas de la Tabla 2.4
Se obtiene uniendo con una poligonal los puntos del plano que tienen por abscisa la
clase o marca de clase y por ordenada la frecuencia (absoluta o relativa).
180 35
160 30
140 25
120
20
100 %
f 80 15
60 10
40 5
20
0 0
0 1 2 3 4 5 6 7 40 50 60 70 80 90 100
• El ángulo que lo delimita es 360×hi (en grados) para el círculo completo o 180×hi en
el caso de un semicírculo (como en los resultados electorales).
• Es válido siempre (pero suele reservarse para nominales).
Figura 2.6
Tabla 2.5 Diagrama de sectores para la Tabla 2.5.
Mortalidad por grupos de causas
(España 1979)
Resto
II.3.4. Comentarios
10 Huelva
Jaén
8
Málaga
6
Sevilla
4
2
0
1950 1960 1970
Figura 2.7: Número de médicos por 10.000 habitantes en las 3 décadas indicadas
y en las 8 provincias andaluzas.
Gráficas tendenciosas
Las gráficas se prestan a más manipulaciones que las tablas.
• Figura 2.8(a) ≡ Figura 2.8(b), pero en (b) la escala vertical está cortada: es lícito, ¡pero
sobrevalora visualmente la eficacia de B!
• T.2.6 ⇒ F.2.9(a) ≡ F.2.9(b), pero en (b) la escala vertical está cortada (eso no afecta)
y “estirada”: es lícito, ¡pero sobrevalora la necesidad de personal! (la poligonal tiene
más pendiente). Lo mismo se puede lograr si la escala horizontal se “comprime”.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 9
50 49
40 47
45
30
% % 43
20 41
10 39
0 37
A B A B
(a) (b)
Figura 2.8: Porcentaje de curación de una enfermedad con los fármacos A (40%) y B (44%).
Tabla 2.6
Número de entradas (en miles) a un Servicio de Urgencias en diversos años.
25
25
20 21
15
17
10
5 13
0
1977 1978 1979 1980 9
1977 1978 1979 1980
(a) (b )
Figura 2.9
Número de entradas (en miles) a un Servicio de Urgencias. Datos de la Tabla 2.6.
Mezcla de información
Para comparar dos distribuciones (o más) es mejor una gráfica conjunta
(¡siempre con frecuencias relativas!)
• Datos no continuos: Histograma adosado de la Figura 2.10.
• Datos no nominales: Polígono de frecuencias de la Figura 2.11.
(las gráficas aluden a los datos de los ejemplos iniciales y a otros datos de otra
Universidad, a fin de comparar ambas).
0,6 35
0,5 30
25
0,4
20
h 0,3 %
15
0,2
10
0,1 5
0 0
A B AB O
,5
,5
,5
,5
,5
,5
,5
,5
,5
,5
,5
42
47
52
57
62
67
72
77
82
87
92
Moda (M)
• Nominales: la clase con más frecuencia (grupo O en Tabla 2.2) ⇒ máximo absoluto
de frecuencia.
• Resto: igual definición inicial, pero ahora también tendrán interés los máximos
relativos del polígono de frecuencias (las clases con más frecuencia que las
adyacentes) como los dos de la Figura 2.12 (3 y 12 días). Ambos son moda y la
distribución es bimodal (frente a la unimodal de la Figura 2.5).
25
20
15
%
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Número de dias
Figura 2.12
Distribución del número de días de baja anuales en una plantilla de 9.870 trabajadores,
de entre los que tuvieron al menos una baja.
⇓
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 11
• Moda = la clase con más frecuencia absoluta (si nominal) o relativa (resto de los
casos):
→ Válida: siempre.
→ Utilidad del polígono de frecuencias para determinarlas (cuando es lícito).
→ Tiene sentido si n grande y datos en intervalo de clase (si continua), pues con n
pequeño varía mucho de una muestra a otra.
Mediana (m)
• Definición: número que divide a la muestra (ordenada de menor a mayor) en dos
partes iguales ⇒ ocupa la posición (n+1)/2 + puede no ser un valor de la muestra (ni
siquiera un valor lícito).
• Ejemplo:
Datos originales: 5, 1, 7, 2, 9 (n = 5) 5, 1, 7, 2 (n = 4)
Datos ordenados: 1, 2, 5, 7, 9 1, 2, 5, 7
Posiciones: 1, 2, 3, 4, 5 1, 2, 3, 4
⇓ ⇓
2+5
Mediana = 5 → (2 a izda.+2 a dcha.) ← Mediana = = 3,5
2
n+1 2+3 4 +1
Posición = 3 → ← Posición = = 2 ,5 =
2 2 2
• No válida en nominales (no tienen orden con el que ordenar).
Cuartiles
• Mediana = 1 no que divide a la muestra en 2 partes (m).
• Cuartil = 3 nos que dividen a la muestra en 4 partes (c1, c2, c3).
• Decil = 9 nos que dividen a la muestra en 10 partes (d1, d2, …, d9).
• Percentil = 99 nos que dividen a la muestra en 100 partes (p1, p2, …, p99).
⇓
• Percentil pi: deja a su izquierda (incluido él mismo) un “i%” de la muestra ordenada
de menor a mayor.
• Cuartiles ci: c1 = p25 , c2 = p50 , c3 = p75
⇓
• Validez: no en nominales (pues requiere de la existencia de un orden).
• Utilidad: para describir casos raros con n grande (los percentiles 10 y 90 del peso de
los recién nacidos son útiles para el diagnóstico).
12 II.- ESTADÍSTICA DESCRIPTIVA
Media aritmética ( x )
x=
∑x i
(sin frecuencia) ⇒ x =
∑fx i i
(con frecuencia).
n n
• Validez: en cuantitativas (xi = marcas de clase si hay intervalos de clase).
• Cálculo: en prácticas.
• Tipos: media aritmética (la actual), geométrica, armónica (que no se ven) y
ponderada (que se ve abajo).
Media ponderada ( x p )
xp =
∑w x i i
con wi los pesos de ponderación (importancia de los valores xi, objetiva o
∑w i subjetiva).
Comentarios globales
• Más frecuentes: M, m y x .
(suelen ser distintas, salvo en muestras simétricas como 5, 5, 7, 7, 7, 9, 9).
• Moda: se usa poco en Ciencia y casi nunca en Inferencia.
• Mediana: útil en descriptiva + no se afecta por los datos extremos.
• Media: la más importante y frecuente + sí se afecta por los datos extremos.
1, 3, 4, 5 → x = 3, 25 ,, m = 3,5
(≠) (=)
1, 3, 4, 12 → x = 5, 00 ,, m = 3,5
x
Figura 2.13: Dos muestras con igual media, pero con distinta dispersión
está el peso de todos los individuos de la muestra (entre 40 y 70; entre 50 y 80; … no
se sabe).
• Ventaja: fácil de calcular + en iguales unidades que los datos.
• Desventaja: sólo toma dos datos (A = 4 en 1, 1, 1, 1, 5 y 1, 2, 3, 4, 5) + aumenta con n
(pues aparecerán los casos raros).
• Uso: como medida rápida (nunca en inferencia).
• Validez: para cuantitativos.
∑ x −xi
= Desviación media (no la vemos).
n
• El valor absoluto es incómodo de tratar. Otra opción (mejor teóricamente) es la
varianza o desviación cuadrática media:
(x − x) f (x − x)
=∑ =∑
2 2
2 i 2 i i
S n (sin frecuencias) ,, S n (con frecuencias)
n n
14 II.- ESTADÍSTICA DESCRIPTIVA
∑( x − x ) ∑ f (x − x)
2 2
s2
n −1 = i 2
(sin frecuencias) ,, s
n −1 = i i
(con frecuencias)
n −1 n −1
• Para cálculos, son más útiles las fórmulas simplificadas de R.2.4.b.ii):
→ Más largas, pero
→ Más rápidas (mitad de los cálculos)
→ Más precisas (los redondeos se hacen al final)
− se verán en prácticas −
• s2 se mide en unidades al cuadrado ⇒ para retornar a las originales:
B
xB
¡B es mejor!
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 15
Al medir x se equivoca en s s
⇒ CV = × 100 = Coeficiente de Variación
Al medir 100 se equivoca en CV x
Comentarios
• CV = 10% ≡ de cada 100 unidades medidas se equivoca (en términos de s) en 10.
• Si CV ≤ 10% ó 20% el método es aceptable (pero la utilidad del CV es comparativa).
• Se asume que s ∝ x (y no siempre es así).
• CV no tiene dimensiones ⇒ es independiente de las unidades de medida (da igual si
se utilizan cm, km o años luz).
• CV = s / x (sin %) en otros sitios.