Está en la página 1de 14

II.

ESTADÍSTICA DESCRIPTIVA
II.1. Tipos de Datos (R.2.1)

La técnica estadística varía según el tipo de datos a analizar. Cuando se estudia


un carácter, los datos a que este da lugar pueden ser:
a) Cuantitativos: Si se trata de un carácter que da lugar a una cantidad. Pueden ser:
i) Discretos: Si toman valores numéricos aislados (se “cuentan”): nº de bacterias, nº
de latidos, nº de hijos, etc. Entre dos valores de ellos no tiene por qué existir otro.
ii) Continuos: Si toman cualquier valor entre unos márgenes (se “miden”): peso,
glucosa en sangre, etc. Entre dos valores de ellos siempre puede existir otro.
En la práctica todos los datos cuantitativos son discretos (por la precisión de los
aparatos de medida), pero la distinción “filosófica” entre ambos permanece a efectos
estadísticos.
b) Cualitativos: Si no se expresan numéricamente, sino que dan lugar a una cualidad
(se “asignan”): grupo sanguíneo, sexo, etc. Pueden ser de dos tipos:
i) Dicotómicos ≡ Binarios: si solo aceptan dos posibilidades (sexo, curación).
ii) Multicotómicos ≡ Policotómicos: en otro caso (grupo sanguíneo). Se dividen en
dos:
→ Ordinales: si admiten una ordenación lógica, ascendente o descendente (mejo-
ría de un enfermo tras un tratamiento evaluada como “peor”, “igual” o “mejor”).
→ Nominales: en otro caso (grupo sanguíneo).

II.2. Presentación Tabular de Datos (R.2.2)

• La Tabla 2.1 contiene un carácter de cada tipo.


• Tabla extensa y poco indicativa: ¿cuál es el grupo sanguíneo más frecuente? …
⇒ resumir la información en tablas.
Tabla 2.1
Grupo sanguíneo, número de hermanos y peso (en kg) de 500 alumnos varones de una Universidad.

Alumno nº Grupo sanguíneo Número de hermanos Peso

1 A 0 70,502
2 B 3 67,231
--- --- --- ---
500 AB 2 71,676

• Para ello hay que definir lo siguiente (primera columna de las tablas que se
aludidirán):
4 II.- ESTADÍSTICA DESCRIPTIVA

→ Clases/Modalidades del carácter (si cualitativa o discreta): Tablas 2.2 y 2.3.


→ Intervalos de Clase (si continua): Tabla 2.4.

Tabla 2.2
Distribución del grupo sanguíneo en 500 alumnos varones de una Universidad.
Grupo Frecuencia absoluta Frecuencia relativa Porcentaje
sanguíneo (fi) (hi) (%)
A 150 0,30 30%
B 75 0,15 15%
AB 25 0,05 5%
O 250 0,50 50%
Total 500 1,00 100%

Tabla 2.3
Distribución del número de hermanos (excluido él mismo) de una muestra de 500
alumnos varones de una Universidad

Número de hermanos fi hi %
0 72 0,144 14,4%
1 155 0,310 31,0%
2 97 0,194 19,4%
3 81 0,162 16,2%
4 30 0,060 6,0%
5 27 0,054 5,4%
6 20 0,040 4,0%
7 o más 18 0,036 3,6%
Total 500 1,000 100,0%

Tabla 2.4
Distribución del peso (x) en kg de una muestra de 500 alumnos varones de una Universidad.

Intervalo de clase fi hi % Marca de clase


x < 45 1 0,002 0,2 42,5
45 ≤ x < 50 3 0,006 0,6 47,5
50 ≤ x < 55 12 0,024 2,4 52,5
55 ≤ x < 60 75 0,150 15,0 57,5
60 ≤ x < 65 103 0,206 20,6 62,5
65 ≤ x < 70 155 0,310 31,0 67,5
70 ≤ x < 75 101 0,202 20,2 72,5
75 ≤ x < 80 29 0,058 5,8 77,5
80 ≤ x < 85 11 0,022 2,2 82,5
85 ≤ x < 90 8 0,016 1,6 87,5
x ≥ 90 2 0,004 0,4 92,5
Total 500 1,000 100,0 ---
¡se permiten clases extremas especiales (“cajón de sastre”)!
• Caso especial (datos discretos con muchos valores posibles): “nº de enfermos/día
en una Urgencia durante un año” ⇒ clases demasiado numerosas ⇒ intervalos
de clase (en las clases intermedias se omite el ≤ por no haber lugar a confusión):
≤ 20 ,, 21-30 ,, 31-40 ,, ……… ≥ 51
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 5

• A cada clase se le anota las (columnas 2 y 3 de las tablas anteriores):


→ Frecuencia absoluta (fi): nº individuos en la clase.
f1 + f 2 + ... + f K = ∑ f i = n

→ Frecuencia relativa (hi = fi /n) con fines comparativos (∑hi = 1) pues:


Si n = 500 ,, f 3 = 25 (como en T.2.2) ⇒ h3 = 25 / 500 = 0,05 = 5%

Si n′ = 1000 ,, f 3 = 60 (en otra muestra) ⇒ h3 = 60 / 1.000 = 0,06 = 6%
' '

¿Dónde es más frecuente el grupo AB?


Comparar las f´s no sirve ⇒ hay que comparar las h´s
h3′ = 6% > h3 = 5% ⇒ es más frecuente en la segunda muestra.

Otras frecuencias relativas


hi ×100, 1.000, 10.000 → 0
0
, 0
00
, 0 000 para casos raros
(los recién nacidos muertos en España son el 1,5 por mil ≡ 1,5‰)
Ver la 4ª columna de las Tablas 2.2 a 2.4, donde se dan los %.

Caso especial de la Tabla 2.4


• Clases (no deben solaparse ni dejar huecos) definidas por un Límite Inferior (LI) y un
Límite Superior (LS): salvo las extremas.
• Longitud de Clase (L = LS −LI): conviene que sea constante (5 kg aquí).
• Marca de Clase (LI + LS)/2 en última columna: 47,5 = (45+50)/2, 47,5+5 = 52,5 etc.
(las clases extremas siguen la regla). Es un número que representa a todo el intervalo
de clase.
• Número de clases y Longitud de las mismas: dependen de n y de la dispersión de los
datos:
→ Si n aumenta ⇒ nº de clases aumenta.
→ Si dispersión aumenta ⇒ longitud aumenta (pesos ratas vs. personas).
→ De modo general conviene de 5 a 20 clases.

Limitación aparatos medida


• Si solo medimos kilos redondos (es continua, pero el aparato la convierte en discreta)
puede hacerse:
Menos de 45 ,, 45-49 ,, 50-54 ,, … 90 ó más
→ ¡Hay huecos, pero no hay duda!
→ 49,3 no puede ocurrir, pero existe.
→ Se sobreentiende que: 50-54 ≡ 49 ,5 ≤ x < 54 ,5 o 49 ,5 < x ≤ 54 ,5 (irrelevante)
6 II.- ESTADÍSTICA DESCRIPTIVA

(media unidad de redondeo arriba y abajo) (pero la marca de clase no cambia)

Condiciones Generales para las Tablas


• Toda distribución de frecuencias (tabla con clases y frecuencias) debe tener:
→ Un enunciado claro (antes no se conoce la Universidad ni el año).
→ Unidades de medida (¿kilos o libras?).
→ Igual nº decimales por columna: 3,1 ≠ 3,10 (en precisión).
→ Totales.
→ Quedar “bonita” (fi sube y baja pausadamente, en lo posible) ⇒ última clase de
T.2.3 es prematura: f8 = 18 grande vs. f7 = 20 anterior ⇒ faltarían al menos las
clases “7” y “más de 7”.

Clases “cajón de sastre”


• Siempre son una pérdida de información.
• Son aceptables para simplificar: Tablas + Gráficos.
• No para otros fines: Media + Varianza, etc.

II.3. Representación Gráfica de Datos (R.2.3)

• Tablas: dan una información completa, pero compleja.


• Gráficas: son más globales, sencillas y sugerentes.
• Principio general: Área proporcional a la frecuencia.

II.3.1. Histograma

• Si sobre cada punto (intervalo) del eje de abscisas se levanta una barra (rectángulo) de
tanta altura como frecuencia haya (absoluta o relativa), se obtiene un diagrama de
barras (histograma) ⇒ Figuras 2.1 a 2.3.
• Con frecuencia, la palabra “histograma” alude a ambas representaciones.

60 160
50 140
120
40
100
% 30 f 80
20 60
10 40
20
0
0
A B AB O
0 1 2 3 4 5 6 >6
Figura 2.1 Figura 2.2
Histograma (diagrama de barras) de frecuencias Histograma (diagrama de barras) de
relativas de la Tabla 2.2 frecuencias absolutas de la Tabla 2.3
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 7

180
160
140
120
100
f
80
60
40
20
0
4 0-45 45-50 50-55 55-60 60-65 65-70 70-7 5 75-80 80-85 85 -90 90-95

Figura 2.3
Histograma de frecuencias absolutas de la Tabla 2.4

• Válido en los 3 casos + pueden ser de frecuencias absolutas o relativas.


• Clases extremas: igual regla que el resto.
• Si datos redondeados (kg de antes): extender media unidad de redondeo a izquierda y
derecha para evitar los huecos ficticios.
• Ahora es más fácil ver la clase más frecuente y comparar las frecuencias de las clases.

II.3.2. Polígono de Frecuencias

Se obtiene uniendo con una poligonal los puntos del plano que tienen por abscisa la
clase o marca de clase y por ordenada la frecuencia (absoluta o relativa).

180 35
160 30
140 25
120
20
100 %
f 80 15
60 10
40 5
20
0 0
0 1 2 3 4 5 6 7 40 50 60 70 80 90 100

Figura 2.4 Figura 2.5


Polígono de frecuencias absolutas de la Tabla 2.3. Polígono de frecuencias relativas de la Tabla 2.4.

• Útil para ver cómo evoluciona la frecuencia con las clases.


• No válido para nominales.
• ¡No predice la frecuencia para 3,5 hijos (por ejemplo)!

II.3.3. Diagrama de Sectores

• Se obtiene si en un círculo se asigna a cada clase un sector de área proporcional a la


frecuencia de la clase ⇒ Tabla 2.5 y Figura 2.6.
8 II.- ESTADÍSTICA DESCRIPTIVA

• El ángulo que lo delimita es 360×hi (en grados) para el círculo completo o 180×hi en
el caso de un semicírculo (como en los resultados electorales).
• Es válido siempre (pero suele reservarse para nominales).

Figura 2.6
Tabla 2.5 Diagrama de sectores para la Tabla 2.5.
Mortalidad por grupos de causas
(España 1979)
Resto

Causa % Mal def.

Aparato circulatorio 46,07 Ap. Dig.


Tumores 19,66
Aparato respiratorio 8,59 Externa Ap. Circ.
Externa 5,53
Aparato digestivo 5,46
Mal definida 4,18 Ap.
Resp.
Resto 10,51
Total 100,00
Tumores

II.3.4. Comentarios

• Condiciones: similares a las de las tablas.


• Finalidad: clarificar resultados ⇒ no usar figuras complejas como F.2.7.
• Uso habitual
→ En Investigación: Histograma + Polígono de frecuencias;
→ En Divulgación: Diagrama de Sectores.
18 Almería
16 Cádiz
14 Córdoba
12 Granada

10 Huelva
Jaén
8
Málaga
6
Sevilla
4
2
0
1950 1960 1970

Figura 2.7: Número de médicos por 10.000 habitantes en las 3 décadas indicadas
y en las 8 provincias andaluzas.

Gráficas tendenciosas
Las gráficas se prestan a más manipulaciones que las tablas.
• Figura 2.8(a) ≡ Figura 2.8(b), pero en (b) la escala vertical está cortada: es lícito, ¡pero
sobrevalora visualmente la eficacia de B!
• T.2.6 ⇒ F.2.9(a) ≡ F.2.9(b), pero en (b) la escala vertical está cortada (eso no afecta)
y “estirada”: es lícito, ¡pero sobrevalora la necesidad de personal! (la poligonal tiene
más pendiente). Lo mismo se puede lograr si la escala horizontal se “comprime”.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 9

50 49
40 47
45
30
% % 43
20 41
10 39
0 37
A B A B

(a) (b)

Figura 2.8: Porcentaje de curación de una enfermedad con los fármacos A (40%) y B (44%).

Tabla 2.6
Número de entradas (en miles) a un Servicio de Urgencias en diversos años.

Año 1977 1978 1979 1980


fi 10 12 15 20

25
25
20 21
15
17
10
5 13
0
1977 1978 1979 1980 9
1977 1978 1979 1980
(a) (b )
Figura 2.9
Número de entradas (en miles) a un Servicio de Urgencias. Datos de la Tabla 2.6.

Mezcla de información
Para comparar dos distribuciones (o más) es mejor una gráfica conjunta
(¡siempre con frecuencias relativas!)
• Datos no continuos: Histograma adosado de la Figura 2.10.
• Datos no nominales: Polígono de frecuencias de la Figura 2.11.
(las gráficas aluden a los datos de los ejemplos iniciales y a otros datos de otra
Universidad, a fin de comparar ambas).
0,6 35

0,5 30

25
0,4
20
h 0,3 %
15
0,2
10
0,1 5

0 0
A B AB O
,5
,5
,5
,5
,5
,5
,5
,5
,5
,5
,5
42
47
52
57
62
67
72
77
82
87
92

Figura 2.10 Figura 2.11


10 II.- ESTADÍSTICA DESCRIPTIVA

II.4. Síntesis de Datos (R.2.4)

• Las observaciones están perfectamente definidas si se conocen sus valores originales


(en continuas) o sus valores agrupados en clases no cajón de sastre (en discretas o
cualitativas).
• Pero es más simple y suficientemente representativo dar uno o más números que
compriman adecuadamente la información de la muestra, que son las llamadas:

Medidas de una distribución con frecuencias:


→ De Posición: describen cómo se encuentra el resto de la muestra con respecto a
ella (como la mediana, que indica que la mitad de la muestra está por debajo y la
mitad por encima).
→ De Dispersión: describen cómo de variables o dispersos son los datos (la muestra
3, 4, 5 es menos dispersa que la muestra 1, 4, 7).

II.4.1. Medidas de Posición

• De sí Tendencia Central (moda, mediana y media): es un número que representa a


toda la muestra, indicando cuál es su “centro” (en distintos sentidos).
• De no Tendencia Central (percentiles, deciles, cuartiles): es un número que se
posiciona en la muestra, indicando dónde están los demás con respecto a él.

Moda (M)
• Nominales: la clase con más frecuencia (grupo O en Tabla 2.2) ⇒ máximo absoluto
de frecuencia.
• Resto: igual definición inicial, pero ahora también tendrán interés los máximos
relativos del polígono de frecuencias (las clases con más frecuencia que las
adyacentes) como los dos de la Figura 2.12 (3 y 12 días). Ambos son moda y la
distribución es bimodal (frente a la unimodal de la Figura 2.5).

25
20
15
%
10
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Número de dias
Figura 2.12
Distribución del número de días de baja anuales en una plantilla de 9.870 trabajadores,
de entre los que tuvieron al menos una baja.


BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 11

• Moda = la clase con más frecuencia absoluta (si nominal) o relativa (resto de los
casos):
→ Válida: siempre.
→ Utilidad del polígono de frecuencias para determinarlas (cuando es lícito).
→ Tiene sentido si n grande y datos en intervalo de clase (si continua), pues con n
pequeño varía mucho de una muestra a otra.

Mediana (m)
• Definición: número que divide a la muestra (ordenada de menor a mayor) en dos
partes iguales ⇒ ocupa la posición (n+1)/2 + puede no ser un valor de la muestra (ni
siquiera un valor lícito).
• Ejemplo:
Datos originales: 5, 1, 7, 2, 9 (n = 5) 5, 1, 7, 2 (n = 4)
Datos ordenados: 1, 2, 5, 7, 9 1, 2, 5, 7
Posiciones: 1, 2, 3, 4, 5 1, 2, 3, 4
⇓ ⇓
2+5
Mediana = 5 → (2 a izda.+2 a dcha.) ← Mediana = = 3,5
2
n+1 2+3 4 +1
Posición = 3 → ← Posición = = 2 ,5 =
2 2 2
• No válida en nominales (no tienen orden con el que ordenar).

Cuartiles
• Mediana = 1 no que divide a la muestra en 2 partes (m).
• Cuartil = 3 nos que dividen a la muestra en 4 partes (c1, c2, c3).
• Decil = 9 nos que dividen a la muestra en 10 partes (d1, d2, …, d9).
• Percentil = 99 nos que dividen a la muestra en 100 partes (p1, p2, …, p99).

• Percentil pi: deja a su izquierda (incluido él mismo) un “i%” de la muestra ordenada
de menor a mayor.
• Cuartiles ci: c1 = p25 , c2 = p50 , c3 = p75

• Deciles di: d1 = p10 , d 2 = p20 , ... , d9 = p90

m ≈ c2 = d 5 = p50 (partir en 2 ≠ dejar el 50% a su izquierda).


• Validez: no en nominales (pues requiere de la existencia de un orden).
• Utilidad: para describir casos raros con n grande (los percentiles 10 y 90 del peso de
los recién nacidos son útiles para el diagnóstico).
12 II.- ESTADÍSTICA DESCRIPTIVA

• Cálculo más detallado: en prácticas.

Media aritmética ( x )

• Es intuitivo para todos que la calificación media de una asignatura es:

x=
∑x i
(sin frecuencia) ⇒ x =
∑fx i i
(con frecuencia).
n n
• Validez: en cuantitativas (xi = marcas de clase si hay intervalos de clase).
• Cálculo: en prácticas.
• Tipos: media aritmética (la actual), geométrica, armónica (que no se ven) y
ponderada (que se ve abajo).

Media ponderada ( x p )

xp =
∑w x i i
con wi los pesos de ponderación (importancia de los valores xi, objetiva o
∑w i subjetiva).

• wi = f i si hay frecuencias ⇒ x de antes.


• Ejemplo (calificación expediente alumno):
Asignatura: A B C
Nota: 5 7 9 = xi 5+7+9 5×9 + 7 ×5 + 9× 5
⇒x= = 7 ≠ xp = = 6 ,58
Créditos: 9 5 5 = wi 3 9+5+5

Comentarios globales
• Más frecuentes: M, m y x .
(suelen ser distintas, salvo en muestras simétricas como 5, 5, 7, 7, 7, 9, 9).
• Moda: se usa poco en Ciencia y casi nunca en Inferencia.
• Mediana: útil en descriptiva + no se afecta por los datos extremos.
• Media: la más importante y frecuente + sí se afecta por los datos extremos.

1, 3, 4, 5 → x = 3, 25 ,, m = 3,5
(≠) (=)
1, 3, 4, 12 → x = 5, 00 ,, m = 3,5

• Ejemplo de selección: si x = “número de días estancia tras una operación”:


→ Administrador: usará la media (pues ×n da el costo total) pues le importan los
valores extremos (influyen en el costo).
→ Jefe Servicios Médicos: usará la mediana para medir la calidad de la asistencia (los
casos extremos serán raros y no relevantes para la evaluación global).
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 13

II.4.2. Medidas de Dispersión


• La media no basta para describir la muestra (4, 5, 6 igual media que 0, 5, 10).

x
Figura 2.13: Dos muestras con igual media, pero con distinta dispersión

• Si datos iguales (2, 2, 2) la dispersión debe ser 0.


• 4, 5, 6 menos disperso que 0, 5, 10.
• 2, 2, 3 menos disperso que 2, 2, 4.

Recorrido = Rango = Amplitud (A)


La diferencia entre los valores más grande y más pequeño de la muestra
• Es la más simple e intuitiva ( A = xmáx − xmín ) : si A = 30 kg ⇒ en un rango de 30 kg

está el peso de todos los individuos de la muestra (entre 40 y 70; entre 50 y 80; … no
se sabe).
• Ventaja: fácil de calcular + en iguales unidades que los datos.
• Desventaja: sólo toma dos datos (A = 4 en 1, 1, 1, 1, 5 y 1, 2, 3, 4, 5) + aumenta con n
(pues aparecerán los casos raros).
• Uso: como medida rápida (nunca en inferencia).
• Validez: para cuantitativos.

Varianza (S2 y s2) y Desviación Típica o Estándar (S y s)


Objetivo
Medir la dispersión tomando como referencia a la media x .
Definición
• Si cada dato se resta de la media ( xi − x ) se obtiene su distancia a la media y así la

suma ∑ ( x − x ) dará la dispersión total y ∑ ( x − x ) / n


i i dará la dispersión media:

¡pero esto da 0! pues las diferencias + se compensan con las −.


• El error está en que la distancia de xi a x ha de ser siempre + ⇒ xi − x ⇒ con ello:

∑ x −xi
= Desviación media (no la vemos).
n
• El valor absoluto es incómodo de tratar. Otra opción (mejor teóricamente) es la
varianza o desviación cuadrática media:

(x − x) f (x − x)
=∑ =∑
2 2
2 i 2 i i
S n (sin frecuencias) ,, S n (con frecuencias)
n n
14 II.- ESTADÍSTICA DESCRIPTIVA

= media de los cuadrados de las desviaciones a la media (S2 en adelante)


• Por razones de eficacia (ver Capítulo IV) se usa como varianza s2 a:

∑( x − x ) ∑ f (x − x)
2 2

s2
n −1 = i 2
(sin frecuencias) ,, s
n −1 = i i
(con frecuencias)
n −1 n −1
• Para cálculos, son más útiles las fórmulas simplificadas de R.2.4.b.ii):
→ Más largas, pero
→ Más rápidas (mitad de los cálculos)
→ Más precisas (los redondeos se hacen al final)
− se verán en prácticas −
• s2 se mide en unidades al cuadrado ⇒ para retornar a las originales:

s = s 2 = Desviación Típica o Desviación Estándar

Rango Intercuartílico (RI)


Objetivo
• Medir la dispersión tomando como referencia a la mediana m.
• RI = c3 − c1 = 20 kg ⇒ en un rango de 20 kg está la mitad de la muestra.
Adecuada
• Para cantidades.
• Si n es grande.
• Si se usa la mediana como medida de posición.

Coeficiente de Variación (CV)


Motivación
• Un método de medida (de colesterol, glucosa, etc.) va bien si al medir varias veces
una misma cosa ocurre que x ≈ contenido real.
• Pero, si hay dos métodos A y B que van bien, ¿cuál es el mejor?
Definición
• Si “ x A = xB ≈ Real” al medir varias veces el mismo objeto con ambos, será mejor el de
menor dispersión (el de menor s) pues cuando hagamos una única medida (que es lo
habitual) es el que más se aproximará a lo real.
xA
A

B
xB
¡B es mejor!
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 15

• Si “ x A = Real A ≠ xB = Real B ” (lo habitual) ya no es tan fácil decidir (están midiendo


distinta cantidad). Por ejemplo:

A mide altura edificio: x A = 2.500 cm ,, sA = 2


¿cuál es mejor?
B mide altura persona: xB = 170 cm ,, sB = 1

Al medir x se equivoca en s s
⇒ CV = × 100 = Coeficiente de Variación
Al medir 100 se equivoca en CV x

(la desviación típica medida en unidades de media)



será mejor el de menor CV (el A) pues:
CVA = ( 2 / 2.500 ) × 100 = 0,08% < CVB = (1 / 170) × 100 = 0,59%

Comentarios
• CV = 10% ≡ de cada 100 unidades medidas se equivoca (en términos de s) en 10.
• Si CV ≤ 10% ó 20% el método es aceptable (pero la utilidad del CV es comparativa).
• Se asume que s ∝ x (y no siempre es así).
• CV no tiene dimensiones ⇒ es independiente de las unidades de medida (da igual si
se utilizan cm, km o años luz).
• CV = s / x (sin %) en otros sitios.

Hacer ya la relación de Cuestiones + Problemas

También podría gustarte