Documentos de Académico
Documentos de Profesional
Documentos de Cultura
descripción de datos
Índice
1. Medidas Descriptivas 1
1.1. Medidas de Posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Representaciones gráficas 20
2.1. Gráficos para describir variables discretas y categóricas . . . . . . . . . . . 20
2.2. Gráficos para describir variables cuantitativas continuas . . . . . . . . . . . 23
1. Medidas Descriptivas
x1 , x2 , . . . , xn .
1
2 Tema 2: Medidas numéricas para la descripción de datos
n: tamaño muestral;
x1 , x2 , . . . , xn : valores de X en la muestra observada;
k: número de valores distintos de X en la muestra (k ≤ n);
x
e1 , x
e2 , . . . , x
ek : valores distintos de X en la muestra ordenados en orden creciente;
x(1) , x(2) , . . . , x(n) : valores de la muestra ordenados de forma creciente:
x(1) = mı́n{x1 , . . . , xn }; . . . ; x(n) = máx{x1 , . . . , xn }.
Las medidas de posición o medidas de localización son coeficientes que indican por
dónde están las observaciones de la variable. Distinguiremos entre medidas que indican
por dónde se encuentra el centro de las observaciones (medidas de localización central)
y se consideran medidas representativas del conjunto de datos; y medidas que indican
algún otro lugar (medidas de localización no central) dividiendo el conjunto de datos
ordenados en partes iguales. Concretamente, las medidas de posición más importantes
que estudiaremos en este apartado serán:
Todas las medidas que estudiaremos en este apartado tienen la misma unidad de medida
que las observaciones utilizadas para calcularlas.
Media Aritmética
P3 : La media es aquel valor respeto del cual se hace mı́nima la suma de las desviaciones
al cuadrado, esto es,
n
X n
X n
X
x = arg mı́n (xi − φ)2 ⇐⇒ (xi − x) ≤ 2
(xi − φ)2 ∀φ ∈ R.
φ∈R
i=1 i=1 i=1
4 Tema 2: Medidas numéricas para la descripción de datos
Mediana
Me = x( n+1 ) .
2
x( n2 ) + x( n2 +1)
Me = .
2
2−i i 1 i
Me = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1}.
2 2 2 2
Ejemplo 3. Volviendo al Ejemplo 1, los datos de la ganancia de peso de los corderos
eran:
11 12 18 10 8 13.
Para calcular la mediana del peso de los corderos de esta muestra, en primer lugar se
ordenan las observaciones en orden creciente:
8 10 11 12 13 18.
Como el tamaño muestral es par (n = 6), entonces la mediana del aumento de peso es:
11 + 12
Me = = 11, 5 libras.
2
Ejemplo 4. Supongamos que en el ejemplo de ganancia de peso de los corderos la muestra
tuviera un cordero más y que su peso fuera de 5 libras. Los datos de la ganancia de peso
de los corderos serı́an:
11 12 18 10 8 13 5.
En este caso, las observaciones ordenadas en orden creciente son:
5 8 10 11 12 13 18.
Me = x(4) = 11 libras.
Estadı́stica (Grado en Óptica) 5
La mediana del número de cigarrillos fumados a diario para la muestra dada de tamaño
n = 40 es Me = 5 cigarrillos.
Albúmina total Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
circulante (en gramos) acumulada acumulada
(99,5, 109,5] 5 5 0,1 0,1
(109,5, 119,5] 10 15 0,2 0,3
(119,5, 129,5] 12 27 0,24 0,54
(129,5, 139,5] 11 38 0,22 0,76
(139,5, 149,5] 8 46 0,16 0,92
(149,5, 159,5] 4 50 0,08 1
Totales 50 1
Para calcular la mediana, puesto que n = 50 y por tanto n/2 = 25, entonces:
25 − 15
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
12
O equivalentemente,
0, 5 − 0, 3
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
0, 24
Obsérvese que la mediana es aquel valor respecto del cual se hace mı́nima la suma del
valor absoluto de las desviaciones,
n
X n
X n
X
Me = arg mı́n |xi − φ| ⇐⇒ |xi − Me | ≤ |xi − φ| ∀φ ∈ R.
φ∈R
i=1 i=1 i=1
Moda
Si las observaciones vienen agrupadas en intervalos hay que distinguir dos casos.
Para calcular la moda absoluta, observamos que todos los intervalos tienen la misma
amplitud (10) y que el intervalo modal absoluto es (70, 80]. Por lo tanto, la moda es:
21 − 15 6
Mo = 70 + · (80 − 70) = 70 + · 10 = 76,67 kilos.
2 · 21 − (15 + 18) 9
Usamos la fórmula (2) y la distribución de frecuencias, que viene dada por la tabla:
Para ello consideremos la siguiente tabla:
N. ataques Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
x
ei ni acumulada fi acumulada
0 11 11 0,55 0,55
4 1 12 0,05 0,60
5 3 15 0,15 0,75
6 2 17 0,10 0,85
7 3 20 0,15 1
Totales 20 1
3 + 5 + 6 + 8 + 9 + 11 42 6+8
xA = = = 7 pétalos; M eA = = 7 pétalos;
6 6 2
3 + 5 + 6 + 8 + 9 + 89 120 6+8
xB = = = 20 pétalos; M eB = = 7 pétalos;
6 6 2
Media
{3,5,6,8,9,11}
0 5 10 15 20 89
Mediana
{3,5,6,8,9,89}
0 5 10 15 20 89
Media
Cuantiles
Los cuantiles de orden s de un conjunto de valores observados en una muestra son aquellos
valores que dividen a la muestra ordenada en s partes con “el mismo”número de elementos.
Entre los cuantiles destacan los cuartiles, los deciles y los percentiles. Los cuartiles
dividen la muestra ordenada en cuatro partes iguales, los deciles en diez y los percentlies
en cien. Tendremos, por por lo tanto:
Me = P50 = D5 = Q2 .
D1 = P10 , . . . , D9 = P90 .
Q1 = P25 y Q3 = P75 .
De entre los posibles cuantiles, los cuartiles son los más usados en la práctica. Los
tres cuartiles, Q1 , Q2 y Q3 , dividen la muestra ordenada en cuatro grupos y cada grupo
contiene “aproximadamente” el 25 % de datos de la muestra. En particular, para muestra
de gran tamaño, en muchos casos es correcto afirmar que:
1 Si los datos viene dados por extensión (x1 , . . . , xn ), entonces diremos que rs (n + 1)
es la posición del r-ésimo cuantil de orden s, y llamando m a la parte entera de
r
s
(n + 1), se define:
s−i i r i
Cr/s = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1, . . . , s − 1}.
s s s s
Estadı́stica (Grado en Óptica) 11
Ejemplo 14. Considere de nuevo la Tabla 1 del Ejemplo 5 referente a la variable número
de cigarrillos fumados a diario. Calcular e interpretar los tres cuartiles: Q1 ,Q2 y Q3 .
Estadı́stica (Grado en Óptica) 13
Rango
R := x(n) − x(1)
es una medida de variabilidad que no tiene en cuenta como se distribuyen las ob-
servaciones dentro de su rango de variación (por esta razón, no es muy utilizada en
la práctica, a pesar de su sencillez);
Ejemplo 15. Queremos analizar el tiempo (en horas) que cada semana dedican al estudio
los estudiantes de Óptica. Para ello hemos seleccionado una muestra de 13 estudiantes de
14 Tema 2: Medidas numéricas para la descripción de datos
Óptica, y les hemos preguntado el tiempo que dedicaron al estudio en la última semana.
Los resultados han sido:
24 15 23 27 34 21 20 10 21 18 23 21 29
10 15 18 20 21 21 21 23 23 24 27 29 34
observamos que n = 13, x(1) = 10 y x(13) = 34, por lo que el rango de la muestra es:
Rango intercuartı́lico
RIQ = Q3 − Q1
es una medida de variabilidad central: un valor pequeño de RIQ indica que todas
las observaciones centrales están muy concentradas (poca variabilidad en el centro),
mientras que un valor grande indica lo contrario;
10 15 18 20 21 21 21 23 23 24 27 29 34
4−2 2 1 1
Q3 = x(9) + x(10) = (x(10) + x(11) ) = (24 + 27) = 25,5 horas
4 4 4 2
Interpretación: al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o
menos; y al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o más.
Por lo tanto, RIQ = Q3 − Q1 = 25,5 − 19 = 6,5 horas. Interpretación: en un inter-
valo de longitud 6,5 horas están concentradas aproximadamente el 50 % de observaciones
centrales de la muestra.
La varianza y su raı́z positiva, la desviación tı́pica, son las medidas de dispersión más
importantes, estando éstas ı́ntimamente ligadas a la media como medida de representación
del conjunto de datos. La varianza de un conjunto de valores observados en una muestra,
y que denotaremos por s2x , se define como la suma de los cuadrados de las diferencias de
cada valor xi respecto de la media, dividida por el tamaño muestral. Esto es:
n
1X
s2x := (xi − x)2 (5)
n i=1
vale cero sólo en el caso de que todos los valores de la variable en la muestra sean
iguales. En este caso, todos los valores coincidirán con la media aritmética y la media
representará perfectamente al conjunto de datos;
k
xi − x)2 = 4, 7875 cigarrillos2 . La desviación tı́pica de la variable “número de
P
fi · (e
i=1 p
cigarrillos fumados a diario” es sx = s2x = 2,188 cigarrillos.
n n
(xi − x)2 = x2i − nx2 , de donde una fórmula alternativa a (5) para el cálculo
P P
i=1 i=1
de la varianza es: !
n
1X 2
s2x = x − x2
n i=1 i
Desviación absoluta
Obsérvese que todas las medidas de dispersión que se han ilustrado hasta ahora de-
penden de las unidades de medidas de la variable estadı́stica objeto de estudio. Esto
implica que:
Coeficiente de Variación
2. Representaciones gráficas
Ejemplo 22. En una encuesta, se ha preguntado a una muestra de 112 estudiantes uni-
versitarios en qué medida consideraban saludable su estilo de vida. Las respuestas po-
sibles eran: muy saludable/bastante saludable/poco saludable/nada saludable. De los 112
estudiantes, 28 contestaron que su estilo de vida era muy saludable, 55 que era bastante
saludable, 20 que era poco saludable y 9 que no era nada saludable. Estos resultados se
presentan en la Tabla 8.
mayor número de valores que los gráficos de sectores. Son más versátiles que los gráficos
de sectores y al igual que con éstos también se pueden conseguir efectos especiales como
3D, giros e iluminaciones.
En ocasiones, el diagrama de barras se presenta ordenando las categorı́as de más
frecuente a menos frecuente. Este tipo de diagrama de barras recibe el nombre de diagrama
de Pareto, y se utiliza para ver si las frecuencias decrecen lentamente o rápidamente. Para
construir un diagrama de barras:
Ejemplo 23. La tabla de frecuencias para la variable Tipo de tratamiento que vimos en
el Ejemplo 1 de Tema 1 es la siguiente:
Cuando observamos una variable numérica continua, siempre habrá muchos resultados
diferentes en la muestra. En este caso, para realizar gráficos que permitan visualizar
cómo se distribuyen las observaciones es necesario comenzar agrupándolas, como ya vimos
cuando estudiamos las distribuciones de frecuencias para las variables continuas. Vamos
a ver los tres tipos de gráficos más utilizados: el histograma, el polı́gono de frecuencias
acumuladas, y el diagrama de caja.
Una vez agrupadas las observaciones en clases, el histograma se obtiene simplemente
representando barras verticales sobre los intervalos considerados como clases, siendo la
altura de cada barra la frecuencia. El histograma sirve para visualizar cómo se distribuyen
las observaciones en el intervalo de variación de la variable. Este gráfico permite dar
respuesta, de modo intuitivo, a preguntas como: ¿hay mayor proporción de observaciones
en la zona central o en los extremos?, ¿se reparten las observaciones de modo simétrico
respecto al centro?
Los histogramas son parecidos en forma a los diagramas de barras, pero su uso se
restringe únicamente a las variables continuas: los histogramas representan frecuencias
agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de
barras, los histogramas dibujan rectángulos unidos entre sı́, lo que significa que existe
una continuidad en la variable cuyos valores se representan en el eje horizontal. Este eje
horizontal se halla dividido en intervalos (usualmente de igual amplitud) sobre los que se
elevan rectángulos de altura proporcional a su frecuencia. Por lo tanto, las áreas de los
rectángulos son proporcionales a las frecuencias que representan. En particular:
Si todos los intervalos tienen la misma amplitud, entonces los rectángulos tendrán la
misma base y sólo se diferenciarán en la altura, que es proporcional a la frecuencia
del intervalo.
Si se usan intervalos de distinta amplitud, entonces la altura de cada intervalo se
f recuencia
obtiene de acuerdo con la fórmula: altura = .
amplitud
Tiempo de Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
ejecución de clase acumulada acumulada
[222, 234] 228 4 4 0,100 0,100
(234, 246] 240 7 11 0,175 0,275
(246, 258] 252 10 21 0,250 0,525
(258, 270] 264 13 34 0,325 0,850
(270, 282] 276 4 38 0,100 0,950
(282, 294] 288 2 40 0,050 1,000
Total 40 1
Examinando el histograma obtenido se observa que: (1) hay una mayor proporción de
observaciones en el centro que en los extremos, lo que nos lleva a pensar que estas obser-
vaciones no tienen una distribución uniforme; (2) el decrecimiento a derecha e izquierda
del centro no es similar, por lo que no hay simetrı́a, y esto nos lleva a pensar que estas
observaciones no tienen una distribución normal.
Ejemplo 25. La distribución de frecuencias para la variable ‘Presión sistólica’ del Ejem-
plo 1 del Tema 1 viene en la Tabla 11. Representar el histograma correspondiente.
Presión Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
sistólica de clase acumulada acumulada
[140,60, 143,26) 141,93 13 13 0,2167 0,2167
[143,26, 145,92) 144,59 6 19 0,1000 0,3167
[145,92, 148,58) 147,25 16 35 0,2666 0,5833
[148,58, 151,24) 149,91 12 47 0,2000 0,7833
[151,24, 153,90] 152,27 13 60 0,2167 1,0000
Total 60 1
Una desventaja del histograma es que la gráfica de un histograma puede ser muy
distinta para los mismos datos, simplemente variando el número de clases, por lo que la
elección del número de clases (no hay un método universal para ello) debe hacerse con
cuidado porque puede condicionar los resultados obtenidos.
Otro gráfico que se utiliza para describir cómo se distribuyen las observaciones de una
variable continua es el llamado polı́gono de frecuencias acumuladas. Se llama ası́ a la
lı́nea poligonal que une los puntos (c0 , 0), (c1 , F1 ), . . ., (ck , Fk ), siendo c0 el extremo inferior
de la primera clase, c1 , . . ., ck los extremos superiores de las clases 1, . . . , k, y F1 , . . . , Fk
las frecuencias relativas acumuladas de las clases 1, . . . , k. Este polı́gono también recibe
el nombre de ojiva.
Este polı́gono también nos permite ver dónde hay una mayor proporción de ob-
servaciones: en las zonas en donde los segmentos correspondientes tengan mayor
pendiente (porque ahı́ es donde hay más crecimiento de la frecuencia acumulada
relativa).
Ejemplo 26. Para los datos del Ejemplo 24, el polı́gono de frecuencias acumuladas es:
✬ Tema 2: Medidas numéricas para la descripción de datos ✩
Tema 1. Sı́ntesis de datos unideminesionales 125
26
Tercer cuartil
(3ª bisagra de Tukey) ½ La caja contiene el
° 50% de los valores
Mediana ¾ centrales de la
°
Primer cuartil ¿ muestra ordenada
(a) Describir las dos muestras utilizando la información proporcionada por los diagra-
mas de caja en la Figura 2.
placebo y al otro un fármaco experimental FL113. Después de un ejercicio controlado
sobre una “cinta sin fin”, se determinó el tiempo de recuperación de cada rata. A
continuación se muestran los diagramas de caja para la variable “Tiempo de
recuperación
Estadı́stica (Grado en(enÓptica)
segundos)” en las dos muestras. 27
500
400
300
200
Placebo FL113
Figura 2: Diagramas de caja para la variable ‘Tiempo de recuperación’ (en segundos) para
las muestrasFigura
de ratas tratadasdecon
1: Diagramas cajaplacebo y con FL113
para la variable “Tiempo de recuperación” (en
segundos) para las muestras de ratas tratadas con placebo y con FL113.
I a) Describir las dos muestras utilizando la información proporcionada por los
diagramas de caja en figura 1.
b) ¿Los datos sugieren alguna diferencia entre el tiempo de recuperación de los
ratones tratados con placebo y aquellos tratados con FL113? Argumentar la
respuesta utilizando las medidas descriptivas que se pueden identificar a partir
de los diagramas de caja en figura 1.
28 Tema 2: Medidas numéricas para la descripción de datos
(b) ¿Sugieren los datos alguna diferencia entre el tiempo de recuperación de los ratones
tratados con placebo y aquellos tratados con FL113? Argumentar la respuesta utili-
zando las medidas descriptivas que se pueden identificar a partir de los diagramas
de caja en la Figura 2.
(1) Las ratas que toman el FL113 tienden a tener un tiempo de recuperación menor que
el de las ratas que toman el placebo-
(2) El tiempo de recuperación es más homogéneo en las ratas que toman el FL113 que en
las ratas que toman el placebo (es decir, el tiempo de recuperación presenta mayor
variabilidad en las ratas que toman el placebo respecto a las ratas que toman el
FL113).
Con respecto a (1): Todas las ratas en el estudio que toman el FL113 tienen un tiempo
de recuperación inferior a los 410 segundos mientras que al menos el 25 % de las ratas
que toman el placebo tiene un tiempo de recuperación superior a 410 (entre 410 y 550
segundos).
Además, si se excluye la rata de la muestra FL113 que tiene un tiempo de recuperación
inusualmente alto, el resto de la muestra FL113 (es decir el 98 % de las 50 ratas que toman
el FL113) tiene un tiempo de recuperación menor o igual que 370 segundos mientras que
al menos el 50 % de la muestra placebo tiene un tiempo de recuperación mayor o igual que
380 segundos (entre 380 y 550).
En la misma lı́nea, podemos afirmar que al menos el 75 % de las ratas en el estudio
que toman placebo tiene un tiempo de recuperación mayor o igual que 315 segundos (entre
315 y 550) mientras que: al menos el 75 % de las 50 ratas que toman el FL113 tienen un
tiempo de recuperación menor o igual que 310 (entre 200 y 310); y al menos un 50 % de
las 50 ratas que toman el FL113 tienen un tiempo de recuperación menor o igual que 280
(entre 200 y 280).
Por último, si se excluye la rata de la muestra placebo que tiene un tiempo de recupe-
ración inusualmente bajo, el resto de la muestra placebo (es decir el 98 % de las 50 ratas
que toman el placebo) tiene un tiempo de recuperación mayor o igual que a 250 segun-
dos mientras que al menos el 25 % de la muestra que toma el FL113 tiene un tiempo de
recuperación menor o igual que 250 segundos (entre 200 y 250).
Con respecto a (2): El tiempo de recuperación (en segundos) en la muestra de ratas
que toman el FL113 toma valores en el intervalo [200,410] cuya longitud (210) es aproxi-
madamente la mitad de la longitud del correspondiente intervalo para la muestra placebo
(cuyo tiempo de recuperación varı́a en el intervalo [150,550]). La misma proporción se
mantiene si calculamos el intervalo de valores que toma el tiempo de recuperación en las
dos muestras excluyendo en cada una de ellas los valores atı́picos o el 50 % de todos los
valores que corresponden a las observaciones más extremas (es decir, el 25 % de todas las
observaciones que en la muestra ordenada corresponden a las observaciones más gran-
des y el 25 % de todas las observaciones que en la muestra ordenada corresponden a las
observaciones más pequeñas).
Estadı́stica (Grado en Óptica) 29
A modo de conclusión para esta sección, señalar que, como norma general, las repre-
sentaciones gráficas deben verificar las siguientes condiciones:
2. Deben explicarse por sı́ solas, evitando ası́ que el lector deba acudir al texto pa-
ra comprender la representación o lo que se está representando. De ahı́ que sea
fundamental que tengan un tı́tulo totalmente explicativo.