Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo8 PDF
Capitulo8 PDF
Medidas de 90
80
Posición y
70
60
AGE
Boxplot
50
40
30
Lección 11 20
Secc. 2.6
Prof. Pedro A. Torres
ESMA 3015
febrero de 2007
Cuartiles
Son los valores que dividen los datos en cuatro partes iguales (cuartos).
• El primer cuartil (Q1) es el valor tal que el 25% de los datos son
menores a él.
• El segundo cuartil (Q2) es el valor tal que el 50% de los datos son
menores a él (la mediana).
• El primer cuartil (Q3) es el valor tal que el 75% de los datos son
menores a el.
Los datos deben estar ordenados de menor a mayor
25% 25% 25% 25%
Q1 Q2 Q3 Prof. Pedro A. Torres, ESMA 3015
UPRM
Medidas de Posición
Percentiles
Son los valores que dividen los datos en cien partes iguales. El percentil k (se
escribe Pk ) es el valor tal que el k% de los datos son menores a él.
Contrariamente, el (100-k)% de los datos son mayores a este valor.
Por ejemplo, si en la variable peso el percentil 13 es igual a 110 libras, esto indica
que el 13% de las personas tienen un peso menor a 110 libras.
Notas:
• El cuartil 1, Q1, es el mismo P25.
• El cuartil 2, Q2, es el mismo P25. Ambos son iguales a la mediana.
1% 1% 1% 1% 1% … 1% 1%
Min. P1 P2 P3 P4 P5 … P98 P99 Máx.
Prof. Pedro A. Torres, ESMA 3015
UPRM
Procedimiento para calcular un percentil k
Pk
Objetivo: hallar el valor del percentil identificando el número
de dato que corresponde al percentil que se quiere buscar.
• Ordene los datos de menor a mayor.
• Calcule nk/100.
- Si el número anterior (nk/100) es un decimal, aproxime al
siguiente número. El dato correspondiente a este número
es el Pk.
- Si el número (nk/100) es un entero entonces el Pk es igual
al promedio del dato correspondiente a este número y el
siguiente dato.
Prof. Pedro A. Torres, ESMA 3015
UPRM
Ejemplo
Calcule los cuartiles (Q1, Q2 y Q3) y los percentiles 15 y 65 de los siguientes datos
de edades:
37, 54, 15, 25, 30, 68, 26, 23, 25, 26, 27, 24
1. Ordene los datos:
15, 23, 24, 25, 25, 26, 26, 27, 30, 37, 54, 68
2. Calcule nk/100: n = 12
Percentil (k) nk/100 EL percentil es igual a: Valor del Percentil
15 1.8 Dato 2 P15 = 23
25 (Q1) 3 Promedio entre el dato 3 y 4 P25=24.5
Interpretación: por ejemplo, el P65=27, indica que el 65% de las personas tienen
edades menores a 27 años. Prof. Pedro A. Torres, ESMA 3015
UPRM
Otras medidas
Cuartil medio: Esta es otra medida de tendencia central. Es el
promedio entre Q1 y Q3: Q1 + Q3
Cuartil medio =
2
Ejemplo:
Ejemplo siguiendo con los datos del ejemplo anterior:
24.5 + 33.5
Cuartil medio = = 29
2
Ejemplo:
Ejemplo Rango IQ = 33.5 − 24.5 = 9
Valores grandes indican mayor dispersión o variabilidad en los datos.
Prof. Pedro A. Torres, ESMA 3015
UPRM
Resumen con cinco medidas
Algunas veces se analiza la distribución de los datos usando
cinco medidas importantes:
1. El mínimo
2. Q1 o el P25
3. La mediana
4. Q3 o el P75
5. El máximo
Ejemplo:
15 24.5 26 33.5 68
Mínimo Q1 Mediana Q3 Máximo
EDAD
40
variabilidad en los datos. Q3
Del centro de la caja salen dos 30
Mediana
segmentos, uno hasta el mínimo y el otro 20
Q1
hasta el máximo. Estos segmentos 10
Mínimo
representan los datos que están por fuera
del rango inter-cuartílico. *Cuando existen outliers, los valores
Dentro de la caja se dibuja una línea extremos (mínimo y máximo) se
horizontal la cual indica la mediana de seleccionan sin tener en cuenta los
los datos. outliers.
Algunas veces, los outliers son
representados por símbolos especiales (*, En Minitab, se hacen usando el menú
+, etc). Graph→Boxplot. Esta opción permite
personalizar bastante el diagrama.
Prof. Pedro A. Torres, ESMA 3015
UPRM
Interpretaciones del Boxplot
Una buena forma de ver como se interpreta el boxplot es comparándolo con un
histograma
Histogram of CHOLESTEROL Boxplot of CHOLESTEROL
70 900
60 800
700
50
600
CHOLESTEROL
Frequency
40
500
30
400
20 300
10 200
100
0
150 300 450 600 750 900
CHOLESTEROL 0
50
200
40
Frequency
150
30
FAT
20 100
10
50
0
30 60 90 120 150 180 210 240
FAT 0
Histograma más concentrado alrededor de Los asteriscos indican que hay outliers.
un valor (70-80), pero con cierto sesgo a la
Los bigotes casi simétricos indican una
derecha.
distribución cercana a la simetría. Hay un
Presencia de outliers. ligero sesgo a la derecha.
20 700
600
CHOLESTEROL
Percent
15
500
10 400
300
5
200
100
0
150 300 450 600 750 900
0
CHOLESTEROL
1 2
Panel variable: SEX SEX
Mediante un histograma, muchas veces es En este caso, el boxplot permite visualizar dos
difícil decidir que grupo es más disperso o aspectos relevantes:
cual es superior.
• Los datos de colesterol en los hombres
(Sex=1) presentan mayor variabilidad que en las
mujeres (caja más ancha).
• Los niveles de colesterol tienden
Prof. Pedro a ESMA
A. Torres, ser mayores
3015
en los hombres (caja y mediana más altas). UPRM
Ejercicio usando Minitab
Con la base de datos Retinol_Plasma, Boxplot of QUETELET vs USOVITAMINAS
Use la opción 45
Graph→Boxplot→Within Groups. 40
QUETELET
35
30
Para personalizar la información que
muestra el boxplot use la opción Data 25
15
1=SI,FRECUENTEMENTE 2=SI,OCASIONALMENTE 3=NO
USOVITAMINAS
Recomendaciones:
Leer las sección 2.6 del libro.