Está en la página 1de 19

1

Unidad 01: Estadística Descriptiva

Conceptos básicos:

El concepto quizás más importante es la misma definición de estadística, si se toma una


persona al azar y se le pregunta en que consiste o de que se encarga la estadística es muy
probable que responda que no lo tiene del todo claro; pero sin saberlo día a día está frente a
observaciones estadísticas, el simple hecho de tomar el periódico y observar secciones en las
que se tocan temas como: en lo que va corrido del año se han presentado 3459 accidentes de
tránsito 4% más que el año pasado; el 45% de los colombianos tienen una visión favorable
hacia el presidente.
Entonces la estadística está relacionada con la recopilación, presentación y análisis de los
datos, que pueden ser utilizados para tomar decisiones óptimas con el fin de dar solución a
un problema.
Estadística descriptiva: Tiene como finalidad resumir y describir las características im-
portantes de un conjunto de mediciones.
Estadística Inferencial: Consta de procedimientos usados para hacer inferencias acerca
de las características de la población, a partir de la información contenida en una muestra
extraída de la población.
Población: Colección completa de todas las observaciones de interés para el investigador.
Ejemplo: Los habitantes de un determinado país.
Parámetro: Medida descriptiva de la población.
Muestra: Parte o subconjunto que representa la población que se selecciona para ser
estudiada, ya que la población es demasiado grande para ser estudiada en su totalidad.
Ejemplo: Los habitantes del municipio de Cereté, los estudiantes del programa de Ingeniería
de Sistemas de la Universidad de Córdoba que están en 6 semestre.
Variable: Característica de la población que es de interés en la investigación.

Clasificación de las Variables:

• Cuantitativas: Pueden expresarse numéricamente.


Ejemplo: edad, ingresos, estatura, temperatura, peso, etc.
• Cualitativas: Se miden de manera no numérica.
Ejemplo: preferencias, tipo de sangre, estado civil, etc.
Además estas tienen una sub clasificación.

2
Clasificación de las variables cuantitativas.

• Discretas: Los valores se limitan a valores enteros.


Ejemplo: Número de hermanos, número de infracciones de tránsito de un conductor, cantidad
de hijos de una pareja, etc.
• Continuas: Pueden tomar valores reales.
Ejemplo: Peso, temperatura, distancia, tiempo, etc.

Clasificación de las variables cualitativas.

• Nominal: Una variable es nominal cuando los datos están dados por categorías como
casado/soltero, masculino/femenino. En este tipo de categorías no importa el orden.
• Ordinal: El nombre ordinal proviene de orden, es decir las variables son de tipo ordinal
cuando sus datos están dados por categorías en las que sí importa el orden.
Ejemplo: satisfecho/insatisfecho, calificación en el examen excelente/buena/regular/insuficiente.

Representación gráfica de datos

Una vez que se han reunido los datos de una investigación, lo siguiente es presentar estos
datos reunidos de una forma agradable y clara de entender; para esto es necesario hacer uso
de gráficas.

Representación gráfica de datos cualitativos.

Como ya se mencionó antes los datos cualitativos son aquellos que se miden de manera no
numérica, pero si categórica, por ejemplo: la satisfacción de los clientes hacia un nuevo
producto.
Entonces en este tipo de investigaciones lo que se quiere representar es que variable ha sido
medida y con qué frecuencia ha ocurrido cada valor.
Antes de hacer cualquier gráfica siempre es necesario tener una tabla estadística, en este caso
como la variable a medir es cualitativa en la tabla debe ir cada categoría y la frecuencia con
que ha ocurrido cada una.
La frecuencia se puede medir de varias maneras:
Frecuencia: número de mediciones en cada categoría, denotada como fi
fi
Frecuencia relativa: proporción de las mediciones de cada categoría, ni = n

Porcentaje: porcentaje de mediciones de cada categoría.

3
Ejemplo: La empresa xyz decide realizar una encuesta para conocer la satisfacción de los
clientes hacia su nuevo producto, escoge 100 clientes al azar y a estos se les pregunta si están
satisfechos/insatisfechos con el producto.

Categoría Frecuencia
Satisfecho 65
Insatisfecho 35
TOTAL 100

Por lo general las gráficas usadas para representar datos cualitativos son: Una gráfica de
sectores o pastel, o una gráfica de Barras.
A continuación ampliaremos la tabla anterior añadiendo las columnas de frecuencia relativa,
porcentaje y ángulo; donde el ángulo es el ángulo de la porción que le toca a cada categoría
dentro de la gráfica de sectores o pastel.
Recordemos que:
Frecuencia relativa = f recuencia/n
Porcentaje = f recuencia relativa × 100
Angulo = f recuencia relativa × 360◦

Categoría Frecuencia F. Relativa Porcentaje Angulo


Satisfecho 65 0.65 65 % 234◦
Insatisfecho 35 0.35 35 % 126◦
TOTAL 100 1.00 100 % 360◦

Con la anterior tabla sería simple realizar el diagrama de sectores de forma manual, ahora
veremos el código correspondiente para realizarlo en R.
#' Supongamos que la variable resultado tiene los datos de la encuesta,
#' y que los 1 representan Satisfecho y los 2 Insatisfecho.

resultado<-c(1,2,1,1,1,2,1,2,1,2,1,1,1,1,1,1,2,1,2,1,2,1,1,1,
2,2,1,1,2,1,1,2,1,1,1,2,1,1,2,1,1,2,1,1,2,1,1,1,
1,2,1,1,2,1,2,1,1,2,2,1,1,1,2,1,1,1,1,1,2,2,2,1,
2,2,1,1,2,1,1,2,1,1,1,1,1,2,2,1,2,1,1,1,2,1,1,1,
2,1,2,2)

#' Creamos un factor de acuerdo a los resultados.


resultado<-factor(resultado,labels=c("Satisfecho","Insatisfecho"))
table(resultado)

## resultado

4
## Satisfecho Insatisfecho
## 65 35
#' Ahora podemos crear el gráfico de sectores o torta.
pie(table(resultado),labels=paste(names(table(resultado)),
table(resultado)/sum(table(resultado))*100,"%"),col=terrain.colors(2),
main = "Gráfico de Sectores")

Gráfico de Sectores

Satisfecho 65 %

Insatisfecho 35 %

#' Y el de barras.
barplot(table(resultado),main="Gráfico de Barras",col=terrain.colors(2),
ylim=c(0,100))
legend("topright",legend=levels(resultado),fil=terrain.colors(2),bty="n")

5
Gráfico de Barras
100

Satisfecho
Insatisfecho
80
60
40
20
0

Satisfecho Insatisfecho

Representación gráfica de datos cuantitativos

Las variables cuantitativas miden una cantidad en cada unidad experimental, si la variable
toma un número contable de valores se dice que es discreta, de lo contrario será continua.
Graficas de Puntos
Muchos conjuntos de datos cuantitativos constan de números que no es posible separar de
forma simple en categorías o en intervalos de tiempo.
La gráfica más simple para representar datos cuantitativos es la gráfica de puntos.
Ejemplo: La siguiente tabla registra la información correspondiente a la temperatura corporal
de 10 pacientes antes y después de suministrarles cierto medicamento.

Paciente 1 2 3 4 5 6 7 8 9 10
Antes 40.2 41.5 39.4 40.1 41.7 39.5 40.2 39.9 38.9 40
Después 37 36.8 35.7 37.9 38 39.2 35 36.3 37 36.4

El código en R sería el siguiente:

6
antes<-c(40.2,41.5,39.4,40.1,41.7,39.5,40.2,39.9,38.9,40)
despues<-c(37,36.8,35.7,37.9,38,39.2,35,36.3,37,36.4)
temperatura<-c(antes,despues)
grupos<-gl(2,10,labels=c("Antes", "Después"))
stripchart(temperatura~grupos,pch=c(21,20),main="Gráfico de
Puntos",xlab="Temperatura")

Gráfico de
Puntos
Después
Antes

35 36 37 38 39 40 41

Temperatura

Graficas de líneas
Cuando la información de una variable observada se registra en intervalos igualmente espaci-
ados (por ejemplo: semanas, meses, años), el conjunto de datos forma una serie de tiempo.
La mejor forma de representar datos de series de tiempos es con graficas de líneas, la idea de
estas graficas es encontrar el patrón o tendencia de los datos.
Diagramas de tallo y hojas
Este tipo de diagrama es otra forma simple de mostrar un conjunto de datos cuantitativos.
Consiste en tomar cada valor del conjunto de datos y dividirlo en unidades y decenas, así por
ejemplo si se tiene el valor 25; el tallo es 2 y la hoja es 5.
Ejemplo: Supongamos que tenemos el precio en dólares de 25 químicos necesarios para una
formula.
34, 98, 34, 87, 23, 76, 19, 65, 92, 40, 29, 21, 32, 28, 11, 35, 17, 99, 79, 84, 36, 23, 15, 79, 48

7
La solución en R sería:
datos<-c(34,98,34,87,23,76,19,65,92,40,29,21,32,28,11,35,17,
99,79,84,36,23,15,79,48)
library(aplpack) #' Se carga la libreria necesaria.

## Loading required package: tcltk


stem.leaf(datos,trim.outliers = FALSE)

## 1 | 2: represents 12
## leaf unit: 1
## n: 25
## 4 1 | 1579
## 9 2 | 13389
## (5) 3 | 24456
## 11 4 | 08
## 5 |
## 9 6 | 5
## 8 7 | 699
## 5 8 | 47
## 3 9 | 289
Observemos que en la columna de la izquierda está (5) esto no indica que la mediana está en
esa fila, y que hay 5 datos, el resto de valores de la primera columna lleva la sumatoria de la
cantidad de datos que hay por debajo y por encima de la fila que contiene la mediana.
Los datos de la columna del centro son los tallos y los de la derecha las hojas así por ejemplo
los números 11 15 17 19 se representan como 1 | 1579.
Histograma de frecuencias relativas
Un histograma de frecuencias se asemeja a una gráfica de barras, donde la altura de la barra
muestra cuan frecuente ocurren las mediciones (medidas como una proporción o frecuencia
relativa).
Para construir un histograma de frecuencias relativas usualmente se eligen entre 5 y 20
intervalos de clase si hacemos una analogía estas serían como las categorías de las variables
cualitativas.
Hay muchas formas de elegir la cantidad de intervalos de clase, estas son algunas:

K≈ n
K ≈ 1 + 3, 3 × log10 (n)( F ormula de Sturges )
ln(n)
K≈ ln(2)

Recordemos que:
Frecuencia Absoluta: Es el número de veces que se repite un determinado valor en el
conjunto de datos observado; denotado por fi

8
Frecuencia Relativa: Es el cociente entre la frecuencia absoluta y la cantidad de datos
observados, ni = fni
Frecuencia Acumulada: Es la suma de la frecuencias absolutas que son inferiores al valor
P
considerado, denotado como Fi = fi
Frecuencia Relativa Acumulada: Es el cociente entre una frecuencia acumulada determi-
nada y el número total de datos observados, detonado como Ni = ni = Fni
P

Ejemplo: Si el conjunto de datos fuera el siguiente:


105, 221, 183, 186, 121, 181, 180, 143, 97, 154, 153, 174, 120, 168, 167, 141, 245, 228, 174,
199, 181, 158, 176, 110, 163, 131, 154, 115, 160, 208, 158, 133, 207, 180, 190, 193, 194, 133,
156, 123, 134, 178, 76, 167, 184, 135, 229, 146, 218, 157, 101, 171, 165, 172, 158, 169, 199,
151, 142, 163, 145, 171, 148, 158, 160, 175, 149, 87, 160, 237, 150, 135, 196, 201, 200, 176,
150, 170, 118, 149
Primero habría que determinar la cantidad de intervalos de clase.

• Si usamos K ≈ n, para n = 80, K = 8.94 → 9
• Si usamos la fórmula de Sturges K ≈ 1 + 3, 3 × log10 (n), donde en este caso n = 80
entonces la cantidad de intervalos sería 7.28 → 8.
Luego debemos determinar la amplitud de esos intervalos, esto lo conseguimos dividiendo el
rango entre la cantidad de intervalos, en este caso r = 245 − 76 = 169
Si usamos K = 9
169
amplitud = 9
= 18.77
Si usamos K = 8
169
amplitud = 8
= 21.12
Entonces como un aproximado podríamos decir que la cantidad de intervalos de clase es 9,
con una amplitud de 20.
La tabla de frecuencias sería la siguiente:

Inf Sup MC fi fri Fi Fri


70 90 80 2 0.0250 2 0.0250
90 110 100 3 0.0375 5 0.0625
110 130 120 6 0.0750 11 0.1375
130 150 140 14 0.1750 25 0.3125
150 170 160 22 0.2750 47 0.5875
170 190 180 17 0.2125 64 0.8000
190 210 200 10 0.1250 74 0.9250
210 230 220 4 0.0500 78 0.9750
230 250 240 2 0.0250 80 1.0000
80 1.0000

9
Nota: Muchas veces la frecuencia relativa es representada como fri y la frecuencia relativa
acumulada como Fri
En R sería
#' Lectura de los datos de la tabla 2-1 de Montgomery
datos<-c(105,221,183,186,121,181,180,143,97,154,
153,174,120,168,167,141,245,228,174,199,
181,158,176,110,163,131,154,115,160,208,
158,133,207,180,190,193,194,133,156,123,
134,178,76,167,184,135,229,146,218,157,
101,171,165,172,158,169,199,151,142,163,
145,171,148,158,160,175,149,87,160,237,
150,135,196,201,200,176,150,170,118,149)

hist(datos,breaks=seq(70,250,by=20),right = FALSE,labels=TRUE,col = 3,
border = 1,ylim = c(0,25),main = "Histograma Tabla t2-1 Libro Guía",
ylab = "Frecuencia",xlab = "Datos")

Histograma Tabla t2−1 Libro Guía


25

22
20

17
Frecuencia

15

14

10
10

6
4
5

3
2 2
0

100 150 200 250

Datos

10
Polígono de frecuencia con R
Si queremos crear un polígono de frecuencia el código en R sería el siguiente.
Antes que nada en caso de no tener el paquete agricolae lo debemos instalar.
Luego
histograma<- hist(datos,breaks=seq(70,250,by=20), right = FALSE,labels=TRUE,
col = 3, border = 1,ylim = c(0,25),main = "Polígono",
ylab = "Frecuencia",xlab = "Datos")

library(agricolae) #' Se carga el paquete agricolae


polygon.freq(histograma) #' Se crea el polígono a partir del histograma

Polígono
25

22
20

17
Frecuencia

15

14

10
10

6
4
5

3
2 2
0

100 150 200 250

Datos

Ojiva con R
ogive.freq(histograma,type="l",col=3,frame=F,ylab = "Frecuencia R. Acumulada",
xlab = "Datos")

11
1.0
Frecuencia R. Acumulada

0.8

0.6

0.4

0.2

0.0

70 90 110 130 150 170 190 210 230 250 270

Datos

## Datos RCF
## 1 70 0.0000
## 2 90 0.0250
## 3 110 0.0625
## 4 130 0.1375
## 5 150 0.3125
## 6 170 0.5875
## 7 190 0.8000
## 8 210 0.9250
## 9 230 0.9750
## 10 250 1.0000
## 11 270 1.0000

Medidas de tendencia central

Este tipo de medidas tiene como finalidad identificar el punto sobre el cual se tienden a reunir
los valores de una muestra.
Media aritmética: La media aritmética de un conjunto de n observaciones x1 , x2 , x3 , ..., xn
es igual a la suma de las observaciones dividida entre n (número de observaciones).

12
Pn
x1 + x2 + x3 + ... + xn i=1 xi
x= =
n n
Ejemplo: Se solicita calcular la media aritmética de los siguientes datos: 12, 15, 10, 9, 11, 7, 8, 13
Sol.

12 + 15 + 10 + 9 + 11 + 7 + 8 + 13 85
x= = = 10.62
8 8
Mediana: La mediana se un conjunto de valores x1 , x2 , x3 , ..., xn es el valor tal que la mitad
de las observaciones son menores o iguales que él y la otra mitad son mayores o iguales que él.
Si x(1) , x(2) , x(3) , ..., x(n) es una muestra ordenada de forma creciente de acuerdo a su magnitud,
y la cantidad de elementos es impar la mediana es el elemento en la posición n+1 2

Si por el contrario la cantidad de elementos es un número par entonces la mediana está dada
por el promedio de los elementos que ocupan las posiciones n2 y ( n2 + 1)

x( n+1 )
(
2
si n es impar ( caso 1 )
Me = x( n )+x( n +1)
2
2
2
si n es par ( caso 2 )

Ejemplo: Obtener la mediana de los elementos 20, 1, 12, 9, 1, 6, 8, 2, 3


Sol.
Primero ordenamos los elementos 1, 1, 2, 3, 6, 8, 9, 12, 20
Como se observa hay 9 elementos por lo tanto se aplica el primer caso.
Me = x( n+12
) = x( 9+1
2
) = x(5) Es decir la mediana es el elemento en la posición 5 que en este
caso es 6.
Ejemplo: Obtener la mediana de los valores 4, 1, 7, 9, 10, 5
Sol.
Ordenamos ascendentemente 1, 4, 5, 7, 9, 10
Como la cantidad de elementos es par aplicamos el segundo caso.

x( n2 ) + x( n2 + 1)
Me =
2

x( 26 ) + x( 62 + 1) x(3) + x(4)
Me = =
2 2

5+7
Me = =6
2

13
Como vimos se tomaron los elemento de las posiciones 3 y 4 que en este caso eran 5 y 7 y se
promediaron dando como resultado 6.
Pero como ya lo habrán notado si n > 2 la mediana no es susceptible a picos altos es decir,
se pueden tener datos como 4, 156, 3, 7, 9 donde la mediana sería 7, al igual que si tenemos
6, 3, 20, 14, 7 y son conjuntos de datos bastante distintos.
Es ahí cuando surgen otros conceptos que aportan más información acerca de los datos
observados.
Moda: La moda nos indica cual es el valor que más se repite dentro de un conjunto de
datos, en algunos casos puede haber más de un valor que más se repite, pueden denominarse
bimodales o multimodales según la cantidad de valores que más se repitan.
Ejemplo: Cuál es la moda de los siguientes conjuntos de datos.
a) 2, 5, 8, 9, 2, 7, 6, 5, 2, 1, 5, 2, 9, 2, 9
Sol. La moda es 2
b) 12, 6, 45, 23, 7, 4, 7, 1, 9, 12, 10, 7, 5, 12
Sol. La moda es 7 y 12

Medidas de dispersión

Las medidas de dispersión básicamente buscan conocer que tan alejados o dispersos están los
elementos.
Rango: Diferencia entra la observación más grande y la más pequeña.

r = max(xi ) − min(xi )

Ejemplo: El rango de la muestra 4, 156, 3, 7, 9 es: r = 156 − 3 = 153


Y el rango de 6,3,20,14,7 es: r = 20 − 3 = 17
Pero como observamos el rango sigue sin ser suficiente ya que este ignora los elementos que
están entre el max y el min.

Varianza y desviación estándar

Varianza
La varianza mide la dispersión de los valores respecto a la media y es expresada en unidades
cuadradas.

14
Pn
2 i=1 (xi − x)2
S =
n−1
Desviación estándar
La desviación estándar muestral denotada como S, es la raíz cuadrada positiva de la varianza
sP
√ n
− x)2
i=1 (xi
S = S2 =
n−1

Ejemplo: calcular la varianza y la desviación estándar de los siguientes valores: 4, 1, 9, 12, 7


Sol.
Primero calculamos la media.

1 + 4 + 7 + 9 + 12 33
x= = = 6.6
5 5
Entonces la varianza es:

((1 − 6.6)2 + (4 − 6.6)2 + (7 − 6.6)2 + (9 − 6.6)2 + (12 − 6.6)2 )


S2 = = 18.3
5−1

Luego la desviación estándar es la raíz cuadrada de la varianza.


√ √
S = S 2 = 18.3 = 4.277

Coeficiente de variación: El coeficiente de variación permite comparar las dispersiones de


dos distribuciones distintas, siempre y cuando sus medias sean positivas.
El CV se utiliza para medir la dispersión de los datos independientemente de las unidades
que se utilicen, mientras más alto sea el CV más dispersos o variables son los datos de la
muestra observada.

S
CV = × 100%
x

Medidas de Posición

Cuantiles: Son aquellos valores de la variable, que ordenados de menor a mayor, dividen a
la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de
frecuencias.
Cuartiles: que dividen a la distribución en cuatro partes.
Deciles: que dividen a la distribución en diez partes.

15
Percentiles: que dividen a la distribución en cien partes.
De estos los más usados son los cuartiles y percentiles
Cuartiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25% de los datos
es menor o igual que él y el 75% restante es mayor que él.
El tercer cuartil, notado como Q3 , es un valor que tiene el 75% de los datos por debajo y el
25% por encima.
Percentiles
El 100k -esimo percentil 0 < k < 1, denotado por pk, es un valor tal que al menos el 100k%
de las observaciones son menores o iguales que él y al menos el 100(1 − k)% son mayores o
iguales que él.
Tenga muy en cuenta que Q1 = p0,25 , Me = p0,5 y Q3 = p0,75
Ejemplo: los siguientes datos representan la venta de avenas (en unidades), en la cafetería de
la Universidad de Córdoba, en el mes de agosto.
12, 10, 34, 45, 32, 43, 9, 87, 54, 76, 23, 78, 98, 23, 43, 21, 34, 83, 81, 31, 55, 30, 48, 39, 29, 45, 87, 45, 30, 80
Calcular
• Los Cuartiles
• El percentil 22
• El percentil 80
Sol.
Lo primero es ordenar los datos, la cantidad de datos es n = 30
9, 10, 12, 21, 23, 23, 29, 30, 30, 31, 32, 34, 34, 39, 43, 43, 45, 45, 45, 48, 54, 55, 76, 78, 80, 81, 83, 87, 87, 98
• El primer cuartil es el percentil 25, Q1 = p0,25 por lo tanto k = 0, 25 entonces
nk = 30 × 0.25 = 7.5
Como no es un número entero se aproxima al entero siguiente en este caso 8
Y el valor que está en la posición 8 es 30 entonces p0,25 = Q1 = 30
Nota: Cuando se halla la posición en la que está el dato se debe buscar en los datos ordenados,
si se busca en los datos originales (desordenados) será incorrecto.
• El segundo cuartil es le percentil 50 o media entonces k = 0, 50 , nk = 30 × 0, 50 = 15
Pero hay que notar algo el percentil 50 es la media, y en este caso el número de datos es 30
entonces se debe aplicar el caso 2 para calcular la media.

x( n2 ) + x( n2 + 1)
Me =
2

16
Entonces

x( 30
2
) + x( 30
2
+ 1) x(15) + x(16)
Q2 = Me = =
2 2
x(15) = 43 x(16) = 43

(43 + 43)
Q2 = Me = = 43
2
Por lo tanto el segundo cuartil es 43
• El tercer cuartil es el percentil 75, k = 0, 75 entonces nk = 30 × 0, 75 = 22, 5 lo
aproximamos al entero siguiente en este caso 23, entonces el tercer cuartil es el dato en
la posición 23 de la lista de datos ordenados.
x(23) = 76

p0,75 = Q3 = 76
• Para el Percentil 22, k = 0, 22 entonces nk = 30 × 0, 22 = 6, 6 como no es entero lo
aproximamos a 7 y buscamos el valor en la posición 7 dentro de la lista ordenada
x(7) = 29
p0,22 = 29
• Para el percentil 80 tenemos que k = 0, 80 entonces nk = 30 × 0, 80 = 24 Buscamos el
valor en la posición 24
x(24) = 78

p0,80 = 78

Hay un tipo de grafica que no se puede quedar sin mencionar

La gráfica de cajas
Hasta el momento las gráficas más significativas han sido quizás la gráfica de tallos y hojas y
el histograma, las cuales nos proporcionan un buen panorama visual del conjunto de datos
observado. Pero la gráfica de cajas nos proporciona más información de forma simultánea:
el centro, la dispersión, la desviación de la simetría, además podemos observar los puntos
atípicos del conjunto de datos, estos puntos son los que están más alejado del grueso de los
datos.
Este tipo de grafico se representa como una caja rectangular (horizontal o vertical), en la que
la se pueden observar los tres cuartiles, la línea izquierda (o inferior) representa el primer

17
cuartil, la del centro el segundo cuartil que como sabemos es la mediana, y la línea superior
(o derecha) el tercer cuartil.
Gráfica de Cajas en R
#' Si tomamos los datos del anterior ejemplo
datos <- c(12,10,34,45,32,43,9,87,54,76,23,78,98,23,43,21,34,
83,81,31,55,30,48,39,29,45,87,45,30,80)
boxplot(datos);
100
80
60
40
20

Como ya se había mencionado la línea inferior representa el primer cuartil Q1 , si observamos


corresponde con el cálculo que se había realizado previamente donde Q1 = 30, la línea gruesa
del centro representa la mediana, que a su vez es Q2 = 43 y la superior Q3 = 76.
Otra situación donde son bastante útiles las gráficas de cajas es cuando queremos comparar
varios conjuntos de datos, para tener información general acerca de la variación entre unos y
otros.
Ejemplo:
Una empresa constructora tiene la licitación para la construcción de un puente en la ciudad
de Montería, el ingeniero encargado tiene tres fórmulas de las cuales piensa escoger una que
será la usada para la mescla de concreto que se vaciara en el puente. El ingeniero realiza 10
ensayos para observar la resistencia de compresión (en psi) de los cilindros realizados con
cada una de las formulas. Esa información se observa en la siguiente tabla.

18
Ensayo 1 2 3 4 5 6 7 8 9 10
Formula 1 5600 4300 4600 3490 6010 5200 3100 5500 6200 5100
Formula 2 7200 6900 6780 6300 7300 7100 6600 6100 6940 7450
Formula 3 3400 3200 5100 5450 4800 5200 4500 7100 6100 5900

formula1 <- c(5600,4300,4600,3490,6010,5200,3100,5500,6200,5100)


formula2 <- c(7200,6900,6780,6300,7300,7100,6600,6100,6940,7450)
formula3 <- c(3400,3200,5100,5450,4800,5200,4500,7100,6100,5900)

mydf <- data.frame(y=c(formula1,formula2,formula3),x=c(rep(1,


length(formula1)),rep(2,length(formula2)),rep(3,length(formula3))))

with(mydf, boxplot(y~x))
7000
6000
5000
4000
3000

1 2 3

Analizando el gráfico de cajas podemos observar la resistencia de los ensayos correspondientes


a las tres fórmulas y de acuerdo a esto tomar la mejor decisión, en este caso la más adecuada
es la formula2, ya que sus ensayos muestran una mayor resistencia y además como vemos sus
datos son menos variables.

19

También podría gustarte