Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad01 EstadisticaDescriptiva
Unidad01 EstadisticaDescriptiva
Conceptos básicos:
2
Clasificación de las variables cuantitativas.
• Nominal: Una variable es nominal cuando los datos están dados por categorías como
casado/soltero, masculino/femenino. En este tipo de categorías no importa el orden.
• Ordinal: El nombre ordinal proviene de orden, es decir las variables son de tipo ordinal
cuando sus datos están dados por categorías en las que sí importa el orden.
Ejemplo: satisfecho/insatisfecho, calificación en el examen excelente/buena/regular/insuficiente.
Una vez que se han reunido los datos de una investigación, lo siguiente es presentar estos
datos reunidos de una forma agradable y clara de entender; para esto es necesario hacer uso
de gráficas.
Como ya se mencionó antes los datos cualitativos son aquellos que se miden de manera no
numérica, pero si categórica, por ejemplo: la satisfacción de los clientes hacia un nuevo
producto.
Entonces en este tipo de investigaciones lo que se quiere representar es que variable ha sido
medida y con qué frecuencia ha ocurrido cada valor.
Antes de hacer cualquier gráfica siempre es necesario tener una tabla estadística, en este caso
como la variable a medir es cualitativa en la tabla debe ir cada categoría y la frecuencia con
que ha ocurrido cada una.
La frecuencia se puede medir de varias maneras:
Frecuencia: número de mediciones en cada categoría, denotada como fi
fi
Frecuencia relativa: proporción de las mediciones de cada categoría, ni = n
3
Ejemplo: La empresa xyz decide realizar una encuesta para conocer la satisfacción de los
clientes hacia su nuevo producto, escoge 100 clientes al azar y a estos se les pregunta si están
satisfechos/insatisfechos con el producto.
Categoría Frecuencia
Satisfecho 65
Insatisfecho 35
TOTAL 100
Por lo general las gráficas usadas para representar datos cualitativos son: Una gráfica de
sectores o pastel, o una gráfica de Barras.
A continuación ampliaremos la tabla anterior añadiendo las columnas de frecuencia relativa,
porcentaje y ángulo; donde el ángulo es el ángulo de la porción que le toca a cada categoría
dentro de la gráfica de sectores o pastel.
Recordemos que:
Frecuencia relativa = f recuencia/n
Porcentaje = f recuencia relativa × 100
Angulo = f recuencia relativa × 360◦
Con la anterior tabla sería simple realizar el diagrama de sectores de forma manual, ahora
veremos el código correspondiente para realizarlo en R.
#' Supongamos que la variable resultado tiene los datos de la encuesta,
#' y que los 1 representan Satisfecho y los 2 Insatisfecho.
resultado<-c(1,2,1,1,1,2,1,2,1,2,1,1,1,1,1,1,2,1,2,1,2,1,1,1,
2,2,1,1,2,1,1,2,1,1,1,2,1,1,2,1,1,2,1,1,2,1,1,1,
1,2,1,1,2,1,2,1,1,2,2,1,1,1,2,1,1,1,1,1,2,2,2,1,
2,2,1,1,2,1,1,2,1,1,1,1,1,2,2,1,2,1,1,1,2,1,1,1,
2,1,2,2)
## resultado
4
## Satisfecho Insatisfecho
## 65 35
#' Ahora podemos crear el gráfico de sectores o torta.
pie(table(resultado),labels=paste(names(table(resultado)),
table(resultado)/sum(table(resultado))*100,"%"),col=terrain.colors(2),
main = "Gráfico de Sectores")
Gráfico de Sectores
Satisfecho 65 %
Insatisfecho 35 %
#' Y el de barras.
barplot(table(resultado),main="Gráfico de Barras",col=terrain.colors(2),
ylim=c(0,100))
legend("topright",legend=levels(resultado),fil=terrain.colors(2),bty="n")
5
Gráfico de Barras
100
Satisfecho
Insatisfecho
80
60
40
20
0
Satisfecho Insatisfecho
Las variables cuantitativas miden una cantidad en cada unidad experimental, si la variable
toma un número contable de valores se dice que es discreta, de lo contrario será continua.
Graficas de Puntos
Muchos conjuntos de datos cuantitativos constan de números que no es posible separar de
forma simple en categorías o en intervalos de tiempo.
La gráfica más simple para representar datos cuantitativos es la gráfica de puntos.
Ejemplo: La siguiente tabla registra la información correspondiente a la temperatura corporal
de 10 pacientes antes y después de suministrarles cierto medicamento.
Paciente 1 2 3 4 5 6 7 8 9 10
Antes 40.2 41.5 39.4 40.1 41.7 39.5 40.2 39.9 38.9 40
Después 37 36.8 35.7 37.9 38 39.2 35 36.3 37 36.4
6
antes<-c(40.2,41.5,39.4,40.1,41.7,39.5,40.2,39.9,38.9,40)
despues<-c(37,36.8,35.7,37.9,38,39.2,35,36.3,37,36.4)
temperatura<-c(antes,despues)
grupos<-gl(2,10,labels=c("Antes", "Después"))
stripchart(temperatura~grupos,pch=c(21,20),main="Gráfico de
Puntos",xlab="Temperatura")
Gráfico de
Puntos
Después
Antes
35 36 37 38 39 40 41
Temperatura
Graficas de líneas
Cuando la información de una variable observada se registra en intervalos igualmente espaci-
ados (por ejemplo: semanas, meses, años), el conjunto de datos forma una serie de tiempo.
La mejor forma de representar datos de series de tiempos es con graficas de líneas, la idea de
estas graficas es encontrar el patrón o tendencia de los datos.
Diagramas de tallo y hojas
Este tipo de diagrama es otra forma simple de mostrar un conjunto de datos cuantitativos.
Consiste en tomar cada valor del conjunto de datos y dividirlo en unidades y decenas, así por
ejemplo si se tiene el valor 25; el tallo es 2 y la hoja es 5.
Ejemplo: Supongamos que tenemos el precio en dólares de 25 químicos necesarios para una
formula.
34, 98, 34, 87, 23, 76, 19, 65, 92, 40, 29, 21, 32, 28, 11, 35, 17, 99, 79, 84, 36, 23, 15, 79, 48
7
La solución en R sería:
datos<-c(34,98,34,87,23,76,19,65,92,40,29,21,32,28,11,35,17,
99,79,84,36,23,15,79,48)
library(aplpack) #' Se carga la libreria necesaria.
## 1 | 2: represents 12
## leaf unit: 1
## n: 25
## 4 1 | 1579
## 9 2 | 13389
## (5) 3 | 24456
## 11 4 | 08
## 5 |
## 9 6 | 5
## 8 7 | 699
## 5 8 | 47
## 3 9 | 289
Observemos que en la columna de la izquierda está (5) esto no indica que la mediana está en
esa fila, y que hay 5 datos, el resto de valores de la primera columna lleva la sumatoria de la
cantidad de datos que hay por debajo y por encima de la fila que contiene la mediana.
Los datos de la columna del centro son los tallos y los de la derecha las hojas así por ejemplo
los números 11 15 17 19 se representan como 1 | 1579.
Histograma de frecuencias relativas
Un histograma de frecuencias se asemeja a una gráfica de barras, donde la altura de la barra
muestra cuan frecuente ocurren las mediciones (medidas como una proporción o frecuencia
relativa).
Para construir un histograma de frecuencias relativas usualmente se eligen entre 5 y 20
intervalos de clase si hacemos una analogía estas serían como las categorías de las variables
cualitativas.
Hay muchas formas de elegir la cantidad de intervalos de clase, estas son algunas:
√
K≈ n
K ≈ 1 + 3, 3 × log10 (n)( F ormula de Sturges )
ln(n)
K≈ ln(2)
Recordemos que:
Frecuencia Absoluta: Es el número de veces que se repite un determinado valor en el
conjunto de datos observado; denotado por fi
8
Frecuencia Relativa: Es el cociente entre la frecuencia absoluta y la cantidad de datos
observados, ni = fni
Frecuencia Acumulada: Es la suma de la frecuencias absolutas que son inferiores al valor
P
considerado, denotado como Fi = fi
Frecuencia Relativa Acumulada: Es el cociente entre una frecuencia acumulada determi-
nada y el número total de datos observados, detonado como Ni = ni = Fni
P
9
Nota: Muchas veces la frecuencia relativa es representada como fri y la frecuencia relativa
acumulada como Fri
En R sería
#' Lectura de los datos de la tabla 2-1 de Montgomery
datos<-c(105,221,183,186,121,181,180,143,97,154,
153,174,120,168,167,141,245,228,174,199,
181,158,176,110,163,131,154,115,160,208,
158,133,207,180,190,193,194,133,156,123,
134,178,76,167,184,135,229,146,218,157,
101,171,165,172,158,169,199,151,142,163,
145,171,148,158,160,175,149,87,160,237,
150,135,196,201,200,176,150,170,118,149)
hist(datos,breaks=seq(70,250,by=20),right = FALSE,labels=TRUE,col = 3,
border = 1,ylim = c(0,25),main = "Histograma Tabla t2-1 Libro Guía",
ylab = "Frecuencia",xlab = "Datos")
22
20
17
Frecuencia
15
14
10
10
6
4
5
3
2 2
0
Datos
10
Polígono de frecuencia con R
Si queremos crear un polígono de frecuencia el código en R sería el siguiente.
Antes que nada en caso de no tener el paquete agricolae lo debemos instalar.
Luego
histograma<- hist(datos,breaks=seq(70,250,by=20), right = FALSE,labels=TRUE,
col = 3, border = 1,ylim = c(0,25),main = "Polígono",
ylab = "Frecuencia",xlab = "Datos")
Polígono
25
22
20
17
Frecuencia
15
14
10
10
6
4
5
3
2 2
0
Datos
Ojiva con R
ogive.freq(histograma,type="l",col=3,frame=F,ylab = "Frecuencia R. Acumulada",
xlab = "Datos")
11
1.0
Frecuencia R. Acumulada
0.8
0.6
0.4
0.2
0.0
Datos
## Datos RCF
## 1 70 0.0000
## 2 90 0.0250
## 3 110 0.0625
## 4 130 0.1375
## 5 150 0.3125
## 6 170 0.5875
## 7 190 0.8000
## 8 210 0.9250
## 9 230 0.9750
## 10 250 1.0000
## 11 270 1.0000
Este tipo de medidas tiene como finalidad identificar el punto sobre el cual se tienden a reunir
los valores de una muestra.
Media aritmética: La media aritmética de un conjunto de n observaciones x1 , x2 , x3 , ..., xn
es igual a la suma de las observaciones dividida entre n (número de observaciones).
12
Pn
x1 + x2 + x3 + ... + xn i=1 xi
x= =
n n
Ejemplo: Se solicita calcular la media aritmética de los siguientes datos: 12, 15, 10, 9, 11, 7, 8, 13
Sol.
12 + 15 + 10 + 9 + 11 + 7 + 8 + 13 85
x= = = 10.62
8 8
Mediana: La mediana se un conjunto de valores x1 , x2 , x3 , ..., xn es el valor tal que la mitad
de las observaciones son menores o iguales que él y la otra mitad son mayores o iguales que él.
Si x(1) , x(2) , x(3) , ..., x(n) es una muestra ordenada de forma creciente de acuerdo a su magnitud,
y la cantidad de elementos es impar la mediana es el elemento en la posición n+1 2
Si por el contrario la cantidad de elementos es un número par entonces la mediana está dada
por el promedio de los elementos que ocupan las posiciones n2 y ( n2 + 1)
x( n+1 )
(
2
si n es impar ( caso 1 )
Me = x( n )+x( n +1)
2
2
2
si n es par ( caso 2 )
x( n2 ) + x( n2 + 1)
Me =
2
x( 26 ) + x( 62 + 1) x(3) + x(4)
Me = =
2 2
5+7
Me = =6
2
13
Como vimos se tomaron los elemento de las posiciones 3 y 4 que en este caso eran 5 y 7 y se
promediaron dando como resultado 6.
Pero como ya lo habrán notado si n > 2 la mediana no es susceptible a picos altos es decir,
se pueden tener datos como 4, 156, 3, 7, 9 donde la mediana sería 7, al igual que si tenemos
6, 3, 20, 14, 7 y son conjuntos de datos bastante distintos.
Es ahí cuando surgen otros conceptos que aportan más información acerca de los datos
observados.
Moda: La moda nos indica cual es el valor que más se repite dentro de un conjunto de
datos, en algunos casos puede haber más de un valor que más se repite, pueden denominarse
bimodales o multimodales según la cantidad de valores que más se repitan.
Ejemplo: Cuál es la moda de los siguientes conjuntos de datos.
a) 2, 5, 8, 9, 2, 7, 6, 5, 2, 1, 5, 2, 9, 2, 9
Sol. La moda es 2
b) 12, 6, 45, 23, 7, 4, 7, 1, 9, 12, 10, 7, 5, 12
Sol. La moda es 7 y 12
Medidas de dispersión
Las medidas de dispersión básicamente buscan conocer que tan alejados o dispersos están los
elementos.
Rango: Diferencia entra la observación más grande y la más pequeña.
r = max(xi ) − min(xi )
Varianza
La varianza mide la dispersión de los valores respecto a la media y es expresada en unidades
cuadradas.
14
Pn
2 i=1 (xi − x)2
S =
n−1
Desviación estándar
La desviación estándar muestral denotada como S, es la raíz cuadrada positiva de la varianza
sP
√ n
− x)2
i=1 (xi
S = S2 =
n−1
1 + 4 + 7 + 9 + 12 33
x= = = 6.6
5 5
Entonces la varianza es:
S
CV = × 100%
x
Medidas de Posición
Cuantiles: Son aquellos valores de la variable, que ordenados de menor a mayor, dividen a
la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de
frecuencias.
Cuartiles: que dividen a la distribución en cuatro partes.
Deciles: que dividen a la distribución en diez partes.
15
Percentiles: que dividen a la distribución en cien partes.
De estos los más usados son los cuartiles y percentiles
Cuartiles
El primer cuartil o cuartil inferior, notado como Q1 , es un valor tal que el 25% de los datos
es menor o igual que él y el 75% restante es mayor que él.
El tercer cuartil, notado como Q3 , es un valor que tiene el 75% de los datos por debajo y el
25% por encima.
Percentiles
El 100k -esimo percentil 0 < k < 1, denotado por pk, es un valor tal que al menos el 100k%
de las observaciones son menores o iguales que él y al menos el 100(1 − k)% son mayores o
iguales que él.
Tenga muy en cuenta que Q1 = p0,25 , Me = p0,5 y Q3 = p0,75
Ejemplo: los siguientes datos representan la venta de avenas (en unidades), en la cafetería de
la Universidad de Córdoba, en el mes de agosto.
12, 10, 34, 45, 32, 43, 9, 87, 54, 76, 23, 78, 98, 23, 43, 21, 34, 83, 81, 31, 55, 30, 48, 39, 29, 45, 87, 45, 30, 80
Calcular
• Los Cuartiles
• El percentil 22
• El percentil 80
Sol.
Lo primero es ordenar los datos, la cantidad de datos es n = 30
9, 10, 12, 21, 23, 23, 29, 30, 30, 31, 32, 34, 34, 39, 43, 43, 45, 45, 45, 48, 54, 55, 76, 78, 80, 81, 83, 87, 87, 98
• El primer cuartil es el percentil 25, Q1 = p0,25 por lo tanto k = 0, 25 entonces
nk = 30 × 0.25 = 7.5
Como no es un número entero se aproxima al entero siguiente en este caso 8
Y el valor que está en la posición 8 es 30 entonces p0,25 = Q1 = 30
Nota: Cuando se halla la posición en la que está el dato se debe buscar en los datos ordenados,
si se busca en los datos originales (desordenados) será incorrecto.
• El segundo cuartil es le percentil 50 o media entonces k = 0, 50 , nk = 30 × 0, 50 = 15
Pero hay que notar algo el percentil 50 es la media, y en este caso el número de datos es 30
entonces se debe aplicar el caso 2 para calcular la media.
x( n2 ) + x( n2 + 1)
Me =
2
16
Entonces
x( 30
2
) + x( 30
2
+ 1) x(15) + x(16)
Q2 = Me = =
2 2
x(15) = 43 x(16) = 43
(43 + 43)
Q2 = Me = = 43
2
Por lo tanto el segundo cuartil es 43
• El tercer cuartil es el percentil 75, k = 0, 75 entonces nk = 30 × 0, 75 = 22, 5 lo
aproximamos al entero siguiente en este caso 23, entonces el tercer cuartil es el dato en
la posición 23 de la lista de datos ordenados.
x(23) = 76
p0,75 = Q3 = 76
• Para el Percentil 22, k = 0, 22 entonces nk = 30 × 0, 22 = 6, 6 como no es entero lo
aproximamos a 7 y buscamos el valor en la posición 7 dentro de la lista ordenada
x(7) = 29
p0,22 = 29
• Para el percentil 80 tenemos que k = 0, 80 entonces nk = 30 × 0, 80 = 24 Buscamos el
valor en la posición 24
x(24) = 78
p0,80 = 78
La gráfica de cajas
Hasta el momento las gráficas más significativas han sido quizás la gráfica de tallos y hojas y
el histograma, las cuales nos proporcionan un buen panorama visual del conjunto de datos
observado. Pero la gráfica de cajas nos proporciona más información de forma simultánea:
el centro, la dispersión, la desviación de la simetría, además podemos observar los puntos
atípicos del conjunto de datos, estos puntos son los que están más alejado del grueso de los
datos.
Este tipo de grafico se representa como una caja rectangular (horizontal o vertical), en la que
la se pueden observar los tres cuartiles, la línea izquierda (o inferior) representa el primer
17
cuartil, la del centro el segundo cuartil que como sabemos es la mediana, y la línea superior
(o derecha) el tercer cuartil.
Gráfica de Cajas en R
#' Si tomamos los datos del anterior ejemplo
datos <- c(12,10,34,45,32,43,9,87,54,76,23,78,98,23,43,21,34,
83,81,31,55,30,48,39,29,45,87,45,30,80)
boxplot(datos);
100
80
60
40
20
18
Ensayo 1 2 3 4 5 6 7 8 9 10
Formula 1 5600 4300 4600 3490 6010 5200 3100 5500 6200 5100
Formula 2 7200 6900 6780 6300 7300 7100 6600 6100 6940 7450
Formula 3 3400 3200 5100 5450 4800 5200 4500 7100 6100 5900
with(mydf, boxplot(y~x))
7000
6000
5000
4000
3000
1 2 3
19