Documentos de Académico
Documentos de Profesional
Documentos de Cultura
n k
Menos de 50 5a7
Entre 50 y 100 6 a 10
Entre 100 y 250 7 a 12
Mas de 250 10 a 20
Notación
n: número de datos
k: número de clases
fi: frecuencia de la clase i, i=1, 2, 3, …, k
fi/n: frecuencia relativa de la clase i
Fi: frecuencia acumulada de la clase i
Fi = f1+f2+f3+…+fi
Fi/n: frecuencia acumulada relativa de la clase i
mi : marca de la clasei (es el centro de la clase i)
Ejemplo.- Los siguientes 40 datos corresponden a una muestra del tiempo que se utilizó para
atender a las personas en una estación de servicio:
3.1 4.9 2.8 3.6
4.5 3.5 2.8 4.1
2.9 2.1 3.7 4.1
2.7 4.2 3.5 3.7
3.8 2.2 4.4 2.9
5.1 1.8 2.5 6.2
2.5 3.6 5.6 4.8
3.6 6.1 5.1 3.9
4.3 5.7 4.7 4.6
5.1 4.9 4.2 3.1
Solución
1) Precisión: un decimal
2) Rango: R = mayor valor – menor valor = 6.2 – 1.8 = 4.4
3) Número de clases: k=6
4) Amplitud: R/k = 0.7333..
Por simplicidad se redefine la amplitud como 1 y se usan números enteros para los
extremos de las clases.
5) Conteo de los datos (puede hacerse en un solo recorrido de los datos con la ayuda de
cuadritos para conteo (de 5 en 5)
Clase Intervalo Frecuencia
1 [1, 2) 1
2 [2, 3) 9
3 [3, 4) 11
4 [4, 5) 12
5 [5, 6) 5
6 [6, 7) 2
n = 40
Tabla de Frecuencia
Frecuencia
Clase Intervalo Marca Frecuencia Frecuencia Frecuencia
acumulada
de clase relativa acumulada
relativa
i [a, b) m f f/n F
F/n
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 9 0.225 10 0.250
3 [3, 4) 3.5 11 0.275 21 0.525
4 [4, 5) 4.5 12 0.300 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.950
6 [6, 7) 6.5 2 0.050 40 1.000
EJERCICIOS
1) Conteste las siguientes preguntas en no más de dos líneas de texto
a) En las fuentes de recopilación de datos no se ha mencionado el uso de internet.¿Cuales
son las ventajas y peligros de su uso?
b) Al diseñar el formulario de una encuesta de investigación. ¿Por que se prefieren preguntas
con opciones para elegir?
c) El número telefónico de una persona. ¿Es un dato cualitativo o cuantitativo?
d) El dinero es un dato cuantitativo, ¿Discreto o continuo?
2) Con los resultados obtenidos y descritos en la tabla de frecuencia del ejemplo desarrollado
en esta sección, conteste las siguientes preguntas
a) ¿Cuántas personas requirieron no más de 4 minutos para ser atendidas?
b) ¿Cuántas personas requirieron entre 2 y 5 minutos?
c) ¿Cuántas personas requirieron al menos 4 minutos?
d) ¿Cuál es la duración que ocurre con mayor frecuencia?
3) Construya la tabla de frecuencia para una muestra aleatoria con datos del costo por
consumo de electricidad en una zona residencial de cierta ciudad.
96 171 202 178 147 102 153 1297 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158
MATLAB
Construcción de la tabla de frecuencias
>> m=[1.5 2.5 3.5 4.5 5.5 6.5]; Vector con las marcas de clase
2.4.1 HISTOGRAMA
Es la manera más común de representar gráficamente la distribución de frecuencia de los datos.
Se lo construye dibujando rectángulos cuya base corresponde a cada intervalo de clase, y su
altura según el valor de la frecuencia. Puede ser la frecuencia absoluta o la frecuencia relativa.
Ejemplo. Construya el histograma para el ejemplo de la unidad anterior. Use los valores de la
frecuencia absoluta
:
Tabla de Frecuencia
Frecuencia
Marca Frecuencia Frecuencia
Clase Intervalo Frecuencia relativa
de clase relativa acumulada
acumulada
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 9 0.225 10 0.250
3 [3, 4) 3.5 11 0.275 21 0.525
4 [4, 5) 4.5 12 0.300 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.950
6 [6, 7) 6.5 2 0.050 40 1.000
Histograma
El histograma permite dar una primera mirada al tipo de distribución de los datos:
1) Si las alturas de las barras son similares se dice que tiene distribución tipo “uniforme”
2) Si las alturas son mayores en la zona central se dice que tiene forma tipo “campana” y
puede ser simétrica o asimétrica, con sesgo hacia el lado positivo o al lado negativo
3) Si hay barras muy alejadas del grupo, se dice que son datos atípicos. Probablemente
estos datos se deben a errores de medición y se los puede descartar pues no
pertenecen al grupo que se desea caracterizar.
2.4.3 OJIVA
Este gráfico se usa para representar la frecuencia acumulada, absoluta o relativa. Se lo obtiene
uniendo segmentos de recta que se extienden entre los extremos de las clases y usando los
valores de la frecuencia acumulada.
La ojiva permite responder preguntas tipo “cuantos datos son menores que”
Diagrama de barras
MEDIDAS DESCRIPTIVAS
2.5 MEDIDAS DE TENDENCIA CENTRAL
Son números que definen cual es el valor alrededor del que se concentran los datos u
observaciones. Se indican a continuación los más utilizados.
x1 + x 2 + ... + xn 1 n
X= = ∑ xi
n n i =1
La media muestral es simple y de uso común. Representa el promedio aritmético de los datos.
Sin embargo, es sensible a errores en los datos. Un dato erróneo puede cambiar
significativamente el valor de la media muestral. Para evitar este problema, se puede ignorar un
pequeño porcentaje de los datos más grandes y más pequeños de la muestra antes de calcular
la media muestral
Un sólo dato cambió significativamente el valor de la media con respecto al ejemplo anterior
El subíndice entre paréntesis significa que el dato X(i) está en la posición i en el grupo ordenado.
⎧ X n+ 1 , si n es impar
~ ⎪
⎪
(
2
)
x=⎨ 1
⎪ (X n + X n ), si n es par
⎪⎩ 2 ( 2 ) ( + 1)
2
Las medidas de tendencia central no son suficientes para describir de manera precisa el
comportamiento de los datos de una muestra. Se necesitan otras medidas.
2.6.1 RANGO
Es la diferencia entre el mayor valor y el menor valor de los datos de la muestra.
Definición: Rango
∑ (X i − X)2
S =
2 i =1
Fórmula para calcular la varianza
n−1
n n
n∑ Xi2 − (∑ Xi )2
S2 = i=1 i=1
Fórmula alterna para calcular la varianza
n(n − 1)
Ambas fórmulas son equivalentes y se lo puede demostrar mediante desarrollo de las sumatorias
Entonces la varianza es
(2 − 6.75)2 + (6 − 6.75)2 + ... + (5 − 6.75)2
S2 = = 10.2143
7
S = + S2
2.7.1 CUARTILES
Son números que dividen al grupo de datos en grupos de aproximadamente el 25% de los datos
Q1: 25% de 40 = 10
Por lo tanto: Q1 = (X(10) + X(11))/2
Q3: 75% de 40 = 30
Q3 = (X(30) + X(31))/2
2.7.2 DECILES
Son números que dividen al grupo de datos en grupos de aproximadamente 10% de los datos
D1: 10% de 40 = 4
Por lo tanto: D1 = (X(4) + X(5))/2
P1: 1% de 400 = 4
Por lo tanto: P1 = (X(4) + X(5))/2 (Percentil 1)
1 k
S2 = ∑ fi (mi − X)2
n − 1 i=1
n número de datos
k número de clases
mi marca de la clase i (es el centro del intervalo de la clase)
fi frecuencia de la clase i
Δfa
Mo = Li + A
Δfa + Δfs
i intervalo en el que se encuentra la moda
Li Límite inferior del intervalo i
Δfa Exceso de la frecuencia sobre la clase inferior inmediata
Δfs Exceso de la frecuencia sobre la clase superior inmediata
A Amplitud de la clase
Mo no es un dato real pero se supone que sería el dato más frecuente
n
j( ) − Fi −1
Q j = Li + 4 A , j = 1, 2, 3 cuartiles
fi
i intervalo en el que se encuentra el primer cuartil
Li Límite inferior del intervalo i
n Número de observaciones
Fi-1 Frecuencia acumulada del intervalo anterior al intervalo i
fi frecuencia del intervalo i
A Amplitud de la clase
Ejemplo: La tabla de frecuencia siguiente contiene los datos del número de artículos vendidos por
un almacén en 50 días, agrupados en 6 clases
Media
1 k 1
X= ∑
n i=1
mi fi = [(15)(2) + (25)(10) + ... + (65)(3)] = 40.4
50
Varianza
1 k
S2 = ∑ fi (mi − X)2
n − 1 i=1
1
= [2(15 − 40.4)2 + 10(25 − 40.4)2 + ... + 3(65 − 40.4)2 ] = 164.12
49
Mediana
Para usar la fórmula debe localizarse la clase en la cual está la mediana
Siendo n = 50, la mediana es el promedio entre los datos X(25), X(26)
Estos datos se encuentran en la clase 4, por lo tanto
n 50
− F3 − 24
iX = L + 2 A = 40 + 2 10 = 40.71
4
f4 14
Moda
El intervalo en el que se considera que se encuentra la moda corresponde a la clase con mayor
frecuencia, En el ejemplo, sería la clase 4
Δfa 2
Mo = L 4 + A = 40 + 10 = 42.85 (es una valor supuesto para la moda)
Δfa + Δfs 2+5
Primer Cuartil
Q1 corresponde a la observación X(13). Este dato se encuentra en la clase 3, por lo tanto
n 50
1( ) − F2 1( ) − 12
Q1 = L3 + 4 A = 30 + 4 10 = 30.41
f3 12
Para comparar, anotamos los datos originales de los cuales se obtuvo la tabla de frecuencia:
37 48 48 57 32 63 55 34 48 36
32 47 50 46 28 19 29 33 53 68
49 26 20 63 20 41 35 38 35 25
23 38 43 43 45 54 58 53 49 32
36 45 43 12 21 55 50 27 24 42
Solución
Con las fórmulas correspondientes se pueden calcular las medidas descriptivas indicadas igual
que en el ejercicio anterior
EJERCICIOS
Se dispone de los siguientes datos incompletos en una tabla de frecuencia
Se conoce además que la media calculada con los datos agrupados es 19.7
El diagrama de caja describe gráficamente el rango de los datos, el rango intercuartílico (Q3 – Q1)
los valores extremos y la ubicación de los cuartiles. Es una representación útil para comparar
grupos de datos. Por ejemplo se resalta el hecho que el 50% de los datos está en la región
central entre los valores de los cuartiles Q1 y Q3
Ejemplo
Un fabricante ha realizado un conteo de los tipos de defectos de sus productos y ha registrado
su frecuencia. Los resultados se resumen en el siguiente cuadro
Diagrama de Pareto
Se puede observar que más del 70% de los defectos de producción corresponden a los tipos A,
B y C. Con esta información, una decisión adecuada sería asignar recursos para solucionar
estos tipos de problemas pues son los que ocurren con mayor frecuencia.
La longitud de cada fila ayuda a visualizar la frecuencia, en forma parecida a un histograma pero
al mismo tiempo se pueden observar individualmente los datos.
Se construye escribiendo verticalmente las primera(s) cifra(s) de los datos (tallo) y escribiendo
las restantes cifras horizontalmente (hojas)
65, 36, 59, 84, 79, 56, 28, 43, 67, 36, 43, 78, 37, 40, 68, 72, 55, 62, 22, 82
Se elige la cifra de las decenas como tallo y la cifra de las unidades como las hojas:
Tallo Hojas
2 2 8
3 6 6 7
4 0 3 3
5 5 6 9
6 2 5 7 8
7 2 8 9
8 2 4