Estadistica Descriptiva

PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL
2.3 TABLA DE DISTRIBUCIÓN DE FRECUENCIA

Es un dispositivo para agrupación de datos y facilitar su interpretación.
Recomendaciones para construir la Tabla de Frecuencia

1) Identificar la unidad de medida de los datos
2) Obtener el rango de los datos, R

R = mayor valor – menor valor
3) Seleccionar el numero de clases (o intervalos) k, para agrupar los datos.

Sugerencia para elegir k
Sean n: número de datos
k: Número de clases
n k
Menos de 50 5a7
Entre 50 y 100 6 a 10
Entre 100 y 250 7 a 12
Mas de 250 10 a 20
4) Obtener la amplitud de las clases,

Amplitud = R/k
Se puede redefinir la amplitud, el número de clases y los extremos de cada clase de tal
manera que las clases tengan la misma amplitud, incluyan a todos los datos y los valores
en los extremos de las clases sean simples
5) Realizar el conteo de datos para obtener la frecuencia en cada clase
Notación
n: número de datos
k: número de clases
fi: frecuencia de la clase i, i=1, 2, 3, …, k
fi/n: frecuencia relativa de la clase i
Fi: frecuencia acumulada de la clase i
Fi = f1+f2+f3+…+fi
Fi/n: frecuencia acumulada relativa de la clase i
mi : marca de la clasei (es el centro de la clase i)
Los resultados se los organiza en un cuadro denominado Tabla de Frecuencia
Ejemplo.- Los siguientes 40 datos corresponden a una muestra del tiempo que se utilizó para
atender a las personas en una estación de servicio:
3.1 4.9 2.8 3.6
4.5 3.5 2.8 4.1
2.9 2.1 3.7 4.1
2.7 4.2 3.5 3.7
3.8 2.2 4.4 2.9
5.1 1.8 2.5 6.2
2.5 3.6 5.6 4.8
3.6 6.1 5.1 3.9
4.3 5.7 4.7 4.6
5.1 4.9 4.2 3.1
Obtener la tabla de frecuencia
12 Ing. Luis Rodríguez Ojeda, MSc

Solución
1) Precisión: un decimal
2) Rango: R = mayor valor – menor valor = 6.2 – 1.8 = 4.4
3) Número de clases: k=6
4) Amplitud: R/k = 0.7333..
Por simplicidad se redefine la amplitud como 1 y se usan números enteros para los
extremos de las clases.
5) Conteo de los datos (puede hacerse en un solo recorrido de los datos con la ayuda de
cuadritos para conteo (de 5 en 5)
Clase Intervalo Frecuencia
1 [1, 2) 1
2 [2, 3) 9
3 [3, 4) 11
4 [4, 5) 12
5 [5, 6) 5
6 [6, 7) 2
n = 40
Tabla de Frecuencia
Frecuencia
Clase Intervalo Marca Frecuencia Frecuencia Frecuencia
acumulada
de clase relativa acumulada
relativa
i [a, b) m f f/n F
F/n
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 9 0.225 10 0.250
3 [3, 4) 3.5 11 0.275 21 0.525
4 [4, 5) 4.5 12 0.300 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.950
6 [6, 7) 6.5 2 0.050 40 1.000
EJERCICIOS
1) Conteste las siguientes preguntas en no más de dos líneas de texto
a) En las fuentes de recopilación de datos no se ha mencionado el uso de internet.¿Cuales
son las ventajas y peligros de su uso?
b) Al diseñar el formulario de una encuesta de investigación. ¿Por que se prefieren preguntas
con opciones para elegir?
c) El número telefónico de una persona. ¿Es un dato cualitativo o cuantitativo?
d) El dinero es un dato cuantitativo, ¿Discreto o continuo?
2) Con los resultados obtenidos y descritos en la tabla de frecuencia del ejemplo desarrollado
en esta sección, conteste las siguientes preguntas
a) ¿Cuántas personas requirieron no más de 4 minutos para ser atendidas?
b) ¿Cuántas personas requirieron entre 2 y 5 minutos?
c) ¿Cuántas personas requirieron al menos 4 minutos?
d) ¿Cuál es la duración que ocurre con mayor frecuencia?
3) Construya la tabla de frecuencia para una muestra aleatoria con datos del costo por
consumo de electricidad en una zona residencial de cierta ciudad.
96 171 202 178 147 102 153 1297 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158

MATLAB
Construcción de la tabla de frecuencias
Vector con los datos

>> x=[3.1 4.9 2.8 3.6 4.5 3.5 2.8 4.1 2.9 2.1 3.7 4.1 2.7 4.2 3.5 3.7 3.8 2.2 4.4 2.9...
5.1 1.8 2.5 6.2 2.5 3.6 5.6 4.8 3.6 6.1 5.1 3.9 4.3 5.7 4.7 4.6 5.1 4.9 4.2 3.1];
>> m=[1.5 2.5 3.5 4.5 5.5 6.5]; Vector con las marcas de clase
>> f=hist(x,m) Obtención de las frecuencias en las marcas de clase

f=
1 9 11 12 5 2
>> fr=f/40 Frecuencias relativas

fr =
0.0250 0.2250 0.2750 0.3000 0.1250 0.0500
>> F=cumsum(f) Frecuencias acumuladas

F=
1 10 21 33 38 40
>> Fr=F/40 Frecuencias acumuladas relativas

Fr =
0.0250 0.2500 0.5250 0.8250 0.9500 1.0000

2.4 REPRESENTACIÓN GRÁFICA DE CONJUNTOS DE DATOS

En esta sección revisamos algunos dispositivos frecuentemente usados para resaltar
visualmente las características de grupos de datos.
2.4.1 HISTOGRAMA
Es la manera más común de representar gráficamente la distribución de frecuencia de los datos.
Se lo construye dibujando rectángulos cuya base corresponde a cada intervalo de clase, y su
altura según el valor de la frecuencia. Puede ser la frecuencia absoluta o la frecuencia relativa.
Ejemplo. Construya el histograma para el ejemplo de la unidad anterior. Use los valores de la
frecuencia absoluta
:
Tabla de Frecuencia
Frecuencia
Marca Frecuencia Frecuencia
Clase Intervalo Frecuencia relativa
de clase relativa acumulada
acumulada
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 9 0.225 10 0.250
3 [3, 4) 3.5 11 0.275 21 0.525
4 [4, 5) 4.5 12 0.300 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.950
6 [6, 7) 6.5 2 0.050 40 1.000
Histograma
El histograma permite dar una primera mirada al tipo de distribución de los datos:
1) Si las alturas de las barras son similares se dice que tiene distribución tipo “uniforme”
2) Si las alturas son mayores en la zona central se dice que tiene forma tipo “campana” y
puede ser simétrica o asimétrica, con sesgo hacia el lado positivo o al lado negativo
3) Si hay barras muy alejadas del grupo, se dice que son datos atípicos. Probablemente
estos datos se deben a errores de medición y se los puede descartar pues no
pertenecen al grupo que se desea caracterizar.
15 Ing. Luis Rodríguez Ojeda, MSc.

2.4.2 POLÍGONO DE FRECUENCIA

Es una manera de representar el perfil de la distribución de los datos. Se obtiene uniendo
mediante segmentos de recta los puntos (marca de clase, frecuencia)
Para cerrar el polígono se puede agregar un punto a cada lado con frecuencia 0.
Polígono de frecuencia para el ejemplo dado:
2.4.3 OJIVA
Este gráfico se usa para representar la frecuencia acumulada, absoluta o relativa. Se lo obtiene
uniendo segmentos de recta que se extienden entre los extremos de las clases y usando los
valores de la frecuencia acumulada.
Ojiva para el ejemplo dado:
La ojiva permite responder preguntas tipo “cuantos datos son menores que”
Ejemplo. ¿Cuantos datos tienen un valor menor a 4.5?
Respuesta: aproximadamente 27 datos

2.4.4 GRÁFICOS DE FRECUENCIA CON FORMAS ESPECIALES

Los gráficos pueden tomar otros aspectos usando barras, colores, efectos tridimensionales,
sombreado, etc. o usando una representación tipo pastel
Diagrama de barras
Diagrama de barras con efecto tridimensional
Diagrama tipo pastel

MEDIDAS DESCRIPTIVAS
2.5 MEDIDAS DE TENDENCIA CENTRAL
Son números que definen cual es el valor alrededor del que se concentran los datos u
observaciones. Se indican a continuación los más utilizados.
2.5.1 MEDIA MUESTRAL

Si X1, X2, ... , Xn representan a los datos, entonces se tiene:
Definición: Media muestral
x1 + x 2 + ... + xn 1 n
X= = ∑ xi
n n i =1
Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

Entonces X = (2+6+11+8+11+4+7+5)/8 = 6.75
La media muestral es simple y de uso común. Representa el promedio aritmético de los datos.
Sin embargo, es sensible a errores en los datos. Un dato erróneo puede cambiar
significativamente el valor de la media muestral. Para evitar este problema, se puede ignorar un
pequeño porcentaje de los datos más grandes y más pequeños de la muestra antes de calcular
la media muestral
Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5, 90

Entonces X = (2+6+11+8+11+4+7+5 + 90)/9 = 16
Un sólo dato cambió significativamente el valor de la media con respecto al ejemplo anterior
2.5.2 MODA MUESTRAL

Es el valor que ocurre con mayor frecuencia en una muestra. Puede ser que no exista la moda y
también es posible que exista más de una moda.
Definición: Moda muestral
Moda muestral: Mo es el valor que más veces se repite

Entonces Mo = 11
2.5.3 MEDIANA MUESTRAL

Es el valor que está en el centro de los datos ordenados
Sean X1, X2, ... , Xn los datos
X(1), X(2), ... , X(n) los datos ordenados en forma creciente
El subíndice entre paréntesis significa que el dato X(i) está en la posición i en el grupo ordenado.

Definición: Mediana muestral
⎧ X n+ 1 , si n es impar
~ ⎪
⎪
(
2
)
x=⎨ 1
⎪ (X n + X n ), si n es par
⎪⎩ 2 ( 2 ) ( + 1)
2
Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

Los datos ordenados: 2, 4, 5, 6, 7, 8, 11, 11, entonces ~
x= 1
(6 + 7) = 6.5
2
Las medidas de tendencia central no son suficientes para describir de manera precisa el
comportamiento de los datos de una muestra. Se necesitan otras medidas.
2.6 MEDIDAS DE DISPERSIÓN

Son números que proveen información adicional acerca del comportamiento de los datos,
describiendo numéricamente su dispersión.
2.6.1 RANGO
Es la diferencia entre el mayor valor y el menor valor de los datos de la muestra.
Definición: Rango
R = X(n) – X(1), en donde x(i) es el dato ordenado ubicado en la posición i
Entonces el rango es: R = 11 - 2 = 9
2.6.2 VARIANZA MUESTRAL

Esta medida se basa en la cuantificación de las distancias de los datos con respecto al valor de
la media
Definición: Varianza muestral
∑ (X i − X)2
S =
2 i =1
Fórmula para calcular la varianza
n−1
n n
n∑ Xi2 − (∑ Xi )2
S2 = i=1 i=1
Fórmula alterna para calcular la varianza
n(n − 1)
El motivo que en el denominador se escriba n – 1 en lugar de n (que parece natural), se

justifica formalmente en el estudio de la estadística inferencial.
Ambas fórmulas son equivalentes y se lo puede demostrar mediante desarrollo de las sumatorias

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5 y se tiene que X = 6.75
Entonces la varianza es
(2 − 6.75)2 + (6 − 6.75)2 + ... + (5 − 6.75)2
S2 = = 10.2143
7
2.6.3 DESVIACIÓN ESTÁNDAR MUESTRAL

Es la raíz cuadrada positiva de la variancia. La desviación estándar muestral o desviación típica
o error muestral, está expresada en las misma unidad de medición que los datos de la muestra
Definición: Desviación estándar muestral
S = + S2
Ejemplo. Calcule la desviación estándar para el ejemplo anterior.
Si la varianza es S2 = 10.2143, entonces, la desviación estándar es

S = S2 = 10.2143 = 3.196
2.7 MEDIDAS DE POSICIÓN

Son números que dividen al grupo de datos ordenados, en grupos de aproximadamente igual
cantidad de datos con el propósito de resaltar su ubicación.
2.7.1 CUARTILES
Son números que dividen al grupo de datos en grupos de aproximadamente el 25% de los datos
Primer Cuartil (Q1)

A la izquierda de Q1 están incluidos 25% de los datos (aproximadamente)
A la derecha de Q1 están el 75% de los datos (aproximadamente)
Segundo Cuartil (Q2)

Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50% de los datos
(aproximadamente)
Tercer Cuartil (Q3)

A la izquierda de Q3 están incluidos 75% de los datos (aproximadamente)
A la derecha de Q3 están el 25% de los datos (aproximadamente)
Ejemplo. Suponer que una muestra contiene 40 datos ordenados:

X(1), X(2), ... , X(40). Calcular Q1, Q2, Q3
Q1: 25% de 40 = 10
Por lo tanto: Q1 = (X(10) + X(11))/2
Q2: 50% de 40 = 20 es igual a la mediana

Q2 = (X(20) + X(21))/2
Q3: 75% de 40 = 30
Q3 = (X(30) + X(31))/2

2.7.2 DECILES
Son números que dividen al grupo de datos en grupos de aproximadamente 10% de los datos
Primer Decil (D1)

A la izquierda de D1 están incluidos 10% de los datos (aproximadamente)
A la derecha de D1 están el 90% de los datos (aproximadamente)
Segundo Decil (D2)

A la izquierda de D2 están incluidos 20% de los datos (aproximadamente)
A la derecha de D2 están el 80% de los datos (aproximadamente)
Etc.

X(1), X(2), ... , X(40). Calcular D1
D1: 10% de 40 = 4
Por lo tanto: D1 = (X(4) + X(5))/2
2.7.3 PERCENTILES (O PORCENTILES)

Son números que dividen al grupo de datos en grupos de aproximadamente 1% de los datos
Primer Percentil (P1)

A la izquierda de P1 están incluidos 1% de los datos (aproximadamente)
A la derecha de P1 están el 99% de los datos (aproximadamente)
Segundo Percentil (P2)

A la izquierda de P2 están incluidos 2% de los datos (aproximadamente)
A la derecha de P2 están el 98% de los datos (aproximadamente)
Etc.

X(1), X(2), ... , X(400). Calcular P1, P82
P1: 1% de 400 = 4
Por lo tanto: P1 = (X(4) + X(5))/2 (Percentil 1)
P82: 82% de 400 = 328 (Percentil 82)

P82 = (X(328) + X(329))/2
2.8 COEFICIENTE DE VARIACIÓN

Es un número que se usa para cara comparar la variabilidad de los datos de diferentes grupos.
Es una medida adimensional definida de la siguiente manera
Definición: Coeficiente de variación

S
V=
X
Ejemplo: Para un grupo de datos X = 20, S = 4, entonces v = 4/20 = 0.2 = 20%

Para un segundo grupo X = 48, S = 6, entonces v = 6/48 = 0.125 = 12.5%
Se concluye que el primer grupo tiene mayor variabilidad (respecto a su media)

2.9 FÓRMULAS PARA DATOS AGRUPADOS

Si los datos de una muestra están disponibles en una tabla de frecuencia, se pueden usar
fórmulas para calcular las medidas estadísticas descriptivas, en forma aproximada
Suponer que se dispone de la tabla de frecuencia con valores que se indican en forma simbólica:
Clase Intervalo Marca f F f/n F/n
1 [L1, U1] m1 f1 F1 f1/n F1/n
2 [L2, U2] m2 f2 F2 f2/n F2/n
... ... ... ... ... ... ...
k [Lk, Uk] mk fk Fk fk/n Fk/n
Definición: Media de datos agrupados

1 k
X = ∑ mi fi
n i=1
n número de datos
k número de clases
mi marca de la clase i (es el centro del intervalo de la clase)
fi frecuencia de la clase i
Definición: Varianza de datos agrupados
1 k
S2 = ∑ fi (mi − X)2
n − 1 i=1
n número de datos
k número de clases
mi marca de la clase i (es el centro del intervalo de la clase)
fi frecuencia de la clase i
Definición: Mediana para datos agrupados

n
− Fi −1
iX = L + 2 A
i
fi
i intervalo en el que se encuentra la mediana
Li Límite inferior del intervalo i
n Número de observaciones
Fi-1 Frecuencia acumulada del intervalo anterior al intervalo i
fi frecuencia del intervalo i
A Amplitud de la clase
Definición: Moda para datos agrupados
Δfa
Mo = Li + A
Δfa + Δfs
i intervalo en el que se encuentra la moda
Δfa Exceso de la frecuencia sobre la clase inferior inmediata
Δfs Exceso de la frecuencia sobre la clase superior inmediata
Mo no es un dato real pero se supone que sería el dato más frecuente

Definición: Medidas de posición para datos agrupados
n
j( ) − Fi −1
Q j = Li + 4 A , j = 1, 2, 3 cuartiles
fi
i intervalo en el que se encuentra el primer cuartil
n Número de observaciones
Fi-1 Frecuencia acumulada del intervalo anterior al intervalo i
fi frecuencia del intervalo i
Ejemplo: La tabla de frecuencia siguiente contiene los datos del número de artículos vendidos por
un almacén en 50 días, agrupados en 6 clases

1 [10, 20) 15 2 2 0.04 0.04
2 [20, 30) 25 10 12 0.2 0.24
3 [30, 40) 35 12 24 0.24 0.48
4 [40, 50) 45 14 38 0.28 0.76
5 [50, 60) 55 9 47 0.18 0.94
6 [60, 70) 65 3 50 0.06 1
Calcule la media, varianza, mediana, moda y los cuartiles
Media
1 k 1
X= ∑
n i=1
mi fi = [(15)(2) + (25)(10) + ... + (65)(3)] = 40.4
50
Varianza
1 k
S2 = ∑ fi (mi − X)2
n − 1 i=1
1
= [2(15 − 40.4)2 + 10(25 − 40.4)2 + ... + 3(65 − 40.4)2 ] = 164.12
49
Mediana
Para usar la fórmula debe localizarse la clase en la cual está la mediana
Siendo n = 50, la mediana es el promedio entre los datos X(25), X(26)
Estos datos se encuentran en la clase 4, por lo tanto
n 50
− F3 − 24
iX = L + 2 A = 40 + 2 10 = 40.71
4
f4 14
Moda
El intervalo en el que se considera que se encuentra la moda corresponde a la clase con mayor
frecuencia, En el ejemplo, sería la clase 4
Δfa 2
Mo = L 4 + A = 40 + 10 = 42.85 (es una valor supuesto para la moda)
Δfa + Δfs 2+5

Primer Cuartil
Q1 corresponde a la observación X(13). Este dato se encuentra en la clase 3, por lo tanto
n 50
1( ) − F2 1( ) − 12
Q1 = L3 + 4 A = 30 + 4 10 = 30.41
f3 12
Para comparar, anotamos los datos originales de los cuales se obtuvo la tabla de frecuencia:
37 48 48 57 32 63 55 34 48 36
32 47 50 46 28 19 29 33 53 68
49 26 20 63 20 41 35 38 35 25
23 38 43 43 45 54 58 53 49 32
36 45 43 12 21 55 50 27 24 42
Los mismos datos pero ordenados en forma creciente

12 19 20 20 21 23 24 25 26 27
28 29 32 32 32 33 34 35 35 36
36 37 38 38 41 42 43 43 43 45
45 46 47 48 48 48 49 49 50 50
53 53 54 55 55 57 58 63 63 68
Con los cuales se obtuvieron directamente los siguientes resultados

X = 40.16
S2 = 169.81
iX = 41.5
Q1 = 32
Mo = 32, 43, 48 (trimodal)
Ejemplo. Se dispone de los siguientes datos incompletos en una tabla de frecuencia

1 [1, 2) 1
2 6
3 0.25
4 0.7
5 8 0.9
6 0.05
7
Completar la tabla de frecuencia
Solución
Se escriben directamente los intervalos, marcas de clase y algunos valores de frecuencia

1 [1, 2) 1.5 1 1
2 [2, 3) 2.5 5 6
3 [3, 4) 3.5 0.25
4 [4, 5) 4.5 0.7
5 [5, 6) 5.5 8 0.2 0.9
6 [6, 7) 6.5 0.05 0.95
7 [7, 8) 7.5 0.05 1

Para continuar usamos la siguiente relación contenida en la tabla: 8/n = 0.2

De donde se obtiene que n = 40. Conocido el valor de n, se puede continuar desde arriba

1 [1, 2) 1.5 1 1 0.025 0.025
2 [2, 3) 2.5 5 6 0.125 0.15
3 [3, 4) 3.5 0.25 0.40
4 [4, 5) 4.5 0.3 0.7
5 [5, 6) 5.5 8 0.2 0.9
6 [6, 7) 6.5 0.05 0.95
7 [7, 8) 7.5 0.05 1
Finalmente, con la definición de frecuencia relativa se puede completar la tabla

1 [1, 2) 1.5 1 1 0.025 0.025
2 [2, 3) 2.5 5 6 0.125 0.15
3 [3, 4) 3.5 10 16 0.25 0.40
4 [4, 5) 4.5 12 28 0.3 0.7
5 [5, 6) 5.5 8 36 0.2 0.9
6 [6, 7) 6.5 2 38 0.05 0.95
7 [7, 8) 7.5 2 40 0.05 1
Calcular la media, varianza, mediana, moda y el primer cuartil
Con las fórmulas correspondientes se pueden calcular las medidas descriptivas indicadas igual
que en el ejercicio anterior
EJERCICIOS
Se dispone de los siguientes datos incompletos en una tabla de frecuencia

1 2
2 0.25
3 [15, 20) 14 0.6
4
5 36
6 0.975
7
Se conoce además que la media calculada con los datos agrupados es 19.7
a) Complete la tabla de frecuencia

b) Calcule la media, varianza, mediana, moda y el tercer cuartil
Sugerencia: Al colocar los datos en la tabla quedarán dos incógnitas en la columna f.

Con la fórmula del dato adicional dado X se obtiene otra ecuación con las mismas incógnitas.
Estas dos ecuaciones son lineales y luego de resolverlas se puede continuar llenando la tabla.

2.10 INSTRUMENTOS GRÁFICOS ADICIONALES

2.10.1 DIAGRAMA DE CAJA
Es un dispositivo gráfico que se usa para expresar en forma resumida, algunas medidas
estadísticas de posición:
El diagrama de caja describe gráficamente el rango de los datos, el rango intercuartílico (Q3 – Q1)
los valores extremos y la ubicación de los cuartiles. Es una representación útil para comparar
grupos de datos. Por ejemplo se resalta el hecho que el 50% de los datos está en la región
central entre los valores de los cuartiles Q1 y Q3
2.10.2 DIAGRAMA DE PUNTOS

Si la cantidad de datos es pequeña, (alrededor de 20 o menos), se los puede representar
mediante puntos directamente sin resumirlos en intervalos.
2.10.3 DIAGRAMA DE PARETO

Es un gráfico útil para identificar los efectos importantes de un proceso y las causas que los
originan. La Ley de Pareto dice que de cualquier conjunto de eventos que pueden asociarse a
un suceso, solamente unos pocos contribuyen en forma significativa mientras que los demás son
secundarios. Generalmente hay únicamente 2 o 3 causas que explican mas de la mitad de las
ocurrencias del suceso.
Procedimiento para construir el diagrama de Pareto

1) Categorice los datos por tipo de problema
2) Determine la frecuencia y ordene en forma decreciente
3) Represente la frecuencia relativa con barras
4) Superponga la ojiva de la frecuencia relativa acumulada
5) Determine cuales son las causas mas importantes que inciden en el suceso de interés
Ejemplo
Un fabricante ha realizado un conteo de los tipos de defectos de sus productos y ha registrado
su frecuencia. Los resultados se resumen en el siguiente cuadro
Tipo de Defecto Frecuencia Frecuencia Frecuencia Frecuencia

relativa (%) acumulada acumulada
relativa (%)
A 66 0.33 66 0.33
B 44 0.22 110 0.55
C 34 0.17 144 0.72
D 20 0.10 164 0.82
E 14 0.07 178 0.89
F 12 0.06 190 0.95
G 10 0.05 200 1.00
Representar los datos con un Diagrama de Pareto

Diagrama de Pareto
Se puede observar que más del 70% de los defectos de producción corresponden a los tipos A,
B y C. Con esta información, una decisión adecuada sería asignar recursos para solucionar
estos tipos de problemas pues son los que ocurren con mayor frecuencia.
2.10.4 DIAGRAMA DE TALLO Y HOJAS

Es un dispositivo utilizado cuando la cantidad de datos es pequeña. Permite describir la
distribución de frecuencia de los datos agrupados pero sin perder la información individual de los
datos.
La longitud de cada fila ayuda a visualizar la frecuencia, en forma parecida a un histograma pero
al mismo tiempo se pueden observar individualmente los datos.
Se construye escribiendo verticalmente las primera(s) cifra(s) de los datos (tallo) y escribiendo
las restantes cifras horizontalmente (hojas)
Ejemplo. Los siguientes datos corresponden a la cantidad de artículos defectuosos producidos

en una fábrica en 20 días:
65, 36, 59, 84, 79, 56, 28, 43, 67, 36, 43, 78, 37, 40, 68, 72, 55, 62, 22, 82
Dibuje el diagrama de tallo y hojas
Se elige la cifra de las decenas como tallo y la cifra de las unidades como las hojas:
Tallo Hojas
2 2 8
3 6 6 7
4 0 3 3
5 5 6 9
6 2 5 7 8
7 2 8 9
8 2 4

Estadistica Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL

2.3 TABLA DE DISTRIBUCIÓN DE FRECUENCIA

Recomendaciones para construir la Tabla de Frecuencia

2) Obtener el rango de los datos, R

3) Seleccionar el numero de clases (o intervalos) k, para agrupar los datos.

4) Obtener la amplitud de las clases,

5) Realizar el conteo de datos para obtener la frecuencia en cada clase

Los resultados se los organiza en un cuadro denominado Tabla de Frecuencia

Obtener la tabla de frecuencia

12 Ing. Luis Rodríguez Ojeda, MSc

13 Ing. Luis Rodríguez Ojeda, MSc

Vector con los datos

>> f=hist(x,m) Obtención de las frecuencias en las marcas de clase

>> fr=f/40 Frecuencias relativas

>> F=cumsum(f) Frecuencias acumuladas

>> Fr=F/40 Frecuencias acumuladas relativas

14 Ing. Luis Rodríguez Ojeda, MSc

2.4 REPRESENTACIÓN GRÁFICA DE CONJUNTOS DE DATOS

15 Ing. Luis Rodríguez Ojeda, MSc.

2.4.2 POLÍGONO DE FRECUENCIA

Polígono de frecuencia para el ejemplo dado:

Ojiva para el ejemplo dado:

Ejemplo. ¿Cuantos datos tienen un valor menor a 4.5?

Respuesta: aproximadamente 27 datos

16 Ing. Luis Rodríguez Ojeda, MSc.

2.4.4 GRÁFICOS DE FRECUENCIA CON FORMAS ESPECIALES

Diagrama de barras con efecto tridimensional

Diagrama tipo pastel

17 Ing. Luis Rodríguez Ojeda, MSc.

2.5.1 MEDIA MUESTRAL

Definición: Media muestral

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5, 90

2.5.2 MODA MUESTRAL

Definición: Moda muestral

Moda muestral: Mo es el valor que más veces se repite

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

2.5.3 MEDIANA MUESTRAL

20 Ing. Luis Rodríguez Ojeda, MSc.

Definición: Mediana muestral

Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

2.6 MEDIDAS DE DISPERSIÓN

R = X(n) – X(1), en donde x(i) es el dato ordenado ubicado en la posición i

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5

Entonces el rango es: R = 11 - 2 = 9

2.6.2 VARIANZA MUESTRAL

Definición: Varianza muestral

El motivo que en el denominador se escriba n – 1 en lugar de n (que parece natural), se

21 Ing. Luis Rodríguez Ojeda, MSc.

Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5 y se tiene que X = 6.75

2.6.3 DESVIACIÓN ESTÁNDAR MUESTRAL

Definición: Desviación estándar muestral

Ejemplo. Calcule la desviación estándar para el ejemplo anterior.

Si la varianza es S2 = 10.2143, entonces, la desviación estándar es

2.7 MEDIDAS DE POSICIÓN

Primer Cuartil (Q1)

Segundo Cuartil (Q2)

Tercer Cuartil (Q3)

Ejemplo. Suponer que una muestra contiene 40 datos ordenados:

Q2: 50% de 40 = 20 es igual a la mediana

22 Ing. Luis Rodríguez Ojeda, MSc.

Primer Decil (D1)

Segundo Decil (D2)