Está en la página 1de 84

Capı́tulo 1

Introducción al Análisis exploratorio de datos


Organización y Tramiento de Datos

Prof. José Flores Delgado Estadadı́stica 1 / 33


1.3 Organización de Datos

En general, el tratamiento estadı́stico descriptivo para el estudio de


los datos incluye dos tareas de mucha importancia: la detección de
posibles patrones de tendencia que puedan mostrar estos y el cálculo
e interpretación de las estadı́sticas básicas de los datos.

Prof. José Flores Delgado Estadadı́stica 2 / 33


1.3 Organización de Datos

En general, el tratamiento estadı́stico descriptivo para el estudio de


los datos incluye dos tareas de mucha importancia: la detección de
posibles patrones de tendencia que puedan mostrar estos y el cálculo
e interpretación de las estadı́sticas básicas de los datos.
Para la detección de patrones es usual organizarlos en una distribución
de frecuencias, agrupándolos en clases y determinando las frecuencias;
es decir, el número o proporción de datos correspondiente a cada una.

Prof. José Flores Delgado Estadadı́stica 2 / 33


1.3 Organización de Datos

En general, el tratamiento estadı́stico descriptivo para el estudio de


los datos incluye dos tareas de mucha importancia: la detección de
posibles patrones de tendencia que puedan mostrar estos y el cálculo
e interpretación de las estadı́sticas básicas de los datos.
Para la detección de patrones es usual organizarlos en una distribución
de frecuencias, agrupándolos en clases y determinando las frecuencias;
es decir, el número o proporción de datos correspondiente a cada una.
Por otra parte, para el resumen de los datos o, mejor dicho, algunas
de sus caracterı́sticas, existe una gama de estadı́sticas.

Prof. José Flores Delgado Estadadı́stica 2 / 33


La organización y tratamiento estadı́stico descriptivo de los datos
depende del tipo de variable.

Prof. José Flores Delgado Estadadı́stica 3 / 33


La organización y tratamiento estadı́stico descriptivo de los datos
depende del tipo de variable.
En todos los casos, suponemos que X es la variable de la cual se han
obtenido los n datos disponibles que se denotan por
x1 ; . . . ; xn ,
donde xj corresponde al j-ésimo dato registrado.

Prof. José Flores Delgado Estadadı́stica 3 / 33


Caso de variables cualitativas medidas con una escala nominal

Prof. José Flores Delgado Estadadı́stica 4 / 33


Caso de variables cualitativas medidas con una escala nominal
Ejemplo 2.8
Los registros de los problemas reportados, durante el dı́a de ayer, por
los usuarios de cierto sistema, indican que 10 se hicieron a través del
correo electrónico, 26 por teléfono y 14 en un centro de atención.

Prof. José Flores Delgado Estadadı́stica 4 / 33


Caso de variables cualitativas medidas con una escala nominal
Ejemplo 2.8
Los registros de los problemas reportados, durante el dı́a de ayer, por
los usuarios de cierto sistema, indican que 10 se hicieron a través del
correo electrónico, 26 por teléfono y 14 en un centro de atención.
Estos datos siguen la distribución de frecuencias que se muestra:

Distribución del medio por el que se reportan los problemas


Medio Número de reportes Proporción de veces
Correo electrónico 10 0,20
Centro de atención 14 0,28
Teléfono 26 0,52
Total 50 1

Prof. José Flores Delgado Estadadı́stica 4 / 33


Distribución del medio por el que se reportan los problemas
Medio Número de reportes Proporción de veces
Correo electrónico 10 0,20
Centro de atención 14 0,28
Teléfono 26 0,52
Total 50 1

La tercera columna corresponde a las frecuencias relativas que se


obtienen dividiendo las frecuencias por el número de datos (50 en este
caso).

Prof. José Flores Delgado Estadadı́stica 5 / 33


Distribución del medio por el que se reportan los problemas
Medio Número de reportes Proporción de veces
Correo electrónico 10 0,20
Centro de atención 14 0,28
Teléfono 26 0,52
Total 50 1

La tercera columna corresponde a las frecuencias relativas que se


obtienen dividiendo las frecuencias por el número de datos (50 en este
caso).
La distribución de frecuencias se representa mediante barras o mediante
sectores circulares, en ambos casos los tamaños son proporcionales a la
frecuencia del valor que representa, como se muestra a continuación:

Prof. José Flores Delgado Estadadı́stica 5 / 33


Se aprecia, notoriamente, que el medio de reporte más frecuente del
problema es por teléfono (con el 52 % de las veces),

Prof. José Flores Delgado Estadadı́stica 6 / 33


Se aprecia, notoriamente, que el medio de reporte más frecuente del
problema es por teléfono (con el 52 % de las veces),el segundo medio
de reporte más frecuente es a través de una centro de atención (con el
28 % de las veces)

Prof. José Flores Delgado Estadadı́stica 6 / 33


Se aprecia, notoriamente, que el medio de reporte más frecuente del
problema es por teléfono (con el 52 % de las veces),el segundo medio
de reporte más frecuente es a través de una centro de atención (con el
28 % de las veces) y en menor proporción, aunque no mucho menos
respecto al medio anterior, está el medio por correo electrónico (con
el 20 % de las veces).
Prof. José Flores Delgado Estadadı́stica 6 / 33
A la misma conclusión se llega mediante el gráfico de sectores
circulares:

Prof. José Flores Delgado Estadadı́stica 7 / 33


Al valor de la variable que se presenta con mayor frecuencia se de
denomina moda, entonces, podemos decir que la moda del medio de
reporte de problema es por teléfono.

Prof. José Flores Delgado Estadadı́stica 8 / 33


Caso de variables cualitativas medidas con una escala ordinal

Prof. José Flores Delgado Estadadı́stica 9 / 33


Caso de variables cualitativas medidas con una escala ordinal

Ejemplo 2.9

Al término de un curso de capacitación fue evaluado el desempeño de


los 20 empleados que participaron.

Prof. José Flores Delgado Estadadı́stica 9 / 33


Caso de variables cualitativas medidas con una escala ordinal

Ejemplo 2.9

Al término de un curso de capacitación fue evaluado el desempeño de


los 20 empleados que participaron.
Se obtuvo los resultados siguientes:
2; 5; 3; 2; 3; 3; 2; 3; 4; 1; 3; 5; 4; 3; 4; 1; 3; 4; 5; 4.
Escala:
1 = mal desempeño, 2 = desempeño regular, 3 = desempeño bueno,
4 = desempeño muy bueno, y 5 = desempeño excelente.

Prof. José Flores Delgado Estadadı́stica 9 / 33


Caso de variables cualitativas medidas con una escala ordinal

Ejemplo 2.9

Al término de un curso de capacitación fue evaluado el desempeño de


los 20 empleados que participaron.
Se obtuvo los resultados siguientes:
2; 5; 3; 2; 3; 3; 2; 3; 4; 1; 3; 5; 4; 3; 4; 1; 3; 4; 5; 4.
Escala:
1 = mal desempeño, 2 = desempeño regular, 3 = desempeño bueno,
4 = desempeño muy bueno, y 5 = desempeño excelente.
Entonces, la distribución de frecuencias puede ser representada por la
tabla siguiente:
Prof. José Flores Delgado Estadadı́stica 9 / 33
Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

Prof. José Flores Delgado Estadadı́stica 10 / 33


Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

En este caso, hay una columna de frecuencias acumuladas, esta


tiene sentido, pues, los valores representan un orden y, ası́, podemos
ubicar cada valor relativamente; es decir, se puede establecer, para
cada valor, qué proporción o porcentaje de observaciones presentan la
caracterı́stica (desempeño) en menor grado que dicho valor.
Prof. José Flores Delgado Estadadı́stica 10 / 33
Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

Prof. José Flores Delgado Estadadı́stica 11 / 33


Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

Por ejemplo, un 25 % de los empleados tuvo un desempeño regular o


inferior; un 60 % de los empleados tuvo un desempeño bueno o inferior;
y un 85 % de los empleados tuvo un desempeño muy bueno o inferior.

Prof. José Flores Delgado Estadadı́stica 11 / 33


Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

Prof. José Flores Delgado Estadadı́stica 12 / 33


Distribución de los empleados según su desempeño
Desempeño Número de Proporción de Proporción de
empleados empleados empleados
acumulada
Malo 2 0,10 0,10
Regular 3 0,15 0,25
Bueno 7 0,35 0,60
Muy bueno 5 0,25 0,85
Excelente 3 0,15 1,00
Total 20 1,0

Más adelante se definirán los percentiles, adelantamos que el desem-


peño regular es el percentil 25, el desempeño bueno es el percentil 60
y el desempeño muy bueno es el percentil 85.

Prof. José Flores Delgado Estadadı́stica 12 / 33


Esta distribución puede representarse mediante barras o sectores
circulares como se muestra a continuación:

Prof. José Flores Delgado Estadadı́stica 13 / 33


Esta distribución puede representarse mediante barras o sectores
circulares como se muestra a continuación:

La conclusión que podemos obtener de esta distribución es la siguiente:


la mayorı́a de los empleados tuvo un desempeño bueno, y conforme el
desempeño se aleja de este valor, la tendencia es a encontrar menos
empleados.
Prof. José Flores Delgado Estadadı́stica 13 / 33
Prof. José Flores Delgado Estadadı́stica 14 / 33
Caso de variables cuantitativas discretas

Prof. José Flores Delgado Estadadı́stica 15 / 33


Caso de variables cuantitativas discretas
Ejemplo 2.10

A fin de estudiar el número de sucursales que tienen las empresas de


cierto ramo de la producción nacional, se tomó una muestra de 80
estas empresas y se contó el número de sucursales que tenı́a cada una,
obteniéndose los resultados siguientes:

Prof. José Flores Delgado Estadadı́stica 15 / 33


Caso de variables cuantitativas discretas
Ejemplo 2.10

A fin de estudiar el número de sucursales que tienen las empresas de


cierto ramo de la producción nacional, se tomó una muestra de 80
estas empresas y se contó el número de sucursales que tenı́a cada una,
obteniéndose los resultados siguientes:
2 4 5 4 4 4 5 3 4 5 5 2 4 1 3 5 5 3 4 4 7
5 5 7 6 5 5 6 5 4 6 4 3 4 6 4 6 4 4 5 3 4
4 4 4 6 4 4 4 4 4 5 4 4 4 6 4 5 4 5 4 4 5

Prof. José Flores Delgado Estadadı́stica 15 / 33


Caso de variables cuantitativas discretas
Ejemplo 2.10

A fin de estudiar el número de sucursales que tienen las empresas de


cierto ramo de la producción nacional, se tomó una muestra de 80
estas empresas y se contó el número de sucursales que tenı́a cada una,
obteniéndose los resultados siguientes:
2 4 5 4 4 4 5 3 4 5 5 2 4 1 3 5 5 3 4 4 7
5 5 7 6 5 5 6 5 4 6 4 3 4 6 4 6 4 4 5 3 4
4 4 4 6 4 4 4 4 4 5 4 4 4 6 4 5 4 5 4 4 5
Estos datos se organizan en una distribución de frecuencia como sigue:

Prof. José Flores Delgado Estadadı́stica 15 / 33


Distribución del número de sucursales de las empresas
Número de Número de Número de Proporción Proporción
sucursales empresas empresas acum. de emp. de emp. acum.
X nj Nj fj Fj
1 1 1 0,0125 0,0125
2 4 5 0,05 0,0625
3 5 10 0,0625 0,125
4 40 50 0,5 0,625
5 20 70 0,25 0,875
6 8 78 0,1 0,975
7 2 80 0,025 1

Prof. José Flores Delgado Estadadı́stica 16 / 33


Una representación gráfica de esta distribución es la siguiente:

Prof. José Flores Delgado Estadadı́stica 17 / 33


Una representación gráfica de esta distribución es la siguiente:

Puede apreciarse que el número de sucursales tiende a concentrarse


alrededor de 4, es decir, la tendencia es hacia la centralización, pues,
existe un valor central que sobresale en frecuencia y alrededor de este se
distribuyen los demás valores los cuales van disminuyendo en frecuencia
conforme se distancian del valor central.
Prof. José Flores Delgado Estadadı́stica 17 / 33
En este caso es fácil encontrar un valor promedio, es decir, uno que
represente a la mayor parte de los datos (el término medio).

Prof. José Flores Delgado Estadadı́stica 18 / 33


En este caso es fácil encontrar un valor promedio, es decir, uno que
represente a la mayor parte de los datos (el término medio).

Una medida de este valor promedio es, por ejemplo,


la moda: 4 sucursales,

Prof. José Flores Delgado Estadadı́stica 18 / 33


En este caso es fácil encontrar un valor promedio, es decir, uno que
represente a la mayor parte de los datos (el término medio).

Una medida de este valor promedio es, por ejemplo,


la moda: 4 sucursales,

o la media aritmética:

suma de los datos 2 + 4 + 5 + ··· + 5 + 2 + 4 346


X̄ = = = = 4, 325.
número de datos 80 80

Prof. José Flores Delgado Estadadı́stica 18 / 33


Número de Número de
sucursales empresas
X nj
1 1
2 4
3 5
4 40
5 20
6 8
7 2

También se puede obtener la suma de los datos multiplicando cada


valor que no se repite (valores de la columna 1 de la tabla) por su
frecuencia (valores de la columna 2):

Prof. José Flores Delgado Estadadı́stica 19 / 33


Número de Número de
sucursales empresas
X nj
1 1
2 4
3 5
4 40
5 20
6 8
7 2

También se puede obtener la suma de los datos multiplicando cada


valor que no se repite (valores de la columna 1 de la tabla) por su
frecuencia (valores de la columna 2):
1(1) + 2(4) + ... + 7(2) = 346.

Prof. José Flores Delgado Estadadı́stica 19 / 33


Las estadı́sticas más usadas para determinar un valor promedio son la
media aritmética, la moda y la mediana.

Prof. José Flores Delgado Estadadı́stica 20 / 33


Las estadı́sticas más usadas para determinar un valor promedio son la
media aritmética, la moda y la mediana.

La mediana, me , es el valor que ocupa la posición central cuando los


datos se ordenan, por lo tanto este valor tiene la propiedad que la
mitad de los datos son menores o iguales que él.

Prof. José Flores Delgado Estadadı́stica 20 / 33


Las estadı́sticas más usadas para determinar un valor promedio son la
media aritmética, la moda y la mediana.

La mediana, me , es el valor que ocupa la posición central cuando los


datos se ordenan, por lo tanto este valor tiene la propiedad que la
mitad de los datos son menores o iguales que él.

En el último ejemplo, la mediana es 4, es decir, la mitad de las empresas


tienen 4 sucursales o menos.

Prof. José Flores Delgado Estadadı́stica 20 / 33


Más adelantes trataremos estas estadı́sticas que se llamarán medidas
o indicadores de tendencia central.

Prof. José Flores Delgado Estadadı́stica 21 / 33


Más adelantes trataremos estas estadı́sticas que se llamarán medidas
o indicadores de tendencia central.

El promedio es, entonces, un valor medio, en el sentido que se parece


a muchos de los datos, ası́, puede ser usado para representarlos.

Prof. José Flores Delgado Estadadı́stica 21 / 33


Más adelantes trataremos estas estadı́sticas que se llamarán medidas
o indicadores de tendencia central.

El promedio es, entonces, un valor medio, en el sentido que se parece


a muchos de los datos, ası́, puede ser usado para representarlos.

Sin duda el promedio es la estadı́stica más importante, pues da una


idea general de los valores de los datos.

Prof. José Flores Delgado Estadadı́stica 21 / 33


Caso de variables cuantitativas continuas

Prof. José Flores Delgado Estadadı́stica 22 / 33


Caso de variables cuantitativas continuas

Ejemplo 2.11

En un cajero automático se midió el tiempo de las transacciones de


cada uno de 25 clientes, de una muestra aleatoria.

Prof. José Flores Delgado Estadadı́stica 22 / 33


Caso de variables cuantitativas continuas

Ejemplo 2.11

En un cajero automático se midió el tiempo de las transacciones de


cada uno de 25 clientes, de una muestra aleatoria.
Se obtuvo en minutos:
0,19 1,39 2,16 1,23 0,75 2,59 1,40 0,02 0,71 2,41 3,53 1,17 1,16
1,61 3,76 0,96 1,94 1,65 4,75 1,59 0,47 2,01 0,82 0,92 3,07

Prof. José Flores Delgado Estadadı́stica 22 / 33


Cuando la variable es continua, los datos se agrupan en k intervalos
de igual longitud o amplitud, C , luego se determinan las frecuencias
de los intervalos (ya no de cada dato).

Prof. José Flores Delgado Estadadı́stica 23 / 33


Cuando la variable es continua, los datos se agrupan en k intervalos
de igual longitud o amplitud, C , luego se determinan las frecuencias
de los intervalos (ya no de cada dato).
Para determinar k, el número de intervalos, existen muchas reglas
empı́ricas, por ejemplo, la Regla de Sturges:
k = 1 + 3, 33log (n),
donde log es el logaritmo en base 10.

Prof. José Flores Delgado Estadadı́stica 23 / 33


Cuando la variable es continua, los datos se agrupan en k intervalos
de igual longitud o amplitud, C , luego se determinan las frecuencias
de los intervalos (ya no de cada dato).
Para determinar k, el número de intervalos, existen muchas reglas
empı́ricas, por ejemplo, la Regla de Sturges:
k = 1 + 3, 33log (n),
donde log es el logaritmo en base 10.
En este caso k = 1 + 3, 33log (25) = 5, 655 y este valor se redondea
al entero inmediato superior, ası́ k = 6.

Prof. José Flores Delgado Estadadı́stica 23 / 33


Cuando la variable es continua, los datos se agrupan en k intervalos
de igual longitud o amplitud, C , luego se determinan las frecuencias
de los intervalos (ya no de cada dato).
Para determinar k, el número de intervalos, existen muchas reglas
empı́ricas, por ejemplo, la Regla de Sturges:
k = 1 + 3, 33log (n),
donde log es el logaritmo en base 10.
En este caso k = 1 + 3, 33log (25) = 5, 655 y este valor se redondea
al entero inmediato superior, ası́ k = 6.
Los datos extremos son: x(1) = 0, 02 y x(25) = 4, 75 (menor y mayor
dato, respectivamente).
Aquı́ se ha usado la notación x(j) : dato que ocupa la posición j.

Prof. José Flores Delgado Estadadı́stica 23 / 33


Luego, la distancia entre el menor valor y el mayor (llamada el rango)
es R = 4, 75 − 0, 02 = 4, 73;

Prof. José Flores Delgado Estadadı́stica 24 / 33


Luego, la distancia entre el menor valor y el mayor (llamada el rango)
es R = 4, 75 − 0, 02 = 4, 73;

por lo tanto, la longitud de cada uno de los k = 6 intervalos será


C = 4, 73/6 = C = 0, 78833...,

Prof. José Flores Delgado Estadadı́stica 24 / 33


Luego, la distancia entre el menor valor y el mayor (llamada el rango)
es R = 4, 75 − 0, 02 = 4, 73;

por lo tanto, la longitud de cada uno de los k = 6 intervalos será


C = 4, 73/6 = C = 0, 78833...,
pero como no sale un valor exacto, es necesario redondear.

Prof. José Flores Delgado Estadadı́stica 24 / 33


Luego, la distancia entre el menor valor y el mayor (llamada el rango)
es R = 4, 75 − 0, 02 = 4, 73;

por lo tanto, la longitud de cada uno de los k = 6 intervalos será


C = 4, 73/6 = C = 0, 78833...,
pero como no sale un valor exacto, es necesario redondear.
En este caso, podemos redondear a 2 decimales (pues los datos solo
tienen dos decimales, ası́, no vale la pena considerar más), el redondeo
debe ser por exceso (hacia arriba), pues de otro modo el mayor dato
quedarı́a fuera.

Prof. José Flores Delgado Estadadı́stica 24 / 33


Luego, la distancia entre el menor valor y el mayor (llamada el rango)
es R = 4, 75 − 0, 02 = 4, 73;

por lo tanto, la longitud de cada uno de los k = 6 intervalos será


C = 4, 73/6 = C = 0, 78833...,
pero como no sale un valor exacto, es necesario redondear.
En este caso, podemos redondear a 2 decimales (pues los datos solo
tienen dos decimales, ası́, no vale la pena considerar más), el redondeo
debe ser por exceso (hacia arriba), pues de otro modo el mayor dato
quedarı́a fuera.

Tomamos C = 0, 79.

Prof. José Flores Delgado Estadadı́stica 24 / 33


El primer intervalo comienza en x(1) = 0, 02
y termina en x(1) + C = 0, 02 + 0, 79 = 0, 81,

Prof. José Flores Delgado Estadadı́stica 25 / 33


El primer intervalo comienza en x(1) = 0, 02
y termina en x(1) + C = 0, 02 + 0, 79 = 0, 81,

el segundo intervalo empieza en 0, 81


y termina en 0, 81 + C = 1, 60;

Prof. José Flores Delgado Estadadı́stica 25 / 33


El primer intervalo comienza en x(1) = 0, 02
y termina en x(1) + C = 0, 02 + 0, 79 = 0, 81,

el segundo intervalo empieza en 0, 81


y termina en 0, 81 + C = 1, 60;

y as, sucesivamente, hasta haber completado los k = 6 intervalos.

Prof. José Flores Delgado Estadadı́stica 25 / 33


El primer intervalo comienza en x(1) = 0, 02
y termina en x(1) + C = 0, 02 + 0, 79 = 0, 81,

el segundo intervalo empieza en 0, 81


y termina en 0, 81 + C = 1, 60;

y as, sucesivamente, hasta haber completado los k = 6 intervalos.

Con estos intervalos se obtiene la tabla, todavı́a incompleta, de la forma


siguiente:

Prof. José Flores Delgado Estadadı́stica 25 / 33


Tiempo Marca Frecuencia
[0, 02; 0, 81]
]0, 81; 1, 60]
]1, 60; 2, 39]
]2, 39; 3, 18]
]3, 18; 3,97]
]3, 97; 4, 76]

Prof. José Flores Delgado Estadadı́stica 26 / 33


Tiempo Marca Frecuencia
[0, 02; 0, 81]
]0, 81; 1, 60]
]1, 60; 2, 39]
]2, 39; 3, 18]
]3, 18; 3,97]
]3, 97; 4, 76]

Ahora, se distribuyen los datos, uno por uno, según el intervalo al que
correspondan, de este modo se obtiene la frecuencia de cada intervalo:
nj = número de datos que están en el intervalo j.

Prof. José Flores Delgado Estadadı́stica 26 / 33


Al final, se habrá completado la tabla de frecuencias siguiente:

Tiempo Marca Frecuencia


[0, 02; 0, 81] 5
]0, 81; 1, 60] 9
]1, 60; 2, 39] 5
]2, 39; 3, 18] 3
]3, 18; 3,97] 2
]3, 97; 4, 76] 1

Prof. José Flores Delgado Estadadı́stica 27 / 33


Las otras partes de la tabla son las siguientes: xj0 = marca de clase del
intervalo j (punto medio del intervalo j) = semi suma de los lı́mites
del intervalo; Nj = frecuencia acumulada hasta el intervalo j; f = nj /n
y F = Nj /n.

Prof. José Flores Delgado Estadadı́stica 28 / 33


Las otras partes de la tabla son las siguientes: xj0 = marca de clase del
intervalo j (punto medio del intervalo j) = semi suma de los lı́mites
del intervalo; Nj = frecuencia acumulada hasta el intervalo j; f = nj /n
y F = Nj /n.

Con estas completamos la tabla de la distribución de frecuencias


Distribución de los tiempos necesarios
Tiempo Marca Frecuencia Frecuencia Frecuencia Frecuencia
(minutos) acumulada relativa acumulada relativa
[0, 02; 0, 81] 0, 415 5 5 0, 20 0, 20
]0, 81; 1, 60] 1, 205 9 14 0, 36 0, 56
]1, 60; 2, 39] 1, 995 5 19 0, 20 0, 76
]2, 39; 3, 18] 2, 785 3 22 0, 12 0, 88
]3, 18; 3,97] 3, 575 2 24 0, 08 0,96
]3, 97; 4, 76] 4, 365 1 25 0, 04 1, 00

Prof. José Flores Delgado Estadadı́stica 28 / 33


Podemos representar la distribución de frecuencias con el histograma
o el polı́gono de frecuencias.

Prof. José Flores Delgado Estadadı́stica 29 / 33


Podemos representar la distribución de frecuencias con el histograma
o el polı́gono de frecuencias.

El histograma es una representación con barras de altura proporcionales


a la frecuencia del intervalo que representa.

Prof. José Flores Delgado Estadadı́stica 29 / 33


Podemos representar la distribución de frecuencias con el histograma
o el polı́gono de frecuencias.

El histograma es una representación con barras de altura proporcionales


a la frecuencia del intervalo que representa.

El polı́gono se obtiene uniendo, con lı́neas continuas, cada punto con


una abscisa igual a la marca de clase de un intervalo y ordenada igual
a la frecuencia de dicho intervalo;

Prof. José Flores Delgado Estadadı́stica 29 / 33


Podemos representar la distribución de frecuencias con el histograma
o el polı́gono de frecuencias.

El histograma es una representación con barras de altura proporcionales


a la frecuencia del intervalo que representa.

El polı́gono se obtiene uniendo, con lı́neas continuas, cada punto con


una abscisa igual a la marca de clase de un intervalo y ordenada igual
a la frecuencia de dicho intervalo;

además, se cierra el polı́gono en el eje horizontal sumando C a la última


marca y restando C a la primera marca de clase.

Prof. José Flores Delgado Estadadı́stica 29 / 33


Podemos representar la distribución de frecuencias con el histograma
o el polı́gono de frecuencias.

El histograma es una representación con barras de altura proporcionales


a la frecuencia del intervalo que representa.

El polı́gono se obtiene uniendo, con lı́neas continuas, cada punto con


una abscisa igual a la marca de clase de un intervalo y ordenada igual
a la frecuencia de dicho intervalo;

además, se cierra el polı́gono en el eje horizontal sumando C a la última


marca y restando C a la primera marca de clase.

A continuación se presentan estos dos gráficos para nuestro ejemplo


anterior:
Prof. José Flores Delgado Estadadı́stica 29 / 33
Prof. José Flores Delgado Estadadı́stica 30 / 33
En cualquiera de estas gráficas apreciamos los patrones de tendencia
que muestran los datos.

Prof. José Flores Delgado Estadadı́stica 30 / 33


En cualquiera de estas gráficas apreciamos los patrones de tendencia
que muestran los datos.

Podemos empezar por mencionar lo evidente, la variación natural de


los datos, es decir, no todos los clientes necesitan el mismo tiempo,
los valores correspondientes están entre 0,02 y 4,75 min.

Prof. José Flores Delgado Estadadı́stica 30 / 33


Prof. José Flores Delgado Estadadı́stica 31 / 33
También se puede apreciar claramente que los tiempos necesarios,
para que los clientes efectúen sus transacciones, tienden a distribuirse
alrededor del intervalo entre 0,81 y 1,6, el cual sobresale en frecuencia
y conforme consideramos tiempos con valores que se alejan de este
intervalo, son menos los clientes que necesitan de este tiempo;

Prof. José Flores Delgado Estadadı́stica 31 / 33


También se puede apreciar claramente que los tiempos necesarios,
para que los clientes efectúen sus transacciones, tienden a distribuirse
alrededor del intervalo entre 0,81 y 1,6, el cual sobresale en frecuencia
y conforme consideramos tiempos con valores que se alejan de este
intervalo, son menos los clientes que necesitan de este tiempo;
es decir, se distingue un patrón de centralización.
Prof. José Flores Delgado Estadadı́stica 31 / 33
Además, existen unos pocos clientes cuyos tiempos necesarios son muy
grandes en comparación con los otros;

Prof. José Flores Delgado Estadadı́stica 32 / 33


Además, existen unos pocos clientes cuyos tiempos necesarios son muy
grandes en comparación con los otros;
es decir, existe una patrón de asimetrı́a o sesgo hacia valores altos.

Prof. José Flores Delgado Estadadı́stica 32 / 33


Ahora, representaremos las frecuencias acumuladas mediante la ojiva
de frecuencias, usando también los datos de nuestro ejemplo anterior:

Prof. José Flores Delgado Estadadı́stica 33 / 33


Ahora, representaremos las frecuencias acumuladas mediante la ojiva
de frecuencias, usando también los datos de nuestro ejemplo anterior:

Prof. José Flores Delgado Estadadı́stica 33 / 33


Ahora, representaremos las frecuencias acumuladas mediante la ojiva
de frecuencias, usando también los datos de nuestro ejemplo anterior:

Esta gráfica es de utilidad cuando, por ejemplo, queremos determinar,


aproximadamente, ubicaciones relativas en la distribución.

Prof. José Flores Delgado Estadadı́stica 33 / 33

También podría gustarte