Está en la página 1de 46

Herramientas de Análisis

www.senati.edu.pe
Objetivo General
Al finalizar la presente sesión, el participante
estará en condiciones de comprender las
Herramientas de análisis de datos para la
mejora continua.

www.senati.edu.pe
Contenido
1. Los Histogramas.
2. Tabulación de datos.
3. El diagrama de Tallo y Hoja.
4. El diagrama de Caja.

www.senati.edu.pe
Introducción
Veamos el caso de una empresa de
producción de jugos de naranja:
https://www.youtube.com/watch?v=PVPgAJ1
CrQ8
Responder las siguientes preguntas:
a)¿Cuáles son los procesos de la
empresa?
b)¿Cuáles son las diferencias entre la
empresa Tranquilo y Remolino?
Ingresar:
https://jamboard.google.com/d/1sPzwrrtM
bDa2Z9SkHtXW44VG9rNbqCPW9x6EtPI
g0Rc/edit?usp=sharing

www.senati.edu.pe
Histograma
• Este gráfico se utiliza para representar
a las variables cuantitativas continuas.
Se grafica en forma de barras
verticales donde la superficie de cada
barra es proporcional a la frecuencia
de los valores representados.

• Se emplea para mostrar la capacidad


de un proceso, la relación que guarda
el proceso con las especificaciones y
las normas. Da una idea de la
magnitud de la población y muestras
de discontinuidades y dispersiones que
se dan en los datos.
www.senati.edu.pe
Histograma
• Evaluar o revisar procesos (control). Histograma
40
• Detectar la necesidad de correctivos
(evidencia del problema). 35

• Medir los efectos de cambios 30

(evaluación y seguimiento). 25

• Comparar rendimientos de máquinas,


20
procesos, operarios.
• Comparar proveedores (evaluación de 15

alternativas de materiales). 10

• Casos:
• Variable Cualitativo.
0
18-21 21-24 24-27 27-30 30-33 33-36 36-39 39-42 42-45

• Variable Cuantitativo Discreto.


• Variable Cuantitativo Continuo
www.senati.edu.pe
Histograma
• Modos de Frecuencia:
• Histogramas normales (tipo
campana, Gauss): más frecuencia
de valores centrales.
• Histogramas bimodales (doble
pico): Cuando hay mezcla de datos
o de factores diferentes.
• Histogramas de “islas” (2 grupos
diferentes): Cuando hay mezcla
accidental de datos.

www.senati.edu.pe
Histograma
• En el área de producción se ha
realizado 4 muestras de 100 datos:
• L1T1
• L2T1
• L2T1
• L2T2
• Generaremos 2 muestras de
distribución normal con medias iguales
¿Podemos tomar una decisión en base
a la media?
• https://docs.google.com/spreadsheets/d
/1yPE1jKvg46h_AJVjA_ZFOnBLrw0dY
YRrLDwPbGUYqUQ/edit?usp=sharing

www.senati.edu.pe
El uso del Histograma en la valoración de la calidad
• El histograma representa un grupo de
piezas provenientes de una operación
industrial. Esto muestra cómo se
comporta un proceso industrial en un
momento determinado.

• Mediante el histograma puede


determinarse en qué grado el proceso
está produciendo buenos resultados y
hasta qué punto existen desviaciones
respecto a los límites fijados en las
especificaciones.

www.senati.edu.pe
Estratificación
• Cuando los datos proceden de distintas
maquinas, proveedores, lotes, turnos u
operadores, pueden encontrarse
información valiosa si se hace un
histograma por cada fuente
(estratificar) con lo que se podrá
determinar cuál es la maquina o el
proveedor más problemático.

www.senati.edu.pe
Estratificación
• Es recomendable que siempre que se
realice un estudio de la salida de un
proceso se utilice el histograma y este
se interprete a detalle. De esa manera
será posible detectar situaciones
problemáticas y posibles soluciones
para las mismas.

www.senati.edu.pe
Diagrama de Tallos y Hojas
Noche1 Gráfico de tallo y hojas
• Los diagramas de Tallos y Hojas se
utilizan para describir variables Frecuencia Stem & Hoja
cuantitativas. 1.00 3 . 8
• Permiten visualizar globalmente la 5.00 4 . 00133
distribución de los datos manteniendo 7.00 5 . 4677789
2.00 6 . 44
su individualidad. 5.00 7 . 24567
• Esta técnica funciona bien para los
conjuntos de datos que no tiene una Ancho del tallo: 1.0
Cada hoja: 1 caso(s)
dispersión muy grande.
• Implica separar cada dato en dos
partes:
• El primero o primeros dígitos (Tallo)
• El dígito o dígitos restantes (Hojas)

www.senati.edu.pe
Diagrama de Tallos y Hojas
• En el área de producción se ha
realizado 4 muestras de 100 datos:
• L1T1
• L2T1
• L2T1
• L2T2
• Generar los gráficos de Tallos y Hojas
de las muestras anteriores.
• https://docs.google.com/spreadsheets/d
/1yPE1jKvg46h_AJVjA_ZFOnBLrw0dY
YRrLDwPbGUYqUQ/edit?usp=sharing

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• Gráfica que permite apreciar las
características principales de los datos
y con ello tener una idea aproximada
de la
• distribución ( simétrica o asimétrica) y
la identificación de los valores
extremos (datos atípicos).

Min Max

Q1 Q2 Q3
Mediana
Escala
www.senati.edu.pe
Diagrama de Cajas y Bigotes

Valores atípicos

P75 *
P50
Máximo
P25
Variable cuantitativa

Asimetría

Rango

RIC
Asimetría en el 50% central

*
Mínimo

Categoría A Categoría B Categoría C

Variable cualitativa

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• La empresa GyS manufacturas, ha
evaluado el rendimiento de 15 de sus
empleados en tres sedes. Los puntajes
alcanzados por los empleados se
muestran en la tabla siguiente:
• En base a este gráfico, responda:
• ¿En cuál de las tres sedes se obtuvo
puntajes más homogéneos?,
justifique.
• Para la sede 2, ¿Qué tipo de
asimetría tiene en el 50% central de
las puntuaciones?

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• En base a este gráfico, responda:
• ¿Cómo se llaman los valores que
están representados por los
asteriscos?
• Para la sede 2, ¿por qué el bigote es
más largo en el 25% inferior en
comparación con el 25% superior?
• ¿Es posible que el puntaje promedio
de los empleados de la sede 3 sea 70
puntos? Justifique.

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• ¿En cuál de las tres sedes se obtuvo puntajes más homogéneos?,
justifique.
• En la sede 2, comparando los rangos u observando el tamaño de las
cajas.
• Para la sede 2, ¿Qué tipo de asimetría tiene en el 50% central de las
puntuaciones?
• Tiene asimetría positiva
• ¿Cómo se llaman los valores que están representados por los
asteriscos?
• Valores atípicos o outliers.
• Para la sede 2, ¿por qué el bigote es más largo en el 25% inferior en
comparación con el 25% superior?
• Porque existe mayor variabilidad.

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• ¿Es posible que el puntaje promedio de los empleados de la sede 3
sea 70 puntos? Justifique.
• No, porque presenta asimetría positiva y en este caso el promedio es
mayor que la mediana que es aproximadamente 75 puntos.

www.senati.edu.pe
Diagrama de Cajas y Bigotes
• En el área de producción se ha
realizado 4 muestras de 100 datos:
• L1T1
• L2T1
• L2T1
• L2T2
• Generar los gráficos de Cajas y Bigotes
de las muestras anteriores.
• https://docs.google.com/spreadsheets/d
/1yPE1jKvg46h_AJVjA_ZFOnBLrw0dY
YRrLDwPbGUYqUQ/edit?usp=sharing

www.senati.edu.pe
Medidas de Resumen
Son útiles para describir un
conjunto de datos.

Medidas de Medidas de Medidas de Medidas de


Posición Dispersión Forma Concentración

• Desviación Coeficiente de
Medidas de Medidas de estándar Coeficiente de curtosis
tendencia tendencia no • Varianza Pearson basado en
central central • Coeficiente percentiles
de variación

• Media Aritmética • Cuartiles


• Mediana • Deciles
• Moda • Percentiles

www.senati.edu.pe
Medidas de Tendencia Central
• Son aquellas medidas que localizan el
centro de una distribución, indicando el
valor alrededor del cual tienden a
concentrarse o distribuirse las demás
observaciones. El objetivo es
conseguir un valor que sea
representativo del conjunto total de
datos que se está analizando.

www.senati.edu.pe
Media Aritmética o Promedio
• La media aritmética o promedio de un conjunto de valores de una
variable es la suma de dichos valores dividida entre el número de
valores.
Media de datos agrupados:
Media de datos no agrupados:
Media poblacional:
Media poblacional:

X1 + 𝑋2 + ⋯ + 𝑋𝑁 σ 𝑁𝑖 =1 𝑋𝑖 x1 𝑓1 + ⋯ + x k 𝑓𝑘 σ 𝑘𝑖 = 𝑓𝑖 𝑥𝑖
𝜇= = μ= = 1
N 𝑁 N 𝑁
Media muestral: Media muestral:

x1f1 + … + x kfk  i=1fi x i


x1 + 𝑥2 + ⋯ + 𝑥𝑛 k
σ 𝑛𝑖 =1 𝑥𝑖
x=
n
=
𝑛 x= =
n n
donde:
xi : Son los diferentes valores (en el caso discreto) o las marcas de clase (en el caso continuo),
fi : frecuencia de cada clase. N : tamaño de la población. n : tamaño de la muestra.

www.senati.edu.pe
Media Aritmética
• Los siguientes datos corresponden el puntaje obtenido en clase modelo
y currículo de ocho docentes.

117 161 116 138 353 123 376 194

• Calcule el puntaje promedio.

• Solución:
117 + 161 + 116 + 138 + 353 + 123 + 376 + 194
μ=
8
1578
μ=
8

• μ = 197.25
• El puntaje promedio obtenido por los postulantes fue de 197.25 puntos.

www.senati.edu.pe
Mediana
• La mediana de un conjunto de datos observados de una variable es el
valor que ocupa la posición central una vez puestos los datos en orden de
magnitud, es decir, ordenados de menor a mayor.

• La mediana es el valor tal que aproximadamente el 50% de las


observaciones son menores o iguales a su valor. Se denota por Me.

www.senati.edu.pe
Mediana
Media de datos no agrupados: Media de datos agrupados:

1. Se ordenan los datos en orden ascendente.  n / 2 − Fj−1 


2. Se calcula la posición mediana. Me= Linf + c donde n / 2  Fj
 fj 
3. Se identifica la mediana.  
• La mediana es el valor que ocupa la
posición central de un conjunto de datos,
previamente ordenados: donde:
Linf Límite inferior del intervalo que
𝑀𝑒 = 𝑥 𝑛+1
contiene a la mediana
𝑆𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 2 fj Frecuencia absoluta del intervalo que
contiene a la mediana.
𝑥 𝑛 +𝑥 𝑛+1 Fj-1 Frecuencia absoluta acumulada del
2 2
𝑆𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟 𝑀𝑒 = intervalo anterior que contiene a la
2
mediana.
cj Ancho de clase del intervalo que

www.senati.edu.pe
Moda
• La Moda es el valor de la variable que se presenta con mayor frecuencia
o que más se repite en un conjunto de n observaciones, y se denota por
Mo. Media de datos agrupados:
Media de datos no agrupados:
1° Paso: Se ubicará el intervalo [LI - LS]
Mo = Valor de la variable que donde se ubique la mayor frecuencia absoluta fj.
más se repite. 2° Paso:
NOTA.- En algunos casos, es  d1 
Mo = L inf + c  
 d1 + d2 
posible que los datos observados
no presenten Moda. Mientras
que otros casos, es posible que d1 = fj −fj−1 d2 = f j −fj+1
tengan más de una Moda. donde:
Linf Límite inferior del intervalo que contiene a la Mo.
fj Frecuencia absoluta del intervalo que contiene a la Mo.
fj-1 Frecuencia abs. del interv. anterior que contiene la moda.
fj+1 Frecuencia abs. del interv. posterior que contiene la Mo.
cj Ancho de clase del intervalo que contiene a la moda.

www.senati.edu.pe
Mediana
• Los siguientes datos corresponde al tiempo de ejecución (en minutos)
para una muestra de diez sistemas de información trabajados en una
CPU.
117 161 116 138 353
138 376 194 138 161

• Calcule la mediana.

www.senati.edu.pe
Mediana
• Calcule la mediana.
• Se ordenan los datos en forma creciente:
116 117 138 138 138
X1 X2 X3 X4 X5
161 161 194 353 376
X6 X7 X8 X9 X10

• Como n=10 entonces es par. Por lo tanto:


𝑥 10 +𝑥 10 𝑀𝑒 = 149.5
2 2 +1 El 50% de las computadoras ejecutaron en menos de
𝑀𝑒 = 149.5 minutos, el otro 50% de las computadoras
2
ejecutaron mas de 149.5 minutos
𝑥5 +𝑥6 (138 + 161)
𝑀𝑒 = =
2 2

www.senati.edu.pe
Relación entre la Media, Mediana y Moda
• Si la distribución es simétrica, la media,
mediana y moda tienen el mismo valor.

• Si es asimétrica de cola a la derecha:


• Mo < Me < Media

• Si es asimétrica de cola a la izquierda:


• Mo > Me > Media

www.senati.edu.pe
Medidas de Resumen
Son útiles para describir un
conjunto de datos.

Medidas de Medidas de Medidas de Medidas de


Posición Dispersión Forma Concentración

• Desviación Coeficiente de
Medidas de Medidas de estándar Coeficiente de curtosis
tendencia tendencia no • Varianza Pearson basado en
central central • Coeficiente percentiles
de variación

• Media Aritmética • Cuartiles


• Mediana • Deciles
• Moda • Percentiles

www.senati.edu.pe
Medidas de Tendencia No Central
• Permiten conocer puntos característicos de una serie de valores, que no
necesariamente tienen que ser centrales, distribuyen el total de los datos
(ordenados), en dos grupos, uno a cada lado de ellos. Las más usadas
son:
Percentiles (P1, P2, ..., P99)
Deciles (D1, D2, ..., D9)
Arial (Q1, Q2, Q3)

www.senati.edu.pe
Medidas de Tendencia No Central

www.senati.edu.pe
Medidas de Resumen
Son útiles para describir un
conjunto de datos.

Medidas de Medidas de Medidas de Medidas de


Posición Dispersión Forma Concentración

• Desviación Coeficiente de
Medidas de Medidas de estándar Coeficiente de curtosis
tendencia tendencia no • Varianza Pearson basado en
central central • Coeficiente percentiles
de variación

• Media Aritmética • Cuartiles


• Mediana • Deciles
• Moda • Percentiles

www.senati.edu.pe
El Rango
• El rango se define como la diferencia entre los dos valores extremos que
de los datos. Es la medida de dispersión más sencilla y también, por
tanto, la que proporciona menos información.
• Comparemos, por ejemplo, estas dos series ambas con 50
observaciones.

www.senati.edu.pe
Variabilidad de los datos
• Las Medidas de Variabilidad nos brindan información acerca de la
magnitud del alejamiento de los datos en relación a un valor central o de
concentración de los datos.
• Los siguientes resultados corresponden el puntaje de 5 personas sobre
el conocimiento de Dengue en dos Urbanizaciones del distrito de
Carabayllo:
Individuos Urbanización 1 Urbanización 2

1 55 69
2 99 74
3 48 71
4 78 77
5 85 74
Promedio 73 73

www.senati.edu.pe
Varianza, Desviación Estándar y Coeficiente de
Variación (datos no agrupados)
• Es una medida muy usada para el estudio de la dispersión o variabilidad
de los datos.

www.senati.edu.pe
Varianza, Desviación Estándar y Coeficiente de
Variación (datos no agrupados)
• Los datos siguientes corresponden a la estatura, en metros, de una
muestra aleatoria de hombres peruanos de 18 años. Calcule la varianza
y desviación estándar.
1.78 1.65 1.74 1.65 1.80 1.52 1.74 1.56 1.65 1.62

www.senati.edu.pe
Varianza, Desviación Estándar y Coeficiente de
Variación (datos agrupados)
• Cuando sólo se disponga de información resumida en una tabla de
frecuencias, se puede hacer el cálculo de la Varianza, mediante la
siguiente expresión:

www.senati.edu.pe
Varianza, Desviación Estándar y Coeficiente de
Variación (datos agrupados)
• En la siguiente tabla se muestra la distribución del peso de una muestra
de 120 interprete la desviación estándar y el coeficiente de variación:

Peso
𝒙𝒊 𝒇𝒊
(kilos)
(Li+Ls)/2 (personas)
𝑳𝒊 - 𝑳𝒔

[50-55[ 52,5 40

[55-60[ 57,5 35

[60-65[ 62,5 20

[65-70] 67,5 25

Total 120

www.senati.edu.pe
Varianza, Desviación Estándar y Coeficiente de
Variación (datos agrupados)
Peso
𝒙𝒊 𝒇𝒊
(kilos) 𝒙𝒊 ∗ 𝒇𝒊 ഥ
𝑓𝑖 𝐱𝐢 − 𝒙
𝟐
𝑳𝒊 - 𝑳𝒔

[50-55[ 52,5 40 2100 1562.5

• La variabilidad promedio de los pesos [55-60[ 57,5 35 2012.5 54.6875


respecto al peso promedio es de 5,66 [60-65[ 62,5 20 1250 281.25
kilos.
[65-70] 67,5 25 1687.5 1914.0625

Total 120 7050 3812.5


• La variabilidad de los pesos respecto
al peso promedio es de 9.6% < 10%,
los pesos son homogéneos.
www.senati.edu.pe
Medidas de Resumen
Son útiles para describir un
conjunto de datos.

Medidas de Medidas de Medidas de Medidas de


Posición Dispersión Forma Concentración

• Desviación Coeficiente de
Medidas de Medidas de estándar Coeficiente de curtosis
tendencia tendencia no • Varianza Pearson basado en
central central • Coeficiente percentiles
de variación

• Media Aritmética • Cuartiles


• Mediana • Deciles
• Moda • Percentiles

www.senati.edu.pe
Medidas de forma y concentración

www.senati.edu.pe
Índice de Asimetría de Pearson (As)

www.senati.edu.pe
Índice de Curtosis
• El apuntamiento se mide en relación a la curva normal o mesocúrtica.
1
• Es el número: Q3 − Q1
K = 2
P90 − P10

www.senati.edu.pe
www.senati.edu.pe

www.senati.edu.pe

También podría gustarte