Está en la página 1de 14

UNIVERSIDAD CENTRAL

ESTADISTICA ll

“AGRUPACIÓN EMPLEADOS A PARTIR DE ANÁLISIS CLÚSTER”

INTEGRANTES:

DANIEL FELIPE MENDOZA MORA

DAYANNA MILENA AGUDELO MALAGON

FACULTAD DE INGENIERIA

10 DE ABRIL DE 2021

BOGOTA D.C
INTRODUCCIÓN

El método estadístico que presentaremos a continuación pretende realizar la


agrupación de un conjunto de datos a partir del análisis clúster a través del método
de Ward, agrupando un conjunto de características como lo son la edad, evaluación
de jefe, minutos de celular, horas de trabajo y salario en millones, con el objetivo de
clasificar los elementos en agrupaciones homogéneas y así simplificar los datos.
Para realizar el análisis clúster se realizaron 10 tablas de datos estandarizados y se
crearon 10 matrices, para la simplificación de datos, las matrices se ejecutaron por
medio de la formulación de la raíz de un dato variable menos un dato fijo, todo por
medio de la herramienta Excel.

OBJETIVOS

1. Clasificar los elementos en agrupaciones homogéneas.

2. Reducir o simplificar los datos.

3. Identificación de relaciones.

4. Detección de atípicos.

5. Representar e interpretar el dendograma.


ESTIMACIÓN DEL MODELO

Medidas de distancia: fórmula (1)


𝒌

𝑫𝒊𝒋 = √∑(𝑿𝒊𝒑 − 𝑿𝒋𝒑)𝟐


𝒑=𝟏

Desviación estándar: fórmula (2)

𝑵 (𝑿
𝑰 −𝑿̅ )𝟐
𝝈 = √∑
𝒊 𝑵

Estandarización: fórmula (3)


𝑿−
𝒁=
𝜹
Promedio: fórmula (4)
∑𝒏𝒊=𝟏 𝑿𝒊
̅=
𝑿
𝒏

Descripción tabla datos: En la siguiente tabla se calculó el promedio con la formula


número (4) y la desviación estándar por medio de la fórmula número (2), fórmulas
planteadas anteriormente en la estimación del modelo.
• Tabla de Datos, salario en millones:
eval. min. horas
Empleados edad Jefe Celular trabajo salario_mill
1 23 35 150 10 1,2
2 21 42 113 44 2,5
3 19 45 110 22 2,5
4 18 36 45 10 0,9
5 20 42 50 15 2,4
6 22 35 45 25 2,6
7 18 24 50 27 3,2
8 25 35 85 24 2,5
9 32 45 45 23 4,2
10 35 26 28 21 4,0
11 46 42 36 25 4,2
promedio 25 37 69 22 3
Desviación estándar 8,402086 6,78233 37,72344 8,88586955 1,04999
Descripción tabla datos estandarizados 1°: La estandarización de datos se
realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 1°:

Datos estandarizados
eval.
edad Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
3 -0,76 1,18 1,09 -0,04 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
5 -0,64 0,74 -0,50 -0,83 -0,33
6 -0,40 -0,29 -0,63 0,30 -0,14
7 -0,88 -1,92 -0,50 0,52 0,43
8 -0,04 -0,29 0,43 0,18 -0,23
9 0,79 1,18 -0,63 0,07 1,39
10 1,15 -1,62 -1,08 -0,15 1,19
11 2,46 0,74 -0,87 0,30 1,39

Descripción matriz de distancia 1°: Se evidencia que la fila 6 y la fila 8 presenta


valores menores al resto, lo que permite promediar el valor de la fila 6 y el valor de
la fila 8 para unificarla en una sola fila y en una sola columna en la matriz de
distancia 2°, logrando así una simplificación. El resto de los datos no promediados
continúan igual en la matriz siguiente.
• Matriz de distancia 1°:

Matriz de distancia
1 2 3 4 5 6 7 8 9 10 11
1 0 4,27 2,62 2,86 3,14 3,52 4,16 2,65 4,62 4,79 5,36
2 4,27 0,00 2,53 4,60 3,67 2,98 3,75 2,63 3,66 4,71 4,50
3 2,62 2,53 0,00 2,98 1,84 2,32 3,59 1,78 2,83 4,27 4,14
4 2,86 4,60 2,98 0,00 1,79 2,39 3,41 2,58 4,07 4,09 4,97
5 3,14 3,67 1,84 1,79 0,00 1,56 3,08 1,82 2,45 3,45 3,73
6 3,52 2,98 2,32 2,39 1,56 0,00 1,80 1,13 2,44 2,52 3,41
7 4,16 3,75 3,59 3,41 3,08 1,80 0,00 2,18 3,67 2,36 4,39
8 2,65 2,63 1,78 2,58 1,82 1,13 2,18 0,00 2,57 2,76 3,41
9 4,62 3,66 2,83 4,07 2,45 2,44 3,67 2,57 0,00 2,87 1,75
10 4,79 4,71 4,27 4,09 3,45 2,52 2,36 2,76 2,87 0,00 2,75
11 5,36 4,50 4,14 4,97 3,73 3,41 4,39 3,41 1,75 2,75 0,00

Descripción tabla datos estandarizados 2°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 2°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
3 -0,76 1,18 1,09 -0,04 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
5 -0,64 0,74 -0,50 -0,83 -0,33
6-8 -0,22 -0,29 -0,10 0,24 -0,19
7 -0,88 -1,92 -0,50 0,52 0,43
9 0,79 1,18 -0,63 0,07 1,39
10 1,15 -1,62 -1,08 -0,15 1,19
11 2,46 0,74 -0,87 0,30 1,39

Descripción matriz de distancia 2°: Se evidencia que la fila 5 y la fila (6 - 8)


presenta valores menores al resto, lo que permite promediar el valor de la fila 5 y el
conjunto de la fila 6 - 8 para unificarla en una sola fila y en una sola columna en la
matriz de distancia 3°, logrando así una simplificación. El resto de los datos no
promediados continúan igual en la matriz siguiente.
• Matriz de distancia 2°:

Matriz de distancia
1 2 3 4 5 6-8 7 9 10 11
1 0 4,27 2,62 2,86 3,14 3,07 4,16 4,62 4,79 5,36
2 4,27 0,00 2,53 4,60 3,67 2,76 3,75 3,66 4,71 4,50
3 2,62 2,53 0,00 2,98 1,84 1,99 3,59 2,83 4,27 4,14
4 2,86 4,60 2,98 0,00 1,79 2,42 3,41 4,07 4,09 4,97
5 3,14 3,67 1,84 1,79 0,00 1,60 3,08 2,45 3,45 3,73
6-8 3,07 2,76 1,99 2,42 1,60 0,00 1,92 2,44 2,58 3,36
7 4,16 3,75 3,59 3,41 3,08 1,92 0,00 3,67 2,36 4,39
9 4,62 3,66 2,83 4,07 2,45 2,44 3,67 0,00 2,87 1,75
10 4,79 4,71 4,27 4,09 3,45 2,58 2,36 2,87 0,00 2,75
11 5,36 4,50 4,14 4,97 3,73 3,36 4,39 1,75 2,75 0,00

Descripción tabla datos estandarizados 3°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 3°:

Datos estandarizados
eval. min. horas
edad Jefe Celular trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
3 -0,76 1,18 1,09 -0,04 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
5-6-8 -0,43 0,22 -0,30 -0,29 -0,26
7 -0,88 -1,92 -0,50 0,52 0,43
9 0,79 1,18 -0,63 0,07 1,39
10 1,15 -1,62 -1,08 -0,15 1,19
11 2,46 0,74 -0,87 0,30 1,39

Descripción matriz de distancia 3°: Se evidencia que la fila 3 y la fila (5-6-8)


presenta valores menores al resto, lo que permite promediar el valor de la fila 3 y el
valor de la fila (5-6-8) para unificarla en una sola fila y en una sola columna en la
matriz de distancia 4°, logrando así una simplificación. El resto de los datos no
promediados continúan igual en la matriz siguiente.
• Matriz de distancia 3°:

Matriz de distancia
1 2 3 4 5-6-8 7 9 10 11
1 0 4,27 2,62 2,86 3,00 4,16 4,62 4,79 5,36
2 4,27 0,00 2,53 4,60 3,14 3,75 3,66 4,71 4,50
3 2,62 2,53 0,00 2,98 1,74 3,59 2,83 4,27 4,14
4 2,86 4,60 2,98 0,00 1,97 3,41 4,07 4,09 4,97
5-6-8 3,00 3,14 1,74 1,97 0,00 2,44 2,31 2,94 3,46
7 4,16 3,75 3,59 3,41 2,44 0,00 3,67 2,36 4,39
9 4,62 3,66 2,83 4,07 2,31 3,67 0,00 2,87 1,75
10 4,79 4,71 4,27 4,09 2,94 2,36 2,87 0,00 2,75
11 5,36 4,50 4,14 4,97 3,46 4,39 1,75 2,75 0,00

Descripción tabla datos estandarizados 4°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 4°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
3-5-6-8 -0,59 0,70 0,40 -0,17 -0,25
7 -0,88 -1,92 -0,50 0,52 0,43
9 0,79 1,18 -0,63 0,07 1,39
10 1,15 -1,62 -1,08 -0,15 1,19
11 2,46 0,74 -0,87 0,30 1,39

Descripción matriz de distancia 4°: Se evidencia que la fila 9 y la fila 11 presenta


valores menores al resto, lo que permite promediar el valor de la fila 9 y el valor de
la fila 11 para unificarla en una sola fila y en una sola columna en la matriz de
distancia 5°, logrando así una simplificación. El resto de los datos no promediados
continúan igual en la matriz siguiente.
• Matriz de distancia 4°:

Matriz de distancia
1 2 4 3-5-6-8 7 9 10 11
1 0 4,27 2,86 2,68 4,16 4,62 4,79 5,36
2 4,27 0,00 4,60 2,72 3,75 3,66 4,71 4,50
4 2,86 4,60 0,00 2,37 3,41 4,07 4,09 4,97
3-5-6-8 2,68 2,72 2,37 0,00 2,94 2,43 3,56 3,71
7 4,16 3,75 3,41 2,94 0,00 3,67 2,36 4,39
9 4,62 3,66 4,07 2,43 3,67 0,00 2,87 1,75
10 4,79 4,71 4,09 3,56 2,36 2,87 0,00 2,75
11 5,36 4,50 4,97 3,71 4,39 1,75 2,75 0,00

Descripción tabla datos estandarizados 5°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 5°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
3-5-6-8 -0,59 0,70 0,40 -0,17 -0,25
7 -0,88 -1,92 -0,50 0,52 0,43
9 - 11 1,62 0,96 -0,75 0,18 1,39
10 1,15 -1,62 -1,08 -0,15 1,19

Descripción matriz de distancia 5°: Se evidencia que la fila 7 y la fila 10 presenta


valores menores al resto, lo que permite promediar el valor de la fila 7 y el valor de
la fila 10 para unificarla en una sola fila y en una sola columna en la matriz de
distancia 6°, logrando así una simplificación. El resto de los datos no promediados
continúan igual en la matriz siguiente.
• Matriz de distancia 5°:

Matriz de distancia
1 2 4 3-5-6-8 7 9 - 11 10
1 0 4,27 2,86 2,68 4,16 4,93 4,79
2 4,27 0,00 4,60 2,72 3,75 4,00 4,71
4 2,86 4,60 0,00 2,37 3,41 4,45 4,09
3-5-6-8 2,68 2,72 2,37 0,00 2,94 3,01 3,56
7 4,16 3,75 3,41 2,94 0,00 3,95 2,36
9 - 11 4,93 4,00 4,45 3,01 3,95 0,00 2,67
10 4,79 4,71 4,09 3,56 2,36 2,67 0,00

Descripción tabla datos estandarizados 6°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 6°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
4 -0,88 -0,15 -0,63 -1,39 -1,76
3-5-6-8 -0,59 0,70 0,40 -0,17 -0,25
7 - 10 0,14 -1,77 -0,79 0,18 0,81
9 - 11 1,62 0,96 -0,75 0,18 1,39

Descripción matriz de distancia 6°: Se evidencia que la fila 4 y la fila (3-5-6-8)


presenta valores menores al resto, lo que permite promediar el valor de la fila 4 y
el valor de la fila (3-5-6-8) para unificarla en una sola fila y en una sola columna en
la matriz de distancia 7°, logrando así una simplificación. El resto de los datos no
promediados continúan igual en la matriz siguiente.
• Matriz de distancia 6°:

Matriz de distancia
1 2 4 3-5-6-8 7 - 10 9 - 11
1 0 4,27 2,86 2,68 4,33 4,93
2 4,27 0,00 4,60 2,72 4,09 4,00
4 2,86 4,60 0,00 2,37 3,57 4,45
3-5-6-8 2,68 2,72 2,37 0,00 3,05 3,01
7 - 10 4,33 4,09 3,57 3,05 0,00 3,16
9 - 11 4,93 4,00 4,45 3,01 3,16 0,00

Descripción tabla datos estandarizados 7°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 7°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
1 -0,28 -0,29 2,15 -1,39 -1,47
2 -0,52 0,74 1,17 2,43 -0,23
3-4-5-6-8 -0,74 0,28 -0,12 -0,78 -1,00
7 - 10 0,14 -1,77 -0,79 0,18 0,81
9 - 11 1,62 0,96 -0,75 0,18 1,39

Descripción matriz de distancia 7°: Se evidencia que la fila 1 y la fila (3-4-5-6-8)


presenta valores menores al resto, lo que permite promediar el valor de la fila 1 y el
valor de la fila (3-4-5-6-8) para unificarla en una sola fila y en una sola columna en
la matriz de distancia 8°, logrando así una simplificación. El resto de los datos no
promediados continúan igual en la matriz siguiente.
• Matriz de distancia 7°:

Matriz de distancia
1 2 3 - 4 - 5 - 6 - 8 7 - 10 9 - 11
1 0 4,27 2,51 4,33 4,93
2 4,27 0,00 3,58 4,09 4,00
3-4-5-6-8 2,51 3,58 0,00 3,10 3,61
7 - 10 4,33 4,09 3,10 0,00 3,16
9 - 11 4,93 4,00 3,61 3,16 0,00
Descripción tabla datos estandarizados 8°: La estandarización de datos se
realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 8°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
2 -0,52 0,74 1,17 2,43 -0,23
1-3-4-5-6-8 -0,51 -0,01 1,02 -1,09 -1,24
7 - 10 0,14 -1,77 -0,79 0,18 0,81
9 - 11 1,62 0,96 -0,75 0,18 1,39

Descripción matriz de distancia 8°: Se evidencia que la fila (7-10) y la fila (9-11)
presenta valores menores al resto, lo que permite promediar el valor de la fila (7-10)
y el valor de la fila (9-11) para unificarla en una sola fila y en una sola columna en
la matriz de distancia 9°, logrando así una simplificación. El resto de los datos no
promediados continúan igual en la matriz siguiente.
• Matriz de distancia 8°:

Matriz de distancia
2 1-3-4-5-6-8 7 - 10 9 - 11
2 0 3,74 4,09 4,00
1-3-4-5-6-8 3,74 0,00 3,55 4,13
7 - 10 4,09 3,55 0,00 3,16
9 - 11 4,00 4,13 3,16 0,00

Descripción tabla datos estandarizados 9°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.
• Datos estandarizados 9°:

Datos estandarizados
edad eval. Jefe min. Celular horas trabajo salario_mill
2 -0,52 0,74 1,17 2,43 -0,23
1-3-4-5-6-8 -0,51 -0,01 1,02 -1,09 -1,24
7 - 9 - 10 - 11 0,88 -0,41 -0,77 0,18 1,10

Descripción matriz de distancia 9°: Se evidencia que la fila (1-3-4-5-6-8) y la fila


(7-9-10-11) presenta valores menores al resto, lo que permite promediar el valor de
la fila (1-3-4-5-6-8) y el valor de la fila (7-9-10-11) para unificarla en una sola fila y
en una sola columna en la matriz de distancia 10°, logrando así una simplificación.
El resto de los datos no promediados continúan igual en la matriz siguiente.

• Matriz de distancia 9°:

Matriz de distancia
2 1-3-4-5-6-8 7 - 9 - 10 - 11
2 0 3,74 3,72
1 - 3 - 4 - 5 - 6 - 8 3,74 0,00 3,51
7 - 9 - 10 - 11 3,72 3,51 0,00

Descripción tabla datos estandarizados 10°: La estandarización de datos se


realizó a partir de la formula (3) de las fórmulas planteadas anteriormente en la
estimación del modelo.

• Datos estandarizados 10°:

Datos estandarizados
eval.
edad Jefe min. Celular horas trabajo salario_mill
2 -0,52 0,74 1,17 2,43 -0,23
1 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10 - 11 -0,52 0,74 1,17 2,43 -0,23

Descripción matriz de distancia 10°: Se evidencia que la fila 2 es queda sola como
dato atípico y la fila (1-3-4-5-6-7-8-9-10-11) una agrupación de datos, evidenciando
así una simplificación.
Evidenciando así el valor del dos como dato atípico y el valor de la agrupación y
simplificación de datos donde se promedia que la edad es de -0,52, evaluación del
jefe 0,74, min. Celular 1,17, horas de trabajo 2,43 y salario en millones -0,23.
• Matriz de distancia 10°:

Matriz de distancia
2 1 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10 - 11
2 0 0
1 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10 - 11 0 0
DENDOGRAMA
“Un dendograma es un diagrama que muestra las distancias de atributos entre cada
par de clases fusionadas de manera secuencial. Para evitar cruzar líneas, el
diagrama se expone gráficamente de tal modo que los miembros de cada par de
clases que se fusionan son elementos próximos.”
Elaboración propia a partir de una base de datos con algunas características
generales como la edad, evaluación de jefe, minutos de celular, horas de trabajo y
salario en millones.
Se observan 10 datos conglomerados y un dato atípico, (los grupos se distinguen
por colores en el grafico 1).
RESULTADOS
Después de estandarizar los datos, realizar nuestra matriz de distancia,
encontramos a través de nuestro dendograma la mejor configuración de grupos, los
cuales se comportan de manera homogénea, como se puede observar en el gráfico
anterior los datos se pueden distribuir en tres grandes grupos, logrando con ello una
lectura de la información más fácil.

También podría gustarte