Está en la página 1de 17

Situación Problema

5.3 Entregable final

Abel Flores Amado

Modelación de Procesos mediante álgebra lineal

Grupo (103)

Carol Melani Cázares Martínez A01732909

Ismael Ricardo López Delgado A01736593

Maria Fernanda Pedraza Galindo A01422368

Nathaniel Fermín Nieto Gutiérrez A01735690

Harry Hernández Grande A01736341


Índice
ABSTRACT 2
Key words 2

Resumen 3
Palabras clave 3

Introducción 4

Metodología 5

Resultados 14

Conclusiones 15

Bibliografía 16

1
ABSTRACT
Indicators are very important in a company since they help to establish certain classifications
to each employee, in that way. companies can be aware of all its employee’s work records,
absences, or any other classification.

With this in mind, a medium-sized company wishes to establish a classification


among its employees, for which it has three numerical indicators, however the company has
no idea of what information each of the indicators provides because the human resources
manager did not specify it when leaving the business.

The purpose of the study is to obtain a new indicator, that can helps us conclude
which employee turns out to be the most outstanding within the company, therefore the
triggering question to solve this problem is: how can the three different indicators combine
with the aim of obtaining a new one that allows us to visualize the “most outstanding”
employee in a simpler way?

This question is solved throughout the document by applying the Dimensionality


Reduction methodology, applying various concepts of probability to explain the behavior of
the data, in addition to matrix concepts that helped us organize, analyze and obtain a new
model that explains the relevance of the data, which provided sufficient tools to develop the
solution and which allowed obtaining a linear combination based on the eigenvector
associated with the highest eigenvalue of the variance-covariance matrix from the data
provided by the company.
Considering this new indicator, the values ​of the indicators of each employee were
replaced, thus obtaining their general performance, and graphing this last indicator, it was
possible to observe and conclude which employee is the "most outstanding".

Key words
[eigenvectors, eigenvalues, indicators, linear combination, eigenvalues, variance, covariance].

2
Resumen
Los indicadores son muy importantes en una empresa ya que ayudan a establecer ciertas
clasificaciones a cada empleado, de esa forma, las empresas pueden conocer todos los
registros de trabajo, ausencias o cualquier otra clasificación de sus empleados.

Con esto en mente, una compañía mediana desea establecer una clasificación entre
sus empleados, para ello cuenta con tres indicadores numéricos, sin embargo no tiene noción
de qué información proporciona cada uno de ellos, debido a que el gerente de recursos
humanos no lo especificó al momento de salir de la empresa.

El propósito de estudio es obtener un nuevo indicador, que nos ayude a concluir qué
empleado resulta ser el más destacado dentro de la empresa, por lo tanto la pregunta
detonadora a la resolución de este problema es ¿de qué manera se pueden combinar los tres
diferentes indicadores con el objetivo de obtener uno nuevo que nos permita visualizar de una
forma más sencilla al empleado “más destacado”?.

Dicha pregunta se resuelve a lo largo del documento a través de la aplicación de la


metodología de Reducción de dimensionalidad, aplicando diversos conceptos de probabilidad
para ponderar y explicar el comportamiento de los datos, además de conceptos matriciales
que nos facilitaron la organización, análisis y obtención de un nuevo modelo que explique la
relevancia de los datos , que aportaron las herramientas suficientes para desarrollar la
solución y que permitió la obtención de una combinación lineal en base al vector propio
asociado al mayor valor propio de la matriz de varianzas-covarianzas de los datos
proporcionados por la empresa.

Considerando este nuevo indicador, se sustituyeron los valores de los indicadores de


cada empleado, obteniendo así su rendimiento general, y graficando este último indicador, se
logró observar y concluir qué empleado es el “más destacado”.

Palabras clave
[vectores propios, valores propios, indicadores, combinación lineal, varianza, covarianza].

3
Introducción
Una compañía tiene registrados tres indicadores para sus empleados que establecen una
clasificación sobre cada uno, actualmente la compañía cuenta con un archivo de datos con las
clasificaciones de los tres indicadores por cada empleado, pero se desconoce qué representa
cada indicador. En este trabajo investigaremos por medio de diferentes metodologías y
procedimientos la manera de determinar una posible solución para resolver el problema de la
compañía.

El análisis, la interpretación, y la obtención de modelos matemáticos que expliquen el


comportamiento de un conjunto de datos resulta de vital importancia, en distintas áreas de
interés, por ejemplo en una empresa para la toma de decisiones, en base a un conjunto de
datos explicados mediante un modelo matemático y que permite tener una idea de alguna
proyección a futuro, de manera similar también se utiliza para la optimización de diversos
procesos, eliminando las cuestiones ineficientes y teniendo un ahorro en costos, en el ámbito
científico se emplea para conocer la conducta de alguna especie, organismo y cómo se
relaciona con su entorno, en cuestión ingenieril es útil en describir el comportamiento de
máquinas y de las variables que pueden afectarla, la predicción de fenómenos físicos y la
optimización de procesos, entre otras aplicaciones más.

Cabe destacar que otra área de suma importancia para la resolución de este problema
y de muchos otros en nuestra vida diaria, es el uso y la aplicación de la estadística,
específicamente para esta situación, la estadística multivariable, que nos da oportunidad de
analizar la conducta de nuestros datos bajo análisis, haciendo notar la dispersión que llegan a
tener, además de si las variables de entrada (los indicadores de la empresa) se relacionan o
qué efecto tienen sobre la variable de respuesta (“rendimiento del empleado más destacado”)
y tener una idea visual mediante gráficas sobre qué información nos proporcionan los
conceptos de álgebra lineal.

De esta manera, podemos aplicar estos conocimientos sobre nuestra situación


problema, dando una solución precisa a la empresa y respondiendo la pregunta sobre cómo
saber qué empleado es el más destacado.

La metodología que se utilizó para la resolución del problema es llamada “reducción


de la dimensión”, o también conocida como “componentes principales”. Esta metodología
nos permite simplificar un espacio muestral con varias dimensiones mientras se conserva la
información que hay en él. También requiere que el conjunto original de variables tengan
información en común, para después obtener un nuevo conjunto de variables que no tienen
redundancia con la información.

Siguiendo este razonamiento se pretende analizar la base de datos sobre los


indicadores, organizándose en forma matricial , y aplicando álgebra lineal se logra la
construcción de una matriz de datos centrados, y de varianzas-covarianzas, que para el
contexto de la situación problema significa comparar estas dos matrices para poder ver que
empleado se aleja más del promedio, lo que se traduce en que dicho empleado destacaría más
ya que no sigue un comportamiento como lo muestra la mayoría, en adición a esto y por

4
medio de los eigenvalores y eigenvectores, también llamados valores propios y vectores
propios de la matriz de varianzas y covarianzas, nos permitirá conocer cuál es la dirección en
donde el conjunto de datos tiene la máxima varianza, lo que nos ayuda a crear una
combinación lineal de los indicadores y a su vez nos dice cuál tiene un mayor peso en el
“rendimiento” de cada empleado, es decir, con dicha combinación nos dice el empleado que
ha destacado más, debido a que se muestra una mayor varianza entre los indicadores.

Metodología

Figura 1. Diagrama de la metodología empleada

Siguiendo la metodología de reducción de la dimensión antes mencionada:

1. Análisis gráfico de la base de datos

Se analizó la base de datos proporcionada por la empresa, de manera que con ayuda
del software MATLAB, se realizó y graficó una matriz que engloba la información
proporcionada, el motivo del empleo de MATLAB, es debido a que tiene total control en
cuestiones matriciales lo que nos facilitó las operaciones y análisis.

a=xlsread("ma1034-datos-sitprb3D.xlsx");

scatter3(a(:,1),a(:,2),a(:,3),".")

title("Gráfica de dispersión de los 3 indicadores")

xlabel("indicador 1")

5
ylabel("indicador 2")

zlabel("indicador 3")

Figura 2. Código de MATLAB para la gráfica de dispersión 3D

Gráfica 1. Gráfica de dispersión 3D comparando los 3 indicadores (MATLAB)

Se graficó la matriz de la base de datos de la empresa, con la finalidad de tener una


idea visual sobre cómo se relacionan los 3 indicadores. Ahora como primera idea se
consideró que cada punto visto en la gráfica es un empleado con distintas puntuaciones en los
indicadores desconocidos entonces los más “alejados” del promedio podría significar algún
factor destacable. Por ello como segundo paso tenemos:

2. Construcción de la matriz de datos centrados


La matriz de datos centrados nos permitió organizar de mejor forma los datos, con
respecto a nuestro objetivo de estudio, que es encontrar qué empleado destaca más. Esta
matriz nos dió una idea más clara sobre el comportamiento de los datos, infiriendo a priori
que algún punto que presente un valor atípico es indicador de que destaca sobre los demás, es
decir que el empleado con los valores en sus indicadores más alejado de lo que la mayoría
tiene, implica una conducta destacable.
data=xlsread("ma1034-datos-sitprb3D.xlsx");

scatter3(data(:,1),data(:,2),data(:,3),".")

title("Gráfica de dispersión de los 3 indicadores")

6
xlabel("indicador 1")

ylabel("indicador 2")

zlabel("indicador 3")

prom=mean(data); %matriz promedios

matrizprom=data-prom; %matriz datos centrados

scatter3(matrizprom(:,1),matrizprom(:,2),matrizprom(:,3),".")

title("Gráfica de la matriz de datos centrados")

xlabel("indicador 1-promedio")

ylabel("indicador 2-promedio")

zlabel("indicador 3-promedio")

Figura 3. Código de MATLAB para la construcción y graficación de la matriz de datos centrados

Gráfica 2. Gráfica de dispersión 3D de la matriz de datos centrada (MATLAB)

7
Visualizamos la diferencia entre el valor de cada indicador y su promedio, de manera
que los puntos más alejados del origen son los que más resaltan, lo que podría significar el
empleado que más se diferencía.

3. Generación de la matriz de varianzas y covarianzas


Siguiendo el análisis de las matrices anteriormente vistas, es de interés el concepto de
varianza, una medida de dispersión que representa la variabilidad de una serie de datos con
respecto a su media, contextualizando a esta situación, representa qué tan dispersos se
encuentran los datos de los indicadores, que es precisamente el razonamiento que seguimos
para encontrar al empleado resaltable.

Aunado a esto la covarianza nos ayudó a entender cómo se relacionan las variables
entre sí, es decir, si una variable muestra un cambio, en qué proporción afecta a la otra. Con
todo esto en mente es posible generar una matriz de varianzas y covarianzas, dónde la
diagonal es la varianza de cada indicador, y los elementos fuera de esta, las covarianzas entre
cada pareja de indicadores posible, quedando de la siguiente manera:

data=xlsread("ma1034-datos-sitprb3D.xlsx");

scatter3(data(:,1),data(:,2),data(:,3),".")

title("Gráfica de dispersión de los 3 indicadores")

xlabel("indicador 1")

ylabel("indicador 2")

zlabel("indicador 3")

prom=mean(data); %matriz promedios

matrizprom=data-prom; %matriz datos centrados

scatter3(matrizprom(:,1),matrizprom(:,2),matrizprom(:,3),".")

title("Gráfica de la matriz de datos centrados")

xlabel("indicador 1-promedio")

ylabel("indicador 2-promedio")

zlabel("indicador 3-promedio")

covar=cov(data) %matriz covarianza


Figura 4. Código en MATLAB para obtener la matriz de varianza-covarianza

8
covar = 3×3

8.8550 2.2959 2.9023

2.2959 3.9381 0.8406

2.9023 0.8406 1.9292

Figura 5. Matriz de varianza-covarianza

4. Calcular los vectores y valores propios de la matriz varianza covarianza

Ya con la matriz de varianzas y covarianzas, resulta importante analizar los conceptos de


valores propios, los cuales nos indican el número de componentes principales, en este caso,
nos dicen cuál es el indicador más destacado, esto observando cuál valor propio tiene mayor
porcentaje de variación, a comparación del resto.

De igual manera, los vectores propios tienen un papel vital, destacando el vector
propio asociado al mayor valor propio que nos indica la dirección en la cuál la varianza es
mayor.

En la situación problema, específicamente el valor propio mayor, es el que explica la


mayor proporción de varianza existente en los datos, y el vector propio asociado a este valor
nos da la dirección de máxima variabilidad, de modo que al conocer esto, sabemos qué
empleado tiene los valores en los indicadores que presentan más variabilidad, es decir que
sobresalen del resto y por tanto es destacable.

data=xlsread("ma1034-datos-sitprb3D.xlsx");

scatter3(data(:,1),data(:,2),data(:,3),".")

title("Gráfica de dispersión de los 3 indicadores")

xlabel("indicador 1")

ylabel("indicador 2")

zlabel("indicador 3")

prom=mean(data); %matriz promedios

matrizprom=data-prom; %matriz datos centrados

9
scatter3(matrizprom(:,1),matrizprom(:,2),matrizprom(:,3),".")

title("Gráfica de la matriz de datos centrados")

xlabel("indicador 1-promedio")

ylabel("indicador 2-promedio")

zlabel("indicador 3-promedio")

covar=cov(data) %matriz covarianza

[vec,val]=eig(matrizvarcova)%vector/valores propios de la matrizvarcova

Figura 6. Código de MATLAB para obtener los valores y vectores propios de la matriz
varianza-covarianza

Figura 7. Valores y vectores propios de la matriz de varianzas-covarianzas

5. Localizar el vector propio perteneciente al valor propio mayor

10
Siguiendo el razonamiento del paso anterior, donde puntuamos que el vector propio asociado
al valor propio mayor, nos señala la dirección de máxima varianza, tenemos que:

Figura 8. Valor y vector propio mayor asociado a la matriz de varianzas-covarianzas

Una vez localizado este vector, lo podemos interpretar como un nuevo indicador que
da pie a realizar una combinación lineal de los 3 indicadores iniciales.

6. Multiplicar la matriz de datos centrada por el vector propio obtenido

Retomando el vector anterior, es posible formar una combinación lineal con respecto a los 3
indicadores iniciales y con la matriz de datos centrados, de la siguiente manera:

Ecuación 1

La cuál tiene una proporción de 0.885, 0.3363, 0.322 para el indicador 1, indicador 2
e indicador 3, respectivamente, en otras palabras, el indicador 1 es el que tiene un mayor peso
al momento de establecer el nuevo indicador, seguido por el indicador 2 y finalmente el 3,
esto se puede explicar, ya que el indicador 1 es el que cuenta con una mayor varianza entre
los tres, entonces es lógico pensar que la mayor varianza recaiga en este indicador.

Contando con esta combinación lineal, resulta factible multiplicarla por la matriz de
datos centrados, para obtener el valor de cada empleado con el nuevo indicador.

data=xlsread("ma1034-datos-sitprb3D.xlsx");

scatter3(data(:,1),data(:,2),data(:,3),".")

title("Gráfica de dispersión de los 3 indicadores")

xlabel("indicador 1")

ylabel("indicador 2")

zlabel("indicador 3")

prom=mean(data); %matriz promedios

11
matrizprom=data-prom; %matriz datos centrados

scatter3(matrizprom(:,1),matrizprom(:,2),matrizprom(:,3),".")

title("Gráfica de la matriz de datos centrados")

xlabel("indicador 1-promedio")

ylabel("indicador 2-promedio")

zlabel("indicador 3-promedio")

covar=cov(data) %matriz covarianza

[vec,val]=eig(matrizvarcova)%vector/valores propios de la matrizvarcova

val2([1,3])=val([1,1]);

val2([1,2])=val([1,5]);

val2([1,1])=val([1,9]);

vectmayor=[vec(7);vec(8);vec(9)]%vector con el valor propio mayor

nuevoind=matrizprom*vectmayor

nuevoind2=sort(nuevoind,"descend")%valores del nuevo indicador ordenados


ascendentemente

x=1:200

scatter(x,nuevoind,"filled")

title("Gráfica de los valores del nuevo ind por cada empleado")

xlabel("# empleado")

ylabel("indicador nuevo")

scatter(x,nuevoind2,"filled")

title("Gráfica de los valores del nuevo ind por cada empleado(ordenado


ascendentemente")

xlabel("# empleado")

ylabel("indicador nuevo")

Figura 9. Código en MATLAB para la multiplicación de la matriz varianza-covarianza por el vector


propio mayor.

12
Gráfica 3. Gráfica de los valores del nuevo indicador para cada empleado

Ahora ordenamos los valores del indicador nuevo para encontrar el empleado más destacado.

Gráfica 4. Gráfica de los valores del nuevo indicador para cada empleado de mayor a menor

Observamos que mediante esta gráfica podemos señalar que el empleado más
destacado, resulta ser el que cuenta con una valor de 8.3747 de acuerdo con el nuevo
indicador obtenido mediante una combinación lineal de los tres indicadores originales.

13
Resultados
Se obtuvo la combinación lineal planteada en un inicio, la cuál relaciona a los tres
indicadores, por medio de sus varianzas y covarianzas, eligiendo estos conceptos, con la idea
de que un empleado destacado será alguno que presente un comportamiento atípico en
relación con los demás.

Dicha combinación lineal es la siguiente:

Dónde destaca que el indicador 1 tiene una mayor importancia en el indicador nuevo,
ya que tiene el coeficiente mayor, proveniente del vector de la matriz de
varianzas-covarianzas, lo que significa que este indicador tiene una mayor varianza con
respecto a los demás y por lo tanto los empleados que tengan valores lejanos a la media en
este, son más destacables debido a que siguen la dirección de máxima varianza.

Siendo más específicos el empleado en el lugar 81 de la matriz original en base a los


datos proporcionados por la empresa, con los valores 7.7755, 2.0837, 2.0431 en el indicador
1, indicador 2, indicador 3, respectivamente, ha salido con un “rendimiento” en base al nuevo
indicador de 8.3747, siendo el que cuenta con una mayor varianza en acorde al indicador
nuevo, enfatizando que es el que más se distingue sobre todos los demás.

Figura 10. Valores del indicador nuevo más alejados.

En base a esta gráfica en donde estan ordenados los valores del indicador nuevo de
mayor a menor, se puede ver claramente que el empleado con un puntaje de 8.3747 es el que
presenta el valor más grande, es decir el que más destaca sobre los demás, en consideración al
nuevo indicador.

14
Conclusiones
Finalmente se llegó a la resolución de la problemática planteada al comienzo de este reporte,
dándole respuesta a la empresa sobre la manera en que pueden clasificar a sus empleados
incluso sin saber qué miden los tres indicadores con los que cuentan, proporcionándoles una
combinación lineal de estos (ecuación 1) en base a la aplicación de conceptos estadísticos y
de álgebra lineal, en dónde destacan el empleo de valores y vectores propios de la matriz de
varianzas-covarianzas, que nos permitieron saber la dirección en dónde la varianza es
máxima, lo que detona que el empleado en dicha dirección estará alejado de la mayoría, y así
sabemos que dicho empleado se distingue más.

Así fue como conseguimos valores para el nuevo indicador, y sustituyendo los datos
de cada empleado en la combinación lineal obtenida, se logró concluir que el empleado con el
valor en el indicador nuevo de 8.37469 resulta ser el que más destaca.

Adicionalmente, estos resultados se pueden relacionar con situaciones que están


presentes en algunas empresas, lo importante es que en ocasiones es necesario hallar una
función, combinación lineal o algún tipo de regresión que explique el comportamiento de
estos datos, y suele pasar que no se conoce lo que representan. Como fue este caso, donde
tenían los indicadores pero no qué significaban, así que podemos ver un gran alcance de la
aplicación del álgebra lineal junto con la estadística, sin embargo, una posible limitación de
este estudio es la cantidad de variables a manejar, ya que más de 3 variables se hace
imposible tener una gráfica para poderse analizar visualmente, esto en ocasiones puede
complicar la comprensión y dificultar la resolución de cualquier problemática, además de
requerir diferentes metodologías y/o conocimientos.

15
Bibliografía
● The Math Works, Inc. MATLAB . Versión 2020a, The Math Works, Inc., 2020.
Software informático. www.mathworks.com/.
● Rodrigo, J. A. (2017, junio). Análisis de Componentes Principales (Principal

Component Analysis, PCA) y t-SNE. Recuperado 8 de septiembre de 2022, de

https://www.cienciadedatos.net/documentos/35_principal_component_analysis

● ¿Qué es la matriz de varianzas-covarianzas? - Minitab. (2021). (C) Minitab, LLC.

All rights Reserved. 2021. Recuperado 8 de septiembre de 2022, de

https://support.minitab.com/es-mx/minitab/20/help-and-how-to/statistical-modeling/a

nova/supporting-topics/anova-statistics/what-is-the-variance-covariance-matrix/#:%7

E:text=Suele%20utilizarse%20para%20calcular%20los,los%20pares%20posibles%20

de%20coeficientes.

● Saldarriaga, O. (2009). Valores y vectores propios. valoresyvectorespropios001.pdf

(uam.mx)

16

También podría gustarte