Está en la página 1de 17

Instituto Tecnológico de Estudios Superiores de Monterrey

Modelación de procesos mediante algebra lineal


Dan Molina Guangorena A01236853
Situación Problema
Alfredo Delgado Spíndola
10/09/23
Introducción
Descripción:
Una compañía mediana quiere establecer una clasificación entre sus empleados, para
eso tiene registrados varios indicadores numéricos para sus empleados, pero son 3
indicadores, por lo que resulta difícil crear una representación visual al no saber cuáles
indicadores sean más relevantes que otros. Con esto en mente, se debe crear una
descripción visual de los recursos humanos dónde no se pierda información.

Análisis de los componentes principales:


Se tienen 3 indicadores, de los cuáles desconocemos cuál es más importante que el
otro, por lo que se tiene que usar álgebra lineal para solucionar el problema, ya que
estos indicadores están expresados como vectores, podemos utilizar una técnica para
reducir dimensionalidad llamada análisis de componen principales, que ayuda a crear
un modelo más pequeño y eficiente.

Preguntas detonadoras:
1) ¿Cómo generar una combinación lineal entre varios indicadores? En general, ¿qué
es una combinación lineal?
Una combinación lineal es resultado de la suma de multiplicar los vectores por
escalares, en nuestro caso los vectores son los indicadores y para formar una
combinación lineal entre los 3 indicadores se necesita multiplicar cada vector por un
escalar.
2) ¿Cómo ubicar la combinación lineal donde ocurre la mayor variabilidad de los datos?
Dónde ocurre la mayor variabilidad de datos es aquella combinación lineal dónde se
encuentra la mayor dispersión de datos conforme una variable, esto a través de una
técnica de reducción de dimensionalidad. (Softek, 2021)
3) ¿Cómo convertir los datos originales (dimensión alta) a un espacio representable
(dimensión baja)? ¿Cómo calcular el error en esta representación?
El reducir la dimensionalidad de un modelo estadístico se disminuye el número de
funciones que se utilizan, lo que lo vuelve un modelo más sencillo y eficientes. La
técnica que se usará es el análisis de componentes principales que consta de
estandarizar la matriz, luego calcular la matriz de covarianza, después el cálculo de los
eigenvectores y eigenvalores y por último se reorienta la información. (Gil Martinez,
2018)
Desarrollo:
Primer paso: Estandarización
El objetivo es estandarizar el rango de las variables iniciales continuas para que cada
una de ellas contribuya por igual al análisis.

*La matriz completa se


encuentra en el anexo (1)

Se mandan llamar los datos desde Excel con la función “readmatrix”, generando una
matriz sin estandarizar de 200 filas por 3 columnas.

Se determina la longitud de la matriz (número de filas) con la


función “length” y se guarda en la variable “n”.

Se crea un vector de unos con la misma longitud “n” de la matriz sin


estandarizar.

Se crea el vector que promedia cada índice de


la matriz, ósea calcula el promedio de cada
columna de la matriz sin estandarizar, con el
uso de la siguiente fórmula:

Y se guarda en la variable “xp”.


Con la siguiente fórmula se calcula la matriz de datos estandarizados, siendo X nuestra
matriz de datos sin estandarizar, → es el vector de unos y ̅̅̅
𝑥 𝑇 es la transpuesta del
1
vector que promedia los índices de la matriz.

Matriz de datos estandarizados:


Para guardase en la variable “Xp”.

*La matriz completa se encuentra en el anexo (2).

Segundo paso: Cálculo de la matriz de covarianza


El objetivo es comprender cómo las variables de la matriz están variando de la media
entre sí, también ver si existe alguna relación entre ellas, porque se puede dar que las
variables están altamente correlacionadas de tal manera que contienen información
redundante. Para identificar correlaciones se calcula la covarianza con la siguiente
fórmula:

Dónde n es el largo de la matriz, 𝑋̅ 𝑇 es la transpuesta de la matriz de datos


estandarizados y 𝑋̅ es la matriz de datos estandarizados.
Por el signo de las covarianzas que es positivo,
podemos determinar que las 3 variables incrementan o
disminuyen juntas.
Tercer paso: Cálculo de los eigenvectores y eigenvalores
Los eigenvalores o valores propios de la matriz nos ayudan a determinar los
componentes principales de la información, estos son nuevas variables que se
construyen como combinaciones lineales o una mezcla de las variables iniciales, se
hace de forma que contengan la mayoría de la información de las variables iniciales,
pero de una forma compacta en el primer componente, esto permite reducir la
dimensión del sistema sin perder mucha información.

Se obtienen los eigenvectores asociados a cada


eigenvalor, se puede leer el resultado como:
Eigenvector:
[-0.885 -0.3363 -0.322]^T asociado al eigenvalor
10.7297
Así con cada valor hacia la derecha.
Podemos interpretar que el primer vector es el que más correlación tiene con la matriz
por su eigenvalor más valor, seguido del segundo que presenta una relevancia mucho
menor pero aún más importante que el último vector.
Por su gran valor, se tomará solamente el primer eigenvector, ya que a diferencia de
los demás está asociado a un eigenvalor muy grande que da seguridad de un modelo
confiable.
Paso final: Matriz de características
El objetivo de la matriz de características es reorientar el conjunto de información inicial
hacia el eje de los componentes principales.
Con el vector de mayor relevancia seleccionado, se multiplica por la matriz de datos
estandarizados.
Aquí se observa la
matriz característica
con los valores
ordenados de mayor a
menor.

*El vector completo se


encuentra en el Anexo
(3)
Ahora para revisar como serían las demás matrices características se crean las de la
segunda y tercera componente principal:

De la segunda componente se puede observar que los valores


son menores que en los de la primera, confirmando que los
valores de este vector no son tan determinantes.

*El vector completo esta en el Anexo (4)

De la tercera componente se observan los valores más bajos lo


que termina de confirmar que es la variable con menos
relevancia dentro del modelo.

*El vector completo esta en el Anexo (5)


Conclusiones
Por último, se calcula la eficiencia de cada uno de los eigenvalores para terminar de
deducir que conjunto de información es más relevante.
Para el primer eigenvalor se obtiene
73.2468 % por lo que se considera como el
índice más importante.

Para el segundo eigenvalor se obtiene


20.8182 % por lo que no es tan relevante
como el primero, pero tiene un peso
moderado en el modelo.
En este último eigenvalor se encuentra el
menor porcentaje con 5.9351 % el cuál se
considera sin relevancia dentro del
modelo.

Para concluir podemos confirmar que resulta mucho más sencillo realizar un análisis
con solamente 1 variable, porque en nuestro caso explica más de un 70 % del
desempeño del trabajador, lo que resulta más fácil de comprender para un gerente o
administrador que tiene muchas más tareas, al contrario que tener que analizar 2 o
más variables dónde se vuelve poco práctico, con solo 1 variable el modelo se vuelve
más sencillo y eficiente.
Referencias:
Softtek. (2021, septiembre). La reducción de dimensionalidad en el machine learning.

https://blog.softtek.com/es/la-reduccion-de-dimensionalidad-en-el-machine-learning

Gil Martinez, C. G. M. (2018, junio). RPUBS - Análisis de Componentes Principales (PCA).

https://rpubs.com/Cristina_Gil/PCA
Anexo
(1)
(2)
(3)
(4)
(5)

También podría gustarte