Está en la página 1de 19

1

Instituto Tecnológico de Santo Domingo


CBM208-4-ALGEBRA LINEAL

Integrantes:
María Alejandra Coste – 1104960
Winsel Leoni Pérez – 1103972

Docente: Lisette Josefina Santana Jiménez

Tema: Álgebra lineal aplicada en Análisis de datos

Fecha: 8/4/2023

2
Índice

Abstracto ............................................................................................................................................ 4
Introducción ....................................................................................................................................... 4
Objetivos ............................................................................................................................................ 7
Objetivos generales ..................................................................................................................... 7
Objetivos Específicos................................................................................................................... 7
Revisión de literatura ....................................................................................................................... 7
Metodología ..................................................................................................................................... 15
Resultados ....................................................................................................................................... 17
Conclusión ....................................................................................................................................... 18
Referencias ..................................................................................................................................... 19

3
Abstracto

En este paper tenemos la finalidad de demostrar la utilidad del algebra lineal en lo


que es el análisis de datos, el cual tiene que ver con la carrera de ingeniería
industrial. Los temas específicos que estaremos visualizando de algebra lineal son
las matrices, matrices transpuestas, determinante de una matriz, vectores, valores
propios, etc.

Introducción

En ingeniería industrial, la mayoría de los modelos de aprendizaje automático se


pueden representar como matrices. El conjunto de datos en sí mismo a menudo
se representa como una matriz, donde el álgebra lineal se usa para la
manipulación de datos, la transformación de datos y la estimación del modelo.

Todas las industrias tienen un impacto directo en el desempeño de las


organizaciones a través del conocimiento. Los datos a los que solo pueden
acceder las computadoras deben ajustarse a un esquema específico para
funcionar correctamente.

Los estadísticos matemáticos tienden a dibujar mapas después de que los datos
han sido procesados y transformados para proporcionar información valiosa. A
medida que aumenta la cantidad de datos utilizados y procesados, también
aumenta la importancia de estos datos.

4
La manipulación de datos, la ciencia de datos o la transformación de datos es
el proceso de organizar datos para que sean más fáciles de entender. Cualquier
tipo de datos se puede ordenar alfabéticamente para facilitar su comprensión. Si
la información de los empleados no está bien organizada, puede ser difícil
encontrar a una persona específica en la empresa. Como se logra visualizar en
la figura 1.

Figura 1. Modelo de manipulación de datos.

En la ciencia de datos, los datos a menudo se representan y manipulan mediante


matrices y vectores. Por ejemplo, los conjuntos de datos pueden organizarse en
matrices donde cada columna representa una característica o variable, y cada
fila representa una observación o muestra.

Las operaciones de álgebra lineal, como la multiplicación de matrices, la


transposición, la suma y la resta de matrices, permiten manipular y transformar
estos datos de manera eficiente. Además, las técnicas de álgebra lineal, como
la eliminación gaussiana y la factorización LU, se utilizan en la resolución de
sistemas de ecuaciones lineales, que es una tarea fundamental en muchas
aplicaciones de análisis de datos.

5
Figura 2. Manejo de datos con operaciones de algebra lineal.

Así como podemos ver en la reducción de dimensionalidad donde el álgebra


lineal es esencial para las técnicas de reducción de dimensionalidad, que son
ampliamente utilizadas en el análisis de datos. La reducción de dimensionalidad
es el proceso de transformar datos de alta dimensionalidad en un espacio de
menor dimensión, lo que facilita la visualización y el análisis de los datos.

Técnicas populares de reducción de dimensionalidad, como el análisis de


componentes principales (PCA) y la descomposición en valores singulares
(SVD), se basan en conceptos de álgebra lineal. Estas técnicas utilizan la
factorización de matrices para extraer las características más importantes de los
datos, lo que permite una representación más compacta y significativa de los
mismos.

Figura 3. El algoritmo de PCA que transforma el espacio.

6
Objetivos

Objetivos generales

La visualización de análisis de datos y técnicas de manipulación de datos, mediante


algebra lineal.

Objetivos Específicos

• Reducir la cantidad de características que se utilizaran en un modelo final,


centrándose solo en los componentes que representan la mayor parte de la
variación en el conjunto de datos.
• Eliminar la correlación entre características.

Revisión de literatura

Para manipular los datos debemos deducir las técnicas para ordenar los datos con
el fin de determinar los costos de producción, las futuras responsables fiscale y las
tendencias de precios. Esto implica aplicar una matriz de transformación a un
conjunto de datos para modificar su forma, orientación o escala.

Por ejemplo, se puede utilizar una transformación lineal para rotar una imagen,
escalar una señal o realizar una proyección en un espacio de menor dimensión.
Esta técnica aplica el análisis de componentes principales PCA, es una técnica de
reducción de la dimensionalidad que se basa en el álgebra lineal.

7
Figura 4. Proyección de comparación en 2D en PCA.

Se utiliza para identificar las características o componentes principales en un


conjunto de datos de alta dimensionalidad. Esto puede ser útil en la manipulación
de datos para reducir la complejidad y eliminar redundancias, lo que puede mejorar
la eficiencia del análisis de datos.

Antes de continuar tocar temas más profundos, debemos saber los fundamentos
acerca del desarrollo de problemas en análisis de datos.

El análisis de datos es un proceso que implica la exploración, interpretación y


obtención de conocimientos a partir de los datos. Aquí hay algunos fundamentos
importantes para el desarrollo de problemas en análisis de datos:

1) Definición clara del problema: El primer paso es tener una comprensión


clara del problema que se va a abordar. Esto implica definir claramente los
objetivos del análisis de datos, identificar las preguntas que se buscan
responder y comprender las necesidades y requisitos de los stakeholders
involucrados.

8
2) Recopilación y preparación de datos: La recopilación y preparación de
datos es un paso fundamental en el análisis de datos. Esto implica identificar
y obtener los datos relevantes para el problema, limpiar y preprocesar los
datos para eliminar errores, valores atípicos y datos irrelevantes, y
transformar los datos en un formato adecuado para su análisis.

Figura 5. Recopilación y Preparación de datos.

3) Análisis exploratorio de datos: El análisis exploratorio de datos es una


etapa crucial en el análisis de datos. Esto implica realizar visualizaciones,
resúmenes estadísticos y análisis descriptivos para obtener una comprensión
profunda de los datos, identificar patrones, tendencias, relaciones y posibles
problemas en los datos. El análisis exploratorio de datos puede ayudar a
identificar posibles hipótesis o direcciones para el análisis posterior.

9
Figura 6. Análisis exploratorio de datos con R.

4) Selección y aplicación de técnicas analíticas: Una vez que se


comprenden los datos, es importante seleccionar y aplicar las técnicas
analíticas adecuadas para abordar el problema. Esto puede incluir técnicas
estadísticas, como regresión, análisis de series temporales, análisis
multivariante, técnicas de aprendizaje automático, como clasificación,
clustering, y otras técnicas avanzadas de análisis de datos.

Figura 7. Diagrama de flujo para técnicas de análisis.

10
5) Evaluación y validación de resultados: Es importante evaluar y validar los
resultados obtenidos del análisis de datos. Esto implica revisar y analizar
críticamente los resultados obtenidos, verificar su validez y confiabilidad, y
comparar los resultados con los objetivos y requisitos iniciales del problema.
Esto puede implicar el uso de métricas de evaluación y técnicas de validación
para asegurar que los resultados sean precisos y confiables.

6) Comunicación y presentación de resultados: La comunicación efectiva de


los resultados del análisis de datos es esencial para su aplicación práctica.
Esto implica la presentación clara y comprensible de los resultados a los
stakeholders relevantes, utilizando visualizaciones, informes y otros medios
adecuados. La comunicación adecuada de los resultados ayuda a tomar
decisiones informadas y a aplicar los conocimientos obtenidos en la toma de
decisiones y acciones concretas.

Figura 8. Presentación de resultados.

11
7) Iteración y mejora continua: El análisis de datos es un proceso iterativo y
continuo. Es importante revisar y mejorar continuamente los resultados
obtenidos, identificar áreas de mejora y perfeccionar los enfoques utilizados.
La retroalimentación de los stakeholders y la revisión del proceso de análisis
de datos son fundamentales para optimizar y mejorar continuamente los
resultados obtenidos.

Figura 9. Enfoques de mejora continua.

Por lo general, en el análisis de datos se utilizan las operaciones matriciales, es


importante seguir un enfoque estructurado y metodológico en el análisis de datos,
adaptándolo a los requisitos y necesidades específicas de cada problema, para
calcular una matriz varianza-covarianza es necesario saber primero que significa.
Su definición técnica es la siguiente es una matriz cuadrada de dimensión n x m que
recoge las varianzas en la diagonal principal y las covarianzas en los elementos de
fuera de la diagonal principal.

12
Figura 10. Método matricial para estructuras con EXCEL.

La matriz varianza-covarianza se expresa mediante sigma: ∑, la cual es la letra


griega mayúscula de σ en el análisis multivariante y se utiliza en diversas técnicas,
como el análisis de componentes principales (PCA) y el análisis discriminante.

La matriz de varianza se representa típicamente como una matriz simétrica y


cuadrada, donde las filas y las columnas representan las variables del conjunto de
datos, y los elementos de la matriz representan las varianzas de las variables en la
diagonal principal, y las covarianzas entre las variables en las posiciones fuera de
la diagonal principal.

En una matriz de varianza, los elementos de la diagonal principal representan las


varianzas de las variables individuales, es decir, cuánto varía cada variable por sí
sola. Los elementos fuera de la diagonal principal representan las covarianzas entre
las variables, es decir, cómo varían dos variables juntas en relación con las demás.

Para calcular una matriz varianza-covarianza, esta debe cumplir con los siguientes
requisitos:
13
• Debe de ser una matriz cuadrada: mismo número de filas (n) que columnas
(m), y se puede expresar tanto n x m como n x n.
• Las varianzas están en la diagonal principal y fuera las covarianzas.

Figura 11. Varianzas de la matriz varianza-covarianza

Figura 12. Covarianzas de la matriz varianza-covarianza

La expresión matemática de la matriz varianza-covarianza es la siguiente:


Covarianza del elemento n=1 y m=2
𝑛,𝑚
Σ𝑛=1,𝑚=2 (𝑥1 − 𝑥̅ ) ⋅ (𝑥2 − 𝑥̅ )
𝜎12 =
𝑛

Varianza del elemento n=1 y m=1


𝑛,𝑚
2
Σ𝑛=1,𝑚=1 (𝑥1 − 𝑥̅ )2
𝜎11 =
𝑛

14
Metodología

Existen varios métodos para el análisis de matrices de varianza, covarianza y


correlaciones. Algunos de los métodos más comunes incluyen:

Análisis de Componentes Principales (PCA): este método se utiliza para reducir


la dimensionalidad de los datos al encontrar las variables más importantes que
explican la varianza en los datos. Una buena referencia bibliográfica para PCA
es "Principal Component Analysis" de Jolliffe (2002).

Análisis Factorial: este método también se utiliza para reducir la dimensionalidad


de los datos al encontrar los factores subyacentes que explican la varianza en
los datos. Un buen libro de referencia para el análisis factorial es "Factor
Analysis" de Kim y Mueller (1978).

Análisis de Correlación Canónica (CCA): este método se utiliza para encontrar


las relaciones lineales entre dos conjuntos de variables. Un buen libro de
referencia para CCA es "Canonical Correlation Analysis" de Hotelling (1936).

Análisis de Discriminante: este método se utiliza para encontrar las variables que
mejor diferencian entre dos o más grupos de observaciones. Un buen libro de
referencia para el análisis de discriminante es "Discriminant Analysis and
Statistical Pattern Recognition" de Duda y Hart (1973).

Análisis de Correspondencias: este método se utiliza para analizar tablas de


contingencia y encontrar relaciones entre las filas y columnas de la tabla. Un
buen libro de referencia para el análisis de correspondencias es
"Correspondence Analysis in Practice" de Greenacre (2007).

15
Métodos de análisis de matrices de varianza, covarianza y correlaciones
Dado una serie de datos buscamos determinar la varianza y covarianza a través de
las matrices, esta sería la metodología por seguir para deducirla:

a) Debe saber es que la matriz de covarianza de X es igual a una matriz


identidad 3 x 3.
b) Aplique la igualdad de Y=A.X sustituyendo los datos obtenidos en el
enunciado.
c) Para obtener la matriz de varianza y covarianza Multiplique la matriz A
obtenida por la matriz transpuesta AT.
d) Determine la matriz de correlación a través de la fórmula de 𝑅 = 𝐷−1 . 𝑆 . 𝐷 −1
donde separa la diagonal principal en una matriz le busca su inversa, para S
su valor seria la matriz de varianzas y covarianzas, a partir de los datos
obtenidos sustituimos en la formula y el resultado sería la matriz de
correlaciones de y.

16
Resultados

Supongamos que x, x, x son v.a. independientes con varianza unidad. Sean


Y1=X1+X2+X3, Y2=X1-X2 e Y3=X1-X3. Calcula las matrices de varianzas-covarianzas
y de correlaciones de Y= (Y1, Y2, Y3)’.

Var(x)= I3x3

Y1 1 1 1 X1
𝑌 = 𝐴 ⋅ 𝑋 → Y2 = 1 -1 0 X2

Y3 1 0 -1 X3
Matriz de var-cor de y’
II
A

1 1 1 1 1 1 3 0 0
Var (Y) = 𝐴 ⋅ 𝐴′= 1 -1 0 1 -1 0 = 0 2 1 =S

1 0 -1 1 0 -1 0 1 2

3 0 0 1/3 0 0
R=D-1•S•D-1 D= → D-1= 0 1/ 2 0
0 2 0

0 0 2 0 0 1/ 2

1/3 0 0 3 0 0 1/3 0 0 1 0 0
R= 0 1/ 2 0 0 2 1 0 1/ 2 0 = 0 1 1/2

0 0 1/ 2 0 1 2 0 0 1/ 2 0 1/2 1

Matriz de
correlaciones de y’

17
Conclusión

En resumen, el álgebra lineal es una herramienta fundamental en el análisis de


datos, ya que proporciona métodos y técnicas matemáticas poderosas para el
procesamiento, modelado y visualización de datos. A través de técnicas como el
análisis de componentes principales, la regresión lineal, y la aplicación en el análisis
de redes sociales, el álgebra lineal permite realizar análisis y modelado de datos de
manera eficiente y efectiva, lo que ayuda a comprender y extraer información valiosa
de los datos.

Además, el álgebra lineal es la base de muchas otras técnicas y algoritmos


utilizados en el análisis de datos, como la regresión múltiple, la regresión logística,
y el análisis de valores y vectores propios, entre otros. Por lo tanto, el dominio del
álgebra lineal es esencial para los profesionales del análisis de datos y proporciona
una base sólida para la comprensión y aplicación de métodos más avanzados en el
campo del análisis de datos y la ciencia de datos en general.

18
Referencias

1. Importancia Del Álgebra Lineal En La Ciencia De Datos. (2022, octubre).


morioh. Recuperado 10 de abril de 2023, de
https://morioh.com/p/47558463a612
2. Ortega, C. (2023b, febrero 13). Manipulación de datos: Qué es, técnicas y
ejemplos. QuestionPro. https://www.questionpro.com/blog/es/manipulacion-
de-datos/
3. Rodó, P. (2022, 24 noviembre). Matriz varianza-covarianza. Economipedia.
https://economipedia.com/definiciones/matriz-varianza-covarianza.html
4. Universitaty. (2021, 7 enero). MATRIZ DE VARIANZAS-COVARIANZA Y

CORRELACIONES de variables aleatorias. Ejercicio resuelto. [Vídeo].

YouTube. https://www.youtube.com/watch?v=TleymUGW1r8

5. Jolliffe, I. (2002). Principal Component Analysis. Springer.

https://link.springer.com/chapter/10.1007/0-387-22440-8_13

6. Introduction to Factor Analysis. (s. f.). Google Books.

https://books.google.com.do/books?hl=es&lr=&id=0BySLTuM1EkC&oi=fnd&

pg=PA5&dq=Kim,+J.+O.,+%26+Mueller,+C.+W.+(1978).+Factor+Analysis.+

Sage+Publications.&ots=k2eaSFfmyw&sig=28YzyIfj2cnsll6SyzTO7_BJ_7g#

v=onepage&q=Kim%2C%20J.%20O.%2C%20%26%20Mueller%2C%20C.

%20W.%20(1978).%20Factor%20Analysis.%20Sage%20Publications.&f=fal

se

7. Duda, R. (1974). Pattern classification and scene analysis.

https://www.semanticscholar.org/paper/Pattern-classification-and-scene-

analysis-Duda-Hart/b07ce649d6f6eb636872527104b0209d3edc8188

19

También podría gustarte