Está en la página 1de 55

Minerı́a de

Datos

m.dazpea

Distribución
Unidad II: Preparación de la información Normal

Detección de
valores atı́picos

Manejo de datos
Docente: Mailiu Dı́az Peña, Dra.1 faltantes

Reducción de
dimensionalidad
1 Facultad
de Ingenierı́a Análisis de
componentes principales
m.dazpea@uandresbello.edu
Conclusiones

Referencias
Minerı́a de Datos
Marzo 25, 2024
Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Distribución normal
Minerı́a de
Datos
La distribución normal, denotada como N (µ, σ 2 ), fue presentada por primera vez m.dazpea
por Abraham de Moivre en un artı́culo del año 1733; pero se le reconoce a Gauss
Distribución
por el uso del método en 1809 asumiendo una distribución normal de los errores. Normal

Detección de
Función de densidad de probabilidad (PDF) valores atı́picos

Manejo de datos
La función de densidad de probabilidad normal está dada por la ecuación: faltantes

Reducción de
(x − µ)2
 
1 dimensionalidad
fµ,σ2 (x) = √ exp − (1) Análisis de

σ 2π 2σ 2 componentes principales

Conclusiones

donde: Referencias

x: variable observada,
µ: media poblacional,
σ 2 : varianza poblacional.
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea

Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea

2. La moda y la mediana son iguales a la media. Distribución


Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea

2. La moda y la mediana son iguales a la media. Distribución


3. Distribución de probabilidad en un entorno de la media: Normal
• aproximadamente el 68.26 % de la distribución se encuentra en el intervalo [µ − Detección de
valores atı́picos
σ, µ + σ];
Manejo de datos
• en el intervalo [µ − 2σ, µ + 2σ] se encuentra el 95.44 %; y faltantes
• aproximadamente el 99.74 % de la distribución se encuentra en [µ − 3σ, µ + 3σ]. Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Distribución normal
Minerı́a de
Datos

m.dazpea

Distribución
Propiedades de la distribución normal Normal

Detección de
4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ). valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Distribución normal
Minerı́a de
Datos

m.dazpea

Distribución
Propiedades de la distribución normal Normal

Detección de
4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ). valores atı́picos

5. Si X ∼ N (µX , σX2 ) e Y ∼ N (µY , σY2 ) son variables aleatorias normales inde- Manejo de datos
faltantes
pendientes, entonces:
Reducción de
• La suma U = X + Y ∼ N (µX + µY , σX2 + σY2 ). dimensionalidad
• Su diferencia V = X − Y ∼ N (µX − µY , σX2 + σY2 ). Análisis de
componentes principales

• Si las varianzas de X e Y son iguales, entonces U y V son independientes entre Conclusiones

sı́. Referencias
Distribución normal
Minerı́a de
Datos

m.dazpea

Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias

Función de densidad (PDF) Función de distribución(CDF)


Distribución normal
Minerı́a de
Datos

m.dazpea

Distribución
Normal
¿Cómo verificar si una muestra proviene de una Detección de
valores atı́picos
población con distribución normal?
Manejo de datos
faltantes
A De forma gráfica: Histograma de frecuencias,
Reducción de
gráfico cuantil-cuantil. dimensionalidad
Análisis de

B Prueba de bondad de ajuste. componentes principales

Conclusiones
C la A y B. Referencias
Test de normalidad
Minerı́a de
Datos

m.dazpea

Prueba de Kolmogórov-Smirnov (KS tests)


Distribución
Es una prueba de bondad de ajuste, no paramétrica, que permite responder a Normal

la pregunta: ¿provienen las observaciones de la muestra de alguna distribución Detección de


valores atı́picos
hipotética?. Es más robusta para muestras grandes. Manejo de datos
faltantes
• Hipótesis nula H0 : la distribución empı́rica es similar a la teórica,
Reducción de
• Hipótesis alternativa H1 : la distribución de frecuencias observada no es dimensionalidad
Análisis de

consistente con la distribución teórica. componentes principales

Conclusiones
Para el contraste de hipótesis se fija el nivel de significación de la prueba (α = 0.05). Referencias
Como lo que nos interesa es no rechazar la hipótesis nula, entonces el valor de
probabilidad (P − value > α).
Test de normalidad
Minerı́a de
Datos

m.dazpea

Distribución
Test de Shapiro–Wilk Normal
Es una prueba de normalidad, más apropiada para muestras pequeñas (< 50), las Detección de
valores atı́picos
hipótesis planteadas son:
Manejo de datos
• Hipótesis nula H0 : la muestra viene de una población distribuida normal- faltantes

Reducción de
mente, dimensionalidad

• Hipótesis alternativa H1 : la muestra no viene de una población distribuida Análisis de


componentes principales

normalmente. Conclusiones

Referencias
Igual que en el KS test, nos interesa no rechazar la hipótesis nula (P − value > α).
Normalización
Minerı́a de
Datos

m.dazpea

Distribución
Normal
Escalamiento o normalización (Min-Max) Detección de
valores atı́picos
Es una de las transformaciones más utilizadas (PCA, NN, SVM, Knn):
Manejo de datos
faltantes
Xi − min Xi
Xminmax = (2) Reducción de
max Xi − min Xi dimensionalidad
Análisis de
componentes principales

donde la nueva variable Xminmax estará en el rango de valores [0, 1]. Conclusiones

Referencias
Normalización
Minerı́a de
Datos

m.dazpea

Distribución
Estandarización de variables aleatorias normales Normal
Como consecuencia de la propiedad 1 de la distribución normal, que se refiere a la Detección de

simetrı́a, es posible relacionar todas las variables aleatorias normales X ∼ N (µ, σ 2 ) valores atı́picos

Manejo de datos
con la distribución normal estándar faltantes

Reducción de
X −µ dimensionalidad
Z ∼ N (0, 1), donde Z = . (3) Análisis de
σ componentes principales

Conclusiones
Esta transformación es conocida como normalización, estandarización o tipifi- Referencias
cación de la variable.
Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Detección de valores atı́picos
¿Por qué es necesario estudiar los valores atı́picos outliers? Minerı́a de
Datos
Porque puede cambiar drásticamente el ajuste en las estimaciones y predicciones. m.dazpea

Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias

¿Los datos atı́picos se deben a errores?


Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos
• Error experimental (extracción). Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos
• Error experimental (extracción). Manejo de datos
faltantes
• Intencional (para probar métodos de detección). Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos
• Error experimental (extracción). Manejo de datos
faltantes
• Intencional (para probar métodos de detección). Reducción de
dimensionalidad
• Errores de procesamiento de datos (manipulación de datos o mutaciones no Análisis de
componentes principales
intencionadas).
Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos
• Error experimental (extracción). Manejo de datos
faltantes
• Intencional (para probar métodos de detección). Reducción de
dimensionalidad
• Errores de procesamiento de datos (manipulación de datos o mutaciones no Análisis de
componentes principales
intencionadas).
Conclusiones
• Errores de muestreo (extracción o mezcla de datos de fuentes incorrectas o Referencias
diversas).
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal

• Errores de medición (instrumento). Detección de


valores atı́picos
• Error experimental (extracción). Manejo de datos
faltantes
• Intencional (para probar métodos de detección). Reducción de
dimensionalidad
• Errores de procesamiento de datos (manipulación de datos o mutaciones no Análisis de
componentes principales
intencionadas).
Conclusiones
• Errores de muestreo (extracción o mezcla de datos de fuentes incorrectas o Referencias
diversas).
• Natural (no es un error).
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea

Distribución
Normal

Uso de gráficos Detección de


valores atı́picos
• Boxplot Manejo de datos
faltantes
• Diagrama de dispersión (Scatterplot)
Reducción de
• Histograma de frecuencias dimensionalidad
Análisis de
componentes principales
• Gráfico Cuantil-Cuantil (Q-Q plot)
Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea

Distribución
Normal
Clasificación para la detección de atı́picos con un boxplot. Detección de
valores atı́picos
 Manejo de datos
atı́pico superior, xi > Q3 + 1.5 ∗ IQR
 faltantes

clasificación := atı́pico inferior, xi < Q1 − 1.5 ∗ IQR (4) Reducción de


 dimensionalidad
nominal, otro caso
 Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Las lı́neas discontinuas inferior y superior representan 1.5 veces la diferencia del
m.dazpea
1er y 3er quartil (−1.5×IQR a 1.5×IQR).
Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Detección de atı́picos en un Boxplot. Datos

m.dazpea

Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea
Ejemplo de gráfico de dispersión y un histograma de frecuencias.
Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Q-Q plot Datos

m.dazpea

Distribución
Normal

Detección de
valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Detección de valores atı́picos
Minerı́a de
Datos

m.dazpea

Tratamiento de valores anómalos o erróneos [Hernándes et al., 2004]: Distribución


Normal
• Ignorar
Detección de
• Filtrar (eliminar o reemplazar) la columna. valores atı́picos

Manejo de datos
• Filtrar la fila. faltantes

• Reemplazar el valor: por el valor ’nulo’ si el algoritmo lo trata bien o por Reducción de
dimensionalidad
máximos o mı́nimos. Análisis de
componentes principales

• Discretizar: transformar un valor continuo en uno discreto (por ejemplo muy Conclusiones

alto, alto, medio, bajo, muy bajo) hace que los valores anómalos caigan en Referencias

’muy alto’ o ’muy bajo’ sin mayores problemas.


Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Manejo de datos faltantes
Minerı́a de
Datos

m.dazpea

Valores faltantes (missing values): son aquellos que no constan debido a cualquier Distribución
Normal
acontecimiento. Causas: Detección de
valores atı́picos
• Problemas en la extracción de los datos.
Manejo de datos
• Errores en la colección de los datos. faltantes

• MCAR: Completamente aleatorios (igual probabilidad) Reducción de


dimensionalidad
• MAR: Aleatorios (distintos niveles, ej: más datos faltantes de mujeres que de Análisis de
componentes principales
hombres)
Conclusiones
• MNAR: No aleatorios (relacionado a variables de entrada no observadas)
Referencias
¿Es conveniente imputar valores faltantes?
Manejo de datos faltantes
Minerı́a de
Datos

m.dazpea

Acciones sobre datos faltantes [Hernándes et al., 2004]: Distribución


• Ignorar Normal

Detección de
• Eliminar (filtrar o reemplazar) toda la columna. valores atı́picos

Manejo de datos
• Filtrar la fila. faltantes

• Reemplazar el valor. Reducción de


dimensionalidad
• Segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se Análisis de
componentes principales

obtienen modelos diferentes para cada segmento y luego se combinan. Conclusiones

• Modificar la polı́tica de calidad de datos y esperar hasta que los datos Referencias

faltantes estén disponibles.


Manejo de datos faltantes
Minerı́a de
Datos

m.dazpea

Distribución
Normal
Sustitución por la Media: Detección de
Consiste en sustituir el valor ausente por la Media de los valores válidos y tiene valores atı́picos

como inconvenientes: Manejo de datos


faltantes
• Dificulta la estimación de la varianza. Reducción de
dimensionalidad
• Distorsiona la verdadera distribución de la variable. Análisis de
componentes principales

• Distorsiona la correlación entre variables dado que añade valores constantes. Conclusiones

Referencias
Manejo de datos faltantes
Minerı́a de
Datos

m.dazpea
Ejemplo sustitución por la media y la mediana:
Muestra Media Mediana Distribución
Normal
1 3 3 3
Detección de
2 5 5 5 valores atı́picos

3 1 1 1 Manejo de datos
faltantes
4 9 9 9 Reducción de
5 NA 4 3 dimensionalidad
Análisis de
6 3 3 3 componentes principales

Conclusiones
7 8 8 8
Referencias
8 NA 4 3
9 1 1 1
10 8 8 8
Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Reducción de dimensionalidad
Minerı́a de
Datos
El procesamiento, con el reciente volumen de datos y más dimensiones, se hace m.dazpea

difı́cil y algunas dimensiones (variables, caracterı́sticas) pueden no ser relevantes


Distribución
para todos los estudios de caso. La reducción de dimensiones tiene los siguientes Normal

beneficios [Bhatia & Chiu, 2017]: Detección de


valores atı́picos
• La reducción de funciones puede aumentar la eficiencia del procesamiento de Manejo de datos
faltantes
datos, permitiendo un cálculo rápido.
Reducción de
• Los datos se comprimirán, por lo que se requiere menor capacidad de almace- dimensionalidad
Análisis de
namiento. componentes principales

Conclusiones
• Mejora el rendimiento del modelo al eliminar los datos redundantes.
Referencias
• Desempeña un papel importante en la eliminación de ruido, mejorando el
rendimiento del modelo.
• Mejora la visualización de los datos.
Reducción de dimensionalidad
Minerı́a de
Datos

m.dazpea

La reducción de datos puede ser en número de columnas o en el número de filas, Distribución


Normal
para facilitar el análisis. Existen diferentes tipos de reducción de datos:
Detección de
• Muestreo de datos valores atı́picos

Manejo de datos
faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Reducción de dimensionalidad
Minerı́a de
Datos

m.dazpea

La reducción de datos puede ser en número de columnas o en el número de filas, Distribución


Normal
para facilitar el análisis. Existen diferentes tipos de reducción de datos:
Detección de
• Muestreo de datos valores atı́picos

• Selección de caracterı́sticas Manejo de datos


faltantes

Reducción de
dimensionalidad
Análisis de
componentes principales

Conclusiones

Referencias
Reducción de dimensionalidad
Minerı́a de
Datos

m.dazpea

La reducción de datos puede ser en número de columnas o en el número de filas, Distribución


Normal
para facilitar el análisis. Existen diferentes tipos de reducción de datos:
Detección de
• Muestreo de datos valores atı́picos

• Selección de caracterı́sticas Manejo de datos


faltantes

• Reducción de datos con rotación del eje Las correlaciones en los datos se Reducción de
dimensionalidad
aprovechan para representarlos en un número menor de dimensiones. Análisis de
componentes principales

Conclusiones

Referencias
Reducción de dimensionalidad
Minerı́a de
Datos

m.dazpea

La reducción de datos puede ser en número de columnas o en el número de filas, Distribución


Normal
para facilitar el análisis. Existen diferentes tipos de reducción de datos:
Detección de
• Muestreo de datos valores atı́picos

• Selección de caracterı́sticas Manejo de datos


faltantes

• Reducción de datos con rotación del eje Las correlaciones en los datos se Reducción de
dimensionalidad
aprovechan para representarlos en un número menor de dimensiones. Análisis de
componentes principales

• Reducción de datos con transformación de tipos: Ej: las series de tiempo Conclusiones

se convierten en datos multidimensionales de menor tamaño y menor comple- Referencias

jidad mediante transformaciones de ondı́culas discretas.


Análisis de componentes principales
Minerı́a de
Datos

m.dazpea

Distribución
Definición Normal

Detección de
El método PCA se publicó por primera vez en 1901 por Pearson. Este método valores atı́picos

examina la covarianza entre caracterı́sticas y combina múltiples caracterı́sticas en Manejo de datos


faltantes
nuevos atributos independientes entre sı́. Reducción de
Estas nuevas caracterı́sticas, que son combinaciones ponderadas del conjunto de dimensionalidad
Análisis de
predictores original, se denominan componentes principales (PC), y por lo general, componentes principales

Conclusiones
un pequeño subconjunto de ellas explica la mayor parte de la variabilidad del con-
Referencias
junto completo de caracterı́sticas [Boehmke & Greenwell, 2020].
Análisis de componentes principales
Minerı́a de
Datos
Componentes principales
m.dazpea
Considerando el conjunto de caracterı́sticas X1 , X2 , . . . , Xd , el primer componente
Distribución
se formarı́a por la combinación lineal de las caracterı́sticas: Normal

Detección de
valores atı́picos
PC1 = φ11 X1 + φ21 X2 + . . . + φd1 Xd (5)
Manejo de datos
faltantes
donde
P φ1 = (φ11 , φ21 , . . . , φd1 ) es el vector de coeficientes del primer componente Reducción de
y dj=1 φ2j1 = 1. dimensionalidad
Análisis de

Luego podrı́amos calcular el segundo componente, no correlacionado con el primero, componentes principales

Conclusiones

Referencias
PC2 = φ12 X1 + φ22 X2 + . . . + φd2 Xd (6)

con vector de coeficientes φ2 = (φ12 , φ22 , . . . , φd2 ), y el proceso se podrı́a extender


para todos los d componentes principales.
¿Cómo calcular los vectores φ1 , φ2 , . . . , φd ?
Análisis de componentes principales
Minerı́a de
Datos

m.dazpea

Distribución
Normal

Requisitos: Detección de
valores atı́picos
• los datos deben ser valores numéricos; Manejo de datos
faltantes
• cualquier valor que falte en los datos debe eliminarse o imputarse; y
Reducción de
• los datos numéricos deben estar estandarizados para que las caracterı́sticas dimensionalidad
Análisis de
componentes principales
sean comparables.
Conclusiones

Referencias
Análisis de componentes principales
Minerı́a de
Fortalezas y debilidades del PCA: Datos

m.dazpea
Fortalezas Debilidades
Distribución
Normal
• PCA crea nuevos ejes que son • El mapeo de dimensiones altas a
Detección de
directamente interpretables en dimensiones bajas no puede ser valores atı́picos

términos de las variables origi- no lineal. Manejo de datos


faltantes
nales. • No puede manejar variables Reducción de
dimensionalidad
• Se pueden proyectar nuevos categóricas de forma nativa. Análisis de
componentes principales
datos sobre los ejes principales. • Debemos decidir el número fi- Conclusiones
• PCA es realmente una trans- nal de componentes principales Referencias
formación matemática y, por lo a retener para la aplicación en
tanto, es computacionalmente cuestión.
económico.
Análisis de componentes principales
Minerı́a de
Datos
Pasos: m.dazpea

1 Estandarizar los datos (N (0, 1)). Distribución


Normal
2 Calcular la matriz de covarianza de dimensiones.
Detección de
3 Obtener los autovectores y autovalores de la matriz de covarianza. valores atı́picos

Manejo de datos
4 Ordenar los autovalores en orden descendente y elegir los k superiores autovec- faltantes

tores que correspondan a los k autovalores más grandes (k se convertirá en el Reducción de


dimensionalidad
número de dimensiones del subespacio de caracterı́sticas nuevas k ≤ d, d es Análisis de
componentes principales
el número de dimensiones originales). Conclusiones
5 Construir la matriz de proyección W a partir de los k autovectores selecciona- Referencias

dos.
6 Transformar el conjunto de datos original X a través de W para obtener el
nuevo subespacio Y de caracterı́sticas k-dimensionales.
Matriz de covarianza
Minerı́a de
Datos

m.dazpea
Covarianza
Distribución
Sea C la matriz de covarianza simétrica con dimensión d × d de la matriz de Normal

datos D (n × d), la (i, j)-ésima entrada de la matriz se calcula como [?], Detección de
valores atı́picos

i j
Pn Manejo de datos
k=1 xk xk faltantes
cij = − µi µj ∀i, j ∈ {1, . . . , d} (7)
n Reducción de
dimensionalidad
Análisis de
con µi la media de la i-ésima dimensión. Si denotamos µ̄ = (µ1 , . . . , µd ), componentes principales

entonces la matriz de covarianza, Conclusiones

Referencias

DT D
C= − µ̄T µ̄ (8)
n
Autovectores y autovalores
Minerı́a de
Datos

m.dazpea

Distribución
Normal
• Los autovectores y autovalores de una matriz de covarianza (o correlación) Detección de
valores atı́picos
representan el ”núcleo” de un PCA.
Manejo de datos
• Los vectores propios (componentes principales) determinan las direcciones del faltantes

nuevo espacio de caracterı́sticas y los valores propios determinan su magnitud. Reducción de


dimensionalidad
• Los valores propios explican la varianza de los datos a lo largo de los nuevos Análisis de
componentes principales

ejes de caracterı́sticas. Conclusiones

Referencias
Autovectores y autovalores
Minerı́a de
Datos

m.dazpea
Autovalores y autovectores
Distribución
Denotamos los autovalores de la matriz de varianza-covarianza como λj con (j = Normal

1, . . . , d) y λ1 ≥ λ2 ≥ · · · ≥ λd , los correspondientes autovectores denotados por Detección de


valores atı́picos
φ1 , φ2 , . . . , φd . La varianza del j-ésimo componente principal es igual al j-ésimo Manejo de datos
faltantes
valor propio:
Reducción de
dimensionalidad
Var (PCj ) = Var (φj1 X1 + φj2 X2 + . . . + φjd Xd ) = λj (9) Análisis de
componentes principales

Conclusiones
Dada la matriz de covarianza C los autovalores se pueden obtener, Referencias

|C − λ1| = 0 (10)
Selección del número de PC
Minerı́a de
Datos

m.dazpea

Distribución
Proporción de varianza explicada Normal

Detección de
Identifica el número óptimo de PC a mantener en función de la variabilidad total valores atı́picos

que nos gustarı́a tener en cuenta, y se calcula como [Boehmke & Greenwell, 2020] Manejo de datos
faltantes
para los m-ésimos PC: Reducción de
dimensionalidad
Pn Pd 2 Análisis de

i=1 ( j=1 φjm xij ) componentes principales

PVE = Pd Pn (11) Conclusiones


2
j=1 i=1 xij Referencias
Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Conclusiones
Minerı́a de
Datos

m.dazpea

Distribución
• ¿Cuáles son las propiedades de una distribución normal? Normal

Detección de
• ¿Cómo comprobar si una muestra proviene de una población con distribución valores atı́picos

normal? Manejo de datos


faltantes
• ¿Cómo detectar valores atı́picos? Reducción de
dimensionalidad
• ¿Cuál es el tratamiento de datos erróneos? Análisis de
componentes principales

• ¿Cuáles son las acciones sobre datos faltantes? Conclusiones

• ¿En qué consiste el análisis de componentes principales? Referencias


Table of Contents
Minerı́a de
Datos

m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos

3 Manejo de datos faltantes Manejo de datos


faltantes

Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de

Análisis de componentes principales componentes principales

Conclusiones

Referencias
5 Conclusiones

6 Referencias
Referencias
Minerı́a de
Datos
Bhatia, A. & Chiu, D. (2017) ”Machine learning with R cookbook: analyze m.dazpea
data and build predictive models”, Second edition, Packt Publishing Ltd.,
UK. Distribución
Normal

Boehmke, B. & Greenwell, B. (2020) ”Hands-On Machine Learning with Detección de


valores atı́picos
R”, Taylor & Francis Group, LLC. Manejo de datos
faltantes
EMC Education Services (2015). ”Data Science and Big Data analytics: Reducción de
Discovering, Analyzing, Visualizing and Presenting Data”, 1st Edition, dimensionalidad
Análisis de
John Wiley & Sons, Inc. componentes principales

Conclusiones
Foster P. & Fawcett, T. (2013). ”Data Science for Business: What you Referencias
need to know about data mining and data-analytic thinking”,1 edition.
O’Reilly Media.
Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) ”Introducción a la minerı́a
de datos”, Pearson Educación, Madrid. ISBN 84-205-4091-9

También podría gustarte