Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datos
m.dazpea
Distribución
Unidad II: Preparación de la información Normal
Detección de
valores atı́picos
Manejo de datos
Docente: Mailiu Dı́az Peña, Dra.1 faltantes
Reducción de
dimensionalidad
1 Facultad
de Ingenierı́a Análisis de
componentes principales
m.dazpea@uandresbello.edu
Conclusiones
Referencias
Minerı́a de Datos
Marzo 25, 2024
Table of Contents
Minerı́a de
Datos
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Table of Contents
Minerı́a de
Datos
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Distribución normal
Minerı́a de
Datos
La distribución normal, denotada como N (µ, σ 2 ), fue presentada por primera vez m.dazpea
por Abraham de Moivre en un artı́culo del año 1733; pero se le reconoce a Gauss
Distribución
por el uso del método en 1809 asumiendo una distribución normal de los errores. Normal
Detección de
Función de densidad de probabilidad (PDF) valores atı́picos
Manejo de datos
La función de densidad de probabilidad normal está dada por la ecuación: faltantes
Reducción de
(x − µ)2
1 dimensionalidad
fµ,σ2 (x) = √ exp − (1) Análisis de
σ 2π 2σ 2 componentes principales
Conclusiones
donde: Referencias
x: variable observada,
µ: media poblacional,
σ 2 : varianza poblacional.
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Distribución normal
Propiedades de la distribución normal Minerı́a de
Datos
1. Es simétrica respecto de su media (µ) m.dazpea
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
m.dazpea
Distribución
Propiedades de la distribución normal Normal
Detección de
4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ). valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
m.dazpea
Distribución
Propiedades de la distribución normal Normal
Detección de
4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ). valores atı́picos
5. Si X ∼ N (µX , σX2 ) e Y ∼ N (µY , σY2 ) son variables aleatorias normales inde- Manejo de datos
faltantes
pendientes, entonces:
Reducción de
• La suma U = X + Y ∼ N (µX + µY , σX2 + σY2 ). dimensionalidad
• Su diferencia V = X − Y ∼ N (µX − µY , σX2 + σY2 ). Análisis de
componentes principales
sı́. Referencias
Distribución normal
Minerı́a de
Datos
m.dazpea
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
m.dazpea
Distribución
Normal
¿Cómo verificar si una muestra proviene de una Detección de
valores atı́picos
población con distribución normal?
Manejo de datos
faltantes
A De forma gráfica: Histograma de frecuencias,
Reducción de
gráfico cuantil-cuantil. dimensionalidad
Análisis de
Conclusiones
C la A y B. Referencias
Test de normalidad
Minerı́a de
Datos
m.dazpea
Conclusiones
Para el contraste de hipótesis se fija el nivel de significación de la prueba (α = 0.05). Referencias
Como lo que nos interesa es no rechazar la hipótesis nula, entonces el valor de
probabilidad (P − value > α).
Test de normalidad
Minerı́a de
Datos
m.dazpea
Distribución
Test de Shapiro–Wilk Normal
Es una prueba de normalidad, más apropiada para muestras pequeñas (< 50), las Detección de
valores atı́picos
hipótesis planteadas son:
Manejo de datos
• Hipótesis nula H0 : la muestra viene de una población distribuida normal- faltantes
Reducción de
mente, dimensionalidad
normalmente. Conclusiones
Referencias
Igual que en el KS test, nos interesa no rechazar la hipótesis nula (P − value > α).
Normalización
Minerı́a de
Datos
m.dazpea
Distribución
Normal
Escalamiento o normalización (Min-Max) Detección de
valores atı́picos
Es una de las transformaciones más utilizadas (PCA, NN, SVM, Knn):
Manejo de datos
faltantes
Xi − min Xi
Xminmax = (2) Reducción de
max Xi − min Xi dimensionalidad
Análisis de
componentes principales
donde la nueva variable Xminmax estará en el rango de valores [0, 1]. Conclusiones
Referencias
Normalización
Minerı́a de
Datos
m.dazpea
Distribución
Estandarización de variables aleatorias normales Normal
Como consecuencia de la propiedad 1 de la distribución normal, que se refiere a la Detección de
simetrı́a, es posible relacionar todas las variables aleatorias normales X ∼ N (µ, σ 2 ) valores atı́picos
Manejo de datos
con la distribución normal estándar faltantes
Reducción de
X −µ dimensionalidad
Z ∼ N (0, 1), donde Z = . (3) Análisis de
σ componentes principales
Conclusiones
Esta transformación es conocida como normalización, estandarización o tipifi- Referencias
cación de la variable.
Table of Contents
Minerı́a de
Datos
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Detección de valores atı́picos
¿Por qué es necesario estudiar los valores atı́picos outliers? Minerı́a de
Datos
Porque puede cambiar drásticamente el ajuste en las estimaciones y predicciones. m.dazpea
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
m.dazpea
Los datos atı́picos son ocasionados por:
• Errores en la entrada de datos (humanos). Distribución
Normal
m.dazpea
Distribución
Normal
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Distribución
Normal
Clasificación para la detección de atı́picos con un boxplot. Detección de
valores atı́picos
Manejo de datos
atı́pico superior, xi > Q3 + 1.5 ∗ IQR
faltantes
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Las lı́neas discontinuas inferior y superior representan 1.5 veces la diferencia del
m.dazpea
1er y 3er quartil (−1.5×IQR a 1.5×IQR).
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Detección de atı́picos en un Boxplot. Datos
m.dazpea
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Ejemplo de gráfico de dispersión y un histograma de frecuencias.
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Q-Q plot Datos
m.dazpea
Distribución
Normal
Detección de
valores atı́picos
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
m.dazpea
Manejo de datos
• Filtrar la fila. faltantes
• Reemplazar el valor: por el valor ’nulo’ si el algoritmo lo trata bien o por Reducción de
dimensionalidad
máximos o mı́nimos. Análisis de
componentes principales
• Discretizar: transformar un valor continuo en uno discreto (por ejemplo muy Conclusiones
alto, alto, medio, bajo, muy bajo) hace que los valores anómalos caigan en Referencias
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Manejo de datos faltantes
Minerı́a de
Datos
m.dazpea
Valores faltantes (missing values): son aquellos que no constan debido a cualquier Distribución
Normal
acontecimiento. Causas: Detección de
valores atı́picos
• Problemas en la extracción de los datos.
Manejo de datos
• Errores en la colección de los datos. faltantes
m.dazpea
Detección de
• Eliminar (filtrar o reemplazar) toda la columna. valores atı́picos
Manejo de datos
• Filtrar la fila. faltantes
• Modificar la polı́tica de calidad de datos y esperar hasta que los datos Referencias
m.dazpea
Distribución
Normal
Sustitución por la Media: Detección de
Consiste en sustituir el valor ausente por la Media de los valores válidos y tiene valores atı́picos
• Distorsiona la correlación entre variables dado que añade valores constantes. Conclusiones
Referencias
Manejo de datos faltantes
Minerı́a de
Datos
m.dazpea
Ejemplo sustitución por la media y la mediana:
Muestra Media Mediana Distribución
Normal
1 3 3 3
Detección de
2 5 5 5 valores atı́picos
3 1 1 1 Manejo de datos
faltantes
4 9 9 9 Reducción de
5 NA 4 3 dimensionalidad
Análisis de
6 3 3 3 componentes principales
Conclusiones
7 8 8 8
Referencias
8 NA 4 3
9 1 1 1
10 8 8 8
Table of Contents
Minerı́a de
Datos
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Reducción de dimensionalidad
Minerı́a de
Datos
El procesamiento, con el reciente volumen de datos y más dimensiones, se hace m.dazpea
Conclusiones
• Mejora el rendimiento del modelo al eliminar los datos redundantes.
Referencias
• Desempeña un papel importante en la eliminación de ruido, mejorando el
rendimiento del modelo.
• Mejora la visualización de los datos.
Reducción de dimensionalidad
Minerı́a de
Datos
m.dazpea
Manejo de datos
faltantes
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Reducción de dimensionalidad
Minerı́a de
Datos
m.dazpea
Reducción de
dimensionalidad
Análisis de
componentes principales
Conclusiones
Referencias
Reducción de dimensionalidad
Minerı́a de
Datos
m.dazpea
• Reducción de datos con rotación del eje Las correlaciones en los datos se Reducción de
dimensionalidad
aprovechan para representarlos en un número menor de dimensiones. Análisis de
componentes principales
Conclusiones
Referencias
Reducción de dimensionalidad
Minerı́a de
Datos
m.dazpea
• Reducción de datos con rotación del eje Las correlaciones en los datos se Reducción de
dimensionalidad
aprovechan para representarlos en un número menor de dimensiones. Análisis de
componentes principales
• Reducción de datos con transformación de tipos: Ej: las series de tiempo Conclusiones
m.dazpea
Distribución
Definición Normal
Detección de
El método PCA se publicó por primera vez en 1901 por Pearson. Este método valores atı́picos
Conclusiones
un pequeño subconjunto de ellas explica la mayor parte de la variabilidad del con-
Referencias
junto completo de caracterı́sticas [Boehmke & Greenwell, 2020].
Análisis de componentes principales
Minerı́a de
Datos
Componentes principales
m.dazpea
Considerando el conjunto de caracterı́sticas X1 , X2 , . . . , Xd , el primer componente
Distribución
se formarı́a por la combinación lineal de las caracterı́sticas: Normal
Detección de
valores atı́picos
PC1 = φ11 X1 + φ21 X2 + . . . + φd1 Xd (5)
Manejo de datos
faltantes
donde
P φ1 = (φ11 , φ21 , . . . , φd1 ) es el vector de coeficientes del primer componente Reducción de
y dj=1 φ2j1 = 1. dimensionalidad
Análisis de
Luego podrı́amos calcular el segundo componente, no correlacionado con el primero, componentes principales
Conclusiones
Referencias
PC2 = φ12 X1 + φ22 X2 + . . . + φd2 Xd (6)
m.dazpea
Distribución
Normal
Requisitos: Detección de
valores atı́picos
• los datos deben ser valores numéricos; Manejo de datos
faltantes
• cualquier valor que falte en los datos debe eliminarse o imputarse; y
Reducción de
• los datos numéricos deben estar estandarizados para que las caracterı́sticas dimensionalidad
Análisis de
componentes principales
sean comparables.
Conclusiones
Referencias
Análisis de componentes principales
Minerı́a de
Fortalezas y debilidades del PCA: Datos
m.dazpea
Fortalezas Debilidades
Distribución
Normal
• PCA crea nuevos ejes que son • El mapeo de dimensiones altas a
Detección de
directamente interpretables en dimensiones bajas no puede ser valores atı́picos
Manejo de datos
4 Ordenar los autovalores en orden descendente y elegir los k superiores autovec- faltantes
dos.
6 Transformar el conjunto de datos original X a través de W para obtener el
nuevo subespacio Y de caracterı́sticas k-dimensionales.
Matriz de covarianza
Minerı́a de
Datos
m.dazpea
Covarianza
Distribución
Sea C la matriz de covarianza simétrica con dimensión d × d de la matriz de Normal
datos D (n × d), la (i, j)-ésima entrada de la matriz se calcula como [?], Detección de
valores atı́picos
i j
Pn Manejo de datos
k=1 xk xk faltantes
cij = − µi µj ∀i, j ∈ {1, . . . , d} (7)
n Reducción de
dimensionalidad
Análisis de
con µi la media de la i-ésima dimensión. Si denotamos µ̄ = (µ1 , . . . , µd ), componentes principales
Referencias
DT D
C= − µ̄T µ̄ (8)
n
Autovectores y autovalores
Minerı́a de
Datos
m.dazpea
Distribución
Normal
• Los autovectores y autovalores de una matriz de covarianza (o correlación) Detección de
valores atı́picos
representan el ”núcleo” de un PCA.
Manejo de datos
• Los vectores propios (componentes principales) determinan las direcciones del faltantes
Referencias
Autovectores y autovalores
Minerı́a de
Datos
m.dazpea
Autovalores y autovectores
Distribución
Denotamos los autovalores de la matriz de varianza-covarianza como λj con (j = Normal
Conclusiones
Dada la matriz de covarianza C los autovalores se pueden obtener, Referencias
|C − λ1| = 0 (10)
Selección del número de PC
Minerı́a de
Datos
m.dazpea
Distribución
Proporción de varianza explicada Normal
Detección de
Identifica el número óptimo de PC a mantener en función de la variabilidad total valores atı́picos
que nos gustarı́a tener en cuenta, y se calcula como [Boehmke & Greenwell, 2020] Manejo de datos
faltantes
para los m-ésimos PC: Reducción de
dimensionalidad
Pn Pd 2 Análisis de
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Conclusiones
Minerı́a de
Datos
m.dazpea
Distribución
• ¿Cuáles son las propiedades de una distribución normal? Normal
Detección de
• ¿Cómo comprobar si una muestra proviene de una población con distribución valores atı́picos
m.dazpea
1 Distribución Normal
Distribución
Normal
2 Detección de valores atı́picos Detección de
valores atı́picos
Reducción de
dimensionalidad
4 Reducción de dimensionalidad Análisis de
Conclusiones
Referencias
5 Conclusiones
6 Referencias
Referencias
Minerı́a de
Datos
Bhatia, A. & Chiu, D. (2017) ”Machine learning with R cookbook: analyze m.dazpea
data and build predictive models”, Second edition, Packt Publishing Ltd.,
UK. Distribución
Normal
Conclusiones
Foster P. & Fawcett, T. (2013). ”Data Science for Business: What you Referencias
need to know about data mining and data-analytic thinking”,1 edition.
O’Reilly Media.
Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) ”Introducción a la minerı́a
de datos”, Pearson Educación, Madrid. ISBN 84-205-4091-9