Está en la página 1de 82

Minerı́a de

Datos

jmaidana

Distribución
Normal
Unidad II: Preparación de la información (parte 2)
Detección de
valores
atı́picos

Manejo de Docente: Jean Paul Maidana González 1


datos faltantes

Causalidad vs.
1 Facultad de Ingenierı́a
Correlación

Coeficientes
j.maidanagonzalez@uandresbello.edu
de correlación

Conclusiones Minerı́a de Datos


Referencias
27 de Marzo, 2024
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Agradecimientos

Minerı́a de
Datos

jmaidana

Distribución
Normal

Detección de
valores Propiedad intelectual
atı́picos

Manejo de La gran mayorı́a de la información presentada en esta diapositiva es de propiedad


datos faltantes
de la Dra. Mailiu Dı́az Peña, coordinadora de la asignatura.
Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Distribución normal

Minerı́a de
Datos La distribución normal, denotada como N (µ, σ 2 ), fue presentada por primera vez
jmaidana por Abraham de Moivre en un artı́culo del año 1733; pero se le reconoce a Gauss
Distribución por el uso del método en 1809 asumiendo una distribución normal de los errores.
Normal

Detección de Función de densidad de probabilidad (PDF)


valores
atı́picos La función de densidad de probabilidad normal está dada por la ecuación:
Manejo de
datos faltantes
(x − µ)2
 
1
Causalidad vs. fµ,σ2 (x) = √ exp − (1)
Correlación σ 2π 2σ 2
Coeficientes
de correlación
donde:
Conclusiones
x: variable observada,
Referencias
µ: media poblacional,
σ 2 : varianza poblacional.
Distribución normal

Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Distribución normal

Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
2. La moda y la mediana son iguales a la media.
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Distribución normal

Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
2. La moda y la mediana son iguales a la media.
Normal 3. Distribución de probabilidad en un entorno de la media:
Detección de aproximadamente el 68.26 % de la distribución se encuentra en el intervalo [µ −
valores
atı́picos σ, µ + σ];
Manejo de en el intervalo [µ − 2σ, µ + 2σ] se encuentra el 95.44 %; y
datos faltantes
aproximadamente el 99.74 % de la distribución se encuentra en [µ − 3σ, µ + 3σ].
Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Distribución normal

Minerı́a de
Datos

jmaidana

Distribución
Normal
Propiedades de la distribución normal
Detección de 4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ).
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Distribución normal

Minerı́a de
Datos

jmaidana

Distribución
Normal
Propiedades de la distribución normal
Detección de 4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ).
valores
atı́picos 5. Si X ∼ N (µX , σX2 ) e Y ∼ N (µY , σY2 ) son variables aleatorias normales inde-
Manejo de pendientes, entonces:
datos faltantes
La suma U = X + Y ∼ N (µX + µY , σX2 + σY2 ).
Causalidad vs.
Correlación Su diferencia V = X − Y ∼ N (µX − µY , σX2 + σY2 ).
Coeficientes Si las varianzas de X e Y son iguales, entonces U y V son independientes entre
de correlación
sı́.
Conclusiones

Referencias
Distribución normal

Minerı́a de
Datos

jmaidana

Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones
Función de densidad (PDF) Función de distribución(CDF)
Referencias
Distribución normal

Minerı́a de
Datos

jmaidana

Distribución
Normal
¿Cómo verificar si una muestra proviene de una
Detección de
valores población con distribución normal?
atı́picos

Manejo de
A De forma gráfica: Histograma de frecuencias,
datos faltantes gráfico cuantil-cuantil.
Causalidad vs.
Correlación B Prueba de bondad de ajuste.
Coeficientes
de correlación C la A y B.
Conclusiones

Referencias
Test de normalidad

Minerı́a de
Datos

jmaidana
Prueba de Kolmogórov-Smirnov (KS tests)
Distribución Es una prueba de bondad de ajuste, no paramétrica, que permite responder a la pre-
Normal

Detección de
gunta: ¿provienen las observaciones de la muestra de alguna distribución hipotética?.
valores Es más robusta para muestras grandes.
atı́picos

Manejo de Hipótesis nula H0 : la distribución empı́rica es similar a la teórica,


datos faltantes

Causalidad vs.
Hipótesis alternativa H1 : la distribución de frecuencias observada no es
Correlación consistente con la distribución teórica.
Coeficientes
de correlación Para el contraste de hipótesis se fija el nivel de significación de la prueba (α = 0.05).
Conclusiones Como lo que nos interesa es no rechazar la hipótesis nula, entonces el valor de
Referencias probabilidad (P − value > α).
Test de normalidad

Minerı́a de
Datos

jmaidana

Distribución
Normal
Test de Shapiro–Wilk
Detección de Es una prueba de normalidad, más apropiada para muestras pequeñas (< 50), las
valores
atı́picos hipótesis planteadas son:
Manejo de Hipótesis nula H0 : la muestra viene de una población distribuida normalmente,
datos faltantes

Causalidad vs. Hipótesis alternativa H1 : la muestra no viene de una población distribuida


Correlación
normalmente.
Coeficientes
de correlación Igual que en el KS test, nos interesa no rechazar la hipótesis nula (P − value > α).
Conclusiones

Referencias
Normalización

Minerı́a de
Datos

jmaidana

Distribución
Normal
Escalamiento o normalización (Min-Max)
Detección de
valores Es una de las transformaciones más utilizadas (PCA, NN, SVM, Knn):
atı́picos

Manejo de Xi − min Xi
datos faltantes Xminmax = (2)
Causalidad vs.
max Xi − min Xi
Correlación

Coeficientes donde la nueva variable Xminmax estará en el rango de valores [0, 1].
de correlación

Conclusiones

Referencias
Normalización

Minerı́a de
Datos

jmaidana

Distribución Estandarización de variables aleatorias normales


Normal
Como consecuencia de la propiedad 1 de la distribución normal, que se refiere a la
Detección de
valores simetrı́a, es posible relacionar todas las variables aleatorias normales X ∼ N (µ, σ 2 )
atı́picos
con la distribución normal estándar
Manejo de
datos faltantes
X −µ
Causalidad vs. Z ∼ N (0, 1), donde Z= . (3)
Correlación σ
Coeficientes
de correlación Esta transformación es conocida como normalización, estandarización o tipifi-
Conclusiones cación de la variable.
Referencias
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Detección de valores atı́picos

Minerı́a de
Datos
¿Por qué es necesario estudiar los valores atı́picos outliers?
jmaidana Porque puede cambiar drásticamente el ajuste en las estimaciones y predicciones.
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes

Causalidad vs. Errores de procesamiento de datos (manipulación de datos o mutaciones no


Correlación
intencionadas).
Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes

Causalidad vs. Errores de procesamiento de datos (manipulación de datos o mutaciones no


Correlación
intencionadas).
Coeficientes
de correlación Errores de muestreo (extracción o mezcla de datos de fuentes incorrectas o
Conclusiones diversas).
Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Los datos atı́picos son ocasionados por:


Distribución Errores en la entrada de datos (humanos).
Normal

Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes

Causalidad vs. Errores de procesamiento de datos (manipulación de datos o mutaciones no


Correlación
intencionadas).
Coeficientes
de correlación Errores de muestreo (extracción o mezcla de datos de fuentes incorrectas o
Conclusiones diversas).
Referencias
Natural (no es un error).
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana

Distribución
Normal
Tipos de outliers:
Detección de Aditivo: valor inesperadamente alto o bajo que se produce para una única
valores
atı́picos observación. Las siguientes observaciones no se ven afectadas.
Manejo de
datos faltantes
Innovador: se caracteriza por un impacto inicial con efectos que se extienden
Causalidad vs. sobre las siguientes observaciones.
Correlación
De cambio de nivel: las observaciones que aparecen después se desplazan a un
Coeficientes
de correlación nuevo nivel, afectando a diversas observaciones y tiene un efecto permanente.
Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana

Distribución Tipos de otliers:


Normal
De cambio transitorio: son similares a los de cambio de nivel, pero su efecto se
Detección de
valores reduce exponencialmente en las siguientes observaciones. Finalmente, las series
atı́picos

Manejo de
vuelven a su nivel normal.
datos faltantes
Aditivo estacional: aparece como un valor inesperadamente alto o bajo que se
Causalidad vs.
Correlación produce repetidamente en intervalos regulares.
Coeficientes
de correlación
Tendencia local: produce un cambio general en la serie causado por un patrón
Conclusiones
en los valores atı́picos después de la aparición del valor atı́pico inicial.
Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana

Distribución
Normal
Uso de gráficos
Detección de
valores
atı́picos
Boxplot
Manejo de Diagrama de dispersión (Scatterplot)
datos faltantes

Causalidad vs.
Histograma de frecuencias
Correlación
Gráfico Cuantil-Cuantil (Q-Q plot)
Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana

Distribución
Normal
Clasificación para la detección de atı́picos con un boxplot.
Detección de
valores 
atı́pico superior, xi > Q3 + 1.5 ∗ IQR
atı́picos

Manejo de
datos faltantes clasificación := atı́pico inferior, xi < Q1 − 1.5 ∗ IQR (4)

Causalidad vs.
nominal, otro caso

Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos Las lı́neas discontinuas inferior y superior representan 1.5 veces la diferencia del 1er
jmaidana y 3er quartil (−1.5×IQR a 1.5×IQR).
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos
Detección de atı́picos en un Boxplot.
jmaidana

Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos

jmaidana Ejemplo de gráfico de dispersión y un histograma de frecuencias.


Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos
Q-Q plot
jmaidana

Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos

Minerı́a de
Datos
Test de Grubbs:
jmaidana
Se definen las hipótesis bajo el supuesto de normalidad:
Distribución
Normal
H0 : No hay outliers en el conjunto de datos.
Detección de H1 : Hay exactamente un outlier.
valores
atı́picos Estadı́stico
Manejo de maxi=1,...,N |Xi − X̄ |
datos faltantes G= (5)
Causalidad vs.
S
Correlación
Se rechaza la hipótesis si:
Coeficientes
de correlación
N −1
Conclusiones G> (6)

r 2
tα/(2N),N−2
Referencias
N 2
N−2+tα/(2N),N−2
Detección de valores atı́picos

Minerı́a de
Datos
Ejemplo:
jmaidana Dado el vector de datos, c(152.36,130.38,101.54,96.26,88.03,85.66,83.62,76.53,
74.36,73.87,73.36,73.35,68.26,65.25,63.68,63.05,57.53)
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos
Método de la puntuación Z

Minerı́a de
Datos Regla empı́rica
jmaidana Para un conjunto de valores que tienen un histograma en forma de campana, el
Distribución intervalo:
Normal
x̄ ± s → contiene aprox. al 68.3% de los valores.
Detección de
valores
atı́picos x̄ ± 2s → contiene aprox. al 95.5% de los valores.
Manejo de x̄ ± 3s → contiene aprox. al 99.7.% de los valores.
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos
Método de la puntuación Z

Minerı́a de
Datos Regla empı́rica
jmaidana Para un conjunto de valores que tienen un histograma en forma de campana, el
Distribución intervalo:
Normal
x̄ ± s → contiene aprox. al 68.3% de los valores.
Detección de
valores
atı́picos x̄ ± 2s → contiene aprox. al 95.5% de los valores.
Manejo de x̄ ± 3s → contiene aprox. al 99.7.% de los valores.
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos
Método de la puntuación Z

Minerı́a de
Datos

jmaidana
Método de la puntuación Z
Distribución
Normal
Si consideramos la regla empı́rica, sabemos que aproximadamente el 100% de las
Detección de observaciones está en el intervalo [x̄ − 3s; x̄ + 3s]. Es muy improbable que una
valores
atı́picos
observación esté fuera de este intervalo, y en caso que fuese, éste se llamarı́a una
Manejo de observación atı́pica. Es decir, una observación es no atı́pica si
datos faltantes

Causalidad vs. xi − x̄ xi − x̄
Correlación xi ∈ [x̄ − 3s; x̄ + 3s] ↔ ∈ [−3, 3] ↔ ≤3
Coeficientes
s s
de correlación
xi −x̄
Conclusiones Por lo tanto, si consideramos la transformación Zi = s , entonces una
Referencias observación xi es atı́pica si |zi | > 3
Detección de valores atı́picos
Método de Tukey

Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal

Detección de ✓ Barrera Interior Superior: BII = Q3 + 1.5RI


valores
atı́picos ✓ Barrera Exterior Inferior: BII = Q1 − 3RI
Manejo de
datos faltantes ✓ Barrera Exterior Superior: BII = Q3 + 3RI
Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Detección de valores atı́picos
Método de Tukey

Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal

Detección de ✓ Barrera Interior Superior: BII = Q3 + 1.5RI


valores
atı́picos ✓ Barrera Exterior Inferior: BII = Q1 − 3RI
Manejo de
datos faltantes ✓ Barrera Exterior Superior: BII = Q3 + 3RI
Causalidad vs.
Correlación
Entonces,
Coeficientes l Cualquier valor fuera de las barreras interiores es considerado como un posible
de correlación
valor atı́pico
Conclusiones

Referencias
l Cualquier valor fuera de las barreras exteriores es considerado como un
potencial valor atı́pico
Detección de valores atı́picos
Método de Tukey

Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal

Detección de ✓ Barrera Interior Superior: BII = Q3 + 1.5RI


valores
atı́picos ✓ Barrera Exterior Inferior: BII = Q1 − 3RI
Manejo de
datos faltantes ✓ Barrera Exterior Superior: BII = Q3 + 3RI
Causalidad vs.
Correlación
Entonces,
Coeficientes l Cualquier valor fuera de las barreras interiores es considerado como un posible
de correlación
valor atı́pico
Conclusiones

Referencias
l Cualquier valor fuera de las barreras exteriores es considerado como un
potencial valor atı́pico

No atı́pico
Detección de valores atı́picos
Box-plot

Minerı́a de
Datos

jmaidana

Distribución
Normal Box-plot (Diagrama de caja o cajón con bigotes)
Detección de
valores El diagrama de caja, entrega información sobre
atı́picos
La tendencia central y dispersión de los datos
Manejo de
datos faltantes
La asimetrı́a de los datos
Causalidad vs.
Correlación Identifica valores atı́picos
Coeficientes
de correlación Es útil para comparar dos o más distribuciones
Conclusiones

Referencias
Detección de valores atı́picos
Box-plot

Minerı́a de
Datos

jmaidana

Distribución
Normal Box-plot (Diagrama de caja o cajón con bigotes)
Detección de
valores El diagrama de caja, entrega información sobre
atı́picos
La tendencia central y dispersión de los datos
Manejo de
datos faltantes
La asimetrı́a de los datos
Causalidad vs.
Correlación Identifica valores atı́picos
Coeficientes
de correlación Es útil para comparar dos o más distribuciones
Conclusiones

Referencias
Detección de valores atı́picos
Box-plot

Minerı́a de
Datos

jmaidana

Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Manejo de datos faltantes

Minerı́a de
Datos

jmaidana

Distribución
Valores faltantes (missing values): son aquellos que no constan debido a cualquier
Normal acontecimiento. Causas:
Detección de
valores Problemas en la extracción de los datos.
atı́picos
Errores en la colección de los datos.
Manejo de
datos faltantes MCAR: Completamente aleatorios (igual probabilidad)
Causalidad vs. MAR: Aleatorios (distintos niveles, ej: más datos faltantes de mujeres que de
Correlación
hombres)
Coeficientes
de correlación MNAR: No aleatorios (relacionado a variables de entrada no observadas)
Conclusiones ¿Es conveniente imputar valores faltantes? Si, No, Depende.
Referencias
Manejo de datos faltantes

Minerı́a de
Datos

jmaidana

Distribución
Normal De casos completos o eliminación por lista: incluir en el análisis los casos que
Detección de presentan observaciones completas en todas las variables.
valores
atı́picos
Selección por variables.
Manejo de
datos faltantes Métodos de imputación
Causalidad vs. Sustitución por la Media/Moda/Mediana
Correlación
Sustitución por constante
Coeficientes
de correlación Imputación por regresión
Conclusiones

Referencias
Manejo de datos faltantes

Minerı́a de
Datos

jmaidana

Distribución
Normal Sustitución por la Media:
Detección de
valores
Consiste en sustituir el valor ausente por la Media de los valores válidos y tiene
atı́picos como inconvenientes:
Manejo de
datos faltantes Dificulta la estimación de la varianza.
Causalidad vs.
Correlación
Distorsiona la verdadera distribución de la variable.
Coeficientes Distorsiona la correlación entre variables dado que añade valores constantes.
de correlación

Conclusiones

Referencias
Manejo de datos faltantes

Minerı́a de
Datos

jmaidana Ejemplo sustitución por la media y la mediana:


Muestra Media Mediana
Distribución
Normal 1 3 3 3
Detección de 2 5 5 5
valores
atı́picos 3 1 1 1
Manejo de 4 9 9 9
datos faltantes

Causalidad vs.
5 NA 4 3
Correlación 6 3 3 3
Coeficientes
de correlación
7 8 8 8
Conclusiones
8 NA 4 3
Referencias 9 1 1 1
10 8 8 8
Manejo de datos faltantes

Minerı́a de
Datos

jmaidana

Distribución
Normal

Detección de
valores
atı́picos Ejercicio propuesto
Manejo de
datos faltantes
Buscar en R o Python otras alternativas de imputación de datos faltantes.
Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Causalidad vs. Correlación

Minerı́a de
Datos
Los paı́ses con mayor consumo de chocolate tienen más premios Nobel, por lo que
jmaidana
se recomienda su consumo para mejorar la inteligencia [Maurage et al., 2013].
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias

”el consumo de chocolate mejora la función cognitiva” (New England Journal, 2012)
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana

Distribución Algunos ejemplos:


Normal

Detección de ”va a temblar porque está haciendo mucho calor”


valores
atı́picos ”Los felizmente casados sobreviven más que los solteros tras un ’by-pass’”
Manejo de
datos faltantes ”La sobreinformación es la causante del sı́ndrome de fatiga informativa”
Causalidad vs.
Correlación
”Ver la televisión acorta la vida hasta en cinco años”
Coeficientes La correlación no justifica en absoluto la existencia de una relación de causa-efecto;
de correlación
y la ausencia de correlación tampoco implica que no exista relación causa-efecto.
Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes
Medida bivariada que mide la magnitud de la asociación entre dos variables y
Causalidad vs. la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera
Correlación
un modelo.
Coeficientes
de correlación

Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes
Medida bivariada que mide la magnitud de la asociación entre dos variables y
Causalidad vs. la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera
Correlación
un modelo.
Coeficientes
de correlación La visualización más común de datos bivariados es el diagrama de dispersión
Conclusiones (Scatterplot), donde la coordenada x corresponde a el valor de una variable y
Referencias se coordinan con el valor de la otra variable.
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación
- el aumento en una variable resulta en una disminución en la otra variable.
Coeficientes
de correlación

Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación
- el aumento en una variable resulta en una disminución en la otra variable.
Coeficientes
de correlación N Un aumento en una variable no tiene ningún efecto aparente sobre la otra.
Conclusiones

Referencias
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana Examples (1)


Distribución En un estudio geoquı́mico de suelo realizado por Servicio Geológico de Estados Unidos
Normal
(USGS) [Smith et al., 2010] en el estado de Colorado, se recolectaron muestras en
Detección de
valores más de 500 sitios, para detectar cambios en la composición del suelo que podrı́an
atı́picos
resultar de procesos naturales o actividades antropogénicas. A continuación se mues-
Manejo de
datos faltantes tra el porcentaje de aluminio (Al) y hierro (Fe) encontrados en 30 sitios.
Causalidad vs.
Correlación Al 4.65 6.36 6.33 3.60 6.89 6.29 5.92 5.83 4.01 7.78 3.17 6.91 6.48 5.97 5.11
Coeficientes
de correlación
7.35 4.89 5.42 6.32 5.18 7.64 5.22 4.28 6.04 5.60 5.97 6.48 4.08 6.15 3.87
Conclusiones Fe 1.20 2.19 1.52 0.63 2.88 2.22 2.48 1.60 1.02 2.08 1.30 4.05 2.56 2.58 2.23
Referencias 3.94 1.65 1.83 3.17 2.35 2.53 2.15 1.20 1.78 2.61 2.77 3.71 1.96 2.17 1.75
Causalidad vs. Correlación

Minerı́a de
Datos

jmaidana Examples (1)


Distribución
Diagrama de dispersión (Scatterplot)
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias

¿Como es la correlación? Positiva, Negativa, No ¿Cómo cuantificarla?


Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos Rho de Spearman: se emplea principalmente para datos ordinales, de in-
Manejo de
datos faltantes
tervalo, cuantitativas que no satisfacen condición de normalidad, método no
Causalidad vs. paramétrico, mide relación lineal y no lineal.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos Rho de Spearman: se emplea principalmente para datos ordinales, de in-
Manejo de
datos faltantes
tervalo, cuantitativas que no satisfacen condición de normalidad, método no
Causalidad vs. paramétrico, mide relación lineal y no lineal.
Correlación
Tau de Kendall: método no paramétrico, se emplea cuando se dispone de
Coeficientes
de correlación pocos datos.
Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos

jmaidana Coeficiente de correlación de Pearson: proporciona una medida de la relación


Distribución lineal entre dos variables.
Normal
1 Pn
i=1 (xi − x̄)(yi − ȳ )
Detección de
n
valores
atı́picos
r= (7)
σx σy
Manejo de
datos faltantes Donde:
Causalidad vs.
Correlación
xi y yi representan las observaciones o puntos de muestras individuales indexados
Coeficientes
por i,
de correlación
n es el tamaño de muestra,
Conclusiones
x̄ y ȳ representan las medias,
Referencias
y σx y σy son las deviaciones estándar de las variables x, y respectivamente.
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal Covarianza
Detección de El numerador en la ecuación (7) se conoce como la covarianza:
valores
atı́picos
n
Manejo de
1X
datos faltantes Cxy = (xi − x̄)(yi − ȳ ) (8)
n
Causalidad vs. i=1
Correlación
se utiliza a menudo como una estadı́stica resumida de un diagrama de dispersión
Coeficientes
de correlación (Scatterplot).
Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos Si la relación entre dos variables no es lineal, entonces se recomienda calcular un
jmaidana coeficiente de correlación de rangos de Spearman.
Distribución
Normal
C (Rx , Ry )
ρrank = (9)
Detección de σRx σRy
valores
atı́picos
donde, C (Rx , Ry ) representa la covarianza del rango de las variables, y σRx , σRy las
Manejo de
datos faltantes deviaciones de los rangos de las variables.
Causalidad vs. La equación (9) se reduce a la siguiente ecuación si todos los n rangos son distintos
Correlación
enteros,
Coeficientes
de correlación
6 ni=1 di2
P
Conclusiones
rs = 1 − (10)
Referencias n(n2 − 1)
donde:
di = rg(Xi ) − rg(Yi )
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución
Normal
Kendall
Detección de 2∗S
valores τ= (11)
atı́picos n(n − 1)
Manejo de P
datos faltantes donde: S = (nc − nd );
Causalidad vs.
Correlación
nc es el número de pares concordantes,
Coeficientes
nd representa el número de pares discordantes.
de correlación

Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos

jmaidana
Dadas dos variables Y y X , la significancia de la correlación se analiza,
Distribución Prueba t
Normal

Detección de
H0 : ρ = 0 las variables son independientes
valores
atı́picos H1 : ρ ̸= 0 existe relación entre las variables

Manejo de r n−2
datos faltantes t= √ , df = n − 2 (12)
Causalidad vs. 1 − r2
Correlación

Coeficientes
Si P − value < 0.05 entonces con un nivel de confianza del 95% se asegura relación
de correlación estadı́sticamente significativa.
Conclusiones
La cantidad de varianza de Y explicada por X se obtiene elevando al cuadrado el
Referencias
coeficiente de correlación R 2 y se conoce como coeficiente de determinación.
Coeficientes de correlación

Minerı́a de
Datos

jmaidana

Distribución Interpretación del valor de correlación.


Normal

Detección de
valores
Correlación Interpretación
atı́picos 0.9 a 1.0 (-0.9 a -1.0) muy fuerte
Manejo de
datos faltantes
0.7 a 0.9 (-0.7 a -0.9) fuerte
Causalidad vs.
0.5 a 0.7 (-0.5 a -0.7) moderada
Correlación
0.3 a 0.5 (-0.3 a -0.5) débil
Coeficientes
de correlación 0 a 0.3 (0 a -0.3) despreciable
Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes Coeficiente de correlación de Pearson
Causalidad vs.
Correlación Cxy 0.68
ρ= = = 0.69 (14)
Coeficientes σx σy 1.19 ∗ 0.82
de correlación

Conclusiones

Referencias
Coeficientes de correlación

Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes Coeficiente de correlación de Pearson
Causalidad vs.
Correlación Cxy 0.68
ρ= = = 0.69 (14)
Coeficientes σx σy 1.19 ∗ 0.82
de correlación

Conclusiones
Coeficiente de correlación de Spearman
Referencias
rs = 0.68 (15)
Coeficientes de correlación

Minerı́a de
Datos

jmaidana Examples (1)


Distribución Utilizando el coeficiente de correlación podrı́amos obtener una matriz de correlación
Normal

Detección de
para analizar la relación de estas dos variables con otros elementos medidos en los
valores 30 sitios.
atı́picos
Pearson Spearman
Manejo de
datos faltantes
Al Ca Fe K Al Ca Fe K
Causalidad vs.
Correlación Al 1.00 0.04 0.69 0.45 Al 1.00 0.16 0.69 0.44
Coeficientes Ca 0.04 1.00 0.13 -0.22 Ca 0.16 1.00 0.28 -0.15
de correlación
Fe 0.69 0.13 1.00 0.05 Fe 0.69 0.28 1.00 0.1
Conclusiones

Referencias
K 0.45 -0.22 0.05 1.00 K 0.44 -0.15 0.1 1.00
Coeficientes de correlación

Minerı́a de
Datos

jmaidana
Examples (1)
Gráfico de correlación
Distribución
Normal

Detección de
valores
atı́picos

Manejo de
datos faltantes

Causalidad vs.
Correlación

Coeficientes
de correlación

Conclusiones

Referencias

¿Podrı́amos estimar Fe conociendo Al? Si, No, No sé ¿Cómo?


Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Conclusiones

Minerı́a de
Datos

jmaidana

Distribución
Normal
¿Cuáles son las propiedades de una distribución normal?
Detección de ¿Cómo comprobar si una muestra proviene de una población con distribución
valores
atı́picos normal?
Manejo de
datos faltantes
¿Cómo detectar valores atı́picos?
Causalidad vs. Métodos de imputación de valores faltantes.
Correlación

Coeficientes
¿Cuáles son las medidas de relación bivariada?
de correlación
Coeficientes de correlación: relación lineal y no lineal.
Conclusiones

Referencias
Table of Contents

Minerı́a de
Datos

jmaidana 1 Distribución Normal


Distribución
Normal 2 Detección de valores atı́picos
Detección de
valores
atı́picos
3 Manejo de datos faltantes
Manejo de
datos faltantes 4 Causalidad vs. Correlación
Causalidad vs.
Correlación
5 Coeficientes de correlación
Coeficientes
de correlación

Conclusiones 6 Conclusiones
Referencias
7 Referencias
Referencias

Minerı́a de
Datos

jmaidana
Boehmke, B. & Greenwell, B. (2020) ”Hands-On Machine Learning with R”,
Distribución Taylor & Francis Group, LLC.
Normal

Detección de EMC Education Services (2015). ”Data Science and Big Data analytics:
valores
atı́picos Discovering, Analyzing, Visualizing and Presenting Data”, 1st Edition,
Manejo de John Wiley & Sons, Inc.
datos faltantes

Causalidad vs. Foster P. & Fawcett, T. (2013). ”Data Science for Business: What you need
Correlación

Coeficientes
to know about data mining and data-analytic thinking”,1 edition. O’Reilly
de correlación Media.
Conclusiones
Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) ”Introducción a la minerı́a de
Referencias
datos”, Pearson Educación, Madrid. ISBN 84-205-4091-9
Referencias

Minerı́a de
Datos

jmaidana

Rhys, H. I. (2020) ”Machine Learning with R, the tidyverse, and mlr”,


Distribución
Normal Manning Publications Co.
Detección de
valores Maurage, P., Heeren, A. & Pesenti, M. (2013) ”Does Chocolate Con-
atı́picos
sumption Really Boost Nobel Award Chances? The Peril of Over-
Manejo de
datos faltantes Interpreting Correlations in Health Studies”, The Journal of Nutrition,
Causalidad vs.
Correlación
doi:10.3945/jn.113.174813
Coeficientes
de correlación
Smith, D. B., Ellefsen, K. J. & Kilburn, J. E. (2010) ”Geochemical Data for
Conclusiones
Colorado Soils: Results from the 2006 State-Scale Geochemical Survey”,
Referencias U.S. Geological Survey, Data Series 520.

También podría gustarte