Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datos
jmaidana
Distribución
Normal
Unidad II: Preparación de la información (parte 2)
Detección de
valores
atı́picos
Causalidad vs.
1 Facultad de Ingenierı́a
Correlación
Coeficientes
j.maidanagonzalez@uandresbello.edu
de correlación
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Agradecimientos
Minerı́a de
Datos
jmaidana
Distribución
Normal
Detección de
valores Propiedad intelectual
atı́picos
Coeficientes
de correlación
Conclusiones
Referencias
Table of Contents
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Distribución normal
Minerı́a de
Datos La distribución normal, denotada como N (µ, σ 2 ), fue presentada por primera vez
jmaidana por Abraham de Moivre en un artı́culo del año 1733; pero se le reconoce a Gauss
Distribución por el uso del método en 1809 asumiendo una distribución normal de los errores.
Normal
Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
2. La moda y la mediana son iguales a la media.
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
Propiedades de la distribución normal
jmaidana 1. Es simétrica respecto de su media (µ)
Distribución
2. La moda y la mediana son iguales a la media.
Normal 3. Distribución de probabilidad en un entorno de la media:
Detección de aproximadamente el 68.26 % de la distribución se encuentra en el intervalo [µ −
valores
atı́picos σ, µ + σ];
Manejo de en el intervalo [µ − 2σ, µ + 2σ] se encuentra el 95.44 %; y
datos faltantes
aproximadamente el 99.74 % de la distribución se encuentra en [µ − 3σ, µ + 3σ].
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
jmaidana
Distribución
Normal
Propiedades de la distribución normal
Detección de 4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ).
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
jmaidana
Distribución
Normal
Propiedades de la distribución normal
Detección de 4. Si X ∼ N (µ, σ 2 ), y a, b ∈ R, entonces aX + b ∼ N (aµ + b, a2 σ 2 ).
valores
atı́picos 5. Si X ∼ N (µX , σX2 ) e Y ∼ N (µY , σY2 ) son variables aleatorias normales inde-
Manejo de pendientes, entonces:
datos faltantes
La suma U = X + Y ∼ N (µX + µY , σX2 + σY2 ).
Causalidad vs.
Correlación Su diferencia V = X − Y ∼ N (µX − µY , σX2 + σY2 ).
Coeficientes Si las varianzas de X e Y son iguales, entonces U y V son independientes entre
de correlación
sı́.
Conclusiones
Referencias
Distribución normal
Minerı́a de
Datos
jmaidana
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Función de densidad (PDF) Función de distribución(CDF)
Referencias
Distribución normal
Minerı́a de
Datos
jmaidana
Distribución
Normal
¿Cómo verificar si una muestra proviene de una
Detección de
valores población con distribución normal?
atı́picos
Manejo de
A De forma gráfica: Histograma de frecuencias,
datos faltantes gráfico cuantil-cuantil.
Causalidad vs.
Correlación B Prueba de bondad de ajuste.
Coeficientes
de correlación C la A y B.
Conclusiones
Referencias
Test de normalidad
Minerı́a de
Datos
jmaidana
Prueba de Kolmogórov-Smirnov (KS tests)
Distribución Es una prueba de bondad de ajuste, no paramétrica, que permite responder a la pre-
Normal
Detección de
gunta: ¿provienen las observaciones de la muestra de alguna distribución hipotética?.
valores Es más robusta para muestras grandes.
atı́picos
Causalidad vs.
Hipótesis alternativa H1 : la distribución de frecuencias observada no es
Correlación consistente con la distribución teórica.
Coeficientes
de correlación Para el contraste de hipótesis se fija el nivel de significación de la prueba (α = 0.05).
Conclusiones Como lo que nos interesa es no rechazar la hipótesis nula, entonces el valor de
Referencias probabilidad (P − value > α).
Test de normalidad
Minerı́a de
Datos
jmaidana
Distribución
Normal
Test de Shapiro–Wilk
Detección de Es una prueba de normalidad, más apropiada para muestras pequeñas (< 50), las
valores
atı́picos hipótesis planteadas son:
Manejo de Hipótesis nula H0 : la muestra viene de una población distribuida normalmente,
datos faltantes
Referencias
Normalización
Minerı́a de
Datos
jmaidana
Distribución
Normal
Escalamiento o normalización (Min-Max)
Detección de
valores Es una de las transformaciones más utilizadas (PCA, NN, SVM, Knn):
atı́picos
Manejo de Xi − min Xi
datos faltantes Xminmax = (2)
Causalidad vs.
max Xi − min Xi
Correlación
Coeficientes donde la nueva variable Xminmax estará en el rango de valores [0, 1].
de correlación
Conclusiones
Referencias
Normalización
Minerı́a de
Datos
jmaidana
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Detección de valores atı́picos
Minerı́a de
Datos
¿Por qué es necesario estudiar los valores atı́picos outliers?
jmaidana Porque puede cambiar drásticamente el ajuste en las estimaciones y predicciones.
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes
Minerı́a de
Datos
Detección de
Errores de medición (instrumento).
valores
atı́picos Error experimental (extracción).
Manejo de Intencional (para probar métodos de detección).
datos faltantes
Minerı́a de
Datos
jmaidana
Distribución
Normal
Tipos de outliers:
Detección de Aditivo: valor inesperadamente alto o bajo que se produce para una única
valores
atı́picos observación. Las siguientes observaciones no se ven afectadas.
Manejo de
datos faltantes
Innovador: se caracteriza por un impacto inicial con efectos que se extienden
Causalidad vs. sobre las siguientes observaciones.
Correlación
De cambio de nivel: las observaciones que aparecen después se desplazan a un
Coeficientes
de correlación nuevo nivel, afectando a diversas observaciones y tiene un efecto permanente.
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
jmaidana
Manejo de
vuelven a su nivel normal.
datos faltantes
Aditivo estacional: aparece como un valor inesperadamente alto o bajo que se
Causalidad vs.
Correlación produce repetidamente en intervalos regulares.
Coeficientes
de correlación
Tendencia local: produce un cambio general en la serie causado por un patrón
Conclusiones
en los valores atı́picos después de la aparición del valor atı́pico inicial.
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
jmaidana
Distribución
Normal
Uso de gráficos
Detección de
valores
atı́picos
Boxplot
Manejo de Diagrama de dispersión (Scatterplot)
datos faltantes
Causalidad vs.
Histograma de frecuencias
Correlación
Gráfico Cuantil-Cuantil (Q-Q plot)
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
jmaidana
Distribución
Normal
Clasificación para la detección de atı́picos con un boxplot.
Detección de
valores
atı́pico superior, xi > Q3 + 1.5 ∗ IQR
atı́picos
Manejo de
datos faltantes clasificación := atı́pico inferior, xi < Q1 − 1.5 ∗ IQR (4)
Causalidad vs.
nominal, otro caso
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos Las lı́neas discontinuas inferior y superior representan 1.5 veces la diferencia del 1er
jmaidana y 3er quartil (−1.5×IQR a 1.5×IQR).
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de atı́picos en un Boxplot.
jmaidana
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Q-Q plot
jmaidana
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Minerı́a de
Datos
Test de Grubbs:
jmaidana
Se definen las hipótesis bajo el supuesto de normalidad:
Distribución
Normal
H0 : No hay outliers en el conjunto de datos.
Detección de H1 : Hay exactamente un outlier.
valores
atı́picos Estadı́stico
Manejo de maxi=1,...,N |Xi − X̄ |
datos faltantes G= (5)
Causalidad vs.
S
Correlación
Se rechaza la hipótesis si:
Coeficientes
de correlación
N −1
Conclusiones G> (6)
√
r 2
tα/(2N),N−2
Referencias
N 2
N−2+tα/(2N),N−2
Detección de valores atı́picos
Minerı́a de
Datos
Ejemplo:
jmaidana Dado el vector de datos, c(152.36,130.38,101.54,96.26,88.03,85.66,83.62,76.53,
74.36,73.87,73.36,73.35,68.26,65.25,63.68,63.05,57.53)
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Método de la puntuación Z
Minerı́a de
Datos Regla empı́rica
jmaidana Para un conjunto de valores que tienen un histograma en forma de campana, el
Distribución intervalo:
Normal
x̄ ± s → contiene aprox. al 68.3% de los valores.
Detección de
valores
atı́picos x̄ ± 2s → contiene aprox. al 95.5% de los valores.
Manejo de x̄ ± 3s → contiene aprox. al 99.7.% de los valores.
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Método de la puntuación Z
Minerı́a de
Datos Regla empı́rica
jmaidana Para un conjunto de valores que tienen un histograma en forma de campana, el
Distribución intervalo:
Normal
x̄ ± s → contiene aprox. al 68.3% de los valores.
Detección de
valores
atı́picos x̄ ± 2s → contiene aprox. al 95.5% de los valores.
Manejo de x̄ ± 3s → contiene aprox. al 99.7.% de los valores.
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Método de la puntuación Z
Minerı́a de
Datos
jmaidana
Método de la puntuación Z
Distribución
Normal
Si consideramos la regla empı́rica, sabemos que aproximadamente el 100% de las
Detección de observaciones está en el intervalo [x̄ − 3s; x̄ + 3s]. Es muy improbable que una
valores
atı́picos
observación esté fuera de este intervalo, y en caso que fuese, éste se llamarı́a una
Manejo de observación atı́pica. Es decir, una observación es no atı́pica si
datos faltantes
Causalidad vs. xi − x̄ xi − x̄
Correlación xi ∈ [x̄ − 3s; x̄ + 3s] ↔ ∈ [−3, 3] ↔ ≤3
Coeficientes
s s
de correlación
xi −x̄
Conclusiones Por lo tanto, si consideramos la transformación Zi = s , entonces una
Referencias observación xi es atı́pica si |zi | > 3
Detección de valores atı́picos
Método de Tukey
Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal
Coeficientes
de correlación
Conclusiones
Referencias
Detección de valores atı́picos
Método de Tukey
Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal
Referencias
l Cualquier valor fuera de las barreras exteriores es considerado como un
potencial valor atı́pico
Detección de valores atı́picos
Método de Tukey
Minerı́a de
Datos Método de Tukey
jmaidana
Considere las siguientes barreras (bisagras)
Distribución ✓ Barrera Interior Inferior: BII = Q1 − 1.5RI
Normal
Referencias
l Cualquier valor fuera de las barreras exteriores es considerado como un
potencial valor atı́pico
No atı́pico
Detección de valores atı́picos
Box-plot
Minerı́a de
Datos
jmaidana
Distribución
Normal Box-plot (Diagrama de caja o cajón con bigotes)
Detección de
valores El diagrama de caja, entrega información sobre
atı́picos
La tendencia central y dispersión de los datos
Manejo de
datos faltantes
La asimetrı́a de los datos
Causalidad vs.
Correlación Identifica valores atı́picos
Coeficientes
de correlación Es útil para comparar dos o más distribuciones
Conclusiones
Referencias
Detección de valores atı́picos
Box-plot
Minerı́a de
Datos
jmaidana
Distribución
Normal Box-plot (Diagrama de caja o cajón con bigotes)
Detección de
valores El diagrama de caja, entrega información sobre
atı́picos
La tendencia central y dispersión de los datos
Manejo de
datos faltantes
La asimetrı́a de los datos
Causalidad vs.
Correlación Identifica valores atı́picos
Coeficientes
de correlación Es útil para comparar dos o más distribuciones
Conclusiones
Referencias
Detección de valores atı́picos
Box-plot
Minerı́a de
Datos
jmaidana
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Table of Contents
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Manejo de datos faltantes
Minerı́a de
Datos
jmaidana
Distribución
Valores faltantes (missing values): son aquellos que no constan debido a cualquier
Normal acontecimiento. Causas:
Detección de
valores Problemas en la extracción de los datos.
atı́picos
Errores en la colección de los datos.
Manejo de
datos faltantes MCAR: Completamente aleatorios (igual probabilidad)
Causalidad vs. MAR: Aleatorios (distintos niveles, ej: más datos faltantes de mujeres que de
Correlación
hombres)
Coeficientes
de correlación MNAR: No aleatorios (relacionado a variables de entrada no observadas)
Conclusiones ¿Es conveniente imputar valores faltantes? Si, No, Depende.
Referencias
Manejo de datos faltantes
Minerı́a de
Datos
jmaidana
Distribución
Normal De casos completos o eliminación por lista: incluir en el análisis los casos que
Detección de presentan observaciones completas en todas las variables.
valores
atı́picos
Selección por variables.
Manejo de
datos faltantes Métodos de imputación
Causalidad vs. Sustitución por la Media/Moda/Mediana
Correlación
Sustitución por constante
Coeficientes
de correlación Imputación por regresión
Conclusiones
Referencias
Manejo de datos faltantes
Minerı́a de
Datos
jmaidana
Distribución
Normal Sustitución por la Media:
Detección de
valores
Consiste en sustituir el valor ausente por la Media de los valores válidos y tiene
atı́picos como inconvenientes:
Manejo de
datos faltantes Dificulta la estimación de la varianza.
Causalidad vs.
Correlación
Distorsiona la verdadera distribución de la variable.
Coeficientes Distorsiona la correlación entre variables dado que añade valores constantes.
de correlación
Conclusiones
Referencias
Manejo de datos faltantes
Minerı́a de
Datos
Causalidad vs.
5 NA 4 3
Correlación 6 3 3 3
Coeficientes
de correlación
7 8 8 8
Conclusiones
8 NA 4 3
Referencias 9 1 1 1
10 8 8 8
Manejo de datos faltantes
Minerı́a de
Datos
jmaidana
Distribución
Normal
Detección de
valores
atı́picos Ejercicio propuesto
Manejo de
datos faltantes
Buscar en R o Python otras alternativas de imputación de datos faltantes.
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Table of Contents
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
Los paı́ses con mayor consumo de chocolate tienen más premios Nobel, por lo que
jmaidana
se recomienda su consumo para mejorar la inteligencia [Maurage et al., 2013].
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
”el consumo de chocolate mejora la función cognitiva” (New England Journal, 2012)
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes
Medida bivariada que mide la magnitud de la asociación entre dos variables y
Causalidad vs. la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera
Correlación
un modelo.
Coeficientes
de correlación
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Correlación
Distribución
Normal
Es una comparación o descripción de la asociación entre variables.
Detección de Los cambios de alguna variable Y pueden ser explicados por los cambios de la
valores
atı́picos otra X .
Manejo de
datos faltantes
Medida bivariada que mide la magnitud de la asociación entre dos variables y
Causalidad vs. la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera
Correlación
un modelo.
Coeficientes
de correlación La visualización más común de datos bivariados es el diagrama de dispersión
Conclusiones (Scatterplot), donde la coordenada x corresponde a el valor de una variable y
Referencias se coordinan con el valor de la otra variable.
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación
- el aumento en una variable resulta en una disminución en la otra variable.
Coeficientes
de correlación
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal
Correlación
Detección de
Las variables están correlacionadas positivamente, negativamente correlacionados o
valores
atı́picos
no correlacionados.
Manejo de + los valores de más grandes de una variable se asocian con los valores de más
datos faltantes
grandes de la otra.
Causalidad vs.
Correlación
- el aumento en una variable resulta en una disminución en la otra variable.
Coeficientes
de correlación N Un aumento en una variable no tiene ningún efecto aparente sobre la otra.
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
Minerı́a de
Datos
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos Rho de Spearman: se emplea principalmente para datos ordinales, de in-
Manejo de
datos faltantes
tervalo, cuantitativas que no satisfacen condición de normalidad, método no
Causalidad vs. paramétrico, mide relación lineal y no lineal.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Detección de ralación lineal, es sensible a valores extremos.
valores
atı́picos Rho de Spearman: se emplea principalmente para datos ordinales, de in-
Manejo de
datos faltantes
tervalo, cuantitativas que no satisfacen condición de normalidad, método no
Causalidad vs. paramétrico, mide relación lineal y no lineal.
Correlación
Tau de Kendall: método no paramétrico, se emplea cuando se dispone de
Coeficientes
de correlación pocos datos.
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Minerı́a de
Datos
jmaidana
Distribución
Normal Covarianza
Detección de El numerador en la ecuación (7) se conoce como la covarianza:
valores
atı́picos
n
Manejo de
1X
datos faltantes Cxy = (xi − x̄)(yi − ȳ ) (8)
n
Causalidad vs. i=1
Correlación
se utiliza a menudo como una estadı́stica resumida de un diagrama de dispersión
Coeficientes
de correlación (Scatterplot).
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos Si la relación entre dos variables no es lineal, entonces se recomienda calcular un
jmaidana coeficiente de correlación de rangos de Spearman.
Distribución
Normal
C (Rx , Ry )
ρrank = (9)
Detección de σRx σRy
valores
atı́picos
donde, C (Rx , Ry ) representa la covarianza del rango de las variables, y σRx , σRy las
Manejo de
datos faltantes deviaciones de los rangos de las variables.
Causalidad vs. La equación (9) se reduce a la siguiente ecuación si todos los n rangos son distintos
Correlación
enteros,
Coeficientes
de correlación
6 ni=1 di2
P
Conclusiones
rs = 1 − (10)
Referencias n(n2 − 1)
donde:
di = rg(Xi ) − rg(Yi )
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Distribución
Normal
Kendall
Detección de 2∗S
valores τ= (11)
atı́picos n(n − 1)
Manejo de P
datos faltantes donde: S = (nc − nd );
Causalidad vs.
Correlación
nc es el número de pares concordantes,
Coeficientes
nd representa el número de pares discordantes.
de correlación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Dadas dos variables Y y X , la significancia de la correlación se analiza,
Distribución Prueba t
Normal
Detección de
H0 : ρ = 0 las variables son independientes
valores
atı́picos H1 : ρ ̸= 0 existe relación entre las variables
√
Manejo de r n−2
datos faltantes t= √ , df = n − 2 (12)
Causalidad vs. 1 − r2
Correlación
Coeficientes
Si P − value < 0.05 entonces con un nivel de confianza del 95% se asegura relación
de correlación estadı́sticamente significativa.
Conclusiones
La cantidad de varianza de Y explicada por X se obtiene elevando al cuadrado el
Referencias
coeficiente de correlación R 2 y se conoce como coeficiente de determinación.
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Detección de
valores
Correlación Interpretación
atı́picos 0.9 a 1.0 (-0.9 a -1.0) muy fuerte
Manejo de
datos faltantes
0.7 a 0.9 (-0.7 a -0.9) fuerte
Causalidad vs.
0.5 a 0.7 (-0.5 a -0.7) moderada
Correlación
0.3 a 0.5 (-0.3 a -0.5) débil
Coeficientes
de correlación 0 a 0.3 (0 a -0.3) despreciable
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes Coeficiente de correlación de Pearson
Causalidad vs.
Correlación Cxy 0.68
ρ= = = 0.69 (14)
Coeficientes σx σy 1.19 ∗ 0.82
de correlación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Examples (1)
jmaidana
Covarianza
Distribución
Normal 1
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
Detección de
30 (13)
valores
atı́picos = 0.68
Manejo de
datos faltantes Coeficiente de correlación de Pearson
Causalidad vs.
Correlación Cxy 0.68
ρ= = = 0.69 (14)
Coeficientes σx σy 1.19 ∗ 0.82
de correlación
Conclusiones
Coeficiente de correlación de Spearman
Referencias
rs = 0.68 (15)
Coeficientes de correlación
Minerı́a de
Datos
Detección de
para analizar la relación de estas dos variables con otros elementos medidos en los
valores 30 sitios.
atı́picos
Pearson Spearman
Manejo de
datos faltantes
Al Ca Fe K Al Ca Fe K
Causalidad vs.
Correlación Al 1.00 0.04 0.69 0.45 Al 1.00 0.16 0.69 0.44
Coeficientes Ca 0.04 1.00 0.13 -0.22 Ca 0.16 1.00 0.28 -0.15
de correlación
Fe 0.69 0.13 1.00 0.05 Fe 0.69 0.28 1.00 0.1
Conclusiones
Referencias
K 0.45 -0.22 0.05 1.00 K 0.44 -0.15 0.1 1.00
Coeficientes de correlación
Minerı́a de
Datos
jmaidana
Examples (1)
Gráfico de correlación
Distribución
Normal
Detección de
valores
atı́picos
Manejo de
datos faltantes
Causalidad vs.
Correlación
Coeficientes
de correlación
Conclusiones
Referencias
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Conclusiones
Minerı́a de
Datos
jmaidana
Distribución
Normal
¿Cuáles son las propiedades de una distribución normal?
Detección de ¿Cómo comprobar si una muestra proviene de una población con distribución
valores
atı́picos normal?
Manejo de
datos faltantes
¿Cómo detectar valores atı́picos?
Causalidad vs. Métodos de imputación de valores faltantes.
Correlación
Coeficientes
¿Cuáles son las medidas de relación bivariada?
de correlación
Coeficientes de correlación: relación lineal y no lineal.
Conclusiones
Referencias
Table of Contents
Minerı́a de
Datos
Conclusiones 6 Conclusiones
Referencias
7 Referencias
Referencias
Minerı́a de
Datos
jmaidana
Boehmke, B. & Greenwell, B. (2020) ”Hands-On Machine Learning with R”,
Distribución Taylor & Francis Group, LLC.
Normal
Detección de EMC Education Services (2015). ”Data Science and Big Data analytics:
valores
atı́picos Discovering, Analyzing, Visualizing and Presenting Data”, 1st Edition,
Manejo de John Wiley & Sons, Inc.
datos faltantes
Causalidad vs. Foster P. & Fawcett, T. (2013). ”Data Science for Business: What you need
Correlación
Coeficientes
to know about data mining and data-analytic thinking”,1 edition. O’Reilly
de correlación Media.
Conclusiones
Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) ”Introducción a la minerı́a de
Referencias
datos”, Pearson Educación, Madrid. ISBN 84-205-4091-9
Referencias
Minerı́a de
Datos
jmaidana