Está en la página 1de 62

Minerı́a de

Datos

m.dazpea

Causalidad vs.
Unidad II: Preparación de la información Correlación

Coeficientes de
correlación

Modelo de
Docente: Mailiu Dı́az Peña, Dra. 1 regresión lineal
simple

Modelo de
1 Facultad
de Ingenierı́a regresión lineal
múltiple
m.dazpea@uandresbello.edu
Análisis de Varianza
Coeficiente de
determinación

Minerı́a de Datos Inferencia de los


coeficientes

Abril 01, 2024 Conclusiones

Referencias
Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Causalidad vs. Correlación
Los paı́ses con mayor consumo de chocolate tienen más premios Nobel, por lo que Minerı́a de
Datos
se recomienda su consumo para mejorar la inteligencia [Maurage et al., 2013]. m.dazpea

Causalidad vs.
Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias

”el consumo de chocolate mejora la función cognitiva” (New England Journal,


2012)
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Algunos ejemplos: Correlación

Coeficientes de
• ”va a temblar porque está haciendo mucho calor” correlación

• ”Los felizmente casados sobreviven más que los solteros tras un ’by-pass’” Modelo de
regresión lineal
• ”La sobreinformación es la causante del sı́ndrome de fatiga informativa” simple

Modelo de
• ”Ver la televisión acorta la vida hasta en cinco años” regresión lineal
múltiple
La correlación no justifica en absoluto la existencia de una relación de causa-efecto; Análisis de Varianza
Coeficiente de
determinación
y la ausencia de correlación tampoco implica que no exista relación causa-efecto. Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación

Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación

otra X . Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación

Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación

otra X . Modelo de
regresión lineal
• Medida bivariada que mide la magnitud de la asociación entre dos variables y simple

Modelo de
la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera regresión lineal
múltiple
un modelo. Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación

Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación

otra X . Modelo de
regresión lineal
• Medida bivariada que mide la magnitud de la asociación entre dos variables y simple

Modelo de
la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera regresión lineal
múltiple
un modelo. Análisis de Varianza

• La visualización más común de datos bivariados es el diagrama de dispersión Coeficiente de


determinación
Inferencia de los
(Scatterplot), donde la coordenada x corresponde a el valor de una variable y coeficientes

se coordinan con el valor de la otra variable. Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación Correlación

Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple

grandes de la otra. Modelo de


regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación Correlación

Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple

grandes de la otra. Modelo de


regresión lineal
múltiple
- el aumento en una variable resulta en una disminución en la otra variable. Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación Correlación

Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple

grandes de la otra. Modelo de


regresión lineal
múltiple
- el aumento en una variable resulta en una disminución en la otra variable. Análisis de Varianza
Coeficiente de
N Un aumento en una variable no tiene ningún efecto aparente sobre la otra. determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Causalidad vs. Correlación
Minerı́a de
Datos

m.dazpea
Examples (1)
Causalidad vs.
En un estudio geoquı́mico de suelo realizado por Servicio Geológico de Estados Correlación

Coeficientes de
Unidos (USGS) [Smith et al., 2010] en el estado de Colorado, se recolectaron mues- correlación
tras en más de 500 sitios, para detectar cambios en la composición del suelo que Modelo de
regresión lineal
podrı́an resultar de procesos naturales o actividades antropogénicas. A continuación simple
se muestra el porcentaje de aluminio (Al) y hierro (Fe) encontrados en 30 sitios. Modelo de
regresión lineal
múltiple
Al 4.65 6.36 6.33 3.60 6.89 6.29 5.92 5.83 4.01 7.78 3.17 6.91 6.48 5.97 5.11 Análisis de Varianza
Coeficiente de
7.35 4.89 5.42 6.32 5.18 7.64 5.22 4.28 6.04 5.60 5.97 6.48 4.08 6.15 3.87 determinación
Inferencia de los
Fe 1.20 2.19 1.52 0.63 2.88 2.22 2.48 1.60 1.02 2.08 1.30 4.05 2.56 2.58 2.23 coeficientes

Conclusiones
3.94 1.65 1.83 3.17 2.35 2.53 2.15 1.20 1.78 2.61 2.77 3.71 1.96 2.17 1.75
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
Examples (1)
m.dazpea

Diagrama de dispersión (Scatterplot)


Causalidad vs.
Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias

¿Como es la correlación? Positiva, Nevativa, No ¿Cómo cuantificarla?


Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación

• Rho de Spearman: se emplea principalmente para datos ordinales, de in- Modelo de


regresión lineal
tervalo, cuantitativas que no satisfacen condición de normalidad, método no simple

Modelo de
paramétrico, mide relación lineal y no lineal. regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación

• Rho de Spearman: se emplea principalmente para datos ordinales, de in- Modelo de


regresión lineal
tervalo, cuantitativas que no satisfacen condición de normalidad, método no simple

Modelo de
paramétrico, mide relación lineal y no lineal. regresión lineal
múltiple
• Tau de Kendall: método no paramétrico, se emplea cuando se dispone de Análisis de Varianza
Coeficiente de
pocos datos. determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea
Coeficiente de correlación de Pearson: proporciona una medida de la relación
Causalidad vs.
lineal entre dos variables. Correlación

Coeficientes de
1 Pn
i=1 (xi − x̄)(yi − ȳ )
correlación
n
r= (1) Modelo de
σx σy regresión lineal
simple
Donde: Modelo de
xi y yi representan las observaciones o puntos de muestras individuales indexados regresión lineal
múltiple
por i, Análisis de Varianza
Coeficiente de

n es el tamaño de muestra, determinación


Inferencia de los

x̄ y ȳ representan las medias, coeficientes

Conclusiones
y σx y σy son las deviaciones estándar de las variables x, y respectivamente.
Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación
Covarianza
Coeficientes de
El numerador en la ecuación (1) se conoce como la covarianza: correlación

Modelo de
n regresión lineal
1X simple
Cxy = (xi − x̄)(yi − ȳ ) (2)
n Modelo de
i=1 regresión lineal
múltiple
se utiliza a menudo como una estadı́stica resumida de un diagrama de dispersión Análisis de Varianza
Coeficiente de
(Scatterplot). determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos
Si la relación entre dos variables no es lineal, entonces se recomienda calcular un m.dazpea

coeficiente de correlación de rangos de Spearman.


Causalidad vs.
Correlación
C (Rx , Ry ) Coeficientes de
ρrank = (3) correlación
σRx σRy
Modelo de
regresión lineal
donde, C (Rx , Ry ) representa la covarianza del rango de las variables, y σRx , σRy simple
las deviaciones de los rangos de las variables. Modelo de
regresión lineal
La (3) se reduce a la siguiente ecuación si todos los n rangos son distintos enteros, múltiple
Análisis de Varianza

6 ni=1 di2
P Coeficiente de
determinación

rs = 1 − (4) Inferencia de los

n(n2 − 1) coeficientes

Conclusiones
donde: Referencias
di = rg(Xi ) − rg(Yi )
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación

Kendall Coeficientes de
2∗S correlación
τ= (5)
n(n − 1) Modelo de
regresión lineal
P simple
donde: S = (nc − nd ); Modelo de
nc es el número de pares concordantes, regresión lineal
múltiple
nd representa el número de pares discordantes. Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea
Dadas dos variables Y y X , la significancia de la correlación se analiza,
Causalidad vs.
Prueba t Correlación

• H0 : ρ = 0 las variables son independientes Coeficientes de


correlación
• H1 : ρ 6= 0 existe relación entre las variables Modelo de
√ regresión lineal
r n−2 simple
t= √ , df = n − 2 (6) Modelo de
1 − r2 regresión lineal
múltiple
Si P − value < 0.05 entonces con un nivel de confianza del 95% se asegura Análisis de Varianza
Coeficiente de
relación estadı́sticamente significativa. determinación
Inferencia de los
La cantidad de varianza de Y explicada por X se obtiene elevando al cuadrado el coeficientes

coeficiente de correlación R 2 y se conoce como coeficiente de determinación. Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Interpretación del valor de correlación. Correlación

Coeficientes de
Correlación Interpretación correlación

0.9 a 1.0 (-0.9 a -1.0) muy fuerte Modelo de


regresión lineal
0.7 a 0.9 (-0.7 a -0.9) fuerte simple

Modelo de
0.5 a 0.7 (-0.5 a -0.7) moderada regresión lineal
0.3 a 0.5 (-0.3 a -0.5) débil múltiple
Análisis de Varianza

0 a 0.3 (0 a -0.3) despreciable Coeficiente de


determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos

m.dazpea
• Covarianza
Causalidad vs.
Correlación

Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos

m.dazpea
• Covarianza
Causalidad vs.
Correlación

Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple

Modelo de
regresión lineal
• Coeficiente de correlación de Pearson múltiple
Análisis de Varianza
Coeficiente de
Cxy 0.68 determinación

ρ= = = 0.69 (8) Inferencia de los

σx σy 1.19 ∗ 0.82 coeficientes

Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos

m.dazpea
• Covarianza
Causalidad vs.
Correlación

Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple

Modelo de
regresión lineal
• Coeficiente de correlación de Pearson múltiple
Análisis de Varianza
Coeficiente de
Cxy 0.68 determinación

ρ= = = 0.69 (8) Inferencia de los

σx σy 1.19 ∗ 0.82 coeficientes

Conclusiones
• Coeficiente de correlación de Spearman Referencias

rs = 0.68 (9)
Coeficientes de correlación
Minerı́a de
Datos

m.dazpea
Examples (1)
Causalidad vs.
Correlación
Utilizando el coeficiente de correlación podrı́amos obtener una matriz de correlación
Coeficientes de
para analizar la relación de estas dos variables con otros elementos medidos en los correlación
30 sitios. Modelo de
Pearson Spearman regresión lineal
simple

Al Ca Fe K Al Ca Fe K Modelo de
regresión lineal
Al 1.00 0.04 0.69 0.45 Al 1.00 0.16 0.69 0.44 múltiple
Análisis de Varianza
Ca 0.04 1.00 0.13 -0.22 Ca 0.16 1.00 0.28 -0.15 Coeficiente de
determinación

Fe 0.69 0.13 1.00 0.05 Fe 0.69 0.28 1.00 0.1 Inferencia de los
coeficientes

K 0.45 -0.22 0.05 1.00 K 0.44 -0.15 0.1 1.00 Conclusiones

Referencias
Coeficientes de correlación
Minerı́a de
Datos
Examples (1)
m.dazpea

Gráfico de correlación
Causalidad vs.
Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias

¿Podrı́amos estimar Fe conociendo Al?


Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Modelo de regresión lineal simple
Minerı́a de
Examples (1) Datos

m.dazpea
Se desea encontrar un modelo que describa la relación entre las siguientes variables:
Causalidad vs.
Correlación
Años de experiencia Salario Coeficientes de
3 30 correlación

8 57 Modelo de
regresión lineal
9 64 simple

13 72 Modelo de
regresión lineal
3 36 múltiple
Análisis de Varianza

6 43 Coeficiente de
determinación

11 59 Inferencia de los
coeficientes

21 90 Conclusiones

1 20 Referencias

16 83
Modelo de regresión lineal simple
Minerı́a de
Datos
Examples (1) m.dazpea

Modelo de regresión lineal Causalidad vs.


Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos
Modelo de Regresión Lineal Simple
m.dazpea

Causalidad vs.
yi = β0 + β1 xi + i , i = 1, 2, . . . , n (10) Correlación

Coeficientes de
donde se supone  ∼ N (0, σ 2 ), y β0 , β1 se conocen como coeficientes de correlación

regresión. La variable aleatoria y tiene distribución con media E [y |x] = β0 + β1 x Modelo de


regresión lineal
y varianza Var [y |x] = σ 2 . simple

Modelo de
regresión lineal
y x múltiple
variable dependiente variable independiente Análisis de Varianza
Coeficiente de
determinación
variable explicada variable explicativa Inferencia de los
coeficientes
variable de respuesta variable de control
Conclusiones
variable predicha variable predictora Referencias
regresando regresor
Modelo de regresión lineal simple
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Estimador de Mı́nimos Cuadrados Ordinarios (EMCO) Correlación

[Montgomery et al., 2006] Coeficientes de


correlación

Estimación de β0 y β1 Modelo de
regresión lineal
simple

n Modelo de
X regresión lineal
min S(β0 , β1 ) = (yi − (β0 + β1 xi ))2 (11) múltiple
Análisis de Varianza
i=1 Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Estimador de Mı́nimos Cuadrados Ordinarios (EMCO) Correlación
[Montgomery et al., 2006] Coeficientes de
correlación

Sxy Modelo de
βˆ0 = ȳ − βˆ1 x̄, βˆ1 = (12) regresión lineal
Sxx simple

Modelo de
donde, regresión lineal
n
X n
X múltiple

Sxx = (xi − x̄)2 , Sxy = (xi − x̄)(yi − ȳ ) (13) Análisis de Varianza


Coeficiente de
determinación
i=1 i=1 Inferencia de los
coeficientes

Conclusiones

Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos

Modelo de regresión lineal en forma matricial m.dazpea

Causalidad vs.

Y = Xβ + 
Correlación
(14) Coeficientes de
correlación
con       Modelo de
Y1 1 X11 1 regresión lineal
Y2  1 X12    2  simple
β
Y =  . , X = . ..  , β= 0 , =. Modelo de
     
 ..   .. .  β1  ..  regresión lineal
múltiple
Yn 1 X1n n Análisis de Varianza
Coeficiente de
determinación

entonces los coeficientes β0 y β1 se pueden obtener como Inferencia de los


coeficientes

Conclusiones
β̂ = (XT X)−1 XT Y (15) Referencias
Modelo de regresión lineal simple
Minerı́a de
Example (1) Datos

m.dazpea

     
30 1 3 1 Causalidad vs.
Correlación
57 1 8     2 
Coeficientes de
64 1 9  β0
     
correlación
 = ∗ +  3 
 
 ..   .. ..  β1  ..  Modelo de
 .  . .   .  regresión lineal
simple
83 1 16 10 Modelo de
regresión lineal
entonces, múltiple

βˆ0
       
0.331 −0.025 554 23.21 Análisis de Varianza

= ∗ = Coeficiente de

βˆ1
determinación
−0.025 0.003 6311 3.54 Inferencia de los
coeficientes

el valor ajustado de la variable dependiente, Conclusiones

Referencias

Ŷi = 23.21 + 3.54Xi


Propiedades de los estimadores
Minerı́a de
Datos
• Estimadores insesgados, m.dazpea

E [βˆ0 ] = β0 , E [βˆ1 ] = β1 Causalidad vs.


Correlación

Coeficientes de
• La suma de los residuos en cualquier modelo que contenga β0 es igual a 0, correlación

Modelo de
n n regresión lineal
X X simple
(yi − ŷi ) = ei = 0 Modelo de
i=1 i=1 regresión lineal
múltiple
Pn Pn Análisis de Varianza

• i=1 yi = i=1 ŷi


Coeficiente de
determinación

• La lı́nea de regresión siempre pasa por el centroide (x̄, ȳ ) Inferencia de los


coeficientes

Pn Conclusiones
• xi ei = 0
Pi=1
n
Referencias
• i=1 ŷi ei = 0
Supuestos del EMCO
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Existen 6 supuestos básicos sobre el EMCO [Rodrı́guez & González, 2017] Correlación

Coeficientes de
1 Linealidad correlación

2 Rango Completo Modelo de


regresión lineal
simple
3 Esperanza condicional de los errores nula
Modelo de
4 Perturbaciones esféricas regresión lineal
múltiple
5 Variables explicativas no aleatorias Análisis de Varianza
Coeficiente de
determinación
6 Normalidad de los errores Inferencia de los
coeficientes

Conclusiones

Referencias
Supuestos del EMCO
Minerı́a de
1. Linealidad: El modelo es lineal si la función f (·) es lineal en los parámetros y Datos
en el término de error. Ejemplos: m.dazpea
• Modelo lineal Y = β0 + β1 X + 
• Modelo no lineal Y = β0 + β12 X +  Causalidad vs.
Correlación
• Modelo no lineal Y = β0 + ln β1 X +  Coeficientes de
• Modelo no lineal Y = β0 + β1 X ∗  correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Supuestos del EMCO
Minerı́a de
Datos

m.dazpea

Causalidad vs.
2. Rango Completo: Las variables independientes deben ser independientes en- Correlación

tre sı́. En términos matriciales, se entiende que las columnas son linealmente Coeficientes de
correlación
independientes. Ejemplo: Modelo de
regresión lineal
simple
 
1 2 −1
Modelo de
A = 2 4 0  regresión lineal
múltiple
3 6 5 Análisis de Varianza
Coeficiente de
determinación

¿Cuál es el rango de A? Inferencia de los


coeficientes

Conclusiones

Referencias
Supuestos del EMCO
3. Esperanza condicional de los errores nula: Es una propiedad del EMCO, Minerı́a de
Datos
no es preciso verificar su cumplimiento. m.dazpea

E [i |X ] = 0 (16) Causalidad vs.


Correlación
Implica: ( Coeficientes de
correlación
E [i ] = 0
(17) Modelo de
Cov [X , i ] = 0 regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Supuestos del EMCO
Minerı́a de
4. Perturbaciones esféricas: Datos

• Homocedasticidad, varianza de los errores condicional a X es constante, m.dazpea

Causalidad vs.
Var [i |X ] = σ 2 (18) Correlación

Coeficientes de
• covarianza condicional de cualquier par de errores dados los valores de X es correlación

cero, Modelo de
regresión lineal
Cov [i , j |X ] = 0 (19) simple

Modelo de
Si la base de datos es de serie de tiempos, este supuesto se conoce como la regresión lineal
múltiple
condición de no autocorrelación. Análisis de Varianza

Al considerar ambos supuestos, implica la lamtriz de varianzas y covarianza, Coeficiente de


determinación
Inferencia de los
 2  coeficientes

σ 0 0 Conclusiones
Var () =  0 σ 2 0  = σ 2 In (20) Referencias

0 0 σ2
Supuestos del EMCO
Minerı́a de
Datos

m.dazpea
4. Perturbaciones esféricas:
Causalidad vs.
Correlación

Coeficientes de
correlación

Modelo de
regresión lineal
simple

Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Supuestos del EMCO
Minerı́a de
Datos

m.dazpea

Causalidad vs.
Correlación

Coeficientes de
correlación
5. Variables explicativas no aleatorias: Las variables independientes no son
Modelo de
aleatorias, para un cierto momento t se conoce su valor con 100% de prob- regresión lineal
simple
abilidad, por lo que no dependen de alguna transformación generada de un
Modelo de
proceso aleatorio. regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones

Referencias
Supuestos del EMCO
Minerı́a de
Datos

m.dazpea

6. Normalidad de los errores: Se supone que los errores siguen distribución Causalidad vs.
normal con media 0 y varianza σ 2 . Correlación

Coeficientes de
correlación
|X ∼ N (0, σ 2 I)
(21) Modelo de
i ∼ N (0, σ 2 ) regresión lineal
simple

Modelo de
Bajo este supuesto se cumple el teorema de Rao-Blackwell, indica que si el regresión lineal
múltiple
vector de errores se distribuye normal entonces el EMC tiene varianza mı́nima Análisis de Varianza
Coeficiente de
entre la clase de los estimadores insesgados. determinación
Inferencia de los
coeficientes
El cumplimiento de los supuestos 1-5 hace que el estimador sea BLUE, se cumple
Conclusiones
el teorema de Gauss-Markov.
Referencias
Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Modelo de regresión lineal múltiple
Minerı́a de
Datos
Examples (2)
m.dazpea
y x1 x2 x3 x4
Causalidad vs.
11.2 56.5 71 38.5 43 Correlación

14.5 59.5 72.5 38.2 44.8 Coeficientes de


correlación
17.2 69.2 76 42.5 49
Con el fin de determinar la relación entre la Modelo de
17.8 74.5 79.5 43.4 56.3 regresión lineal
calificación del desempeño laboral (y ) y las simple
19.3 81.2 84 47.5 60.2
calificaciones en cuatro exámenes (x1 ), (x2 ), Modelo de
24.5 88 86.2 47.4 62 regresión lineal
(x3 ) y (x4 ), el departamento de personal de múltiple
21.2 78.2 80.5 44.5 58.1 Análisis de Varianza
cierta empresa industrial realizó un estudio en Coeficiente de
16.9 69 72 41.8 48.1 determinación
el que participaron 12 sujetos. Inferencia de los
14.8 58.1 68 42.1 46 coeficientes

Conclusiones
20 80.5 85 48.1 60.3
Referencias
13.2 58.3 71 37.5 47.1
22.5 84 87.2 51 65.2
Modelo de regresión lineal múltiple
Minerı́a de
Modelo de regresión lineal múltiple Datos

m.dazpea
Dado el modelo con p variables independientes:
Causalidad vs.
Correlación
Y = β0 + β1 x1 + β2 x2 + . . . + βp xp +  (22)
Coeficientes de
correlación
con  ∼ N (0, σ 2 )En forma matricial serı́a: Modelo de
regresión lineal
    
  simple
y1 1 x11 x21 · · · xp1 β0 1 Modelo de
y2  1 x12 x22 · · · xp2  β1  2 
    regresión lineal
múltiple
 ..  =  .. ..   ..  +  ..  (23)
   
.. .. ..
 .  . . . . .  .   . 
Análisis de Varianza
Coeficiente de
determinación
yn 1 x1n x2n · · · xpn βp n Inferencia de los
coeficientes

Conclusiones
Donde el vector de parámetros β se obtiene,
Referencias

β̂ = (XT X)−1 XT Y (24)


Modelo de regresión lineal múltiple
Minerı́a de
Datos

Example (2) m.dazpea

Causalidad vs.
Correlación
Y = Xβ Coeficientes de
    correlación
11.2 1 56.5 71 38.5 43 β0  Modelo de
14.5 1 59.5 72.5 38.2 44.8   regresión lineal
    β1  simple
17.2 1 69.2 76 42.5 49  
 =  β2  Modelo de
 ..   .. .. .. ..   regresión lineal
 .  . . . .  β3  múltiple

22.5 1 84 87.2 51 65.2 β4 Análisis de Varianza


Coeficiente de
determinación
Inferencia de los
Se puede estimar la variable de respuesta con el modelo, coeficientes

Conclusiones

Ŷi = 3.32 + 0.42X1 − 0.3X2 + 0.02X3 + 0.12X4 Referencias


Análisis de Varianza
Minerı́a de
Datos
Sea el modelo de regresión lineal múltiple con p variables independientes, para
m.dazpea
probar la significancia del modelo se contrastan las hipótesis:
Hipótesis: Causalidad vs.
Correlación
(
H0 : β0 = β1 = · · · = βp = 0
(25) Coeficientes de
correlación
H1 : algún βj 6= 0
Modelo de
regresión lineal
simple
Suma de Grados de Cuadrado Modelo de
cuadrados libertad medio Fc regresión lineal
múltiple
Regresión SSR p MSR = SSpR Fc = MS
MSE
R Análisis de Varianza
Coeficiente de
SSE determinación
Error SSE n−p−1 MSE = n−p−1 Inferencia de los
coeficientes

Total SST n−1 Conclusiones

Referencias
Decisión:
Rechazar H0 si P − valor < α, para P − valor = 1 − P(|Fc | > F(α,p,n−p−1) )
Análisis de Varianza
Minerı́a de
Datos

m.dazpea
n
X n
X
SSR = (Ŷi − Ȳ )2 , SSE = (Yi − Ŷi )2 (26) Causalidad vs.
Correlación
i=1 i=1 Coeficientes de
correlación

Estimador insesgado de σ 2 Modelo de


regresión lineal
simple
Un estimador insesgado de σ 2 es, Modelo de
regresión lineal
múltiple
SSE
σ̂ 2 = MSE = (27) Análisis de Varianza

n−p−1 Coeficiente de
determinación
Inferencia de los
coeficientes

se conoce como cuadrado medio residual y la raı́z cuadrada de σ̂ 2 se conoce como Conclusiones

error estándar de la regresión. Referencias


Análisis de Varianza
Minerı́a de
Datos

m.dazpea

Example (2) Causalidad vs.


Correlación
Probar si el modelo es estadı́sticamente significativo Coeficientes de
correlación

Suma de Grados de Cuadrado Modelo de


regresión lineal
cuadrados libertad medio Fc P − valor simple

Regresión 159.00 4 39.75 20.73 0.0006 Modelo de


regresión lineal
Error 13.42 7 1.92 múltiple
Análisis de Varianza
Total 172.42 11 Coeficiente de
determinación
Inferencia de los
coeficientes

Conclusiones
¿Se puede rechazar la hipótesis nula?, ¿el modelo es significativo?
Referencias
Coeficiente de determinación R 2
Minerı́a de
Coeficiente de determinación R 2 Datos

m.dazpea
Se interpreta como el porcentaje de variabilidad explicada por el modelo respecto
la variabilidad total de la respuesta. Causalidad vs.
Correlación

SSR SSE Coeficientes de


R2 = =1− , R 2 ∈ [0, 1] (28) correlación
SST SST Modelo de
regresión lineal
simple

Modelo de
Coeficiente de determinación ajustado Ra2 regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
MSE h n−1 i determinación

Ra2 = 1 − = 1 − (1 − R 2 ) , Ra2 ∈ [0, 1] (29) Inferencia de los

MST n−p−1 coeficientes

Conclusiones

Referencias
Example (2)
159 1.92
R2 = 172.42 = 92.22% y Ra2 = 1 − 15.67 = 87.75%
Inferencia de los coeficientes
Minerı́a de
Datos
Inferencia sobre βj
m.dazpea

Hipótesis ( Causalidad vs.


H0 : βj = 0 Correlación
(30) Coeficientes de
H1 : βj 6= 0 correlación

Modelo de
Estadı́stico regresión lineal
simple
β̂j
tc = (31) Modelo de
se(β̂j ) regresión lineal
múltiple
Análisis de Varianza
Donde el error estándar se(β̂j ) se calcula desde la matriz de varianzas y Coeficiente de
determinación

covarianzas: Inferencia de los


√ coeficientes

Var (βj ) = MSE ∗ (XT X)−1 , se(βˆ1 ) = a22 (32) Conclusiones

Referencias
Decisión:
se rechaza H0 si P − valor ≤ α con P − valor = 2[1 − P(|tc | > t)]
Inferencia de los coeficientes
Minerı́a de
Datos

m.dazpea
Example (2)
Causalidad vs.
Hipótesis
( Correlación

H0 : βj = 0 Coeficientes de
correlación
H1 : βj 6= 0 Modelo de
regresión lineal
simple
Estimación Error Estándar Estadı́stico t P-valor Modelo de
Intercepto 3.32 10.61 0.31 0.38 regresión lineal
múltiple
x1 0.42 0.15 2.80 0.01 Análisis de Varianza
Coeficiente de
x2 -0.3 0.26 -1.13 0.85 determinación
Inferencia de los

x3 0.02 0.28 0.06 0.48 coeficientes

Conclusiones
x4 0.12 0.27 0.45 0.33
Referencias
Intervalos de Confianza
Minerı́a de
Datos

Intervalo de Confianza βj m.dazpea

Causalidad vs.
β̂j − t(α/2,n−p−1) se(β̂j ) ≤ βj ≤ β̂j + t(α/2,n−p−1) se(β̂j ) (33) Correlación

Coeficientes de
correlación
Intervalo de Confianza Ŷi
Modelo de
q regresión lineal
simple
Ŷi ± t(α/2,n−p−1) MSE Xi (X T X )−1 XiT

(34) Modelo de
regresión lineal
  múltiple
donde Xi = 1 x1i x2i · · · xpi Análisis de Varianza
Coeficiente de
Intervalo de Confianza Y0 (predicción para observación futura) determinación
Inferencia de los
coeficientes
q
Conclusiones
Ŷ0 ± t(α/2,n−p−1) MSE 1 + X0 (X T X )−1 X0T

(35)
Referencias
Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Conclusiones
Minerı́a de
Datos

m.dazpea

• ¿Cómo cuantificar la relación entre variables? Causalidad vs.


Correlación
• Definir el modelo de regresión lineal simple y múltiple. Coeficientes de
correlación
• ¿Cómo estimar los parámetros del modelo? Modelo de
regresión lineal
• ¿Cuáles son las propiedades de los estimadores? simple

• ¿Cuáles son los supuestos del modelo de regresión lineal? Modelo de


regresión lineal
• ¿Cómo probar si el modelo es estadı́sticamente significativo? múltiple
Análisis de Varianza

• ¿Cómo probar si los coeficientes del modelo son estadı́sticamente significativo? Coeficiente de
determinación
Inferencia de los

• Cálculo de los intervalos de confianza. coeficientes

Conclusiones

Referencias
Table of Contents
Minerı́a de
Datos

1 Causalidad vs. Correlación m.dazpea

Causalidad vs.
2 Coeficientes de correlación Correlación

Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple

Análisis de Varianza Modelo de


regresión lineal
Coeficiente de determinación múltiple
Análisis de Varianza

Inferencia de los coeficientes Coeficiente de


determinación
Inferencia de los
coeficientes

5 Conclusiones Conclusiones

Referencias
6 Referencias
Referencias
Minerı́a de
Datos

Aggarwal, C. (2015) ”Data Mining: The Textbook”, Springer International m.dazpea

Publishing Switzerland. Causalidad vs.


Correlación
Boehmke, B. & Greenwell, B. (2020) ”Hands-On Machine Learning with Coeficientes de
R”, Taylor & Francis Group, LLC. correlación

Modelo de
Bhatia, A. & Chiu, D. (2017) ”Machine learning with R cookbook: analyze regresión lineal
simple
data and build predictive models”, Second edition, Packt Publishing Ltd., Modelo de
UK. regresión lineal
múltiple

EMC Education Services (2015). ”Data Science and Big Data analytics: Análisis de Varianza
Coeficiente de
determinación
Discovering, Analyzing, Visualizing and Presenting Data”, 1st Edition, Inferencia de los
coeficientes
John Wiley & Sons. Conclusiones

Hernández, J., Ramı́rez, M. J., Ferri, C. (2004) ”Introducción a la minerı́a Referencias

de datos”, Pearson Educación, Madrid. ISBN 84-205-4091-9


Referencias
Minerı́a de
Datos
Johnson, R. A. (2012) ”Probabilidad y estadı́stica para ingenieros”. Octava
m.dazpea
Ed. México: Pearson, 557 p.
Causalidad vs.
Montgomery, D. C., Peck, E. A. & Vining, G. G. (2006) ”Introducción al Correlación

análisis de regresión lineal”. Tercera Reimpresión, México. Coeficientes de


correlación

Rodrı́guez, D. E. & González, G. J. (2017) ”Principios de econometrı́a”, Modelo de


regresión lineal
Fondo Editorial ITM. simple

Modelo de
Maurage, P., Heeren, A. & Pesenti, M. (2013) ”Does Chocolate Con- regresión lineal
múltiple
sumption Really Boost Nobel Award Chances? The Peril of Over- Análisis de Varianza

Interpreting Correlations in Health Studies”, The Journal of Nutrition, Coeficiente de


determinación
Inferencia de los
doi:10.3945/jn.113.174813 coeficientes

Conclusiones
Smith, D. B., Ellefsen, K. J. & Kilburn, J. E. (2010) ”Geochemical Data for Referencias
Colorado Soils: Results from the 2006 State-Scale Geochemical Survey”,
U.S. Geological Survey, Data Series 520.

También podría gustarte