Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 5
Clase 5
Datos
m.dazpea
Causalidad vs.
Unidad II: Preparación de la información Correlación
Coeficientes de
correlación
Modelo de
Docente: Mailiu Dı́az Peña, Dra. 1 regresión lineal
simple
Modelo de
1 Facultad
de Ingenierı́a regresión lineal
múltiple
m.dazpea@uandresbello.edu
Análisis de Varianza
Coeficiente de
determinación
Referencias
Table of Contents
Minerı́a de
Datos
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Table of Contents
Minerı́a de
Datos
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Causalidad vs. Correlación
Los paı́ses con mayor consumo de chocolate tienen más premios Nobel, por lo que Minerı́a de
Datos
se recomienda su consumo para mejorar la inteligencia [Maurage et al., 2013]. m.dazpea
Causalidad vs.
Correlación
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
m.dazpea
Causalidad vs.
Algunos ejemplos: Correlación
Coeficientes de
• ”va a temblar porque está haciendo mucho calor” correlación
• ”Los felizmente casados sobreviven más que los solteros tras un ’by-pass’” Modelo de
regresión lineal
• ”La sobreinformación es la causante del sı́ndrome de fatiga informativa” simple
Modelo de
• ”Ver la televisión acorta la vida hasta en cinco años” regresión lineal
múltiple
La correlación no justifica en absoluto la existencia de una relación de causa-efecto; Análisis de Varianza
Coeficiente de
determinación
y la ausencia de correlación tampoco implica que no exista relación causa-efecto. Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación
Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación
otra X . Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación
Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación
otra X . Modelo de
regresión lineal
• Medida bivariada que mide la magnitud de la asociación entre dos variables y simple
Modelo de
la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera regresión lineal
múltiple
un modelo. Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Correlación
Causalidad vs.
• Es una comparación o descripción de la asociación entre variables. Correlación
Coeficientes de
• Los cambios de alguna variable Y pueden ser explicados por los cambios de la correlación
otra X . Modelo de
regresión lineal
• Medida bivariada que mide la magnitud de la asociación entre dos variables y simple
Modelo de
la dirección de dicha relación (-1 a 1), mientras que la regresión lineal genera regresión lineal
múltiple
un modelo. Análisis de Varianza
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación Correlación
Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación Correlación
Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación Correlación
Coeficientes de
Las variables están correlacionadas positivamente, negativamente correlacionados correlación
o no correlacionados. Modelo de
regresión lineal
+ los valores de más grandes de una variable se asocian con los valores de más simple
Conclusiones
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
m.dazpea
Examples (1)
Causalidad vs.
En un estudio geoquı́mico de suelo realizado por Servicio Geológico de Estados Correlación
Coeficientes de
Unidos (USGS) [Smith et al., 2010] en el estado de Colorado, se recolectaron mues- correlación
tras en más de 500 sitios, para detectar cambios en la composición del suelo que Modelo de
regresión lineal
podrı́an resultar de procesos naturales o actividades antropogénicas. A continuación simple
se muestra el porcentaje de aluminio (Al) y hierro (Fe) encontrados en 30 sitios. Modelo de
regresión lineal
múltiple
Al 4.65 6.36 6.33 3.60 6.89 6.29 5.92 5.83 4.01 7.78 3.17 6.91 6.48 5.97 5.11 Análisis de Varianza
Coeficiente de
7.35 4.89 5.42 6.32 5.18 7.64 5.22 4.28 6.04 5.60 5.97 6.48 4.08 6.15 3.87 determinación
Inferencia de los
Fe 1.20 2.19 1.52 0.63 2.88 2.22 2.48 1.60 1.02 2.08 1.30 4.05 2.56 2.58 2.23 coeficientes
Conclusiones
3.94 1.65 1.83 3.17 2.35 2.53 2.15 1.20 1.78 2.61 2.77 3.71 1.96 2.17 1.75
Referencias
Causalidad vs. Correlación
Minerı́a de
Datos
Examples (1)
m.dazpea
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación
Modelo de
paramétrico, mide relación lineal y no lineal. regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
• Pearson: funciona bien para variables cuantitativas, método paramétrico, mide
Coeficientes de
ralación lineal, es sensible a valores extremos. correlación
Modelo de
paramétrico, mide relación lineal y no lineal. regresión lineal
múltiple
• Tau de Kendall: método no paramétrico, se emplea cuando se dispone de Análisis de Varianza
Coeficiente de
pocos datos. determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Coeficiente de correlación de Pearson: proporciona una medida de la relación
Causalidad vs.
lineal entre dos variables. Correlación
Coeficientes de
1 Pn
i=1 (xi − x̄)(yi − ȳ )
correlación
n
r= (1) Modelo de
σx σy regresión lineal
simple
Donde: Modelo de
xi y yi representan las observaciones o puntos de muestras individuales indexados regresión lineal
múltiple
por i, Análisis de Varianza
Coeficiente de
Conclusiones
y σx y σy son las deviaciones estándar de las variables x, y respectivamente.
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
Covarianza
Coeficientes de
El numerador en la ecuación (1) se conoce como la covarianza: correlación
Modelo de
n regresión lineal
1X simple
Cxy = (xi − x̄)(yi − ȳ ) (2)
n Modelo de
i=1 regresión lineal
múltiple
se utiliza a menudo como una estadı́stica resumida de un diagrama de dispersión Análisis de Varianza
Coeficiente de
(Scatterplot). determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Si la relación entre dos variables no es lineal, entonces se recomienda calcular un m.dazpea
6 ni=1 di2
P Coeficiente de
determinación
n(n2 − 1) coeficientes
Conclusiones
donde: Referencias
di = rg(Xi ) − rg(Yi )
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
Kendall Coeficientes de
2∗S correlación
τ= (5)
n(n − 1) Modelo de
regresión lineal
P simple
donde: S = (nc − nd ); Modelo de
nc es el número de pares concordantes, regresión lineal
múltiple
nd representa el número de pares discordantes. Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Dadas dos variables Y y X , la significancia de la correlación se analiza,
Causalidad vs.
Prueba t Correlación
Referencias
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Interpretación del valor de correlación. Correlación
Coeficientes de
Correlación Interpretación correlación
Modelo de
0.5 a 0.7 (-0.5 a -0.7) moderada regresión lineal
0.3 a 0.5 (-0.3 a -0.5) débil múltiple
Análisis de Varianza
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos
m.dazpea
• Covarianza
Causalidad vs.
Correlación
Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos
m.dazpea
• Covarianza
Causalidad vs.
Correlación
Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple
Modelo de
regresión lineal
• Coeficiente de correlación de Pearson múltiple
Análisis de Varianza
Coeficiente de
Cxy 0.68 determinación
Conclusiones
Referencias
Coeficientes de correlación
Minerı́a de
Examples (1) Datos
m.dazpea
• Covarianza
Causalidad vs.
Correlación
Coeficientes de
1 correlación
Cxy = {(4.65 − 5.66)(1.2 − 2.2) + . . . + (3.87 − 5.66)(1.75 − 2.2)}
30 (7) Modelo de
regresión lineal
= 0.68 simple
Modelo de
regresión lineal
• Coeficiente de correlación de Pearson múltiple
Análisis de Varianza
Coeficiente de
Cxy 0.68 determinación
Conclusiones
• Coeficiente de correlación de Spearman Referencias
rs = 0.68 (9)
Coeficientes de correlación
Minerı́a de
Datos
m.dazpea
Examples (1)
Causalidad vs.
Correlación
Utilizando el coeficiente de correlación podrı́amos obtener una matriz de correlación
Coeficientes de
para analizar la relación de estas dos variables con otros elementos medidos en los correlación
30 sitios. Modelo de
Pearson Spearman regresión lineal
simple
Al Ca Fe K Al Ca Fe K Modelo de
regresión lineal
Al 1.00 0.04 0.69 0.45 Al 1.00 0.16 0.69 0.44 múltiple
Análisis de Varianza
Ca 0.04 1.00 0.13 -0.22 Ca 0.16 1.00 0.28 -0.15 Coeficiente de
determinación
Fe 0.69 0.13 1.00 0.05 Fe 0.69 0.28 1.00 0.1 Inferencia de los
coeficientes
Referencias
Coeficientes de correlación
Minerı́a de
Datos
Examples (1)
m.dazpea
Gráfico de correlación
Causalidad vs.
Correlación
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Modelo de regresión lineal simple
Minerı́a de
Examples (1) Datos
m.dazpea
Se desea encontrar un modelo que describa la relación entre las siguientes variables:
Causalidad vs.
Correlación
Años de experiencia Salario Coeficientes de
3 30 correlación
8 57 Modelo de
regresión lineal
9 64 simple
13 72 Modelo de
regresión lineal
3 36 múltiple
Análisis de Varianza
6 43 Coeficiente de
determinación
11 59 Inferencia de los
coeficientes
21 90 Conclusiones
1 20 Referencias
16 83
Modelo de regresión lineal simple
Minerı́a de
Datos
Examples (1) m.dazpea
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos
Modelo de Regresión Lineal Simple
m.dazpea
Causalidad vs.
yi = β0 + β1 xi + i , i = 1, 2, . . . , n (10) Correlación
Coeficientes de
donde se supone ∼ N (0, σ 2 ), y β0 , β1 se conocen como coeficientes de correlación
Modelo de
regresión lineal
y x múltiple
variable dependiente variable independiente Análisis de Varianza
Coeficiente de
determinación
variable explicada variable explicativa Inferencia de los
coeficientes
variable de respuesta variable de control
Conclusiones
variable predicha variable predictora Referencias
regresando regresor
Modelo de regresión lineal simple
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Estimador de Mı́nimos Cuadrados Ordinarios (EMCO) Correlación
Estimación de β0 y β1 Modelo de
regresión lineal
simple
n Modelo de
X regresión lineal
min S(β0 , β1 ) = (yi − (β0 + β1 xi ))2 (11) múltiple
Análisis de Varianza
i=1 Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Estimador de Mı́nimos Cuadrados Ordinarios (EMCO) Correlación
[Montgomery et al., 2006] Coeficientes de
correlación
Sxy Modelo de
βˆ0 = ȳ − βˆ1 x̄, βˆ1 = (12) regresión lineal
Sxx simple
Modelo de
donde, regresión lineal
n
X n
X múltiple
Conclusiones
Referencias
Modelo de regresión lineal simple
Minerı́a de
Datos
Causalidad vs.
Y = Xβ +
Correlación
(14) Coeficientes de
correlación
con Modelo de
Y1 1 X11 1 regresión lineal
Y2 1 X12 2 simple
β
Y = . , X = . .. , β= 0 , =. Modelo de
.. .. . β1 .. regresión lineal
múltiple
Yn 1 X1n n Análisis de Varianza
Coeficiente de
determinación
Conclusiones
β̂ = (XT X)−1 XT Y (15) Referencias
Modelo de regresión lineal simple
Minerı́a de
Example (1) Datos
m.dazpea
30 1 3 1 Causalidad vs.
Correlación
57 1 8 2
Coeficientes de
64 1 9 β0
correlación
= ∗ + 3
.. .. .. β1 .. Modelo de
. . . . regresión lineal
simple
83 1 16 10 Modelo de
regresión lineal
entonces, múltiple
βˆ0
0.331 −0.025 554 23.21 Análisis de Varianza
= ∗ = Coeficiente de
βˆ1
determinación
−0.025 0.003 6311 3.54 Inferencia de los
coeficientes
Referencias
Coeficientes de
• La suma de los residuos en cualquier modelo que contenga β0 es igual a 0, correlación
Modelo de
n n regresión lineal
X X simple
(yi − ŷi ) = ei = 0 Modelo de
i=1 i=1 regresión lineal
múltiple
Pn Pn Análisis de Varianza
Pn Conclusiones
• xi ei = 0
Pi=1
n
Referencias
• i=1 ŷi ei = 0
Supuestos del EMCO
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Existen 6 supuestos básicos sobre el EMCO [Rodrı́guez & González, 2017] Correlación
Coeficientes de
1 Linealidad correlación
Conclusiones
Referencias
Supuestos del EMCO
Minerı́a de
1. Linealidad: El modelo es lineal si la función f (·) es lineal en los parámetros y Datos
en el término de error. Ejemplos: m.dazpea
• Modelo lineal Y = β0 + β1 X +
• Modelo no lineal Y = β0 + β12 X + Causalidad vs.
Correlación
• Modelo no lineal Y = β0 + ln β1 X + Coeficientes de
• Modelo no lineal Y = β0 + β1 X ∗ correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Supuestos del EMCO
Minerı́a de
Datos
m.dazpea
Causalidad vs.
2. Rango Completo: Las variables independientes deben ser independientes en- Correlación
tre sı́. En términos matriciales, se entiende que las columnas son linealmente Coeficientes de
correlación
independientes. Ejemplo: Modelo de
regresión lineal
simple
1 2 −1
Modelo de
A = 2 4 0 regresión lineal
múltiple
3 6 5 Análisis de Varianza
Coeficiente de
determinación
Conclusiones
Referencias
Supuestos del EMCO
3. Esperanza condicional de los errores nula: Es una propiedad del EMCO, Minerı́a de
Datos
no es preciso verificar su cumplimiento. m.dazpea
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Supuestos del EMCO
Minerı́a de
4. Perturbaciones esféricas: Datos
Causalidad vs.
Var [i |X ] = σ 2 (18) Correlación
Coeficientes de
• covarianza condicional de cualquier par de errores dados los valores de X es correlación
cero, Modelo de
regresión lineal
Cov [i , j |X ] = 0 (19) simple
Modelo de
Si la base de datos es de serie de tiempos, este supuesto se conoce como la regresión lineal
múltiple
condición de no autocorrelación. Análisis de Varianza
σ 0 0 Conclusiones
Var () = 0 σ 2 0 = σ 2 In (20) Referencias
0 0 σ2
Supuestos del EMCO
Minerı́a de
Datos
m.dazpea
4. Perturbaciones esféricas:
Causalidad vs.
Correlación
Coeficientes de
correlación
Modelo de
regresión lineal
simple
Modelo de
regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Supuestos del EMCO
Minerı́a de
Datos
m.dazpea
Causalidad vs.
Correlación
Coeficientes de
correlación
5. Variables explicativas no aleatorias: Las variables independientes no son
Modelo de
aleatorias, para un cierto momento t se conoce su valor con 100% de prob- regresión lineal
simple
abilidad, por lo que no dependen de alguna transformación generada de un
Modelo de
proceso aleatorio. regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
determinación
Inferencia de los
coeficientes
Conclusiones
Referencias
Supuestos del EMCO
Minerı́a de
Datos
m.dazpea
6. Normalidad de los errores: Se supone que los errores siguen distribución Causalidad vs.
normal con media 0 y varianza σ 2 . Correlación
Coeficientes de
correlación
|X ∼ N (0, σ 2 I)
(21) Modelo de
i ∼ N (0, σ 2 ) regresión lineal
simple
Modelo de
Bajo este supuesto se cumple el teorema de Rao-Blackwell, indica que si el regresión lineal
múltiple
vector de errores se distribuye normal entonces el EMC tiene varianza mı́nima Análisis de Varianza
Coeficiente de
entre la clase de los estimadores insesgados. determinación
Inferencia de los
coeficientes
El cumplimiento de los supuestos 1-5 hace que el estimador sea BLUE, se cumple
Conclusiones
el teorema de Gauss-Markov.
Referencias
Table of Contents
Minerı́a de
Datos
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Modelo de regresión lineal múltiple
Minerı́a de
Datos
Examples (2)
m.dazpea
y x1 x2 x3 x4
Causalidad vs.
11.2 56.5 71 38.5 43 Correlación
Conclusiones
20 80.5 85 48.1 60.3
Referencias
13.2 58.3 71 37.5 47.1
22.5 84 87.2 51 65.2
Modelo de regresión lineal múltiple
Minerı́a de
Modelo de regresión lineal múltiple Datos
m.dazpea
Dado el modelo con p variables independientes:
Causalidad vs.
Correlación
Y = β0 + β1 x1 + β2 x2 + . . . + βp xp + (22)
Coeficientes de
correlación
con ∼ N (0, σ 2 )En forma matricial serı́a: Modelo de
regresión lineal
simple
y1 1 x11 x21 · · · xp1 β0 1 Modelo de
y2 1 x12 x22 · · · xp2 β1 2
regresión lineal
múltiple
.. = .. .. .. + .. (23)
.. .. ..
. . . . . . . .
Análisis de Varianza
Coeficiente de
determinación
yn 1 x1n x2n · · · xpn βp n Inferencia de los
coeficientes
Conclusiones
Donde el vector de parámetros β se obtiene,
Referencias
Causalidad vs.
Correlación
Y = Xβ Coeficientes de
correlación
11.2 1 56.5 71 38.5 43 β0 Modelo de
14.5 1 59.5 72.5 38.2 44.8 regresión lineal
β1 simple
17.2 1 69.2 76 42.5 49
= β2 Modelo de
.. .. .. .. .. regresión lineal
. . . . . β3 múltiple
Conclusiones
Referencias
Decisión:
Rechazar H0 si P − valor < α, para P − valor = 1 − P(|Fc | > F(α,p,n−p−1) )
Análisis de Varianza
Minerı́a de
Datos
m.dazpea
n
X n
X
SSR = (Ŷi − Ȳ )2 , SSE = (Yi − Ŷi )2 (26) Causalidad vs.
Correlación
i=1 i=1 Coeficientes de
correlación
n−p−1 Coeficiente de
determinación
Inferencia de los
coeficientes
se conoce como cuadrado medio residual y la raı́z cuadrada de σ̂ 2 se conoce como Conclusiones
m.dazpea
Conclusiones
¿Se puede rechazar la hipótesis nula?, ¿el modelo es significativo?
Referencias
Coeficiente de determinación R 2
Minerı́a de
Coeficiente de determinación R 2 Datos
m.dazpea
Se interpreta como el porcentaje de variabilidad explicada por el modelo respecto
la variabilidad total de la respuesta. Causalidad vs.
Correlación
Modelo de
Coeficiente de determinación ajustado Ra2 regresión lineal
múltiple
Análisis de Varianza
Coeficiente de
MSE h n−1 i determinación
Conclusiones
Referencias
Example (2)
159 1.92
R2 = 172.42 = 92.22% y Ra2 = 1 − 15.67 = 87.75%
Inferencia de los coeficientes
Minerı́a de
Datos
Inferencia sobre βj
m.dazpea
Modelo de
Estadı́stico regresión lineal
simple
β̂j
tc = (31) Modelo de
se(β̂j ) regresión lineal
múltiple
Análisis de Varianza
Donde el error estándar se(β̂j ) se calcula desde la matriz de varianzas y Coeficiente de
determinación
Referencias
Decisión:
se rechaza H0 si P − valor ≤ α con P − valor = 2[1 − P(|tc | > t)]
Inferencia de los coeficientes
Minerı́a de
Datos
m.dazpea
Example (2)
Causalidad vs.
Hipótesis
( Correlación
H0 : βj = 0 Coeficientes de
correlación
H1 : βj 6= 0 Modelo de
regresión lineal
simple
Estimación Error Estándar Estadı́stico t P-valor Modelo de
Intercepto 3.32 10.61 0.31 0.38 regresión lineal
múltiple
x1 0.42 0.15 2.80 0.01 Análisis de Varianza
Coeficiente de
x2 -0.3 0.26 -1.13 0.85 determinación
Inferencia de los
Conclusiones
x4 0.12 0.27 0.45 0.33
Referencias
Intervalos de Confianza
Minerı́a de
Datos
Causalidad vs.
β̂j − t(α/2,n−p−1) se(β̂j ) ≤ βj ≤ β̂j + t(α/2,n−p−1) se(β̂j ) (33) Correlación
Coeficientes de
correlación
Intervalo de Confianza Ŷi
Modelo de
q regresión lineal
simple
Ŷi ± t(α/2,n−p−1) MSE Xi (X T X )−1 XiT
(34) Modelo de
regresión lineal
múltiple
donde Xi = 1 x1i x2i · · · xpi Análisis de Varianza
Coeficiente de
Intervalo de Confianza Y0 (predicción para observación futura) determinación
Inferencia de los
coeficientes
q
Conclusiones
Ŷ0 ± t(α/2,n−p−1) MSE 1 + X0 (X T X )−1 X0T
(35)
Referencias
Table of Contents
Minerı́a de
Datos
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Conclusiones
Minerı́a de
Datos
m.dazpea
• ¿Cómo probar si los coeficientes del modelo son estadı́sticamente significativo? Coeficiente de
determinación
Inferencia de los
Conclusiones
Referencias
Table of Contents
Minerı́a de
Datos
Causalidad vs.
2 Coeficientes de correlación Correlación
Coeficientes de
correlación
3 Modelo de regresión lineal simple
Modelo de
regresión lineal
4 Modelo de regresión lineal múltiple simple
5 Conclusiones Conclusiones
Referencias
6 Referencias
Referencias
Minerı́a de
Datos
Modelo de
Bhatia, A. & Chiu, D. (2017) ”Machine learning with R cookbook: analyze regresión lineal
simple
data and build predictive models”, Second edition, Packt Publishing Ltd., Modelo de
UK. regresión lineal
múltiple
EMC Education Services (2015). ”Data Science and Big Data analytics: Análisis de Varianza
Coeficiente de
determinación
Discovering, Analyzing, Visualizing and Presenting Data”, 1st Edition, Inferencia de los
coeficientes
John Wiley & Sons. Conclusiones
Modelo de
Maurage, P., Heeren, A. & Pesenti, M. (2013) ”Does Chocolate Con- regresión lineal
múltiple
sumption Really Boost Nobel Award Chances? The Peril of Over- Análisis de Varianza
Conclusiones
Smith, D. B., Ellefsen, K. J. & Kilburn, J. E. (2010) ”Geochemical Data for Referencias
Colorado Soils: Results from the 2006 State-Scale Geochemical Survey”,
U.S. Geological Survey, Data Series 520.