Está en la página 1de 51

Regresión y correlación

Estela Sánchez Rodríguez


Departamento de Estadística e Investigación Operativa.
Universidad de Vigo
e-mail: esanchez@uvigo.es

Curso 2020/2021
Guía docente:

I Gráfico de dispersión.
I Recta de ajuste. Coeficiente de correlación y de
determinación.
I ANOVA y análisis de residuos.
I Intervalos de confianza para los parámetros y contrastes
de hipótesis.
I Regresión lineal múltiple (introducción).
I Otros modelos: parabólico, exponencial,... Prácticas con
excel.
Introducción

I Regresión - consiste en la obtención de una ecuación


mediante la cuál pueda estimarse el valor medio de una
variable aleatoria a partir de los valores de una o más
variables explicativas.
I Correlación - mide la fuerza de la relación lineal entre dos
variables.
I La regresión tiene por objeto estudiar la estructura de
dependencia que mejor explique la variable Y (variable
dependiente o explicada) a través de un conjunto de
variables X1 , . . . , Xp (variables independientes o
explicativas).
I Sir Francis Galton (inglés de finales XIX) comparó las
estaturas de los padres con las de sus hijos. Descubrió
una tendencia a la media. Las estaturas de los hijos
“regresan” o “revierten” en la media - de aquí el origen de
la palabra regresión.
Regression towards mediocrity in hereditary stature (1886)
I En el modelo de regresión simple hay una única variable
independiente o explicativa (Y = f (X ) + ε), mientras que
en el modelo de regresión múltiple hay más de una
variable independiente (Y = f (X1 , . . . , Xp ) + ε).
El modelo de regresión lineal simple

Y : variable respuesta o variable dependiente


X : variable explicativa o variable independiente

Ejemplos:
I la temperatura función de la profundidad
I el crecimiento de una planta en función de determinados
nutrientes
I el peso de un individuo en función de la estatura
Modelo lineal simple

Yi = β0 + β1 Xi + εi , i = 1, . . . , n
I εi perturbación o término de error (otras variables que
influyen en Y , errores de medida, ...)
I β0 es el término constante
I β1 es la pendiente y se conoce como coeficiente de
regresión. Proporciona el cambio que experimenta la
variable respuesta cuando X aumenta en una unidad.
Ejemplo 1

I Supongamos que queremos estudiar la temperatura del


agua. Sabemos que depende de la profundidad. Estamos
interesados en hacer inferencias sobre la temperatura, no
sobre la profundidad.
I La temperatura del agua para un valor fijo x de
profundidad variará debido a otras influencias aleatorias.
Supongamos una profundidad de 1000 pies, tratamos con
la v.a. Y |x de la cuál su media es µY |x , no esperamos que
la media sea la misma a 1000 pies que a 5000 pies, es
decir será una función de x.
A la gráfica de esta regresión de la denomina curva de
regresión de Y sobre X .
I Mediciones de la temperatura a distintas profundidades
para tener la línea de regresión y análisis
Ejemplo 2

I Supongamos que queremos investigar el efecto de la


calidad del aire en el pH del agua de la lluvia
I Seleccionar una muestra de días
I Anotar la lectura de la calidad del aire y medir el pH
I Análisis estadístico
Pasos a seguir:

1 Determinar el modelo lineal. Regresión lineal de Y sobre


X (elegir variable dependiente y variable independiente).
2 Tomar los datos muestrales: (xi , yi )i=1,...,n
3 Representar la nube de puntos o gráfico de dispersión
para observar visualmente la tendencia de los datos. Tres
tipos de relación (directa, inversa y ausencia de relación
lineal).
4 Estimar los parámetros del modelo de regresión (ver
método mínimo cuadrados).
I Parámetros
I β0 , β1 (coeficientes de la recta)
I σ para estimar el error.
Se estiman a partir de la muestra.
I Estimaciones de los parámetros: βˆ0 , βˆ1 , σ̂
I Valores pronosticados ó estimados:

ŷi = βˆ0 + βˆ1 xi

I Residuos

ei = yi − ŷi
Estimaciones de los parámetros

I Y es la variable explicada y X la explicativa


Pendiente
Covarianza(X , Y ) S(x, y )
βˆ1 = = 2
Varianza(X ) S (x)

Término independiente

βˆ0 = y − βˆ1 x

Varianza residual: Pn 2
i=1 ei
σ̂R2 =
n−2
5 Comprobar las hipótesis.
6 Obtener intervalos de confianza para los parámetros
(β0 , β1 y σ) y contrastes de hipótesis.
7 Cuantificar el grado de relación entre las variables X e Y -
Coeficiente de determinación, coeficiente de
correlación (regresión lineal)
8 Predicción. Se trata de obtener pronósticos para valores
nuevos de las variables explicativas.
I Predicción puntual: establecer a una determinada
profundidad la predicción puntual de la temperatura.
I Intervalos de predicción para el valor medio y para el
valor individual: establecer con un margen de error los
valores entre los que se espera que varie la temperatura
(media e individual) para un determinada profundidad.
Hipótesis

Linealidad en las variables (en ocasiones es posible


transformar un modelo no lineal en uno lineal)

Yi = β0 + β1 Xi + εi
I Yi y εi son v.a.
I Hipótesis en función de los errores (izquierda) o en función
de la variable Y |x (derecha).

E [εi ] = 0 (media cero) E [Yi /xi ] = β0 + β1 xi


Var (εi ) = σ 2 (homocedasticidad) Var (Yi /xi ) = σ 2
εi ∼ N(0, σ) (normalidad) Yi ∼ N(β0 + β1 xi , σ)
Covarianza(εi , εj ) = 0, i 6= j Covarianza(Yi , Yj ) = 0, i 6= j
Varianza constante (homocedasticidad)

x
Varianza no constante (heterocedasticidad)

x
Fórmulas media muestral, varianza muestral y covarianza.

Pn
i=1 xi
Pn (xi −x)2 Pn xi2
x= n , S 2 (x) = i=1 n = i=1 n − x 2,

P (xi −x)(yj −y ) P xi yj
S(x, y ) = i,j n = i,j n −x y

Valores pronosticados: ŷi = β̂0 + β̂1 xi .

Residuos: ei = yi − ŷi .
xi yi xi yi xi2 ybi ei ei2
-2 0
-1 0
0 1
1 1
2 3
0 5 8 10 0 0 1.1

7 2 10
S(x, y ) = , S (x) =
5 5
7 ˆ
βˆ1 = , β0 = 1
10
Recta de ajuste: ŷ = 1 + 0.7x
Método de mínimos cuadrados
y
Y = β1 X + β0
e3
e7
e6

x
e2 e5

e1
e4

Figura: La nube de puntos, los errores verticales y la recta de


regresión.

En la figura se observan las distancias (líneas verticales)


yi − ŷi . Se buscan βˆ0 , βˆ1 tales que:
( n ) n
X 2 X
minβ̂0 ,β̂1 yi − β̂0 − β̂1 xi = minβ̂0 ,β̂1 ei2
i=1 i=1
Derivamos respecto a β̂0 y respecto a βˆ1 :
X n  
−2 yi − βˆ0 − βˆ1 xi = 0
i=1
n 
X 
−2 yi − βˆ0 − βˆ1 xi xi = 0
i=1
Las anteriores ecuaciones se pueden reescribir en función de
los residuos:
n
X n
X
ei = 0 y xi ei = 0
i=1 i=1
Agrupando tenemos
n
X n
X
yi = nβ̂0 + β̂1 xi
i=1 i=1
n
X n
X n
X
yi xi = β̂0 xi + β̂1 xi2
i=1 i=1 i=1
Dividiendo por n,
y = β̂0 + β̂1 x
n n
xi2
P P
yi xi
i=1
= β̂0 x + β̂1 i=1
n n
Multiplicando la primera ecuación por −x y sumándola a la
segunda:

S(x, y ) = βˆ1 S 2 (x)


La matriz de derivadas segundas (la hessiana) es:
 P 
2n 2 xi
2 xi 2 xi2
P P

Dado que 2n > 0 y el determinante


 P 2 dela hessiana es positivo:
P 2 P 2 2 xi 2
4 n xi − ( xi ) = 4n n −x = 4n2 S 2 (x) > 0,

S(x, y )
β̂1 = , β̂0 = ȳ − β̂1 x̄
S 2 (x)
Y Y

X X
Y

Figura: Distintas formas de calcular las distancias de los puntos de


la nube a la recta de regresión.
Ejemplo:

Cuadro: Ejemplo estimación recta de regresión lineal

xi yi xi yi xi2 ybi ei ei2


-2 0 0 4 -0.4 0.4 0.16
-1 0 0 1 0.3 -0.3 0.09
0 1 0 0 1 0 0
1 1 1 1 1.7 -0.7 0.49
2 3 6 4 2.4 0.6 0.36
0 5 7 10 0 1.1
I Varianza residual σ̂R2 = 1.1
3 = 0.366
I Error estándar de la regresión
sP
n 2
i=1 ei
EER = = σ̂R
n−2
Coeficiente de determinación

Obtención de la fórmula: para cada i,

yi − y = (yi − ŷi ) + (ŷi − y ) = ei + (ŷi − y )


Elevamos al cuadrado,

(yi − y )2 = (ei )2 + (ŷi − y )2 + 2ei (ŷi − y )


Sumamos,

n
X n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2 + 2 ei (ŷi − y )
i=1 i=1 i=1 i=1
Efectuando cuentas tenemos que,
n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2
i=1 i=1 i=1

Como ei = yi − ŷi , sabemos que y = ŷ


Dividiendo por n,

S 2 (y ) = S 2 (e) + S 2 (ŷ )
La varianza total se descompone en la varianza no
explicada por la regresión + la varianza explicada por la
regresión
Coeficiente de determinación

S 2 (ŷ )
R2 = .
S 2 (y )
I 0 ≤ R2 ≤ 1
I Nos da el porcentaje de variabilidad de la variable Y
explicada por la regresión. Un R 2 próximo a 1 (0.8 o
superior) indica buen ajuste lineal, y R 2 próximo a 0 indica
mal ajuste.
El coeficiente de correlación lineal

S(x, y )
rX ,Y =
S(x)S(y )
I −1 ≤ rX ,Y ≤ 1
I rX2 ,Y = R 2
2 2
De la fórmula R 2 = SS 2 ((yŷ )) = 1 − SS2 (y
(e)
)
obtenemos una fórmula
para calcular la varianza residual a partir del coeficiente de
determinación
n
σ̂R2 = (1 − R 2 )S 2 (y )
n−2
¿Qué relación existe entre el coeficiente de determinación y la
varianza residual?
El coeficiente de determinación ajustado
A menudo se utiliza otro estimador del coeficiente de
determinación, el coeficiente de determinación ajustado dado
por:
2 (n − 1)R 2 − 1
Rajustado = .
n−2
I Se trata de una pequeña corrección del coeficiente de
determinación que, en el caso de la regresión lineal simple
no es demasiado significativa.
I Sí tendrá importancia en la regresión múltiple dado que
corrige el valor de R 2 siempre a la baja, debido a que al
introducir nuevas variables explicativas en un modelo, el
coeficiente R 2 aumenta independientemente de que las
variables aporten o no información.
I En general R 2 y Rajustado
2 suelen tomar valores próximos y,
en caso contrario, será conveniente investigar la razón de
la discrepancia.
Diagnosis del modelo lineal

I Para comprobar que hay independencia se representa el


gráfico de dispersión de los valores ajustados frente a los
residuos (se podría complementar con el test de Durbin
Watson)
I Para comprobar la normalidad de los residuos
utilizaremos el histograma de los residuos, el gráfico de
cuantiles y los tests de normalidad.
I Para comprobar la homocedasticidad podemos realizar
un gráfico de dispersión de los valores ajustados frente a
la raíz cuadrada de los valores absolutos de los residuos
estandarizados (se podría complementar con el test de
Breusch-Pagan).
I También se pueden detectar aquellos valores que influyen
de manera significativa en la estimación de los parámetros
con el gráfico de valores de influencia (fuera del objetivo
de este curso).
Orden plot de R

Genera para cada modelo los siguientes gráficos:


I Gráfico de valores ajustados o pronosticados frente a
residuos. Si no observamos una tendencia ascendente o
descendente podemos pensar en que la hipótesis de
independencia lineal se puede mantener.
I Gráficos de cuantiles o gráficos qq. Si los datos se ajustan
a la diagonal cabe pensar en normalidad de los residuos.
I Gráfico de valores ajustados frente a residuos
estandarizados (raíz cuadrada). Si no se aprecia una
tendencia específica y los datos caen en una banda
constante podemos pensar que las hipótesis de
homocedasticidad se puede mantener.
I Gráfico de valores de influencia (leverage).
Orden plot de R

Residuals vs Fitted Normal Q-Q

Standardized residuals

2
10
17 17
5

1
Residuals

0
-1
-10

30
27 30

-2
27

100 120 140 160 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage


1.5

27 0.5
Standardized residuals

Standardized residuals

17 30
2
1
1.0

0
0.5

-1

1 43
-2

Cook's
27 distance
0.0

0.5

100 120 140 160 0.00 0.05 0.10 0.15

Fitted values Leverage


Ejemplo mediciones tortugas

Se dispone de mediciones de longitudes, anchuras y alturas de


caparazones de tortugas hembras y machos.
genero
macho
hembra

180
160
carapace.length

140
120
100

35 40 45 50 55 60 65

carapace.height

I Machos: Longitud = −21.76 + 3.32 Altura


I Hembras: Longitud = 4.49 + 2.53 Altura.
I Total (machos y hembras): Longitud = 15.61 + 2.35 Altura
Coeficientes de determinación y error estándar

I Modelo global: Residual standard error: 5.453 on 46


degrees of freedom
Multiple R-squared: 0.9306
I Machos: Residual standard error: 3.92 on 22 degrees of
freedom
Multiple R-squared: 0.8941
I Hembras: Residual standard error: 5.052 on 22 degrees of
freedom Multiple R-squared: 0.9459
Intervalos de confianza

Es un intervalo que permite precisar la incertidumbre existente


en la estimación. Sea θ un parámetro que se pretende estimar.

θb1 ≤ θ ≤ θb2
θb1 y θb2 se conocen como estimadores por defecto y por exceso
de θ. Dependen de la muestra y se calculan de forma que si
construimos muchos intervalos, cada vez con distintos valores
muestrales, es de esperar que el 100(1 − α) % de ellos
contendrán el verdadero valor del parámetro. Cuanto mayor
sea el nivel de confianza (1 − α), habitualmente del 90 %, 95 %
ó 99 %), mayor será la probabilidad de que el intervalo
contenga al verdadero valor del parámetro, pero mayor será
también su longitud y, por lo tanto, menor su precisión.
Ejemplo con R: intervalos de confianza, interpretaciones

I Modelo global
I IC0.95 (β0 ) = (6.630204, 24.588131)
I IC0.95 (β1 ) = (2.163458, 2.544959)
I Machos
I IC0.95 (β0 ) = (−42.390436, −1.126217)
I IC0.95 (β1 ) = (2.814364, 3.824735)
I Hembras
I IC0.95 (β0 ) = (−9.576869, 18.558195)
I IC0.95 (β1 ) = (2.263455, 2.798653)
Contrastes de hipótesis con R: test de correlación

Hipótesis nula versus alternativa


H0 : Correlación nula entre las variables (v. incorreladas)
H1 : Correlación no nula entre las variables
Contrastes de hipótesis con R sobre los parámetros y anova de la
regresión

 
Contrastes

I Intercepto= β0
H0 : β0 = 0 frente a H1 : β0 6= 0.
Si se rechaza H0 hay razones para decir que la recta no
pasa por el origen
I Pendiente= β1
H0 : β1 = 0 frente a H1 : β1 6= 0.
Si se rechaza H0 hay razones para decir que la variable X
influye en la Y
I Anova de la regresión H0 : R 2 = 0 frente a H1 : R 2 6= 0.
Si se rechaza H0 hay razones estadísticas para decir que
el modelo explica suficientemente bien la variable objeto
de estudio. En regresión lineal simple, este contraste es
equivalente a H0 : β1 = 0 frente a H1 : β1 6= 0.
Predicción puntual y por intervalos

I Objetivo: disponer de un buen modelo que explique una


variable a partir de otra u otras para hacer predicciones.
I En ocasiones resulta complicado tener mediciones de
todas las variables de interés, podemos por ejemplo
pensar en estimar el peso del hígado de un animal a partir
por ejemplo del peso total, del sexo,...
I Tipos de predicciones:
I Estimación puntual: ŷh = β̂0 + β̂1 xh
En el ejemplo de las tortugas:
Longitud = 15.61 + 2.35Altura
Si una tortuga tiene Altura = 60, su longitud estimada será
156.61
I Estimación por intervalos de confianza (aproximar sus
valores con las gráficas)
Intervalos de predicción al 95 % de confianza

180
160
140
Length

120
100

35 40 45 50 55 60 65

Height

Figura: Intervalos de predicción.


Intervalos de predicción

I Para el valor medio si Altura = 60 (ver bandas azules y


aproximar)
I Para un valor cualquiera si Altura = 60 (ver bandas verdes
y aproximar)
¿Cómo serían las bandas si aumentamos la confianza, por
ejemplo al 99 %?
I Fórmula del intervalo de confianza 1 − α para el valor
medio de Y si X = xh es:
 s 
2
Ŷh ± tn−2,α/2 σ̂R 1 + (xh − x̄) 
n nS 2 (x)
El modelo de regresión lineal múltiple

En el modelo de regresión lineal múltiple buscamos una


expresión del tipo:

µY |x1 ,...,xk = β0 + β1 x1 + β2 x2 + . . . + βp xp
para el modelo:

Yi = β0 + β1 x1i + . . . + βp xpi + εi i = 1, . . . , k
I Y la variable explicada y x1 , x2 , . . . , xp valores
determinados de las variables explicativas
I Ejemplo: variable Y la abundancia de huevos de
determinada especie marina y como variables explicativas
la salinidad y la temperatura. Para determinar el modelo
lineal recogeremos información de la abundancia de
huevos fijando niveles de salinidad y de temperatura.
Plano de regresión ejemplo medidas tortugas

Disponemos de mediciones de longitudes, alturas y anchuras


de tortugas machos y hembras.
 

 
Plano de regresión global y por sexo.
Plano de regresión ejemplo medidas tortugas

80 100 120 140 160 180

Width
14
130
120
Length

110
100
90
80
70
35 40 45 50 55 60 65 70

Height
 
Regresión múltiple con R: interpretaciones

 
Regresión para las tortugas macho y para las tortugas hembra
 

 
Regresión tortugas macho con plano pasando por el origen
 

 
Matriz de diagramas de dispersión
Con R representaremos un diagrama en forma de matriz en el
que aparecen los diagramas de dispersión de todas las
variables (tomadas de dos en dos) y en la diagonal principal los
histogramas (podremos elegir boxplot, densidades,...).
100 120 140 160 180

65
carapace.height

55
45
35
100 120 140 160 180

carapace.length

carapace.width

120
100
80
35 45 55 65 80 100 120
Matriz de correlaciones

La matriz de correlaciones muestra la correlación entre cada


par de variables. En la diagonal siempre aparecen unos, dado
que son las correlaciones de una variable consigo misma.
Observamos que la matriz es simétrica.

height length width


height 1.0000000 0.9628899 0.9599055
length 0.9628899 1.0000000 0.9778869
width 0.9599055 0.9778869 1.0000000
Ajustes simples no lineales pero "que se pueden convertir en
lineales"

I Logarítmico: Y = β0 + β1 log X
I Exponencial: Y = β0 eβ1 X . El modelo linealizado es
log Y = log β0 + β1 X
I Potencial: Y = β0 X β1 . El modelo linealizado es
log Y = log β0 + β1 log X
I Inverso: Y = β0 + β1 X1
Para el modelo logarítmico consideramos la muestra
(log xi , yi )ni=1 , para el modelo exponencial, la muestra
(xi , log yi )ni=1 , para el modelo potencial, la muestra
(log xi , log yi )ni=1 y, para el modelo inverso, la muestra ( x1i , yi )ni=1 .
Para cada una de esas muestras se efectúan los
correspondientes ajustes lineales.
Ajustes polinómicos

I Cuadrático: Y = β0 + β1 X + β2 X 2
I Cúbico: Y = β0 + β1 X + β2 X 2 + β3 X 3
I Polinómico de grado k : Y = ki=0 βi X i .
P

Seminario 3: Prácticas con Excel


De interés programar en una hoja de cálculo el modelo de
regresión lineal simple, cálculo de residuos, valores estimados,
coeficiente de determinación, coeficiente de correlación,
descomposición de la varianza, realizar predicciones, ...
Realizar ajustes con distintos modelos, cálculo del error
residual, ...

También podría gustarte