Regresion

Regresión y correlación
Estela Sánchez Rodríguez

Departamento de Estadística e Investigación Operativa.
Universidad de Vigo
e-mail: esanchez@uvigo.es
Curso 2020/2021
Guía docente:
I Gráfico de dispersión.
I Recta de ajuste. Coeficiente de correlación y de
determinación.
I ANOVA y análisis de residuos.
I Intervalos de confianza para los parámetros y contrastes
de hipótesis.
I Regresión lineal múltiple (introducción).
I Otros modelos: parabólico, exponencial,... Prácticas con
excel.
Introducción
I Regresión - consiste en la obtención de una ecuación

mediante la cuál pueda estimarse el valor medio de una
variable aleatoria a partir de los valores de una o más
variables explicativas.
I Correlación - mide la fuerza de la relación lineal entre dos
variables.
I La regresión tiene por objeto estudiar la estructura de
dependencia que mejor explique la variable Y (variable
dependiente o explicada) a través de un conjunto de
variables X1 , . . . , Xp (variables independientes o
explicativas).
I Sir Francis Galton (inglés de finales XIX) comparó las
estaturas de los padres con las de sus hijos. Descubrió
una tendencia a la media. Las estaturas de los hijos
“regresan” o “revierten” en la media - de aquí el origen de
la palabra regresión.
Regression towards mediocrity in hereditary stature (1886)
I En el modelo de regresión simple hay una única variable
independiente o explicativa (Y = f (X ) + ε), mientras que
en el modelo de regresión múltiple hay más de una
variable independiente (Y = f (X1 , . . . , Xp ) + ε).
El modelo de regresión lineal simple
Y : variable respuesta o variable dependiente

X : variable explicativa o variable independiente
Ejemplos:
I la temperatura función de la profundidad
I el crecimiento de una planta en función de determinados
nutrientes
I el peso de un individuo en función de la estatura
Modelo lineal simple
Yi = β0 + β1 Xi + εi , i = 1, . . . , n
I εi perturbación o término de error (otras variables que
influyen en Y , errores de medida, ...)
I β0 es el término constante
I β1 es la pendiente y se conoce como coeficiente de
regresión. Proporciona el cambio que experimenta la
variable respuesta cuando X aumenta en una unidad.
Ejemplo 1
I Supongamos que queremos estudiar la temperatura del

agua. Sabemos que depende de la profundidad. Estamos
interesados en hacer inferencias sobre la temperatura, no
sobre la profundidad.
I La temperatura del agua para un valor fijo x de
profundidad variará debido a otras influencias aleatorias.
Supongamos una profundidad de 1000 pies, tratamos con
la v.a. Y |x de la cuál su media es µY |x , no esperamos que
la media sea la misma a 1000 pies que a 5000 pies, es
decir será una función de x.
A la gráfica de esta regresión de la denomina curva de
regresión de Y sobre X .
I Mediciones de la temperatura a distintas profundidades
para tener la línea de regresión y análisis
Ejemplo 2
I Supongamos que queremos investigar el efecto de la

calidad del aire en el pH del agua de la lluvia
I Seleccionar una muestra de días
I Anotar la lectura de la calidad del aire y medir el pH
I Análisis estadístico
Pasos a seguir:
1 Determinar el modelo lineal. Regresión lineal de Y sobre

X (elegir variable dependiente y variable independiente).
2 Tomar los datos muestrales: (xi , yi )i=1,...,n
3 Representar la nube de puntos o gráfico de dispersión
para observar visualmente la tendencia de los datos. Tres
tipos de relación (directa, inversa y ausencia de relación
lineal).
4 Estimar los parámetros del modelo de regresión (ver
método mínimo cuadrados).
I Parámetros
I β0 , β1 (coeficientes de la recta)
I σ para estimar el error.
Se estiman a partir de la muestra.
I Estimaciones de los parámetros: βˆ0 , βˆ1 , σ̂
I Valores pronosticados ó estimados:
ŷi = βˆ0 + βˆ1 xi
I Residuos
ei = yi − ŷi
Estimaciones de los parámetros
I Y es la variable explicada y X la explicativa

Pendiente
Covarianza(X , Y ) S(x, y )
βˆ1 = = 2
Varianza(X ) S (x)
Término independiente
βˆ0 = y − βˆ1 x
Varianza residual: Pn 2
i=1 ei
σ̂R2 =
n−2
5 Comprobar las hipótesis.
6 Obtener intervalos de confianza para los parámetros
(β0 , β1 y σ) y contrastes de hipótesis.
7 Cuantificar el grado de relación entre las variables X e Y -
Coeficiente de determinación, coeficiente de
correlación (regresión lineal)
8 Predicción. Se trata de obtener pronósticos para valores
nuevos de las variables explicativas.
I Predicción puntual: establecer a una determinada
profundidad la predicción puntual de la temperatura.
I Intervalos de predicción para el valor medio y para el
valor individual: establecer con un margen de error los
valores entre los que se espera que varie la temperatura
(media e individual) para un determinada profundidad.
Hipótesis
Linealidad en las variables (en ocasiones es posible

transformar un modelo no lineal en uno lineal)
Yi = β0 + β1 Xi + εi
I Yi y εi son v.a.
I Hipótesis en función de los errores (izquierda) o en función
de la variable Y |x (derecha).
E [εi ] = 0 (media cero) E [Yi /xi ] = β0 + β1 xi

Var (εi ) = σ 2 (homocedasticidad) Var (Yi /xi ) = σ 2
εi ∼ N(0, σ) (normalidad) Yi ∼ N(β0 + β1 xi , σ)
Covarianza(εi , εj ) = 0, i 6= j Covarianza(Yi , Yj ) = 0, i 6= j
Varianza constante (homocedasticidad)
x
Varianza no constante (heterocedasticidad)
x
Fórmulas media muestral, varianza muestral y covarianza.
Pn
i=1 xi
Pn (xi −x)2 Pn xi2
x= n , S 2 (x) = i=1 n = i=1 n − x 2,
P (xi −x)(yj −y ) P xi yj
S(x, y ) = i,j n = i,j n −x y
Valores pronosticados: ŷi = β̂0 + β̂1 xi .
Residuos: ei = yi − ŷi .
xi yi xi yi xi2 ybi ei ei2
-2 0
-1 0
0 1
1 1
2 3
0 5 8 10 0 0 1.1
7 2 10
S(x, y ) = , S (x) =
5 5
7 ˆ
βˆ1 = , β0 = 1
10
Recta de ajuste: ŷ = 1 + 0.7x
Método de mínimos cuadrados
y
Y = β1 X + β0
e3
e7
e6
x
e2 e5
e1
e4
Figura: La nube de puntos, los errores verticales y la recta de

regresión.
En la figura se observan las distancias (líneas verticales)

yi − ŷi . Se buscan βˆ0 , βˆ1 tales que:
( n ) n
X 2 X
minβ̂0 ,β̂1 yi − β̂0 − β̂1 xi = minβ̂0 ,β̂1 ei2
i=1 i=1
Derivamos respecto a β̂0 y respecto a βˆ1 :
X n
−2 yi − βˆ0 − βˆ1 xi = 0
i=1
n
X
−2 yi − βˆ0 − βˆ1 xi xi = 0
i=1
Las anteriores ecuaciones se pueden reescribir en función de
los residuos:
n
X n
X
ei = 0 y xi ei = 0
i=1 i=1
Agrupando tenemos
n
X n
X
yi = nβ̂0 + β̂1 xi
i=1 i=1
n
X n
X n
X
yi xi = β̂0 xi + β̂1 xi2
i=1 i=1 i=1
Dividiendo por n,
y = β̂0 + β̂1 x
n n
xi2
P P
yi xi
i=1
= β̂0 x + β̂1 i=1
n n
Multiplicando la primera ecuación por −x y sumándola a la
segunda:
S(x, y ) = βˆ1 S 2 (x)

La matriz de derivadas segundas (la hessiana) es:
P
2n 2 xi
2 xi 2 xi2
P P
Dado que 2n > 0 y el determinante

P 2 dela hessiana es positivo:
P 2 P 2 2 xi 2
4 n xi − ( xi ) = 4n n −x = 4n2 S 2 (x) > 0,
S(x, y )
β̂1 = , β̂0 = ȳ − β̂1 x̄
S 2 (x)
Y Y
X X
Y
Figura: Distintas formas de calcular las distancias de los puntos de

la nube a la recta de regresión.
Ejemplo:
Cuadro: Ejemplo estimación recta de regresión lineal
xi yi xi yi xi2 ybi ei ei2

-2 0 0 4 -0.4 0.4 0.16
-1 0 0 1 0.3 -0.3 0.09
0 1 0 0 1 0 0
1 1 1 1 1.7 -0.7 0.49
2 3 6 4 2.4 0.6 0.36
0 5 7 10 0 1.1
I Varianza residual σ̂R2 = 1.1
3 = 0.366
I Error estándar de la regresión
sP
n 2
i=1 ei
EER = = σ̂R
n−2
Coeficiente de determinación
Obtención de la fórmula: para cada i,
yi − y = (yi − ŷi ) + (ŷi − y ) = ei + (ŷi − y )

Elevamos al cuadrado,
(yi − y )2 = (ei )2 + (ŷi − y )2 + 2ei (ŷi − y )

Sumamos,
n
X n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2 + 2 ei (ŷi − y )
i=1 i=1 i=1 i=1
Efectuando cuentas tenemos que,
n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2
i=1 i=1 i=1
Como ei = yi − ŷi , sabemos que y = ŷ

Dividiendo por n,
S 2 (y ) = S 2 (e) + S 2 (ŷ )
La varianza total se descompone en la varianza no
explicada por la regresión + la varianza explicada por la
regresión
Coeficiente de determinación
S 2 (ŷ )
R2 = .
S 2 (y )
I 0 ≤ R2 ≤ 1
I Nos da el porcentaje de variabilidad de la variable Y
explicada por la regresión. Un R 2 próximo a 1 (0.8 o
superior) indica buen ajuste lineal, y R 2 próximo a 0 indica
mal ajuste.
El coeficiente de correlación lineal
S(x, y )
rX ,Y =
S(x)S(y )
I −1 ≤ rX ,Y ≤ 1
I rX2 ,Y = R 2
2 2
De la fórmula R 2 = SS 2 ((yŷ )) = 1 − SS2 (y
(e)
)
obtenemos una fórmula
para calcular la varianza residual a partir del coeficiente de
determinación
n
σ̂R2 = (1 − R 2 )S 2 (y )
n−2
¿Qué relación existe entre el coeficiente de determinación y la
varianza residual?
El coeficiente de determinación ajustado
A menudo se utiliza otro estimador del coeficiente de
determinación, el coeficiente de determinación ajustado dado
por:
2 (n − 1)R 2 − 1
Rajustado = .
n−2
I Se trata de una pequeña corrección del coeficiente de
determinación que, en el caso de la regresión lineal simple
no es demasiado significativa.
I Sí tendrá importancia en la regresión múltiple dado que
corrige el valor de R 2 siempre a la baja, debido a que al
introducir nuevas variables explicativas en un modelo, el
coeficiente R 2 aumenta independientemente de que las
variables aporten o no información.
I En general R 2 y Rajustado
2 suelen tomar valores próximos y,
en caso contrario, será conveniente investigar la razón de
la discrepancia.
Diagnosis del modelo lineal
I Para comprobar que hay independencia se representa el

gráfico de dispersión de los valores ajustados frente a los
residuos (se podría complementar con el test de Durbin
Watson)
I Para comprobar la normalidad de los residuos
utilizaremos el histograma de los residuos, el gráfico de
cuantiles y los tests de normalidad.
I Para comprobar la homocedasticidad podemos realizar
un gráfico de dispersión de los valores ajustados frente a
la raíz cuadrada de los valores absolutos de los residuos
estandarizados (se podría complementar con el test de
Breusch-Pagan).
I También se pueden detectar aquellos valores que influyen
de manera significativa en la estimación de los parámetros
con el gráfico de valores de influencia (fuera del objetivo
de este curso).
Orden plot de R
Genera para cada modelo los siguientes gráficos:

I Gráfico de valores ajustados o pronosticados frente a
residuos. Si no observamos una tendencia ascendente o
descendente podemos pensar en que la hipótesis de
independencia lineal se puede mantener.
I Gráficos de cuantiles o gráficos qq. Si los datos se ajustan
a la diagonal cabe pensar en normalidad de los residuos.
I Gráfico de valores ajustados frente a residuos
estandarizados (raíz cuadrada). Si no se aprecia una
tendencia específica y los datos caen en una banda
constante podemos pensar que las hipótesis de
homocedasticidad se puede mantener.
I Gráfico de valores de influencia (leverage).
Orden plot de R
Residuals vs Fitted Normal Q-Q
Standardized residuals
2
10
17 17
5
1
Residuals
0
-1
-10
30
27 30
-2
27
100 120 140 160 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

1.5
27 0.5
17 30
2
1
1.0
0
0.5
-1
1 43
-2
Cook's
27 distance
0.0
0.5
100 120 140 160 0.00 0.05 0.10 0.15
Fitted values Leverage

Ejemplo mediciones tortugas
Se dispone de mediciones de longitudes, anchuras y alturas de

caparazones de tortugas hembras y machos.
genero
macho
hembra
180
160
carapace.length
140
120
100
35 40 45 50 55 60 65
carapace.height
I Machos: Longitud = −21.76 + 3.32 Altura

I Hembras: Longitud = 4.49 + 2.53 Altura.
I Total (machos y hembras): Longitud = 15.61 + 2.35 Altura
Coeficientes de determinación y error estándar
I Modelo global: Residual standard error: 5.453 on 46

degrees of freedom
Multiple R-squared: 0.9306
I Machos: Residual standard error: 3.92 on 22 degrees of
freedom
Multiple R-squared: 0.8941
I Hembras: Residual standard error: 5.052 on 22 degrees of
freedom Multiple R-squared: 0.9459
Intervalos de confianza
Es un intervalo que permite precisar la incertidumbre existente

en la estimación. Sea θ un parámetro que se pretende estimar.
θb1 ≤ θ ≤ θb2
θb1 y θb2 se conocen como estimadores por defecto y por exceso
de θ. Dependen de la muestra y se calculan de forma que si
construimos muchos intervalos, cada vez con distintos valores
muestrales, es de esperar que el 100(1 − α) % de ellos
contendrán el verdadero valor del parámetro. Cuanto mayor
sea el nivel de confianza (1 − α), habitualmente del 90 %, 95 %
ó 99 %), mayor será la probabilidad de que el intervalo
contenga al verdadero valor del parámetro, pero mayor será
también su longitud y, por lo tanto, menor su precisión.
Ejemplo con R: intervalos de confianza, interpretaciones
I Modelo global
I IC0.95 (β0 ) = (6.630204, 24.588131)
I IC0.95 (β1 ) = (2.163458, 2.544959)
I Machos
I IC0.95 (β0 ) = (−42.390436, −1.126217)
I IC0.95 (β1 ) = (2.814364, 3.824735)
I Hembras
I IC0.95 (β0 ) = (−9.576869, 18.558195)
I IC0.95 (β1 ) = (2.263455, 2.798653)
Contrastes de hipótesis con R: test de correlación
Hipótesis nula versus alternativa

H0 : Correlación nula entre las variables (v. incorreladas)
H1 : Correlación no nula entre las variables
Contrastes de hipótesis con R sobre los parámetros y anova de la
regresión

Contrastes
I Intercepto= β0
H0 : β0 = 0 frente a H1 : β0 6= 0.
Si se rechaza H0 hay razones para decir que la recta no
pasa por el origen
I Pendiente= β1
H0 : β1 = 0 frente a H1 : β1 6= 0.
Si se rechaza H0 hay razones para decir que la variable X
influye en la Y
I Anova de la regresión H0 : R 2 = 0 frente a H1 : R 2 6= 0.
Si se rechaza H0 hay razones estadísticas para decir que
el modelo explica suficientemente bien la variable objeto
de estudio. En regresión lineal simple, este contraste es
equivalente a H0 : β1 = 0 frente a H1 : β1 6= 0.
Predicción puntual y por intervalos
I Objetivo: disponer de un buen modelo que explique una

variable a partir de otra u otras para hacer predicciones.
I En ocasiones resulta complicado tener mediciones de
todas las variables de interés, podemos por ejemplo
pensar en estimar el peso del hígado de un animal a partir
por ejemplo del peso total, del sexo,...
I Tipos de predicciones:
I Estimación puntual: ŷh = β̂0 + β̂1 xh
En el ejemplo de las tortugas:
Longitud = 15.61 + 2.35Altura
Si una tortuga tiene Altura = 60, su longitud estimada será
156.61
I Estimación por intervalos de confianza (aproximar sus
valores con las gráficas)
Intervalos de predicción al 95 % de confianza
180
160
140
Length
120
100
35 40 45 50 55 60 65
Height
Figura: Intervalos de predicción.

Intervalos de predicción
I Para el valor medio si Altura = 60 (ver bandas azules y

aproximar)
I Para un valor cualquiera si Altura = 60 (ver bandas verdes
y aproximar)
¿Cómo serían las bandas si aumentamos la confianza, por
ejemplo al 99 %?
I Fórmula del intervalo de confianza 1 − α para el valor
medio de Y si X = xh es:
 s 
2
Ŷh ± tn−2,α/2 σ̂R 1 + (xh − x̄) 
n nS 2 (x)
El modelo de regresión lineal múltiple
En el modelo de regresión lineal múltiple buscamos una

expresión del tipo:
µY |x1 ,...,xk = β0 + β1 x1 + β2 x2 + . . . + βp xp
para el modelo:
Yi = β0 + β1 x1i + . . . + βp xpi + εi i = 1, . . . , k
I Y la variable explicada y x1 , x2 , . . . , xp valores
determinados de las variables explicativas
I Ejemplo: variable Y la abundancia de huevos de
determinada especie marina y como variables explicativas
la salinidad y la temperatura. Para determinar el modelo
lineal recogeremos información de la abundancia de
huevos fijando niveles de salinidad y de temperatura.
Plano de regresión ejemplo medidas tortugas
Disponemos de mediciones de longitudes, alturas y anchuras

de tortugas machos y hembras.

Plano de regresión global y por sexo.
Plano de regresión ejemplo medidas tortugas
80 100 120 140 160 180
Width
14
130
120
Length
110
100
90
80
70
35 40 45 50 55 60 65 70
Height

Regresión múltiple con R: interpretaciones

Regresión para las tortugas macho y para las tortugas hembra

Regresión tortugas macho con plano pasando por el origen

Matriz de diagramas de dispersión
Con R representaremos un diagrama en forma de matriz en el
que aparecen los diagramas de dispersión de todas las
variables (tomadas de dos en dos) y en la diagonal principal los
histogramas (podremos elegir boxplot, densidades,...).
100 120 140 160 180
65
carapace.height
55
45
35
100 120 140 160 180
carapace.length
carapace.width
120
100
80
35 45 55 65 80 100 120
Matriz de correlaciones
La matriz de correlaciones muestra la correlación entre cada

par de variables. En la diagonal siempre aparecen unos, dado
que son las correlaciones de una variable consigo misma.
Observamos que la matriz es simétrica.
height length width

height 1.0000000 0.9628899 0.9599055
length 0.9628899 1.0000000 0.9778869
width 0.9599055 0.9778869 1.0000000
Ajustes simples no lineales pero "que se pueden convertir en
lineales"
I Logarítmico: Y = β0 + β1 log X
I Exponencial: Y = β0 eβ1 X . El modelo linealizado es
log Y = log β0 + β1 X
I Potencial: Y = β0 X β1 . El modelo linealizado es
log Y = log β0 + β1 log X
I Inverso: Y = β0 + β1 X1
Para el modelo logarítmico consideramos la muestra
(log xi , yi )ni=1 , para el modelo exponencial, la muestra
(xi , log yi )ni=1 , para el modelo potencial, la muestra
(log xi , log yi )ni=1 y, para el modelo inverso, la muestra ( x1i , yi )ni=1 .
Para cada una de esas muestras se efectúan los
correspondientes ajustes lineales.
Ajustes polinómicos
I Cuadrático: Y = β0 + β1 X + β2 X 2
I Cúbico: Y = β0 + β1 X + β2 X 2 + β3 X 3
I Polinómico de grado k : Y = ki=0 βi X i .
P
Seminario 3: Prácticas con Excel

De interés programar en una hoja de cálculo el modelo de
regresión lineal simple, cálculo de residuos, valores estimados,
coeficiente de determinación, coeficiente de correlación,
descomposición de la varianza, realizar predicciones, ...
Realizar ajustes con distintos modelos, cálculo del error
residual, ...

Regresion

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion

Cargado por

Copyright:

Formatos disponibles

Regresión y correlación

Estela Sánchez Rodríguez

I Regresión - consiste en la obtención de una ecuación

Y : variable respuesta o variable dependiente

I Supongamos que queremos estudiar la temperatura del

I Supongamos que queremos investigar el efecto de la

1 Determinar el modelo lineal. Regresión lineal de Y sobre

ŷi = βˆ0 + βˆ1 xi

I Y es la variable explicada y X la explicativa

Linealidad en las variables (en ocasiones es posible

E [εi ] = 0 (media cero) E [Yi /xi ] = β0 + β1 xi

Valores pronosticados: ŷi = β̂0 + β̂1 xi .

Figura: La nube de puntos, los errores verticales y la recta de

En la figura se observan las distancias (líneas verticales)

S(x, y ) = βˆ1 S 2 (x)

Dado que 2n > 0 y el determinante

Figura: Distintas formas de calcular las distancias de los puntos de

Cuadro: Ejemplo estimación recta de regresión lineal

xi yi xi yi xi2 ybi ei ei2

Obtención de la fórmula: para cada i,

yi − y = (yi − ŷi ) + (ŷi − y ) = ei + (ŷi − y )

(yi − y )2 = (ei )2 + (ŷi − y )2 + 2ei (ŷi − y )

Como ei = yi − ŷi , sabemos que y = ŷ

I Para comprobar que hay independencia se representa el

Genera para cada modelo los siguientes gráficos:

Residuals vs Fitted Normal Q-Q

100 120 140 160 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

100 120 140 160 0.00 0.05 0.10 0.15

Fitted values Leverage

Se dispone de mediciones de longitudes, anchuras y alturas de

I Machos: Longitud = −21.76 + 3.32 Altura

I Modelo global: Residual standard error: 5.453 on 46

Es un intervalo que permite precisar la incertidumbre existente

Hipótesis nula versus alternativa

I Objetivo: disponer de un buen modelo que explique una

Figura: Intervalos de predicción.

I Para el valor medio si Altura = 60 (ver bandas azules y

En el modelo de regresión lineal múltiple buscamos una

Disponemos de mediciones de longitudes, alturas y anchuras

80 100 120 140 160 180

La matriz de correlaciones muestra la correlación entre cada

height length width

Seminario 3: Prácticas con Excel

También podría gustarte