Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso 2020/2021
Guía docente:
I Gráfico de dispersión.
I Recta de ajuste. Coeficiente de correlación y de
determinación.
I ANOVA y análisis de residuos.
I Intervalos de confianza para los parámetros y contrastes
de hipótesis.
I Regresión lineal múltiple (introducción).
I Otros modelos: parabólico, exponencial,... Prácticas con
excel.
Introducción
Ejemplos:
I la temperatura función de la profundidad
I el crecimiento de una planta en función de determinados
nutrientes
I el peso de un individuo en función de la estatura
Modelo lineal simple
Yi = β0 + β1 Xi + εi , i = 1, . . . , n
I εi perturbación o término de error (otras variables que
influyen en Y , errores de medida, ...)
I β0 es el término constante
I β1 es la pendiente y se conoce como coeficiente de
regresión. Proporciona el cambio que experimenta la
variable respuesta cuando X aumenta en una unidad.
Ejemplo 1
I Residuos
ei = yi − ŷi
Estimaciones de los parámetros
Término independiente
βˆ0 = y − βˆ1 x
Varianza residual: Pn 2
i=1 ei
σ̂R2 =
n−2
5 Comprobar las hipótesis.
6 Obtener intervalos de confianza para los parámetros
(β0 , β1 y σ) y contrastes de hipótesis.
7 Cuantificar el grado de relación entre las variables X e Y -
Coeficiente de determinación, coeficiente de
correlación (regresión lineal)
8 Predicción. Se trata de obtener pronósticos para valores
nuevos de las variables explicativas.
I Predicción puntual: establecer a una determinada
profundidad la predicción puntual de la temperatura.
I Intervalos de predicción para el valor medio y para el
valor individual: establecer con un margen de error los
valores entre los que se espera que varie la temperatura
(media e individual) para un determinada profundidad.
Hipótesis
Yi = β0 + β1 Xi + εi
I Yi y εi son v.a.
I Hipótesis en función de los errores (izquierda) o en función
de la variable Y |x (derecha).
x
Varianza no constante (heterocedasticidad)
x
Fórmulas media muestral, varianza muestral y covarianza.
Pn
i=1 xi
Pn (xi −x)2 Pn xi2
x= n , S 2 (x) = i=1 n = i=1 n − x 2,
P (xi −x)(yj −y ) P xi yj
S(x, y ) = i,j n = i,j n −x y
Residuos: ei = yi − ŷi .
xi yi xi yi xi2 ybi ei ei2
-2 0
-1 0
0 1
1 1
2 3
0 5 8 10 0 0 1.1
7 2 10
S(x, y ) = , S (x) =
5 5
7 ˆ
βˆ1 = , β0 = 1
10
Recta de ajuste: ŷ = 1 + 0.7x
Método de mínimos cuadrados
y
Y = β1 X + β0
e3
e7
e6
x
e2 e5
e1
e4
S(x, y )
β̂1 = , β̂0 = ȳ − β̂1 x̄
S 2 (x)
Y Y
X X
Y
n
X n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2 + 2 ei (ŷi − y )
i=1 i=1 i=1 i=1
Efectuando cuentas tenemos que,
n
X n
X n
X
(yi − y )2 = (ei )2 + (ŷi − y )2
i=1 i=1 i=1
S 2 (y ) = S 2 (e) + S 2 (ŷ )
La varianza total se descompone en la varianza no
explicada por la regresión + la varianza explicada por la
regresión
Coeficiente de determinación
S 2 (ŷ )
R2 = .
S 2 (y )
I 0 ≤ R2 ≤ 1
I Nos da el porcentaje de variabilidad de la variable Y
explicada por la regresión. Un R 2 próximo a 1 (0.8 o
superior) indica buen ajuste lineal, y R 2 próximo a 0 indica
mal ajuste.
El coeficiente de correlación lineal
S(x, y )
rX ,Y =
S(x)S(y )
I −1 ≤ rX ,Y ≤ 1
I rX2 ,Y = R 2
2 2
De la fórmula R 2 = SS 2 ((yŷ )) = 1 − SS2 (y
(e)
)
obtenemos una fórmula
para calcular la varianza residual a partir del coeficiente de
determinación
n
σ̂R2 = (1 − R 2 )S 2 (y )
n−2
¿Qué relación existe entre el coeficiente de determinación y la
varianza residual?
El coeficiente de determinación ajustado
A menudo se utiliza otro estimador del coeficiente de
determinación, el coeficiente de determinación ajustado dado
por:
2 (n − 1)R 2 − 1
Rajustado = .
n−2
I Se trata de una pequeña corrección del coeficiente de
determinación que, en el caso de la regresión lineal simple
no es demasiado significativa.
I Sí tendrá importancia en la regresión múltiple dado que
corrige el valor de R 2 siempre a la baja, debido a que al
introducir nuevas variables explicativas en un modelo, el
coeficiente R 2 aumenta independientemente de que las
variables aporten o no información.
I En general R 2 y Rajustado
2 suelen tomar valores próximos y,
en caso contrario, será conveniente investigar la razón de
la discrepancia.
Diagnosis del modelo lineal
Standardized residuals
2
10
17 17
5
1
Residuals
0
-1
-10
30
27 30
-2
27
27 0.5
Standardized residuals
Standardized residuals
17 30
2
1
1.0
0
0.5
-1
1 43
-2
Cook's
27 distance
0.0
0.5
180
160
carapace.length
140
120
100
35 40 45 50 55 60 65
carapace.height
θb1 ≤ θ ≤ θb2
θb1 y θb2 se conocen como estimadores por defecto y por exceso
de θ. Dependen de la muestra y se calculan de forma que si
construimos muchos intervalos, cada vez con distintos valores
muestrales, es de esperar que el 100(1 − α) % de ellos
contendrán el verdadero valor del parámetro. Cuanto mayor
sea el nivel de confianza (1 − α), habitualmente del 90 %, 95 %
ó 99 %), mayor será la probabilidad de que el intervalo
contenga al verdadero valor del parámetro, pero mayor será
también su longitud y, por lo tanto, menor su precisión.
Ejemplo con R: intervalos de confianza, interpretaciones
I Modelo global
I IC0.95 (β0 ) = (6.630204, 24.588131)
I IC0.95 (β1 ) = (2.163458, 2.544959)
I Machos
I IC0.95 (β0 ) = (−42.390436, −1.126217)
I IC0.95 (β1 ) = (2.814364, 3.824735)
I Hembras
I IC0.95 (β0 ) = (−9.576869, 18.558195)
I IC0.95 (β1 ) = (2.263455, 2.798653)
Contrastes de hipótesis con R: test de correlación
Contrastes
I Intercepto= β0
H0 : β0 = 0 frente a H1 : β0 6= 0.
Si se rechaza H0 hay razones para decir que la recta no
pasa por el origen
I Pendiente= β1
H0 : β1 = 0 frente a H1 : β1 6= 0.
Si se rechaza H0 hay razones para decir que la variable X
influye en la Y
I Anova de la regresión H0 : R 2 = 0 frente a H1 : R 2 6= 0.
Si se rechaza H0 hay razones estadísticas para decir que
el modelo explica suficientemente bien la variable objeto
de estudio. En regresión lineal simple, este contraste es
equivalente a H0 : β1 = 0 frente a H1 : β1 6= 0.
Predicción puntual y por intervalos
180
160
140
Length
120
100
35 40 45 50 55 60 65
Height
µY |x1 ,...,xk = β0 + β1 x1 + β2 x2 + . . . + βp xp
para el modelo:
Yi = β0 + β1 x1i + . . . + βp xpi + εi i = 1, . . . , k
I Y la variable explicada y x1 , x2 , . . . , xp valores
determinados de las variables explicativas
I Ejemplo: variable Y la abundancia de huevos de
determinada especie marina y como variables explicativas
la salinidad y la temperatura. Para determinar el modelo
lineal recogeremos información de la abundancia de
huevos fijando niveles de salinidad y de temperatura.
Plano de regresión ejemplo medidas tortugas
Plano de regresión global y por sexo.
Plano de regresión ejemplo medidas tortugas
Width
14
130
120
Length
110
100
90
80
70
35 40 45 50 55 60 65 70
Height
Regresión múltiple con R: interpretaciones
Regresión para las tortugas macho y para las tortugas hembra
Regresión tortugas macho con plano pasando por el origen
Matriz de diagramas de dispersión
Con R representaremos un diagrama en forma de matriz en el
que aparecen los diagramas de dispersión de todas las
variables (tomadas de dos en dos) y en la diagonal principal los
histogramas (podremos elegir boxplot, densidades,...).
100 120 140 160 180
65
carapace.height
55
45
35
100 120 140 160 180
carapace.length
carapace.width
120
100
80
35 45 55 65 80 100 120
Matriz de correlaciones
I Logarítmico: Y = β0 + β1 log X
I Exponencial: Y = β0 eβ1 X . El modelo linealizado es
log Y = log β0 + β1 X
I Potencial: Y = β0 X β1 . El modelo linealizado es
log Y = log β0 + β1 log X
I Inverso: Y = β0 + β1 X1
Para el modelo logarítmico consideramos la muestra
(log xi , yi )ni=1 , para el modelo exponencial, la muestra
(xi , log yi )ni=1 , para el modelo potencial, la muestra
(log xi , log yi )ni=1 y, para el modelo inverso, la muestra ( x1i , yi )ni=1 .
Para cada una de esas muestras se efectúan los
correspondientes ajustes lineales.
Ajustes polinómicos
I Cuadrático: Y = β0 + β1 X + β2 X 2
I Cúbico: Y = β0 + β1 X + β2 X 2 + β3 X 3
I Polinómico de grado k : Y = ki=0 βi X i .
P