Está en la página 1de 26

Tema 8.

Introducción a los
modelos de regresión

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN 
OPERATIVA APLICADAS Y CALIDAD

Métodos Estadísticos en Economía MEE FADE-UPV


Contenido
8.1. Introducción
8.2. Modelo de regresión lineal simple
8.3. Estimación de los parámetros
8.4. Validación del modelo de regresión
8.5. Predicciones
8.6. Ejercicios

Métodos Estadísticos en Economía MEE FADE-UPV


Objetivos
• Identificar la variable respuesta
(dependiente) y la variable explicativa
(independiente) en el contexto de la
regresión.
• Obtener un modelo de regresión lineal simple
con la ayuda de R.
• Evaluar la bondad de un modelo de
regresión.
• Conocer y verificar las hipótesis del modelo
de regresión.
• Obtener predicciones para futuras
observaciones.
Métodos Estadísticos en Economía MEE FADE-UPV
8.1. Introducción
Análisis de regresión: Técnica estadística cuya finalidad es
la investigación y el modelado de la relación entre 2 o más
variables que son cuantitativas.

• Las variables pueden ser


– Variable dependiente o var. respuesta (Y) : Su
variación es función de los cambios producidos en la variable
independiente.

– Variable independiente (X) : Son las variables


candidatas a explicar la variable dependiente o de interés.

• Según el nº de variables independientes la regresión será:


– Simple: Una sola variable independiente
– Múltiple: Varias variables independientes
Métodos Estadísticos en Economía MEE FADE-UPV
8.1.  Introducción
Ejemplo: Los bebes que lloran con facilidad podrían 
estimularse más fácilmente que los que no son tan 
propensos a llorar. Esto podría indicar un mayor 
coeficiente de inteligencia (CI) posterior. Unos 
investigadores del desarrollo infantil exploraron la 
relación del lloro de bebes de 4 a 10 días y sus CI 
posteriores. Los investigadores grabaron los lloros y 
determinaron el número de picos durante los 20 
segundos de lloro más intenso. Posteriormente, a los 
3 años, los investigadores determinaron el CI de los 
niños mediante la prueba de Stanford‐Binet.
Métodos Estadísticos en Economía MEE FADE-UPV
8.1.  Introducción
Ejemplo:
lloro<c(10,12,9,16,18,15,12,20,16,33,20,16,23,27,15,21,12,15,17,13,17,19,13,18,18
,16,19,22,30,12,12,14,10,23,9,16,31,22)

CI<c(87,97,103,106,109,114,119,132,136,159,90,100,103,108,112,114,120,133,14
1,162,94,103,104,109,112,118,120,135,155,94,103,106,109,113,119,124,135,157)

Métodos Estadísticos en Economía MEE FADE-UPV


8.1  Introducción
Para visualizar esta relación tenemos el diagrama de dispersión
Ejemplo 11.1 (libro MOORE(2009), pag 688: Llorar y coeficiente de inteligencia
180
Coeficiente de inteligencia de niños de 3 años

160
140
120
100
80

0 10 20 30 40

Intensidad del lloro

Métodos Estadísticos en Economía MEE FADE-UPV


8.2  Modelo de regresión lineal simple
• Las ecuaciones de regresión son las expresiones
matemáticas que modelan la relación entre la variable
dependiente y las variables independientes o explicativas.
La regresión puede ser:
– Regresión lineal: Relaciones lineales.
• En el caso de regresión simple se
representará por una recta. Intuitivamente,
buscamos la recta que se aproxime lo
máximo posible a la nube de puntos.
– Regresión no lineal:
• Relaciones no lineales deducibles a lineales mediante
transformaciones.
• Relaciones intrínsecamente no lineales.

Métodos Estadísticos en Economía MEE FADE-UPV


8.2  Modelo de regresión lineal simple
Coeficiente de correlación (r): Mide el grado
de dependencia lineal de Y respecto a X.
• – |r| = 1 Regresión lineal entre X e Y exacta
• – r > 0 La recta de regresión tiene pendiente
positiva
• – r < 0 La recta de regresión tiene pendiente
negativa
Coeficiente de determinación (R2): Mide la
capacidad predictiva del modelo
• Porcentaje de variabilidad de Y explicada por el
modelo.
Métodos Estadísticos en Economía MEE FADE-UPV
8.2  Modelo de regresión lineal
Relación lineal positiva/creciente/directa

Relación lineal débil Relación lineal Relación lineal fuerte


intermedia
0 < rx,y  0,3 0,8 < rx,y  1
0,3 < rx,y  0,8

Métodos Estadísticos en Economía MEE FADE - UPV


6.7  8.2  Modelo de regresión lineal
Relación lineal negativa/decreciente/inversa

Relación lineal débil Relación lineal Relación lineal fuerte


intermedia
–0,3  rx,y < 0 –1  rx,y < –0,8
–0,8  rx,y < –0,3

Métodos Estadísticos en Economía MEE FADE - UPV


8.3  Estimación de los parámetros
La idea es que la recta pase lo “más cerca posible” de los puntos del
diagrama de dispersión.

Minimizar la suma de errores al cuadrado, es decir, “minimizar la suma


de las diferencias cuadráticas entre los valores observados de la variable
dependiente y los ajustados mediante la recta”
β =𝑦 𝑏𝑥̅ ; β
• β : Intercept. Representa lo que en promedio vale la y cuando la x
vale 0
• β : Pendiente. Incremento que se produce en la var. dependiente y
por unidad incrementada en x.

Métodos Estadísticos en Economía MEE FADE-UPV


8.3  Estimación de los parámetros
modelo<-lm( CI~lloro)
summary(modelo)

Call:
lm(formula = CI ~ lloro)

Residuals:
Min 1Q Median 3Q Max
-31.126 -11.426 -2.126 10.860 51.324
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 91.268 8.934 10.216 3.5e-12 ***
lloro 1.493 0.487 3.065 0.00411 **
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.5 on 36 degrees of freedom


Multiple R-squared: 0.207,
Adjusted R-squared: 0.185
F-statistic: 9.397 on 1 and 36 DF, p-value: 0.004105

Métodos Estadísticos en Economía MEE FADE-UPV


8.3  Estimación de los parámetros
o La regresión múltiple o modelo propuesto para k variables
independientes:
Yj = β0 + β1X1j + β2X2j+…+ βkXkj + Uj
Donde:
β0 : valor de Y cuando todas las variables independientes toman valor
cero
β1: incremento de Y por cada unidad que aumenta la variable X1

β2: incremento de Y por cada unidad que aumenta la variable X2


.
.
.

βk: incremento de Y por cada unidad que aumenta la variable Xk

Métodos Estadísticos en Economía MEE FADE-UPV


8.4  Validación del modelo
Significatividad del modelo
o La comprobación del modelo se realiza mediante un contraste de
hipótesis conocido como Contraste de Significación Global. Las
hipótesis del contraste son:
H0: β1 = β2 = … = βk = 0
H1: al menos un βi es diferente de cero
o El contraste se resuelve mediante la técnica ya estudiada del ANOVA.
o En este caso la variabilidad total se divide en la variabilidad debida al
modelo de regresión que se está construyendo, y en la variabilidad
debida al error que se está cometiendo (residual)

Métodos Estadísticos en Economía MEE FADE-UPV


8.4  Validación del modelo
La tabla para ver si el modelo es de alguna utilidad es la siguiente:

o Se decidirá si se acepta o rechaza la hipótesis nula comparando el


valor calculado (Fm) frente al valor de tablas Fk, n-k-1
o R.A. = {Fm < Fk, n-k-1}
o También se puede decidir en función del p-valor, si es inferior a
α=0.05 rechazaremos la hipótesis nula.

Métodos Estadísticos en Economía MEE FADE-UPV


8.4  Validación del modelo
modelo<-lm( CI~lloro)
fm = aov(modelo)
summary(fm)
Df Sum Sq Mean Sq F value Pr(>F)
lloro 1 2877 2877.5 9.397 0.00411 **
Residuals 36 11023 306.2 ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
En el caso de la regresión simple:
H0: β1 = 0
H1: β1 ≠0

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo
Significatividad de los parámetros.
Si aceptamos la hipótesis nula, el modelo que estamos construyendo no tiene
sentido, es decir, todos los parámetros βi toman valor cero, lo que quiere decir
que ninguna de las variables independientes sirve para explicar la variable
dependiente.
Si rechazamos la hipótesis nula, alguna o algunas de las variables independientes
que hemos incluido en el modelo sirve para explicar la variable dependiente. Por
tanto el objetivo ahora es estudiar qué variables de todas sirven para explicar Y.

Esto se realiza mediante otro contraste de hipótesis conocido como Contraste de


Significación Individual.
H0: βi = 0
H1: βi ≠ 0

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo
modelo<-lm( CI~lloro)
summary(modelo)
Call:
lm(formula = CI ~ lloro)
Residuals:
Min 1Q Median 3Q Max -31.126 -11.426 -2.126 10.860 51.324
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 91.268 8.934 10.216 3.5e-12 ***
lloro 1.493 0.487 3.065 0.00411 **
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 17.5 on 36 degrees of freedom
Multiple R-squared: 0.207,
Adjusted R-squared: 0.185
F-statistic: 9.397 on 1 and 36 DF, p-value: 0.004105
En el caso de la regresión simple:
H0: β = 0
H1: β ≠0
H0: β1 = 0
H1: β1 ≠0
Métodos Estadísticos en Economía MEE FADE-UPV
8.4 Validación del modelo
Analisis de los residuos: hay que validar las tres hipòtesis
asumidas al realizar la regresión
1. Independencia (entre las observaciones). Esta condición
debe garantizar la forma en que se seleccionan los
individuos (utilizando un muestreo probabilístico o un
diseño aleatorizado).

2. Normalidad. Compruebe si es aceptable pensar que los


residuos proceden de una población normal de media igual a
cero.

3. Homoscedasticitat (Igualdad de varianzas). Compruebe si la


dispersión de los residuos es similar en los todos los valores
de la variable independiente.

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo
Analisis de los residuos con R: hay que validar las tres hipòtesis
asumidas al realizar la regresión.
fm = aov(modelo)
summary(fm)
los residuos (R los almacena en la variable fm$residuals)

1. Independencia (entre las observaciones).


plot(fm$residuals)
2. Normalidad.
qqnorm(fm$residuals , datax = TRUE)
3. Homoscedasticitat (Igualdad de varianzas). Compruebe si la
dispersión de los residuos es similar en los todos los valores de
la variable independiente.
plot(fm$residuals~ fitted(modelo))
plot(fm$residuals~ lloro)
Métodos Estadísticos en Economía MEE FADE-UPV
8.4 Validación del modelo
1. Independencia (entre las observaciones).
plot(fm$residuals)
40
20
fm$residuals

0
-20

0 10 20 30

1:38

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo
2. Normalidad.
qqnorm(fm$residuals , datax = TRUE)
Normal Q-Q Plot
2
Theoretical Quantiles

1
0
-1
-2

-20 0 20 40

Sample Quantiles

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Validación del modelo
3. Homoscedasticitat (Igualdad de varianzas). Compruebe si
la dispersión de los residuos es similar en los todos los valores
de la variable independiente.
plot(fm$residuals~ fitted(modelo))
40
20
fm$residuals

0
-20

105 110 115 120 125 130 135 140

fitted(modelo)

Métodos Estadísticos en Economía MEE FADE-UPV


8.4 Predicciones
El modelo obtenido es 𝑦 91.27+1.493x

Las predicciones se obtienen sustituyendo en x su valor.

Para todas las observaciones del ejemplo hay unos valores ajustados que se
obtienen mediante:
fitted(modelo)

y un error o residuo,
e= y-𝑦 fm$residuals=residuals(modelo)

Si x=10 => 𝑦 91.27+1.493∗10=106.2


siendo el verdadero valor y= 87 por lo que su residuo es e=87-106.2= -19.2,
es decir el CI del bebè se encuentra 19.2 unidades por debajo de su
predicción, osea de la recta de regresión.

Pero tambien se puede utilizar para valores no observados, verdaderas


predicciones, por ejemplo x=40 => 𝑦 91.27+1.493∗40=150.99
Métodos Estadísticos en Economía MEE FADE-UPV

También podría gustarte