Documentos de Académico
Documentos de Profesional
Documentos de Cultura
7.1. INTRODUCCION
p1 = a + bh1 + ε 1
p 2 = a + bh2 + ε 2
[7.2]
.........................
p n = a + bhn + ε n
En forma matricial, los datos observados, pueden escribirse:
p1 1 h1 ε1
p 2 1 h2 a ε 2
.... = 1 + [7.3]
... b
p 1 hn ε
n n
O bien: P = HB + ε [7.4]
2 TEMA 7: MODELOS DE REGRESION LINEAL
a
Lo que nos interesa es obtener los valores de de modo que en las ecuaciones [7.3]
b
se minimicen los errores ε i . De este modo tendremos una ecuación que refleja la
relación entre las variables peso y estatura, en este caso.
Los modelos estadísticos lineales que van a estudiarse en este tema son los Modelos de
Regresión Lineal. Un ejemplo de Modelo de Regresión Lineal es el que hemos utilizado
en la introducción de este capítulo. Otros modelos estadísticos lineales son los de
Análisis de la Varianza.
X Y X Y
4,70 15,23 4,31 13,55 20,00
Ejemplo 2
X Y X Y
20,00
20,00
4,70 17,12 4,31 12,50
18,00
18,003,72 13,31 3,31 8,35
16,005,24 14,04 3,15 8,30 16,00
6,00
6,10 15,38 5,13 17,39 6,00
2,00 3,00 4,00 5,00 6,00 7,00
3,91
2,00 3,0010,95 4,00 4,63
5,00 14,74
6,00 7,00
Ejemplo 3
4 TEMA 7: MODELOS DE REGRESION LINEAL
X Y X Y
20,00
4,70 16,21 4,31 6,58
18,00
3,72 10,28 3,31 17,89
5,24 16,18 3,15 11,83 16,00
20,00
6,28 18,39 4,02 10,93 14,00
18,00
6,20 10,84 4,23 15,22 12,00
16,00
6,73 16,83 2,88 0,99 10,00
14,00
2,82 14,06 4,43 20,54 8,00
4,77
12,00 15,39 4,60 4,28 6,00
6,10
10,00 22,48 5,13 13,28 2,00 3,00 4,00 5,00 6,00 7,00
3,91
8,00 9,26 4,63 31,04
6,00
2,00 3,00 4,00 5,00 6,00 7,00
El objetivo que persiguen los modelos de regresión lineal simple son varios:
a) Para un valor de x del que no se conoce el resultado del experimento, determinar
cual sería el resultado, y, del experimento a partir de los resultados obtenidos
para otros valores de x.
b) Determinar se será significativo el valor de y obtenido.
c) Que nivel de precisión tendremos en la estimación de y.
De la representación gráfica de los datos podemos contestar, de forma cualitativa, alguna
de estas cuestiones.
Así, en el ejemplo 1 parece que la predicción del valor de la variable Y para cierto valor
de la variable X será más precisa que para el ejemplo 2.
En el ejemplo 1 se observa que los puntos que representan los datos casi están
alineados alrededor de una recta (modelo gráfico de regresión lineal) y, sin embargo, en
el ejemplo 3 no se observa ninguna relación entre las variables. En el ejemplo 2 también
se percibe que los datos se agrupan alrededor de una recta, pero presentan mucha más
dispersión que los datos del ejemplo 1.
y i = a + bx i + ε i
)
La diferencia entre el valor esperado y i y el valor realmente observado y i se denomina
residuo y lo representaremos por :
)
ε i = yi − yi
y se denomina residuo de la observación i.
∑ yi − b∑ xi
a = i =1 i =1
n
donde x e y son los valores medios de las observaciones x i , y i respectivamente, y:
S xx = ∑ ( xi − x ) S xy = ∑ (xi − x )y i
n n
2 20,00
y = 2,9481x + 1,2634
i =1 i =1 18,00
16,00
Para cada conjunto de datos podemos
obtener la ecuación de una recta 14,00
Regresión. 10,00
8,00
Para los ejemplos anteriores tendríamos
en los gráficos la representación de las 6,00
2,00 3,00 4,00 5,00 6,00 7,00
rectas de regresión.
Podemos observar la diferencia, para
cierto valor xi , entre el valor realmente 20,00
y = 2,8386x + 0,971
)
de regresión y i = a + bx i que es la 16,00
)
Esta diferencia, ε i = y i − y i , son los 10,00
20,00
y = 2,1356x + 4,3895
18,00
16,00
14,00
12,00
10,00
8,00
6,00
2,00 3,00 4,00 5,00 6,00 7,00
∑ (x − x )E ( y i ) ∑ (x − x )( A + Bx i )
n n
i i
Valor medio de b µb = i =1
n
= i =1
n
=B
∑ (x − x) ∑ (x − x)
2 2
i i
i =1 i =1
σ2
Varianza de b σ b2 = n
∑ (x
i =1
i − x)
2
t s t s
b − α / 2 , b + α / 2
S xx S xx
Estimación Puntual de A
Valor medio de a µa = A
σ2
Varianza de a σ a2 = n
n∑ ( x i − x )
2
i =1
tα / 2 s ∑ x i2 tα / 2 s ∑ x i2
i i
a − ,a+
nS xx nS xx
donde tα / 2 es el valor de la distribución t con n-2 grados de libertad.
S e2 = ∑ ei2 = ∑ ( y i − a − bx i ) = S yy − bS xy + b 2 S xx = S yy − bS xy
2
i i
S yy = ∑ ( y i − y )
2
donde:
i
n
)
SCR = ∑ ( y i − y ) que es la variancia que explica el modelo de Regresión Lineal
2
i =1
SCR
Llamaremos coeficiente de determinación lineal a la relación: r2 =
SCT
Este coeficiente que varía entre 0 y 1, nos indica la capacidad del Modelo de Regresión
Lineal para explicar los datos observados. En otras palabras, indica que parte de la
variabilidad de la Y se explica por el Modelo de Regresión Lineal.
En la tabla siguiente se indica, para cada ejemplo, la ecuación del modelo y el coeficiente
de Determinación Lineal.
El modelo que corresponde al ejemplo 1 explica en un 98,79% los datos observados, por
lo que será un modelo muy útil para hacer predicciones del valor que tomará la variable
Y para valores concretos de la variable X .
El modelo que corresponde al ejemplo 2 explica en un 73,80% los datos observados, por
lo que será un modelo útil para hacer predicciones del valor que tomará la variable Y
para valores concretos de la variable X , pero podrán haber bastantes diferencias entre
)
el valor pronosticado por el modelo y = a + bx y el valor que realmente se obtenga al
realizar el experimento.
El modelo que corresponde al ejemplo 3 sólo explica el 13,35% de la variabilidad de los
datos observados, por lo que será un modelo completamente inútil para hacer
predicciones sobre la variable Y .
La variabilidad no explicada corresponde a perturbaciones aleatorias, deficiencias en la
formulación del modelo, influencia de otras variables que no se han contemplado,
relación no lineal entre ambas variables,...
TEMA 7 MODELOS DE REGRESION LINEAL 9
i =1 i =1
10 TEMA 7: MODELOS DE REGRESION LINEAL
7,00 200,00
180,00
6,00
160,00
5,00 140,00
120,00
4,00
100,00
3,00
80,00
2,00 60,00
40,00
1,00
20,00
0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00
E
s evidente que las variables en ambos casos
están relacionadas, pero esa relación no se y = -40,363x + 237,63
puede ajustar bien a una línea recta. 200,00
R2 = 0,7611
150,00
7,00
y = -0,6037x + 5,2024
R2 = 0,2013
6,00 100,00
5,00
50,00
4,00
3,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00
2,00
-50,00
1,00
0,00
2,00 3,00 4,00 5,00 6,00 7,00
En cualquier caso se debe escoger el modelo que nos dé un valor de r 2 más elevado.
q
u 7,00 y = 0,963x2 - 9,7025x + 25,485 7,00 y = -0,0148x3 + 1,1711x2 - 10,637x +
e 2
R = 0,9422 26,822
6,00 6,00
R2 = 0,9423
= 0,9422
2
r 5,00 5,00
4,00 4,00
c
3,00 3,00
o
r 2,00 2,00
r
1,00 1,00
0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00
TEMA 7 MODELOS DE REGRESION LINEAL 11
espondiente al polinomio de grado 2.
2
Sin embargo como el incremento del valor de r es pequeño y el modelo para el
polinomio de grado 3 es más complejo que el polinomio de grado 2, se debería tomar
como modelo de regresión más ajustado el polinomio de grado 2.
150,00 120,00
100,00 80,00
50,00 40,00
0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00
Pueden plantearse más Transformaciones del Modelos que las que indica Excel.
y = ae bx ln y = ln a + bx
y = ax b ln y = ln a + b ln x
1 1
y = a + b y = a + bx& con x& =
x x
12 TEMA 7: MODELOS DE REGRESION LINEAL
x 1 1
y= =a+b
b + ax y x
Por lo que para transformar el modelo basta con hacer dos transformaciones
independientes, una para la variable x y potra para la variable y .
• Si los datos siguen una trayectoria sin excesiva dispersión se debe buscar el mejor
ajuste, si los datos tienen mucha dispersión un ajuste aproximado será
suficientemente bueno.
Residuos Respecto X
4,00 En este gráfico los residuos son
mayores pero tampoco presentan
ninguna estructura por lo tanto no cabe
2,00 proponer una transformación del
modelo para mejorarlo.
0,00 X
2,00 3,00 4,00 5,00 6,00 7,00
-2,00
-4,00
14 TEMA 7: MODELOS DE REGRESION LINEAL
X Y
2,82 9,79
2,88 9,19
3,15 10,60
3,31 11,41
3,72 12,11
30,00 Residuos
y = 4,2329x - 3,1442 3,00
2
25,00 R = 0,9077
2,00
20,00 1,00
15,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00
-1,00
10,00
-2,00
5,00
2,00 3,00 4,00 5,00 6,00 7,00 -3,00
Podemos observar que los residuos en la parte derecha del gráfico tienen valores
mayores en valor absoluto que los residuos de la zona izquierda (heterocedasticidad).
Esto nos indica que el modelo puede ser válido en una parte y en la otra parte no serlo,
quizás porque para valores grandes de x influya de forma considerable otra variable..
Así ajustando el modelo sólo para los valores de x ≤ 4,6 se tendrá la siguiente
representación y sus residuos:
15,00 Residuos
y = 2,6309x + 2,229 2,00
14,00
2
R = 0,9689
13,00
1,00
12,00
11,00
0,00
10,00
2,00 2,50 3,00 3,50 4,00 4,50 5,00
9,00
-1,00
8,00
7,00
2,00 2,50 3,00 3,50 4,00 4,50 5,00 -2,00
TEMA 7 MODELOS DE REGRESION LINEAL 15
Con lo que para una zona de los datos tendremos un modelo con un coeficiente de
determinación mejor, y para la otra zona del modelo tendremos que buscar otro modelo.
Otra verificación que hay que realizar es que los residuos no estén autocorrelacionados,
por ejemplo que una medida influya sobre la siguiente.
DESARROLLAR ****************
Uno de los objetivos de los modelos de regresión es que podamos predecir que valores
tomará la variable y para determinado valor de x,
Con una muestra de n observaciones de las variables x,y , el intervalo de confianza con
un nivel de confianza de (1 − α )100% para el valor medio de la variable y para un valor
de la variable x = x 0 , µY / x 0
es:
1 (x0 − x )
2
1 (x0 − x )
2
yˆ 0 − tα / 2 s + , yˆ 0 + tα / 2 s +
n S xx n S xx
1 (x0 − x )
2
1 (x0 − x )
2
yˆ 0 − tα / 2 s 1 + + , yˆ 0 + tα / 2 s 1 + +
n S xx n S xx
50
40
30
20
10
0
0,00 2,00 4,00 6,00 8,00 10,00
-10
-20
60
40
Se observa que los datos se agrupan en torno a
20
una línea. Para determinar el mejor ajuste,
0
seleccionamos la opción Agregar Línea de 0 50 100 150
Tendencia y escogiendo las diferentes alternativas Bienes de consumo
tendremos los siguientes gráficos:
Bienes de Equipo
100 100
R = 0,8897
80 80
60 60
40 40
20 20
Indices de Produccion Industrial Indices de Produccion Industrial
0 0
160 0 base
50 2.000 100 150 140 0 base 2.000
0,0244x 50 100 150
140 y = 8,0643e
Bienes de consumo
120
y = 140,85Ln(x) - 555,21
Bienes de consumo
2 2
Bienes de Equipo
Bienes de Equipo
0 0
0 50 100 150 0 50 100 150
Bienes de consumo Bienes de consumo
TEMA 7 MODELOS DE REGRESION LINEAL 17
100
2 r 2 = 0,8897 , pero como el modelo con ajuste
R = 0,8849
80
variables.
También podemos
utilizar en
Herramientas la
opción Análisis de
Datos y escoger
Regresión.
Fijaremos los rangos
de entrada de las
variables y y x , y
activaremos las
opciones que nos
interesen, en este caso
el nivel de confianza
del 95% para las
predicciones y los
residuos para su
representación.
Estadísticas de la regresión
0,949
Coeficiente de correlación múltiple 5
0,901
Coeficiente de determinación R^2 6
0,895
R^2 ajustado 8
1,600
Para aplicar las técnicas de Análisis de Error típico 4
la Variancia. Observaciones 19
Promedio
Grados Suma de de Valor crítico
de libertad cuadrados cuadrados F de F
Regresión 1 398,9020 398,9020 155,7366 0,0000
Residuos 17 43,5436 2,5614
Total 18 442,4456
y = A0 + A1 x1 + ... + An x n
que, a partir de una muestra, intentaremos estimar:
y = a 0 + a1 x1 + ... + a n x n
Donde el coeficiente a i del modelo estimado es un estimador del coeficiente Ai del
modelo verdadero.
También puede utilizarse el modelo de regresión múltiple cuando la variable
independiente influye de forma no lineal:
y = a 0 + a1 x + a 2 x 2 + a 3 x 3 + a 4 e x
Otro caso, cuando interviene más de una variable independiente:
y = a 0 + a1 x1 + a 2 x 2 + a12 x1 x 2
O cualquier combinación de todos los casos reseñados.
En cualquier caso diremos que un modelo estadístico es un modelo de regresión lineal
TEMA 7 MODELOS DE REGRESION LINEAL 19
múltiple cuando es lineal en los coeficientes.
y i = A0 + A1 x1i + ... + Ak x ki + ε i
En forma matricial:
Y = XA + ε
Donde:
1 x11 ... x k1 A0
y1 ε1
1 x12 ... x k 2 A
Y = ... X = A= 1 ε = ...
y ... ... ... ... ... ε
k k
1 x ... x kn A
1n k
Los coeficientes que minimizan la suma de los cuadrados de los residuos:
(Y − XA)′ (Y − XA)
se obtiene de la expresión:
A = ( X ′X ) X ′Y
−1
∑ (y
i =1
i − yˆ i )
2
s2 =
n − k −1
Intervalo de confianza para el valor medio de la respuesta, y, cuando los valores de las
variables independientes son:
x10
x 0 = ...
x
k0
con un nivel de confianza de (1 − α )%
yˆ − t s x ′ ( X ′X )−1 x , yˆ + t s x ′ ( X ′X )−1 x
α/2 0 0 α /2 0 0
Intervalo de confianza para la predicción de un valor individual de y, cuando los valores
de las variables independientes son:
x10
x 0 = ...
x
k0
con un nivel de confianza de (1 − α )%
yˆ − t s 1 + x ′ ( X ′X ) −1 x , yˆ + t s 1 + x ′ ( X ′X )−1 x
α/2 0 0 α/2 0 0
Heterocedasticidad
La heteroscedasticidad es la falta de homoscedasticidad, es decir cuando las varianzas
de los residuos no son constantes.
BUSCAR UN EJEMPLO
TEMA 7 MODELOS DE REGRESION LINEAL 21
ana
= k − 40 k − 40
P x < k / x = N 40 ; 5,67 P z < ) = 0,05 ⇒ =
n 5.67 5,67
n n
-1,2816
Error tipo II =
P x > k / x = N (34 ; 5,67 = P z > k − 34 = 0,10 ⇒ k − 34 = 1,6449
n 5,67 5,67
n n