Está en la página 1de 21

TEMA

7.- MODELOS DE REGRESION LINEAL

7.1. INTRODUCCION

7.1.1. INTRODUCCION A LOS MODELOS ESTADISTICOS LINEALES


El movimiento puntual uniforme de una partícula puede ser representado por el modelo:
e = a + bt en el que se relacionan el espacio recorrido, e, y el tiempo empleado, t,
mediante los parámetros a y b.
Para calcular los valores de a y b sólo hace falta conocer dos puntos de la trayectoria
del punto, y entonces para cada instante de tiempo ,t, podremos predecir el
desplazamiento del móvil.
En el mundo real no todas las variables se relacionan de un modo tan definido como en
el ejemplo anterior.
El peso y la estatura de una persona están relacionadas pero no de forma tan
determinada como el tiempo y el recorrido en el movimiento. Esto es debido a que la
relación entre esas dos variables está influenciada por otras variables que no se están
teniendo en cuenta ( edad, sexo, actividad, factores hereditarios, alimentación,...) que
perturban el efecto de la estatura sobre el peso.
Podemos considerar que para cierta estatura el peso se comporta como una variable
aleatoria. En el caso que el valor medio del peso, p, estuviese relacionado linealmente
con la estatura, h, el modelo que podría utilizarse es:
p = a + bh + ε [7.1]

donde ε es una variable aleatoria, de media nula, a la que se denomina perturbación


aleatoria, ruido blanco o residuo.
La estimación ahora de a y b es más compleja, requiere de técnicas estadísticas y de
más información. El número de muestras debe ser superior al número de parámetros a
estimar. Así si el tamaño de la muestra es n. Se tendrían las siguientes igualdades al
considerar el modelo [7.1]:

p1 = a + bh1 + ε 1
p 2 = a + bh2 + ε 2
[7.2]
.........................
p n = a + bhn + ε n
En forma matricial, los datos observados, pueden escribirse:

 p1  1 h1   ε1 
     
 p 2  1 h2  a   ε 2 
 ....  = 1  + [7.3]
...  b   
     
 p  1 hn  ε 
 n   n
O bien: P = HB + ε [7.4]
2 TEMA 7: MODELOS DE REGRESION LINEAL

a
Lo que nos interesa es obtener los valores de   de modo que en las ecuaciones [7.3]
b
se minimicen los errores ε i . De este modo tendremos una ecuación que refleja la
relación entre las variables peso y estatura, en este caso.

Se denomina Modelo Estadístico Lineal a una relación lineal entre variables


aleatorias.

Los modelos estadísticos lineales que van a estudiarse en este tema son los Modelos de
Regresión Lineal. Un ejemplo de Modelo de Regresión Lineal es el que hemos utilizado
en la introducción de este capítulo. Otros modelos estadísticos lineales son los de
Análisis de la Varianza.

7.1.2. INTRODUCCION A LA REGRESION LINEAL


Los Modelos de Regresión Lineal se utilizan para establecer predicciones sobre una
variable que denominaremos Variable Dependiente o Variable a Explicar (Y), que está
relacionada con otra variable conocida que denominaremos Variable Independiente o
Variable Explicativa (X).
En la formulación de nuestro ejemplo, el peso es la variable a explicar y la estatura es
la variable explicativa. Se le denomina variable explicativa porque explica de forma total
o parcial las variaciones que sufre la variable a explicar.
Además de determinar los coeficientes a, b de la función que relacionan la Variable (X)
Explicativa y la Variable a Explicar (Y), tenemos que comprobar si la relación establecida
por el modelo de regresión lineal p = a + bh si es significativa.

7.1.3. FASES PARA ESTABLECER MODELOS ESTADISTICOS


Las fases que deben seguirse para establecer modelos estadísticos son las siguientes:
definición del problema. Es la fase más importante de todas, ya que muchas veces se
resuelve de forma correcta el problema equivocado.
formulación del modelo. En esta parte se han de definir las variables que intervienen en
el modelo. Las variables a explicar, las variables explicativas, el tipo de ecuación que
defina de forma analítica el modelo. Se debe interpretar que sentido tendrán los
parámetros del modelo, es decir que significado tiene cada parámetro aunque no se
conozca su valor. Aquí deben tenerse en cuenta todos los factores técnicos que
intervienen o pueden intervenir en el problema. Las técnicas estadísticas no sustituyen el
conocimiento técnico pero permiten ahondar en el mismo.
Recogida de los datos. Hay que distinguir dos casos, si los datos son históricos y no
pueden volver a repetirse las circunstancias para tomar más datos, y cuando se pueden
generar los datos en un experimento más o menos controlado. En este último caso son
de mucha utilidad las técnicas de diseño de experimentos que permiten obtener una
información de calidad con un reducido número de experimentos.
Estimación del Modelo. Ahora se tienen que estimar los valores de los parámetros del
modelo de modo que el conjunto de resultados obtenidos, para las variables, en los
experimentos se ajuste “lo mejor posible” al modelo que relaciona las variables.
Validación del Modelo. Cuando el modelo ha sido establecido, se tiene que comprobar
su validez. Entre otras cuestiones se ha de revisar:
los datos son normales
algún dato anómalo puede alterar significativamente el modelo
es adecuada la formulación analítica
....
TEMA 7 MODELOS DE REGRESION LINEAL 3
No se puede pretender que el modelo sea verdadero dado que el proceso de
modelización implica una simplificación de las variables que influyen en realidad. Pero el
interés del modelo radica en que pueda representar de forma razonablemente
aproximada los aspectos más relevantes de la realidad objeto de nuestro estudio.

Explotación de Modelo. El modelo se establece para aportar información sobre un


problema o sobre una situación. Información que deberá utilizarse para la toma de
decisiones sobre dicho problema.

7.2. REGRESION LINEAL SIMPLE


En un experimento, que se repite n veces, se controla el valor de la variable x. El
resultado del experimento se recoge en una variable y. Para cada valor xi de la variable x
se observa un resultado y i . Si se repite el experimento varias veces para el mismo valor
de la variable x para cada repetición se pueden obtener distintos valores de y.
De ahí que podamos considerar el resultado del experimento para cierto valor de la
variable X , xi como una variable aleatoria Yi , que en este caso concreto toma el valor
y i . Veamos algunos ejemplos.
Ejemplo 1:

X Y X Y
4,70 15,23 4,31 13,55 20,00

3,72 12,11 3,31 11,41 18,00


5,24 16,76 3,15 10,60
16,00
6,28 19,80 4,02 13,00
14,00
6,20 19,13 4,23 13,83
12,00
6,73 21,00 2,88 9,19
10,00
2,82 9,79 4,43 14,73
8,00
4,77 15,36 4,60 14,22
6,00
6,10 19,54 5,13 16,28 2,00 3,00 4,00 5,00 6,00 7,00

3,91 12,59 4,63 15,93

Ejemplo 2

X Y X Y
20,00
20,00
4,70 17,12 4,31 12,50
18,00
18,003,72 13,31 3,31 8,35
16,005,24 14,04 3,15 8,30 16,00

6,28 16,27 4,02 13,52 14,00


14,00
6,20 17,93 4,23 12,81
12,00
12,00
6,73 22,91 2,88 7,58
10,00
10,002,82 10,89 4,43 11,86
8,00
8,004,77 15,22 4,60 17,12

6,00
6,10 15,38 5,13 17,39 6,00
2,00 3,00 4,00 5,00 6,00 7,00
3,91
2,00 3,0010,95 4,00 4,63
5,00 14,74
6,00 7,00

Ejemplo 3
4 TEMA 7: MODELOS DE REGRESION LINEAL

X Y X Y
20,00
4,70 16,21 4,31 6,58
18,00
3,72 10,28 3,31 17,89
5,24 16,18 3,15 11,83 16,00
20,00
6,28 18,39 4,02 10,93 14,00
18,00
6,20 10,84 4,23 15,22 12,00
16,00
6,73 16,83 2,88 0,99 10,00
14,00
2,82 14,06 4,43 20,54 8,00

4,77
12,00 15,39 4,60 4,28 6,00
6,10
10,00 22,48 5,13 13,28 2,00 3,00 4,00 5,00 6,00 7,00

3,91
8,00 9,26 4,63 31,04
6,00
2,00 3,00 4,00 5,00 6,00 7,00

El objetivo que persiguen los modelos de regresión lineal simple son varios:
a) Para un valor de x del que no se conoce el resultado del experimento, determinar
cual sería el resultado, y, del experimento a partir de los resultados obtenidos
para otros valores de x.
b) Determinar se será significativo el valor de y obtenido.
c) Que nivel de precisión tendremos en la estimación de y.
De la representación gráfica de los datos podemos contestar, de forma cualitativa, alguna
de estas cuestiones.
Así, en el ejemplo 1 parece que la predicción del valor de la variable Y para cierto valor
de la variable X será más precisa que para el ejemplo 2.
En el ejemplo 1 se observa que los puntos que representan los datos casi están
alineados alrededor de una recta (modelo gráfico de regresión lineal) y, sin embargo, en
el ejemplo 3 no se observa ninguna relación entre las variables. En el ejemplo 2 también
se percibe que los datos se agrupan alrededor de una recta, pero presentan mucha más
dispersión que los datos del ejemplo 1.

7.2.1. Estimación del Modelo de Regresión Lineal simple


Si se supone que las variables X e Y están relacionadas de forma lineal, el modelo de
regresión lineal simple sería:
y = a + bx [3.1]
)
El valor esperado de y cuando x = x i , lo representaremos por y i , y será:
)
y i = a + bx i
Para cada observación del valor realmente tomado por la variable y se puede escribir:

y i = a + bx i + ε i
)
La diferencia entre el valor esperado y i y el valor realmente observado y i se denomina
residuo y lo representaremos por :
)
ε i = yi − yi
y se denomina residuo de la observación i.

Un criterio para definir el valor de los parámetros a y b que definen el modelo de


regresión [3.1] es el de minimizar la suma de los cuadrados de los residuos ∑ε i
i
2
. Para
TEMA 7 MODELOS DE REGRESION LINEAL 5
ello se obtiene un sistema de dos ecuaciones lineales con dos incógnitas, y al resolverlas
queda:
n
 n  n 
∑ (x )y
n
n ∑ x i y i −  ∑ x i  ∑ y i  −x
 i =1   i =1  =
i i
S xy
b = i =1 i =1
=
n
 n  n
S xx
n ∑ x i2 −  ∑ x i  ∑ (x − x)
2
i
i =1  i =1  i =1
n n

∑ yi − b∑ xi
a = i =1 i =1

n
donde x e y son los valores medios de las observaciones x i , y i respectivamente, y:

S xx = ∑ ( xi − x ) S xy = ∑ (xi − x )y i
n n
2 20,00
y = 2,9481x + 1,2634
i =1 i =1 18,00

16,00
Para cada conjunto de datos podemos
obtener la ecuación de una recta 14,00

y = a + bx , denominada Recta de 12,00

Regresión. 10,00

8,00
Para los ejemplos anteriores tendríamos
en los gráficos la representación de las 6,00
2,00 3,00 4,00 5,00 6,00 7,00
rectas de regresión.
Podemos observar la diferencia, para
cierto valor xi , entre el valor realmente 20,00
y = 2,8386x + 0,971

observado y i y la ordenada de la recta 18,00

)
de regresión y i = a + bx i que es la 16,00

estimación que dará el modelo de 14,00

regresión lineal. 12,00

)
Esta diferencia, ε i = y i − y i , son los 10,00

Residuos cuyo análisis es muy importante 8,00

para considerar válido un modelo de 6,00


regresión lineal. 2,00 3,00 4,00 5,00 6,00 7,00

20,00
y = 2,1356x + 4,3895
18,00

16,00

14,00

12,00

10,00

8,00

6,00
2,00 3,00 4,00 5,00 6,00 7,00

Nota sobre Excel


Para obtener la ecuación de la recta
de regresión:
Pulsar el botón de la derecha del
Mouse sobre alguno de los puntos del
gráfico.
6 TEMA 7: MODELOS DE REGRESION LINEAL
Escoger la opción Agregar Línea de Tendencia.
En Tipo, seleccionar Lineal, y luego en Opciones

Activar Presentar Ecuación en el Gráfico, y Presentar el valor R cuadrado en el


Gráfico.
Al Aceptar se dibujará la línea de tendencia en el gráfico, indicando su ecuación ey el
valor de r2 .

7.2.2. Naturaleza del Modelo de Regresión Lineal.


Obsérvese que si se vuelve a repetir el experimento para los mismos valores de xi se
obtendrán valores diferentes de y i , con lo que los valores obtenidos de a y de b son una
estimación del los coeficientes reales del modelo de regresión que vamos a representar
por A y B. Por lo que podremos considerar a y b como variables aleatorias con cierta
distribución que indicaremos más adelante.
Por lo tanto el modelo de regresión lineal simple será: y = A + Bx
Donde A y B se considerarán como variables aleatorias con cierta distribución. La
variancia de A y B dependerán de los datos iniciales. Así en el ejemplo 1 cabe esperar
que la variancia de estas variables sea pequeña, la variancia de los coeficientes de la
recta de regresión del ejemplo 2 será mayor, y la variancia de A y B en el ejemplo 3
será muy grande.
Será muy importante poder cuantificar esta variancia y sobre todo XXXXX

Estimación de los parámetros del Modelo de Regresión Lineal.


Estimación Puntual de B
Vamos a considerar que los residuos son variables aleatorias de media 0,
E (ε i ) = 0 ∀i , y varianza σ 2 común para todos los residuos (homocedasticidad) , y
además que los residuos de cada observación son independientes.
En base a esto podremos estimar verdaderos valores de los coeficientes del modelo de
regresión A y B.
TEMA 7 MODELOS DE REGRESION LINEAL 7

∑ (x − x )E ( y i ) ∑ (x − x )( A + Bx i )
n n

i i
Valor medio de b µb = i =1
n
= i =1
n
=B
∑ (x − x) ∑ (x − x)
2 2
i i
i =1 i =1

σ2
Varianza de b σ b2 = n

∑ (x
i =1
i − x)
2

Intervalo de confianza para B.


Con una muestra de n observaciones de las variables x,y , el intervalo de confianza con
un nivel de confianza de (1 − α )100% para el coeficiente B es:

 t s t s
b − α / 2 , b + α / 2 
 S xx S xx 

donde tα / 2 es el valor de la distribución t con n-2 grados de libertad.

Estimación Puntual de A

Valor medio de a µa = A

σ2
Varianza de a σ a2 = n
n∑ ( x i − x )
2

i =1

Intervalo de confianza para A.


Con una muestra de n observaciones de las variables x,y , el intervalo de confianza con
un nivel de confianza de (1 − α )100% para el término independiente A es:

 tα / 2 s ∑ x i2 tα / 2 s ∑ x i2 
 i i 
a − ,a+ 
 nS xx nS xx 
 
donde tα / 2 es el valor de la distribución t con n-2 grados de libertad.

Para estimar los valores de A y de B se requiere una estimación previa de σ2


La suma de los cuadrados de los errores se puede escribir:

S e2 = ∑ ei2 = ∑ ( y i − a − bx i ) = S yy − bS xy + b 2 S xx = S yy − bS xy
2

i i

S yy = ∑ ( y i − y )
2
donde:
i

Tomando valores medios de la ecuación anterior, se llega a una estimación insesgada de


la varianza de los residuos σ2:
S e2 S yy − bS xy
s =
2
=
n−2 n−2
8 TEMA 7: MODELOS DE REGRESION LINEAL
Para centrar conceptos tendremos el modelo de regresión “verdadero” que es:
y = A + Bx , cuyos coeficientes desconocemos y podemos estimar lo que da lugar al
modelo de regresión “estimado” que es: y = a + bx

7.2.3. Coeficiente de Determinación Lineal (o Muestral).


La variancia de los valores observados de la variable Y , se denomina Suma Total de
n 2

Cuadrados SCT = S y2 = ∑ ( y i − y ) se puede descomponer en dos sumandos:


i =1

SCT = SCE + SCR , donde:


n
) 2
SCE = ∑ ( y i − y i ) que es la suma de los cuadrados del error, de los cuadrados de
i =1
n
los residuos ∑ε
i =1
i
2
;y

n
)
SCR = ∑ ( y i − y ) que es la variancia que explica el modelo de Regresión Lineal
2

i =1

SCR
Llamaremos coeficiente de determinación lineal a la relación: r2 =
SCT
Este coeficiente que varía entre 0 y 1, nos indica la capacidad del Modelo de Regresión
Lineal para explicar los datos observados. En otras palabras, indica que parte de la
variabilidad de la Y se explica por el Modelo de Regresión Lineal.
En la tabla siguiente se indica, para cada ejemplo, la ecuación del modelo y el coeficiente
de Determinación Lineal.

Modelo de Regresión Lineal Coeficiente de Determinación Lineal


Ejemplo 1 y = 2,9481x + 1,2634 0,9879
Ejemplo 2 y = 2,8386x + 0,971 0,7380
Ejemplo 3 y = 2,1356x + 4,3895 0,1335

El modelo que corresponde al ejemplo 1 explica en un 98,79% los datos observados, por
lo que será un modelo muy útil para hacer predicciones del valor que tomará la variable
Y para valores concretos de la variable X .
El modelo que corresponde al ejemplo 2 explica en un 73,80% los datos observados, por
lo que será un modelo útil para hacer predicciones del valor que tomará la variable Y
para valores concretos de la variable X , pero podrán haber bastantes diferencias entre
)
el valor pronosticado por el modelo y = a + bx y el valor que realmente se obtenga al
realizar el experimento.
El modelo que corresponde al ejemplo 3 sólo explica el 13,35% de la variabilidad de los
datos observados, por lo que será un modelo completamente inútil para hacer
predicciones sobre la variable Y .
La variabilidad no explicada corresponde a perturbaciones aleatorias, deficiencias en la
formulación del modelo, influencia de otras variables que no se han contemplado,
relación no lineal entre ambas variables,...
TEMA 7 MODELOS DE REGRESION LINEAL 9

7.2.4. Coeficiente de Correlación Lineal (o Muestral).


La medida de la influencia lineal entre dos variables la estimamos con el coeficiente de
correlación muestral:
n
v
∑ (x i − x )( y i − y )
r= i =1
=
n n 2
v
∑ (x − x) ∑ (y − y)
2
i i
i =1 i =1

El coeficiente de correlación varía entre [-1,1]. Si r = +1, ó r = -1 , entonces hay una


relación lineal perfecta entre las dos variables.
Si el coeficiente de correlación lineal está próximo a 1 los datos se agrupan en torno a
una recta de pendiente positiva, si está proximo a -1 los datos se agrupan en torno a una
recta de pendiente negativa.
Significación del Coeficiente de Correlación lineal.
Para valores pequeños del Coeficiente de Correlación Lineal podemos tener dudas si el
valor obtenido es significativo, es decir, si realmente cabe esperar que las variables estén
relacionadas.
El estadístico de prueba para determinar la existencia de una correlación significativa
r
viene dado por: y se distribuye como una t de Studen con n − 2 grados de
1− r2
n−2
libertad. Para los ejemplos que hemos estudiado se tendría:

Coef. Coef. Correlación Estadístico t Criterio p


Determinación
Ejemplo 1 0,9879 0,993
9 38,3354 0
Ejemplo 2 0,7380 0,859
1 7,1206 1,23E-06
Ejemplo 3 0,1335 0,365
4 1,6653 0,1131

El criterio de la p nos indica la probabilidad de que una t de 20 – 2 grados de libertad y


dos colas (el coeficiente de correlación puede ser positivo y negativo) supere el valor del
estadístico t , y manifiesta la probabilidad de que no haya correlación entre las variables.
Así en los ejemplos 1 y 2 seguro que las variables están relacionadas pero en el ejemplo
3 hay una probabilidad del 10% de que las variables no tengan ninguna relación lineal.

Relación entre los coeficientes de Correlación y de Determinación.

El cuadrado del coeficiente de correlación, r 2 , es el coeficiente de determinación


muestral.
n
v
∑ (x i − x )( yi − y )
SCR
r= i =1
=
n
v n 2 SCT
∑ ( xi − x ) ∑ ( y i − y )
2

i =1 i =1
10 TEMA 7: MODELOS DE REGRESION LINEAL

7.2.5. TRANSFORMACIONES DEL MODELO DE REGRESION LINEAL


Observemos los gráficos siguientes:

7,00 200,00

180,00
6,00
160,00
5,00 140,00

120,00
4,00
100,00
3,00
80,00

2,00 60,00

40,00
1,00
20,00

0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00

E
s evidente que las variables en ambos casos
están relacionadas, pero esa relación no se y = -40,363x + 237,63
puede ajustar bien a una línea recta. 200,00
R2 = 0,7611
150,00
7,00
y = -0,6037x + 5,2024
R2 = 0,2013
6,00 100,00

5,00
50,00
4,00

3,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00
2,00
-50,00
1,00

0,00
2,00 3,00 4,00 5,00 6,00 7,00

También observamos que al intentar ajustar a una recta el coeficiente de Determinación


Lineal no es grande. Pero este resultado no indica que no exista otro tipo de relación
entre las variables que estamos estudiando.

Podemos buscar otros tipos de ajustes en el mismo diálogo de Excel escogiendo, en


lugar del Ajuste Lineal, el ajuste Logarítmico, Exponencial, Potencial, Polinomio de
grado2 o de grado 3 (un polinomio de mayor grado puede presentar problemas de
Multicolinealidad.

En cualquier caso se debe escoger el modelo que nos dé un valor de r 2 más elevado.

En el primero de estos ejemplos, los mejores ajustes se obtienen para polinomios de


grado 2 y grado 3. el Polinomio de grado 3 presenta un valor de r = 0,9423 algo mayor
2

q
u 7,00 y = 0,963x2 - 9,7025x + 25,485 7,00 y = -0,0148x3 + 1,1711x2 - 10,637x +
e 2
R = 0,9422 26,822
6,00 6,00
R2 = 0,9423
= 0,9422
2
r 5,00 5,00

4,00 4,00
c
3,00 3,00
o
r 2,00 2,00
r
1,00 1,00

0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00
TEMA 7 MODELOS DE REGRESION LINEAL 11
espondiente al polinomio de grado 2.

2
Sin embargo como el incremento del valor de r es pequeño y el modelo para el
polinomio de grado 3 es más complejo que el polinomio de grado 2, se debería tomar
como modelo de regresión más ajustado el polinomio de grado 2.

En el segundo ejemplo los mejores ajustes son el Exponencial y = 2555,5e-0,9547x con


un valor de r 2 = 0,9993 y el Potencial y = 18346x-4,2524 con r 2 = 0,9862

250,00 y = 18346x-4,2524 200,00 y = 2555,5e-0,9547x


R2 = 0,9862 R2 = 0,9993
200,00 160,00

150,00 120,00

100,00 80,00

50,00 40,00

0,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00 2,00 3,00 4,00 5,00 6,00 7,00

Pueden plantearse más Transformaciones del Modelos que las que indica Excel.

Algunos se recogen en la tabla siguiente:

Modelo inicial Modelo de regresión lineal

y = ae bx ln y = ln a + bx

y = ax b ln y = ln a + b ln x

1 1
y = a + b  y = a + bx& con x& =
 x x
12 TEMA 7: MODELOS DE REGRESION LINEAL

x 1 1
y= =a+b
b + ax y x
Por lo que para transformar el modelo basta con hacer dos transformaciones
independientes, una para la variable x y potra para la variable y .

Y estudiar con Excel los valores de x e y transformados respectivamente por las


funciones escogidas.
Para la elección de las funciones tener en cuentas las siguientes consideraciones:

• La propuesta de las funciones deben deducirse de la representación gráfica de los


datos y de la estructura de los residuos..

• Si los datos siguen una trayectoria sin excesiva dispersión se debe buscar el mejor
ajuste, si los datos tienen mucha dispersión un ajuste aproximado será
suficientemente bueno.

• Escoger primero funciones sencillas.

• Primero escoger la función que modifica la x , y luego si no se alcanza el ajuste


esperado intentarlo modificando la función de y

• Sólo se justifica la complicación del modelo (la transformación del modelo


2
incrementa su complejidad) si mejora sustancialmente la variancia explicada r .

7.2.6. VALIDACION DE UN MODELO DE REGRESION LINEAL


SIMPLE.
Para que un modelo de Regresión Lineal Simple pueda considerarse como válido se
deben dar las siguientes condiciones.
El coeficiente de Determinación debe ser alto. Ya se ha discutido anteriormente sobre
este punto. En el caso que este coeficiente sea pequeño el análisis de los residuos nos
puede informar sobre las causas.
Los Residuos deben distribuirse normalmente. Este punto es más complicado pero
un análisis detallado de los residuos nos aportará mucha información sobre el modelo y
sobre la necesidad de modificarlo.
Evitar que haya intervalos con los residuos del ) )
mismo signo, nos indicará que debemos x y y ε = y− y
transformar el modelo. 4,70 1,22 2,3652 -1,15
Con los datos de la tabla ajustamos un modelo 3,72 2,58 2,9552 -0,38
y = a + bx y la predicción del modelo será: 5,24 1,09 2,0364 -0,95
) 6,28 2,60 1,4133 1,19
y = −0.6037 x + 5.2024 , y obtenemos los
) 6,20 1,97 1,4605 0,51
residuos ε = y − y . Si representamos los
6,73 3,80 1,1376 2,66
residuos se tendrá: 2,82 6,10 3,5021 2,60
4,77 1,12 2,3253 -1,20
Residuos respecto X
6,10 2,45 1,5228 0,93
3,00
3,91 2,03 2,8399 -0,81
2,00 4,31 1,10 2,6006 -1,51
3,31 4,34 3,2044 1,13
1,00
3,15 4,55 3,2989 1,25
0,00 X 4,02 1,89 2,7741 -0,89
2,00 3,00 4,00 5,00 6,00 7,00
-1,00 4,23 1,75 2,6509 -0,90
2,88 5,03 3,4625 1,56
-2,00
4,43 1,76 2,5268 -0,77
-3,00 4,60 0,59 2,4278 -1,83
5,13 0,89 2,1025 -1,21
4,63 2,16 2,4045 -0,24
TEMA 7 MODELOS DE REGRESION LINEAL 13
Se observa que los residuos de la izquierda del gráfico son todos positivos, los de la
zona central son todos negativos y los de la zona de la derecha son todos positivos. Si
los signos los residuos presentan una estructura como esta o similar, debemos pensar
que el modelo no representa bien los datos y tendremos que transformar el modelo.
) )
Si el modelo se transforma en x y y ε = y− y
)
y = 0,963x 2 − 9,7025 x + 25,485 la tabla 4,70 1,22 1,1561 0,06
sería: 3,72 2,58 2,7122 -0,13
5,24 1,09 1,0872 0,00
Y los residuos ahora quedarían como:
6,28 2,60 2,5241 0,08
6,20 1,97 2,3435 -0,37
Residuos respecto X
6,73 3,80 3,8145 -0,01
1,50
2,82 6,10 5,7974 0,31

1,00 4,77 1,12 1,1173 0,00


6,10 2,45 2,1228 0,33
0,50 3,91 2,03 2,2635 -0,23
X
0,00
4,31 1,10 1,5563 -0,46
2,00 3,00 4,00 5,00 6,00 7,00 3,31 4,34 3,9219 0,41
-0,50 3,15 4,55 4,4663 0,09
4,02 1,89 2,0388 -0,15
-1,00
4,23 1,75 1,6798 0,07
2,88 5,03 5,5207 -0,49
Con la transformación adecuada del modelo 4,43 1,76 1,3993 0,36
se consigue integrar en el modelo las
4,60 0,59 1,2340 -0,64
estructuras que aparecen en el gráfico de los
5,13 0,89 1,0552 -0,16
residuos.
4,63 2,16 1,2026 0,96
Los residuos que se obtienen con esta
transformación de modelo no presentan ninguna estructura de signos, por lo que a falta
de otras comprobaciones sobre los residuos podemos concluir que el modelo obtenido
representa los datos observados sin ningún sesgo.

Residuos Respecto X
4,00 En este gráfico los residuos son
mayores pero tampoco presentan
ninguna estructura por lo tanto no cabe
2,00 proponer una transformación del
modelo para mejorarlo.

0,00 X
2,00 3,00 4,00 5,00 6,00 7,00

-2,00

-4,00
14 TEMA 7: MODELOS DE REGRESION LINEAL

X Y
2,82 9,79
2,88 9,19
3,15 10,60
3,31 11,41
3,72 12,11

Si la variancia explicada por el modelo es insuficiente, se deberán 3,91 12,59


incluir más variables en el modelo para mejorar el modelo, teniendo un 4,02 13,00
modelo de Regresión Lineal Múltiple.
4,23 12,93
Se considera muy conveniente comprobar la normalidad de los 4,31 13,55
residuos. (ajuste de distribuciones).
4,43 14,02
4,60 14,22
La variancia de los residuos debe ser uniforme. Esta propiedad se 4,63 15,93
denomina Homocedasticidad. La Heterocedasticidad se presenta
cuando la variancia de los residuos no es uniforme. 4,70 19,73
4,77 19,63
Si representamos los datos de la tabla adjunta tenemos el gráfico
siguiente y el gáfico de los residuos respecto la variable x: 5,13 19,77
5,24 20,87
6,10 24,54
6,20 21,27
6,28 23,70
6,73 24,19

30,00 Residuos
y = 4,2329x - 3,1442 3,00
2
25,00 R = 0,9077
2,00

20,00 1,00

15,00 0,00
2,00 3,00 4,00 5,00 6,00 7,00
-1,00
10,00
-2,00
5,00
2,00 3,00 4,00 5,00 6,00 7,00 -3,00

Podemos observar que los residuos en la parte derecha del gráfico tienen valores
mayores en valor absoluto que los residuos de la zona izquierda (heterocedasticidad).
Esto nos indica que el modelo puede ser válido en una parte y en la otra parte no serlo,
quizás porque para valores grandes de x influya de forma considerable otra variable..

Así ajustando el modelo sólo para los valores de x ≤ 4,6 se tendrá la siguiente
representación y sus residuos:

15,00 Residuos
y = 2,6309x + 2,229 2,00
14,00
2
R = 0,9689
13,00
1,00
12,00

11,00
0,00
10,00
2,00 2,50 3,00 3,50 4,00 4,50 5,00
9,00
-1,00
8,00

7,00
2,00 2,50 3,00 3,50 4,00 4,50 5,00 -2,00
TEMA 7 MODELOS DE REGRESION LINEAL 15

Con lo que para una zona de los datos tendremos un modelo con un coeficiente de
determinación mejor, y para la otra zona del modelo tendremos que buscar otro modelo.
Otra verificación que hay que realizar es que los residuos no estén autocorrelacionados,
por ejemplo que una medida influya sobre la siguiente.

DESARROLLAR ****************

7.2.7. PREDICCIONES CON MODELO DE REGRESION LINEAL


SIMPLE.
ERROR ESTANDAR 469 *****************

Uno de los objetivos de los modelos de regresión es que podamos predecir que valores
tomará la variable y para determinado valor de x,

Si repetimos un experimento, varias veces, para un mismo valor de x = x 0 , obtendremos


diversos valores de y. Así se pueden establecer dos tipos de predicciones:

Predicción del valor medio de la variable y para un valor de la variable x = x 0 , lo vamos


a representar por µY / x 0

Intervalo de confianza para µY / x 0

Con una muestra de n observaciones de las variables x,y , el intervalo de confianza con
un nivel de confianza de (1 − α )100% para el valor medio de la variable y para un valor
de la variable x = x 0 , µY / x 0
es:

 1 (x0 − x )
2
1 (x0 − x )
2 
 yˆ 0 − tα / 2 s + , yˆ 0 + tα / 2 s + 
 n S xx n S xx 

donde tα / 2 es el valor de la distribución t con n-2 grados de libertad, e yˆ 0 = a + bx 0 , y


s es la desviación tipo de los residuos.
Intervalo de confianza para una predicción individual
Con una muestra de n observaciones de las variables x,y , el intervalo de confianza con
un nivel de confianza de (1 − α )100% para un valor individual de la variable y para un
valor de la variable x = x 0 , y 0 es:

 1 (x0 − x )
2
1 (x0 − x )
2 
 yˆ 0 − tα / 2 s 1 + + , yˆ 0 + tα / 2 s 1 + + 
 n S xx n S xx 

donde tα / 2 es el valor de la distribución t con n-2 grados de libertad, e yˆ 0 = a + bx 0

En el gráfico siguiente se representan los extremos del intervalo de confianza anterior.


La línea central representa las predicciones correspondientes a los valores observados,
y en trazo fino a la predicción puntual extrapolada.
16 TEMA 7: MODELOS DE REGRESION LINEAL

50

40

30

20

10

0
0,00 2,00 4,00 6,00 8,00 10,00
-10

-20

Podemos observar que en el centro del conjunto de datos el intervalo de confianza es


menor que en los extremos, por lo que hay que prestar atención especial cuando se
aplican los modelos de regresión lineal para extrapolar valor de la variable y

7.2.8. REGRESION LINEAL SIMPLE CON EXCEL.


Tomamos de la base de datos del INE las series Indices de Produccion Industrial
base 2.000
correspondientes a los Índices de Producción de 140

Bienes de Equipo y los Índices de producción de 120


Bienes de Equipo

Bienes de consumo, con referencia en el año 100


2.000. representamos los datos en el gráfico: 80

60

40
Se observa que los datos se agrupan en torno a
20
una línea. Para determinar el mejor ajuste,
0
seleccionamos la opción Agregar Línea de 0 50 100 150
Tendencia y escogiendo las diferentes alternativas Bienes de consumo
tendremos los siguientes gráficos:

Indices de Produccion Industrial Indices de Produccion Industrial


base 2.000 base 2.000
140 140
y = 1,6123x - 68,147 y = 0,004x
2,1848
120 2 120
R = 0,8788 2
Bienes de Equipo

Bienes de Equipo

100 100
R = 0,8897
80 80
60 60
40 40
20 20
Indices de Produccion Industrial Indices de Produccion Industrial
0 0
160 0 base
50 2.000 100 150 140 0 base 2.000
0,0244x 50 100 150
140 y = 8,0643e
Bienes de consumo
120
y = 140,85Ln(x) - 555,21
Bienes de consumo
2 2
Bienes de Equipo
Bienes de Equipo

120 R = 0,8429 100 R = 0,8817


100
80
80
60
60
40
40
20 20

0 0
0 50 100 150 0 50 100 150
Bienes de consumo Bienes de consumo
TEMA 7 MODELOS DE REGRESION LINEAL 17

El modelo de Regresión Lineal que mejor se


Indices de Produccion Industrial
ajusta es el potencial y = 0,004 x
base 2.000 2 ,1848
140 con un
2
120 y = -0,0074x + 2,9466x -
126,86
Bienes de Equipo

100
2 r 2 = 0,8897 , pero como el modelo con ajuste
R = 0,8849
80

60 lineal, y = 1,6123x − 68,147 , tiene un


40

20 r 2 = 0,8788 que sólo es un 1% menor y el


0
0 50 100 150 modelo es mucho más simple y sencillo de
Bienes de consumo

interpretar, adoptaremos el Modelo Lineal para representar la relación entre esas

variables.

También podemos
utilizar en
Herramientas la
opción Análisis de
Datos y escoger
Regresión.
Fijaremos los rangos
de entrada de las
variables y y x , y
activaremos las
opciones que nos
interesen, en este caso
el nivel de confianza
del 95% para las
predicciones y los
residuos para su
representación.

La interpretación de los datos que se obtienen es la siguiente:


18 TEMA 7: MODELOS DE REGRESION LINEAL

Estadísticas de la regresión
0,949
Coeficiente de correlación múltiple 5
0,901
Coeficiente de determinación R^2 6
0,895
R^2 ajustado 8
1,600
Para aplicar las técnicas de Análisis de Error típico 4
la Variancia. Observaciones 19

Promedio
Grados Suma de de Valor crítico
de libertad cuadrados cuadrados F de F
Regresión 1 398,9020 398,9020 155,7366 0,0000
Residuos 17 43,5436 2,5614
Total 18 442,4456

Para establecer el modelo estimado el intervalo de confianza de los coeficientes:

Proba- Superior Inferior Superior


Coeficiente Error típico Estadístico t bilidad Inferior 95% 95% 95,0% 95,0%
Intercepción -3,5993 1,6508 -2,1803 0,0436 -7,0821 -0,1164 -7,0821 -0,1164
2,81641236 4,3194 0,3461 12,4794 0,0000 3,5892 5,0497 3,5892 5,0497

7.3. REGRESION LINEAL MULTPLE.

7.3.1. Presentación del Modelo.


En la mayoría de los problemas reales la variable a explicar, y, depende de más de una
variable explicativa. Esto da lugar a generalizar el modelo de regresión a más de una
variable independiente, y formalizar el modelo de regresión múltiple:

y = A0 + A1 x1 + ... + An x n
que, a partir de una muestra, intentaremos estimar:

y = a 0 + a1 x1 + ... + a n x n
Donde el coeficiente a i del modelo estimado es un estimador del coeficiente Ai del
modelo verdadero.
También puede utilizarse el modelo de regresión múltiple cuando la variable
independiente influye de forma no lineal:

y = a 0 + a1 x + a 2 x 2 + a 3 x 3 + a 4 e x
Otro caso, cuando interviene más de una variable independiente:

y = a 0 + a1 x1 + a 2 x 2 + a12 x1 x 2
O cualquier combinación de todos los casos reseñados.
En cualquier caso diremos que un modelo estadístico es un modelo de regresión lineal
TEMA 7 MODELOS DE REGRESION LINEAL 19
múltiple cuando es lineal en los coeficientes.

7.3.2. Modelo matricial de regresión.


Para cada una de las observaciones, i, del resultado, se puede escribir, en función de las
variables controladas:

y i = A0 + A1 x1i + ... + Ak x ki + ε i
En forma matricial:
Y = XA + ε
Donde:

 1 x11 ... x k1   A0 
 y1       ε1 
   1 x12 ... x k 2  A   
Y =  ...  X = A= 1 ε =  ... 
y  ... ... ... ...  ... ε 
 k      k
1 x ... x kn  A 
 1n  k
Los coeficientes que minimizan la suma de los cuadrados de los residuos:

(Y − XA)′ (Y − XA)
se obtiene de la expresión:

A = ( X ′X ) X ′Y
−1

Donde A es el vector de estimadores de los coeficientes del modelo de regresión lineal


múltiple.

Fijémonos que si X' X = 0 el vector A no está definido, y si el valor de este


determinante es muy pequeño para pequeñas variaciones de las observaciones se van a
producir grandes variaciones en el vector de los estimadores de los coeficientes del
modelo de regresión.

7.3.3. Coeficiente de Determinación Lineal Múltiple


Indica la proporción de la variación total de la Y que es explicada por el modelo:
n
)
∑ (y i − y)
R =
2 i =1
n
; Su raíz cuadrada se denomina coeficiente de Correlación
∑ (y
i =1
i − y)
Lineal Múltiple

7.3.4. Inferencia con los Modelos de Regresión Lineal Múltiple.


Estimación insesgada de la varianza de los residuos:
20 TEMA 7: MODELOS DE REGRESION LINEAL
n

∑ (y
i =1
i − yˆ i )
2

s2 =
n − k −1
Intervalo de confianza para el valor medio de la respuesta, y, cuando los valores de las
variables independientes son:

 x10 
 
x 0 =  ... 
x 
 k0 
con un nivel de confianza de (1 − α )%

 yˆ − t s x ′ ( X ′X )−1 x , yˆ + t s x ′ ( X ′X )−1 x 
 α/2 0 0 α /2 0 0 

Intervalo de confianza para la predicción de un valor individual de y, cuando los valores
de las variables independientes son:

 x10 
 
x 0 =  ... 
x 
 k0 
con un nivel de confianza de (1 − α )%

 yˆ − t s 1 + x ′ ( X ′X ) −1 x , yˆ + t s 1 + x ′ ( X ′X )−1 x 
 α/2 0 0 α/2 0 0 

7.3.5. MULTICOLINEALIDAD Y HETEROCEDASTICIDAD.


Multicolinealidad
Se dice que un modelo lineal presenta multicolinealidad cuando existe cierto grado de
asociación entre las variables explicativas del modelo. Si esa relación entre las variables
explicativas del modelo es perfectamente lineal, entonces la matriz ( X ′X ) que se
utiliza para estimar los coeficientes del modelo de regresión es no invertible. Si la relación
entre las variables es muy fuerte, el determinante de la matriz ( X ′X ) es pequeño y
entonces a pequeñas variaciones de los datos se originan grandes variaciones en la
estimación de los coeficientes estimados.

Heterocedasticidad
La heteroscedasticidad es la falta de homoscedasticidad, es decir cuando las varianzas
de los residuos no son constantes.

7.3.6. REGRESION MULTIPLE CON EXCEL

BUSCAR UN EJEMPLO
TEMA 7 MODELOS DE REGRESION LINEAL 21

7.4. CUESTIONES Y EJERCICIOS PROPUESTOS


6.01 Diseñar un Test de Hipótesis para contrastar la Hipótesis Nula H0 = {x = N(60,5)}
contra la Hipótesis Alternativa H1 = {x = N(57,5)}. Se desea cometer un error tipo I del
10% y un error del tipo II del 5%n ( Sol.: k = 58,6862 ; n = 24 )
Proponer modelos

ana

7.5. EJERCICIOS DE EXAMENES

7.5.1. TEST DE HIPOTESIS SOBRE LA MEDIA. VARIANCIA


CONOCIDA
2.005 JUN 10.- Sean H 0 = {m = 40} H 1 = {m = 34} . Diseñar un test para
contrastar estas hipótesis en una población normal con error I del 10% y error II
del 5%. La desviación tipo de la población es 5,67 .

Tomaremos como estadístico la media de una muestra de tamaño n. Aceptaremos la


hipótesis nula si x > k .
Error tipo I =

 
  =  k − 40  k − 40
P x < k / x = N  40 ; 5,67  P z < )  = 0,05 ⇒ =
  n   5.67  5,67
 n  n
-1,2816
Error tipo II =

 
P x > k / x = N (34 ; 5,67  = P z > k − 34  = 0,10 ⇒ k − 34 = 1,6449
  
 n  5,67  5,67
 n n

Resolviendo el sistema queda, k = 37,3724 ; n = 2,7655 ⇒ n = 8


Diseño del Test:
• Tendremos que tomar una muestra de 8 unidades,
• Calcula la media de esa muestra
• si la media de esa muestra es superior a 37,3724 aceptaremos la hipótesis de que la
media de la población es 40 ; en caso contrario consideraremos que la media de la
población es 34.

También podría gustarte