Está en la página 1de 10

Tema 6: Regresión lineal simple

6.1 Introducción
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia
entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables
pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a
partir de otra.
Consideremos los siguientes ejemplos:

1. Supongamos que la altura de los padres in‡uyen signi…cativamente en la de los hijos.


Podríamos estar interesados en estimar la altura media de los hijos cuyos padres presentan
una determinada estatura.

2. Podríamos ser interesante saber si existe alguna relación entre las ventas de una empresa
y el gasto en publicidad de la misma. De haber relación, sería de utilidad poder predecir
las ventas de una empresa para un gasto en publicidad dado.

Los métodos de regresión estudian la construcción de modelos para explicar o representar la


dependencia entre una variable Y (llamada variable explicada, dependiente, endógena, etc...)
y una serie de variables X1 ; X2 ; :::; Xn (llamadas explicativas, dependientes, exógenas, etc...).
No obstante, asumiendo que dichas variables explicativas in‡uyeran sobre la variable explicada
(Y ), podrían existir otros factores o variables que no controlamos y que también podrían in‡uir
sobre dicha variable Y: Dichos factores quedan englobados en un término que se denomina
perturbación, ":
El objetivo será, por tanto, buscar la función g que permita expresar esa dependencia entre

1
las variables:
Y = g(X1 ; X2 ; :::; Xn ; ")

Cuando la dependencia es de tipo lineal, dicha función será de la forma:

Y = 0 + 1 X1 + 2 X2 + ::: + n Xn +"

A dicho modelo se le llama modelo de regresión lineal múltiple.


Cuando exclusivamente consideramos una variable explicativa, X; el modelo se reduce a:

Y = 0 + 1X +"

y recibe el nombre de modelo de regresión lineal simple.


En este tema nos centramos exclusivamente en dicho modelo, y daremos respuesta a dos
cuestiones básicas:

¿Es signi…cativo el efecto que una variable X causa sobre otra Y ? Es decir, ¿es signi…cativa
la dependencia lineal entre esas dos variables?.

De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la
variable dependiente (Y ) a partir de valores observados en la independiente (X):

Ejemplo 6.1. Una empresa de desea investigar el efecto de su publicidad a través de radio
en el número de ventas. Con tal …n, durante cinco semanas estudia el número de ventas (Y )
según el número de días a la semana (X) que se da publicidad a la empresa en la radio. Los
resultados se recogen en la siguiente tabla:

Semana No de días de publicidad (x) No de ventas (y)

1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

En principio no sabemos si las variables en cuestión están relacionadas o no, o si en caso de


haber dependencia es signi…cativa o no. De haber entre ellas una dependencia lineal signi…cativa,
podríamos expresar el no de ventas semanal (Y ) a partir del no de veces a la semana que se da

2
publicidad en radio (X) mediante una recta y, a partir de ella, predecir el no de ventas que se
daría para un determinado no de días de publicidad en la radio.
Una forma de determinar si puede existir o no dependencia entre variables y, en caso de
haberla, deducir de qué tipo puede ser, es grá…camente representando los pares de valores
observados. A dicho grá…co se le llama nube de puntos o diagrama de dispersión. A continuación
se dan ejemplos de algunos casos que podrían darse.

102 102

99 99

96 96

93 93

90 90

87 87
0 0,01 0,02 0,03 0,04 0,87 1,07 1,27 1,47 1,67

a) b)

(X 1000)
10 1

8 0,8

6 0,6

4 0,4

2 0,2

0 0
0 2 4 6 8 10 12 0 2 4 6 8 10

c) d)

En a) hay ausencia de relación (independencia).

En b) existe asociación lineal positiva (varían en general en el mismo sentido).

En c) existe asociación lineal negativa (varían en sentido contrario).

En d) existe fuerte asociación, pero no lineal.

6.2 El modelo de regresión lineal


La estructura del modelo de regresión lineal es la siguiente:

Y = 0 + 1X +"

Como decíamos, en esta expresión estamos admitiendo que todos los factores o causas que
in‡uyen en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una
variable explicativa X y el segundo incluye un conjunto amplio de factores no controlados que

3
englobamos bajo el nombre de perturbación o error aleatorio, "; que provoca que la dependencia
entre las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incer-
tidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) in‡uyen la velocidad (X) y
una serie de factores como el efecto conductor, el tipo de carretera, las condiciones ambientales,
etc, que quedarían englobados en el error.
Lo que en primer lugar sería deseable de un modelo de regresión es que estos errores aleatorios
sean en media cero para cualquier valor x de X; es decir, E["=X = x] = E["] = 0; y por lo
tanto:
E[Y =X = x] = 0 + 1x + E["=X = x] = 0 + 1x

En dicha expresión se observa:

La media de Y; para un valor …jo x; varía linealmente con x:


^
Para un valor x se predice un valor en Y dado por y = E[Y =X = x]; por lo que el modelo
de predicción puede expresarse también como Y = 0 + 1 X.

El parámetro 0 es la ordenada al origen del modelo (punto de corte con el eje Y) y

1 la pendiente, que puede interpretarse como el incremento de la variable dependiente


por cada incremento en una unidad de la variable independiente. Estos parámetros son
desconocidos y habrá que estimarlos de cara a realizar predicciones.

Además de la hípotesis establecida sobre los errores de que en media han de ser cero, se
establecen las siguientes hipótesis:

ii) La varianza de " es constante para cualquier valor de x; es decir,

2
V ar("=X = x) =

iii) La distribución de " es normal, de media 0 y desviación :

iv) Los errores asociados a los valores de Y son independientes unos de otros.

2
En consecuencia, la distribución de Y para x …jo es normal, con varianza constante ; y me-
dia que varía linealmente con x; dada por 0+ 1 x: Además los valores de Y son independientes
entre sí.

4
6.3 Estimación de los parámetros del modelo

Partimos de una muestra de valores de X e Y medidos sobre n individuos:

(x1 ; y1 ); (x2 ; y2 ); :::; (xn; yn );


^
y queremos estimar valores en Y según el modelo Y = 0 + 1 X; donde 0 y 1 son por el
momento desconocidos. Debemos encontrar entonces de entre todas las rectas la que mejor
se ajuste a los datos observados, es decir, buscamos aquellos valores de 0 y 1 que hagan
mínimos los errores de estimación. Para un valor xi ; el modelo estima un valor en Y igual a
^
yi = 0 + 1 xi y el valor observado en Y es igual a yi ;con lo cuál el error de estimación en ese
^
caso vendría dado por ei = yi yi = yi ( 0 + 1 xi ). Entonces tomaremos como estimaciones
^ ^
de 0 y 1 , que notamos por 0 y 1 ;aquellos valores que hagan mínima la suma de los errores
al cuadrado, que viene dada por
n
X n
X
SSE = e2i = yi ( 0 + 1 xi )
2

i=1 i=1

De ahí que al método de estimación se le llame método de mínimos cuadrados. La solución


se obtiene por el mecanismo habitual, derivando SSE con respecto a 0 y 1 e igualando a 0,
y los estimadores resultan:
^ SSxy
1 =
SSxx
^ ^
0 = y 1x

siendo:
n
X n
X
SSxy = (xi x)(yi y) = xi yi nx y;
i=1 i=1
Xn n
X 2
SSxx = (xi x)2 = x2i nx = n 2
x
i=1 i=1

^ ^ ^
A la recta resultante Y = 0+ 1X se le llama recta de regresión lineal de Y sobre X:
2
Un último parámetro a estimar en el modelo es la varianza de los errores ( ): A su estimador
se le denomina varianza residual y viene dada por:
Pn 2 ^
^ 2 SSE e SSyy 1 SSxy
sR = = i=1 i =
n 2 n 2 n 2

5
Ejemplo 6.2. Para los datos del Ejemplo 6.1. referentes al no de ventas (Y ) según el no
de días de publicidad (X), vamos a determinar la recta de regresión.

SSxy = 7; SSxx = 10

luego
^ SSxy
1 = = 0:7
SSxx
^ ^
0 = y 1x = 0:1

La recta de regresión de Y sobre X es por tanto:

^
y= 0:1 + 0:7x

6.4 Inferencias sobre el coe…ciente de regresión


^ ^
Observábamos que los estimadores 0 y 1 dependen de la muestra seleccionada, por lo tanto
son variables aleatorias y presentarán una distribución de probabilidad. Estas distribuciones
de probabilidad de los estimadores pueden utilizarse para construir intervalos de con…anza o
contrastes sobre los parámetros del modelo de regresión.
Al comienzo del capítulo nos planteábamos como uno de los objetivos el decidir si el efecto
de la variable independiente es o no signi…cativo para la variable dependiente. Si nos …jamos,
esto es equivalente a contrastar si el coe…ciente 1 es o no signi…cativamente distinto de cero.
Un 1 = 0 implicaría la ausencia de relación lineal entre las variables.
En términos generales planteamos el siguiente contraste para 1 :

Tipo de prueba Unilateral a la izquierda Bilateral Unilateral a la derecha


H0 : 1 = b1 H0 : 1 = b1 H0 : 1 = b1
Contraste
H1 : 1 < b1 H1 : 1 6= b1 H1 : 1 > b1
^ ^
1 b1 ^ 2 SSyy 1 SSxy
Estadístico de contraste t= q ; con sR =
^ 2 n 2
sR =SSxx
Región de rechazo t < ta;n 2 jtj > t1 a=2;n 2 t > t1 a;n 2

6
Decíamos que de especial interés es el contraste:

H0 : 1 =0
H1 : 1 6= 0

Ejemplo 6.3 Para los datos Ejemplo 6.1 vamos a contrastar si el no de días de publicidad
en radio tiene efecto signi…cativo sobre el no de ventas ( = 0:05)
^
1 = 0:7
^
^ 2 SSyy 1 SSxy
sR = = 0:367
n 2
SSxx = 10
0
t = p 1 = 3:7
2
s =SSxx
t0:975;3 = 3:18

Como jtj > t0:975;3 podemos rechazar H0 al 5% de signi…cación, por lo tanto el efecto de la
publicidad sobre las ventas es signi…cativo (en términos generales, a mayor publicidad mayor
ventas, según lo obtenido).

6.5 El coe…ciente de correlación lineal y el coe…ciente de


determinación
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresión a los
datos observados y cuanti…car al mismo tiempo el grado de asociación lineal existente entre las
variables en cuestión. A mejor ajuste, mejores serán las predicciones realizadas con el modelo.
La evaluación global de una recta de regresión puede hacerse mediante la varianza residual,
que como sabemos es un índice de la precisión del modelo. Sin embargo, esta medida no es útil
para comparar rectas de regresión de variables distintas, o comparar el grado de asociación lineal
entre distintos pares de variables, ya que depende de las unidades de medida de las variables.
Como solución a este inconveniente, para medir la asociación lineal entre dos variables X e
Y se utiliza una medida adimensional denominada coe…ciente de correlación lineal, dado por:
p
E[(X E(X))(Y E(Y )] V AR(X)
r= p = p 1
V AR(X)V AR(Y ) V AR(Y )

7
y su estimación a partir de datos de una muestra viene dada por:
p
^ SSxy SSxx ^
r= p =p 1
SSxx SSyy SSyy

El coe…ciente de correlación lineal toma valores entre -1 y 1 y su interpretación es la siguiente:

Un valor cercano o igual a 0 indica respectivamente poca o ninguna relación lineal entre
las variables.

Cuanto más se acerque en valor absoluto a 1 mayor será el grado de asociación lineal
entre las variables. Un coe…ciente igual a 1 en valor absoluto indica una dependencia
lineal exacta entre las variables.

Un coe…ciente positivo indica asociación lineal positiva, es decir, tienden a variar en el


mismo sentido.

Un coe…ciente negativo indica asociación lineal negativa, es decir, tienden a variar en


sentido opuesto.

Nótese que si 1 = 0 entonces r = 0 , en cuyo caso hay ausencia de linealidad. Por lo


tanto, contrastar si el coe…ciente de correlación lineal es signi…cativamente distinto de 0
sería equivalente a contrastar si 1 es signi…cativamente distinto de cero, contraste que
ya vimos en la sección anterior.

Según hemos visto, el coe…ciente de correlación lineal puede interpretarse como una medida
de la bondad del ajuste del modelo lineal, concretamente, un valor del coe…ciente igual a 1
o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para
cuanti…car la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina
coe…ciente de determinación lineal R2 ; que es la proporción de variabilidad de la variable Y
que queda explicada por el modelo de entre toda la presente, y cuya expresión es:
P
n ^
(y i y)2
2 i=1 SSE
R = Pn =1 ;
SSyy
(y i y)2
i=1

que en modelo de regresión lineal coincide con el cuadrado del coe…ciente de correlación lineal:

R2 = r 2

8
El coe…ciente de determinación toma valores entre 0 y 1, y cuanto más se aproxime a 1
mejor será el ajuste del modelo lineal, y por lo tanto mayor la …abilidad de las predicciones que
con él realicemos.
Nótese que si el coe…ciente de correlación lineal r es igual a 1 o -1 entonces R2 = 1 y por lo
tanto el ajuste lineal es perfecto.
Ejemplo 6.4 En el Ejemplo 6.1 r = 0:90 y R2 = 0:82: Esto indica que el grado de asociación
lineal entre las variables es alto, y concretamente el 82% de la variación total de los valores del
no de ventas pueden ser explicados mediante la recta de regresión ajustada.

6.6 Predicción a partir del modelo


Recordamos que en el modelo ajustado de la recta de regresión,

^ ^ ^
y= 0 + 1x

y, por otro lado,


E[Y =X = x] = 0 + 1 x;

^
luego y puede interpretarse de dos formas:

1. Como predicción del valor que tomará Y cuando X = x:

2. Como estimación del valor medio en Y para el valor X = x; es decir, E[Y =X = x]:

Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto peor sea el
ajuste realizado mediante la recta de regresión. Para concluir el tema, establecemos un intervalo
de con…anza para estas cantidades.
Proposición. Podemos decir que con un (1 )x100% de con…anza que cuando X = x; el
valor predicho en Y o el valor medio estimado en Y; E[Y =X = x]; se encuentran en el intervalo:
2 s 3
2
4y^ t1 =2;n 2 ; sR 1 + (x x) 5
n SSxx

Ejemplo 6.4. Para los datos del Ejemplo 6.1,

9
Semana No de días de publicidad (x) No de ventas (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

a) Predecir el no de ventas semanales para 6 días de publicidad en radio.


La recta de regresión ajustada era

^
y= 0:1 + 0:7x;

con lo cuál, para un x = 6 se predice un valor en Y igual a

^
y= 0:1 + 0:7 6 = 4:1

b) ¿En qué medida son …ables las predicciones realizadas con la recta de regresión ajustada?
Como el coe…ciente de determinación es igual a 0.81, las predicciones realizadas con la recta
serán …ables en un 81%.
c) Determinar un Intervalo al 95% de con…anza para el no medio de ventas si se hace 6 días
publicidad en radio.
El intervalo de con…anza resulta:
2 s 3 " r #
2 1 (6 3)2
4y^ t1 =2;n 2 sR 1 + (x x) 5 = 4:1 3:18 0:6 + = [2:1; 6:1]
n SSxx 5 10

10

También podría gustarte