Está en la página 1de 11

Captulo 9.

Regresin lineal
simple
9.1 Introduccin
Uno de los aspectos ms relevantes de la Estadstica es el anlisis de la relacin
o dependencia entre variables. Frecuentemente resulta de inters conocer el
efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo,
supongamos que la altura de los padres influyen significativamente en la de los
hijos. Podramos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.
Los mtodos de regresin estudian la construccin de modelos para explicar
o representar la dependencia entre una variable respuesta o dependiente (Y ) y
la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos
el modelo de regresin lineal, que tiene lugar cuando la dependencia es de tipo
lineal, y daremos respuesta a dos cuestiones bsicas:
Es significativo el efecto que una variable X causa sobre otra Y ? Es
significativa la dependencia lineal entre esas dos variables?.
De ser as, utilizaremos el modelo de regresin lineal simple para explicar
y predecir la variable dependiente (Y ) a partir de valores observados en
la independiente (X).
Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar
la magnitud de la compresin (Y ) que se producir en una pieza de 2 pulgadas
de espesor cuando se somete a diferentes cantidades de presin (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores
observados (x, y) se muestran en la siguiente tabla:
Pieza
1
2
3
4
5

Presin (x)
1
2
3
4
5
i

Compresin (y)
1
1
2
2
4

ii

CAPTULO 9. REGRESIN LINEAL SIMPLE

En principio no sabemos si las variables en cuestin estn relacionadas o no,


o si en caso de haber dependencia es significativa o no. De haber entre ellas una
dependencia lineal significativa, podramos expresar la Compresin (Y ) a partir
de la Presin (X) mediante una recta, y a partir de ella predecir la compresin
que se dara para un determinado nivel de presin.
Una forma de determinar si puede existir o no dependencia entre variables, y
en caso de haberla deducir de qu tipo puede ser, es grficamente representando
los pares de valores observados. A dicho grfico se le llama nube de puntos o
diagrama de dispersin.
Ejemplos de casos que podran darse:
102

102

99

99

96

96

93

93

90

90

87
0

0,01

0,02

0,03

87
0,87

0,04

a)
10

(X 1000)
1

0,8

0,6

0,4

0,2

1,27

1,47

1,67

0
0

c)

1,07

b)

10

12

10

d)

En a) hay ausencia de relacin (independencia).


En b) existe asociacin lineal positiva (varan en general en el mismo sentido).
En c) existe asociacin lineal negativa (varan en sentido contrario).
En d) existe fuerte asociacin, pero no lineal.

9.2 El modelo de regresin lineal


La estructura del modelo de regresin lineal es la siguiente:
Y = 0 + 1X +
En esta expresin estamos admitiendo que todos los factores o causas que
influyen en la variable respuesta Y pueden dividirse en dos grupos: el primero
contiene a una variable explicativa X y el segundo incluye un conjunto amplio de
factores no controlados que englobaremos bajo el nombre de perturbacin o error
aleatorio, , que provoca que la dependencia entre las variables dependiente e

iii
independiente no sea perfecta, sino que est sujeta a incertidumbre. Por ejemplo,
en el consumo de gasolina de un vehculo (Y ) influyen la velocidad (X) y una
serie de factores como el efecto conductor, el tipo de carretera, las condiciones
ambientales, etc, que quedaran englobados en el error.
Lo que en primer lugar sera deseable en un modelo de regresin es que
estos errores aleatorios sean en media cero para cualquier valor x de X, es decir,
E[/X = x] = E[] = 0, y por lo tanto:
E[Y /X = x] = 0 + 1 x + E[/X = x] = 0 + 1 x
En dicha expresin se observa que:
La media de Y, para un valor fijo x, vara linealmente con x.

Para un valor x se predice un valor en Y dado por y = E[Y /X = x] =


0 + 1 x, por lo que el modelo de prediccin puede expresarse tambin

como Y = 0 + 1 X.
El parmetro 0 es la ordenada al origen del modelo (punto de corte con
el eje Y) y 1 la pendiente, que puede interpretarse como el incremento de
la variable dependiente por cada incremento en una unidad de la variable
independiente. Estos parmetros son desconocidos y habr que estimarlos
de cara a realizar predicciones.
Adems de la hpotesis establecida sobre los errores de que en media han de
ser cero, se establecen las siguientes hiptesis:
ii) La varianza de es constante para cualquier valor de x, es decir,
V ar(/X = x) = 2
iii) La distribucin de es normal, de media 0 y desviacin .
iv) Los errores asociados a los valores de Y son independientes unos de otros.
En consecuencia, la distribucin de Y para x fijo es normal, con varianza
constante 2 , y media que vara linealmente con x, dada por 0 + 1 x. Adems
los valores de Y son independientes entre s.

9.3 Estimacin de los parmetros del modelo


Partimos de una muestra de valores de X e Y medidos sobre n individuos:
(x1 , y1 ), (x2 , y2 ), ..., (xn, yn ),

y queremos estimar valores en Y segn el modelo Y = 0 + 1 X, donde 0


y 1 son por el momento desconocidos. Debemos encontrar entonces de entre

iv

CAPTULO 9. REGRESIN LINEAL SIMPLE

todas las rectas la que mejor se ajuste a los datos observados, es decir, buscamos
aquellos valores de 0 y 1 que hagan mnimos los errores de estimacin. Para

un valor xi , el modelo estima un valor en Y igual a yi = 0 + 1 xi y el valor


observado en Y es igual a yi , con lo cual el error de estimacin en ese caso

vendra dado por ei = yi yi = yi ( 0 + 1 xi ). Entonces tomaremos como

estimaciones de 0 y 1 , que notamos por 0 y 1 , aquellos valores que hagan


mnima la suma de los errores al cuadrado, que viene dada por:
SSE =

n
X

e2i =

i=1

n
X
i=1

yi ( 0 + 1 xi )2

De ah que al mtodo de estimacin se le llame mtodo de mnimos cuadrados.


La solucin se obtiene por el mecanismo habitual, derivando SSE con respecto
a 0 y 1 e igualando a 0. Los estimadores resultan:

SSxy
SSxx

y 1 x

siendo:
n
n
X
X

(xi x)(yi y) =
xi yi nx y,

SSxy

SSxx

n
n
X
X

2
=
(xi x)2 =
x2i nx = n 2x

i=1

i=1

i=1

i=1

A la recta resultante Y = 0 + 1 X se le llama recta de regresin lineal


de Y sobre X.
Un ltimo parmetro a estimar en el modelo es la varianza de los errores
( 2 ). A su estimador se le denomina varianza residual y viene dada por:
^ 2
sR

Pn 2
SSE
SSyy 1 SSxy
i=1 ei
=
=
=
n2
n2
n2

Ejemplo 9.2. Para los datos del Ejemplo 9.1. referentes a la cantidad
de compresion (Y ) de un material aislante a diferentes niveles de presin (X),
vamos a determinar la recta de regresin.
SSxy = 7, SSxx = 10
luego

SSxy
= 0.7
SSxx

y 1 x = 0.1

v
La recta de regresin de Y sobre X es por tanto:

Y = 0.1 + 0.7X

9.4 Inferencias sobre el coeficiente de regresin

Observbamos que los estimadores 0 y 1 dependen de la muestra seleccionada,


por lo tanto son variables aleatorias y presentarn una distribucin de probabilidad. Estas distribuciones de probabilidad de los estimadores pueden utilizarse
para construir intervalos de confianza o contrastes sobre los parmetros del
modelo de regresin.
Al comienzo del captulo nos plantebamos como uno de los objetivos el decidir si el efecto de la variable independiente es o no significativo para la variable
dependiente. Si nos fijamos, esto es equivalente a contrastar si el coeficiente 1
es o no significativamente distinto de cero. Un 1 = 0 implicara la ausencia
de relacin lineal entre las variables.
En trminos generales planteamos los siguientes contrastes para 1 :
Tipo de prueba

Unilateral a la izquierda
H0 : 1 = b1
H1 : 1 < b1

Contraste

Estadstico de contraste

t=

Regin de rechazo

t < ta,n2

Bilateral
H0 : 1 = b1
H1 : 1 6= b1
^ 2

1 b1

^ 2

, con sR =

sR /SSxx

Unilateral a la derecha
H0 : 1 = b1
H1 : 1 > b1

SSyy 1 SSxy
n2

|t| > t1a/2,n2

t > t1a,n2

Decamos que de especial inters es el contraste:


H0 : 1 = 0
H1 : 1 6= 0
Ejemplo 9.3 Para los datos Ejemplo 9.1 sobre el material aislante, vamos
a contrastar si el efecto de la presin sobre la compresin es o no significativo
( = 0.05)

= 0.7

^ 2
sR

SSxx

t =
t0.975,3

SSyy 1 SSxy
= 0.367
n2
10
0
p 1
= 3.7
s2 /SSxx
3.18

Como |t| > t0.975,3 podemos rechazar H0 al 5% de significacin, por lo tanto


el efecto de la presin sobre la compresin es significativo.

vi

CAPTULO 9. REGRESIN LINEAL SIMPLE

9.5 El coeficiente de correlacin lineal y el coeficiente de determinacin


Nuestro objetivo en adelante ser medir la bondad del ajuste de la recta de
regresin a los datos observados y cuantificar al mismo tiempo el grado de asociacin lineal existente entre las variables en cuestin. A mejor ajuste, mejores
sern las predicciones realizadas con el modelo.
La evaluacin global de una recta de regresin puede hacerse mediante la
varianza residual, que como sabemos es un ndice de la precisin del modelo.
Sin embargo, esta medida no es til para comparar rectas de regresin de variables distintas, o comparar el grado de asociacin lineal entre distintos pares de
variables, ya que depende de las unidades de medida de las variables.

El coeficiente de correlacin lineal


Como solucin al inconveniente planteado, para medir la asociacin lineal entre
dos variables X e Y se utiliza una medida adimensional denominada coeficiente
de correlacin lineal, dado por:
p
V AR(X)
E[(X E(X))(Y E(Y )]
p
= p
1
r=
V AR(X)V AR(Y )
V AR(Y )
y su estimacin a partir de datos de una muestra resulta:

SSxy
SSxx

r= p
=p
1
SSxx SSyy
SSyy

El coeficiente de correlacin lineal toma valores entre -1 y 1 y su interpretacin es la siguiente:


Un valor cercano o igual a 0 indica respectivamente poca o ninguna relacin
lineal entre las variables.
Cuanto ms se acerque en valor absoluto a 1 mayor ser el grado de asociacin lineal entre las variables. Un coeficiente igual a 1 en valor absoluto
indica una dependencia lineal exacta entre las variables.
Un coeficiente positivo indica asociacin lineal positiva, es decir, tienden
a variar en el mismo sentido.
Un coeficiente negativo indica asociacin lineal negativa, es decir, tienden
a variar en sentido opuesto.
Ntese que si 1 = 0 entonces r = 0 , en cuyo caso hay ausencia de
linealidad. Por lo tanto, contrastar si el coeficiente de correlacin lineal
es significativamente distinto de 0 sera equivalente a contrastar si 1 es
significativamente distinto de cero, contraste que ya vimos en la seccin
anterior.

vii

El coeficiente de determinacin
Segn hemos visto, el coeficiente de correlacin lineal puede interpretarse como
una medida de la bondad del ajuste del modelo lineal, concretamente, un valor
del coeficiente igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso
el ajuste es perfecto. No obstante, para cuantificar la bondad del ajuste de
un modelo, lineal o no, se utiliza una medida que se denomina coeficiente de
determinacin lineal R2 , que es la proporcin de variabilidad de la variable Y
que queda explicada por el modelo de entre toda la presente, y cuya expresin
es:
n
P

(y i y)2
SSE
i=1
2
R = P
=1
,
n
2
SSyy
(y i y)
i=1

que en modelo de regresin lineal coincide con el cuadrado del coeficiente de


correlacin lineal:
R2 = r 2

El coeficiente de determinacin toma valores entre 0 y 1, y cuanto ms se


aproxime a 1 mejor ser el ajuste y por lo tanto mayor la fiabilidad de las
predicciones que con l realicemos.
Ntese que si el coeficiente de correlacin lineal r es igual a 1 o -1 entonces
R2 = 1 y por lo tanto el ajuste lineal es perfecto.
Ejemplo 9.4 En el Ejemplo 9.1 r = 0.90 y R2 = 0.82. Esto indica que el
grado de asociacin lineal entre las variables es alto, y concretamente el 82% de
la variacin total de los valores de la compresin pueden ser explicados mediante
la recta de regresin ajustada.

9.6 Prediccin a partir del modelo


Recordamos que en el modelo ajustado de la recta de regresin,

y = 0 + 1x
y, por otro lado,
E[Y /X = x] = 0 + 1 x,

luego y puede interpretarse de dos formas:


1. Como prediccin del valor que tomar Y cuando X = x.
2. Como estimacin del valor medio en Y para el valor X = x, es decir,
E[Y /X = x].
Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto
peor sea el ajuste realizado mediante la recta de regresin. Para concluir el tema,
establecemos un intervalo de confianza para estas cantidades.

viii

CAPTULO 9. REGRESIN LINEAL SIMPLE

Proposicin. Podemos decir que con un (1 )x100% de confianza que


cuando X = x, el valor predicho en Y o el valor medio estimado en Y, E[Y /X =
x], se encuentran en el intervalo:
s

2
1
x)
(x

y t1/2,n2 , sR

+
n
SSxx
Ejemplo 9.4. Para los datos del Ejemplo 9.1,
Pieza
1
2
3
4
5

Presn (x)
1
2
3
4
5

Compresin (y)
1
1
2
2
4

a. Predecir el valor en la compresin para un nivel de presin igual a 6.

La recta de regresin ajustada era Y = 0.1 + 0.7X, con lo cual para un

x = 6 se predice un valor en Y igual a y = 0.1 + 0.7 6 = 4.1

b. En qu medida son fiables las predicciones realizadas con la recta de


regresin ajustada?
Como el coeficiente de determinacin es igual a 0.81, las predicciones realizadas con la recta sern fiables en un 81%.
c. Determinar un Intervalo al 95% de confianza para el valor medio de compresin a una presin de 6 .
El intervalo de confianza resulta:
s
"
#
r
2
2
(x

(6

3)
1
x)
1

y t1/2,n2 sR
= 4.1 3.18 0.6
+
+
= [2.1, 6.1]
n
SSxx
5
10

9.7 Ejercicios
1. Se supone que el alargamiento de un cable de acero est relacionado linealmente con la intensidad de la fuerza aplicada. Cinco especmenes idnticos
de cable dieron los resultados siguientes:
Fuerza (X)
Alargamiento (Y )

1.0
3

1.5
3.5

2
5.4

2.5
6.9

3
8.4

(a) Estudia el grado de asociacin lineal entre ambas variables.

ix
(b) Predice el alargamiento para una fuerza de 2.2. En qu medida es
fiable tal prediccin?.
(c) Contrastar al 5% si la fuerza aplicada influye significativamente sobre
el alargamiento.
(d) Obtener un intervalo de confianza al 95% para el valor que se predice
en el alargamiento para una fuerza de 2.2
2. Las bodegas modernas utilizan vehculos guiados computarizados y automatizados para el manejo de materiales. En consecuencia, la disposicin fsica de la bodega debe disearse con cuidado a modo de evitar el
congestionamiento de los vehculos y optimar el tiempo de respuesta. En
The journal of Engineering for Industry (agosto 1993) se estudi el diseo
ptimo de una bodega automatizada. La disposicin empleada supone que
los vehculos no se bloquean entre s cuando viajan dentro de la bodega,
es decir, no hay congestionamiento. La validez de este supuesto se verific simulando por ordenador las operaciones de la bodega. En cada
simulacin se vari el nmero de vehculos y se registr el tiempo de congestionamiento (tiempo total que un vehculo bloquea a otro). Los datos
se muestran en la tabla de abajo. Los investigadores estn interesados en
conocer la relacin entre el tiempo de congestionamiento (Y) y el nmero
de vehculos (X).
X
Y

1
0

2
0

3
0.02

4
0.01

5
0.01

6
0.01

7
0.03

8
0.03

9
0.02

10
0.04

a) Cuantifica la dependencia lineal existente entre ambas variables.


b) Es significativa la dependencia lineal entre las variables?. Tomar
= 0.05.
c) Obtn la recta de regresin que expresa el tiempo de congestin en
funcin del nmero de vehculos.
d) Predice linealmente el tiempo de congestin cuando el nmero de
vehculos es de 12. En qu medida es fiable tal prediccin?.
e) Determinar el intervalo en el que se encuentra al 95 de confianza el
tiempo medio de congestin para un nmero de vehculos de 12.
3. Los siguientes datos se refieren al crecimiento de una colonia de bacterias
en un medio de cultivo:
X
Y

3
115000

6
147000

9
239000

12
356000

15
579000

18
,
864000

siendo X el nmero de das desde la inoculacin e Y el nmero de bacterias.


Comprobar grfica y numricamente que el tipo de asociacin entre ambas
variables no es lineal.

CAPTULO 9. REGRESIN LINEAL SIMPLE


4. Se ha realizado un estudio para investigar el efecto de un determinado
proceso trmico en la dureza de una determinada pieza. Once piezas se
seleccionaron para el estudio. Antes del tratamiento se realizaron pruebas
de dureza para determinar la dureza de cada pieza. Despus, las piezas
fueron sometidas a un proceso trmico de templado con el fin de mejorar su
dureza. Al final del proceso, se realizaron nuevamente pruebas de dureza
y se obtuvo una segunda lectura. Se recogieron los siguientes datos (Kg.
de presin):
Dureza previa
Dureza post.

182
198

232
210

191
194

200
220

148
138

249
220

276
219

213
161

241
210

480
313

(a) Calcula la media, mediana, percentiles 25 y 75 de la dureza antes y


despus del proceso.
(b) Calcula la desviacin tpica en ambos casos. En qu caso hay mayor
variabilidad?.
(c) Se puede afirmar que el proceso de templado mejora la dureza de
las piezas?.
(d) Decide si un modelo lineal es adecuado para explicar la dureza posterior en funcin de la dureza previa. En caso afirmativo obtenlo y
predice la dureza tras el proceso de templado de una pieza con un
dureza previa de 215.
5. La hidrlisis de un cierto ster tiene lugar en medio cido segn un proceso cintico de primer orden. Partiendo de una concentracin inicial
(por 103 (M )) desconocida del ster, se han medido las concentraciones
del mismo a diferentes tiempos (en minutos) obtenindose los resultados
siguientes:
Tiempo
Conc.

3
25.5

5
23.4

10
18.2

15
14.2

20
11

30
6.7

40
4.1

50
2.5

60
1.5

75
0.7

90
0.4

(a) Realiza una nube de puntos de las dos variables. La teora cintica de
este tipo de reacciones nos indica que la evolucin de la concentracin
del ster en funcin del tiempo se rige por Ct = C0 ekt , donde C0
es la concentracin inicial. Qu transformacin de los datos nos
lleva a un modelo lineal?. Realiza esta transformacin y obtn la
concentracin inicial C0 y la velocidad k de desaparicin del ster.
(b) Suponemos ahora que nos comunican que la concentracin inicial
del ster es C0 = 3.102 (M ). Cmo incorporar esta informacin a
nuestro anlisis anterior?. Obtn el nuevo valor de k.
6. Para analizar la degradacin de la seal emitida por una antena, se tomaron
los siguientes datos: la frecuencia de la seal en el momento de ser emitida
(X) y la frecuencia de la seal al ser recibida (Y). Los resultados medidos
en Megahercios fueron:

262
226

xi

X
Y

1.75
1.56

1.8
1.45

1.78
1.75

2.01
0.84

2.48
2.02

2.58
2.41

2.98
2.75

2.65
1.44

2.01
1.55

3.87
2.02

a. Calcular la media, mediana y moda de ambas variables.


b. De las seales emitidas entre 2 y 3 Megahercios Cul es la proporcin de ocasiones en las que la frecuencia recibida fue menor que 2.5
Megahercios?
c. Determinar el intervalo en el que se encuentra el 50% central de la
variable Y.
d. Es significativa la relacin lineal entre las variables?. Influye significativamente la variable X sobre Y ?. Realizar el contraste al 5% de
significacin.
e. Qu frecuencia se predice en la seal al ser recibida si al ser emitida
es de 3.5 Megahercios?. Es fiable la prediccin?.
f. Obtener un intervalo de confianza al 95% para la seal recibida si la
seal emitida es de 3.5 Megahercios.

También podría gustarte