Está en la página 1de 54

Regresin lineal

simple

Regresin lineal
simple

Josep Gibergans Bguena

Josep Gibergans Bguena

P03/75057/01013

P03/75057/01013

FUOC P03/75057/01013

Regresin lineal simple

ndice

FUOC P03/75057/01013

Regresin lineal simple

ndice

Sesin 1

Sesin 1

El modelo de regresin simple ..............................................................

El modelo de regresin simple ..............................................................

1. Introduccin ............................................................................................

1. Introduccin ............................................................................................

2. Relaciones entre dos variables .................................................................

2. Relaciones entre dos variables .................................................................

3. Diagramas de dispersin y curvas de regresin .......................................

3. Diagramas de dispersin y curvas de regresin .......................................

4. Recta de regresin ....................................................................................

4. Recta de regresin ....................................................................................

4.1. Estimacin de los parmetros: mtodo de los mnimos cuadrados ...

4.1. Estimacin de los parmetros: mtodo de los mnimos cuadrados ...

5. Interpretacin de los parmetros de la recta de regresin....................... 10

5. Interpretacin de los parmetros de la recta de regresin....................... 10

6. Construccin de la tabla para determinar los parmetros ...................... 10

6. Construccin de la tabla para determinar los parmetros ...................... 10

7. Interpolacin y extrapolacin ................................................................. 12

7. Interpolacin y extrapolacin ................................................................. 12

8. Modelos de regresin no lineales ............................................................ 13

8. Modelos de regresin no lineales ............................................................ 13

9. Resumen................................................................................................... 14

9. Resumen................................................................................................... 14

Ejercicios ....................................................................................................... 16

Ejercicios ....................................................................................................... 16

Anexos .......................................................................................................... 20

Anexos .......................................................................................................... 20

Sesin 2

Sesin 2

La calidad del ajuste ................................................................................ 23

La calidad del ajuste ................................................................................ 23

1. Introduccin ............................................................................................ 23

1. Introduccin ............................................................................................ 23

2. El coeficiente de determinacin, R ......................................................... 23

2. El coeficiente de determinacin, R2......................................................... 23

3. El coeficiente de correlacin muestral, r.................................................. 26

3. El coeficiente de correlacin muestral, r.................................................. 26

4. Relacin entre R y r ................................................................................ 28

4. Relacin entre R2 y r ................................................................................ 28

5. Diagnstico de la regresin: anlisis de los residuos ............................... 30

5. Diagnstico de la regresin: anlisis de los residuos ............................... 30

6. Resumen................................................................................................... 33

6. Resumen................................................................................................... 33

Ejercicios ....................................................................................................... 34

Ejercicios ....................................................................................................... 34

Anexos .......................................................................................................... 38

Anexos .......................................................................................................... 38

Sesin 3

Sesin 3

Inferencia en la regresin ..................................................................... 40

Inferencia en la regresin ..................................................................... 40

1. Introduccin ............................................................................................ 40

1. Introduccin ............................................................................................ 40

2. El modelo de regresin en la poblacin .................................................. 40


3. Distribucin probabilstica de la pendiente ( 1 ) .................................... 44

2. El modelo de regresin en la poblacin .................................................. 40


3. Distribucin probabilstica de la pendiente ( 1 ) .................................... 44

4. El intervalo de confianza para la pendiente ............................................ 45

4. El intervalo de confianza para la pendiente ............................................ 45

5. El contraste de hiptesis sobre la pendiente ........................................... 46

5. El contraste de hiptesis sobre la pendiente ........................................... 46

6. Resumen................................................................................................... 48

6. Resumen................................................................................................... 48

Ejercicios ....................................................................................................... 49

Ejercicios ....................................................................................................... 49

Anexos .......................................................................................................... 53

Anexos .......................................................................................................... 53

FUOC P03/75057/01013

Regresin lineal simple

FUOC P03/75057/01013

El modelo de regresin simple

El modelo de regresin simple

1. Introduccin

1. Introduccin

Despus de estudiar cmo hay que organizar, representar grficamente y analizar


un conjunto de datos a partir de algunos parmetros, nos proponemos estudiar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relacin entre estas variables.
Queremos construir modelos que describan la relacin entre las variables con
el propsito, principalmente, de predecir los valores de una variable a partir de

Origen de los modelos


de regresin
Estos modelos fueron utilizados
por Laplace y Gauss en sus trabajos de astronoma y fsica desarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresin tiene su origen en los
trabajos de Galton en biologa
de finales del siglo XIX. La expresin de Galton:
regression towards mediocrity
dio nombre a la regresin.

Despus de estudiar cmo hay que organizar, representar grficamente y analizar


un conjunto de datos a partir de algunos parmetros, nos proponemos estudiar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relacin entre estas variables.
Queremos construir modelos que describan la relacin entre las variables con
el propsito, principalmente, de predecir los valores de una variable a partir de

los valores de la otra. Lo haremos con el modelo de regresin lineal simple.

los valores de la otra. Lo haremos con el modelo de regresin lineal simple.

2. Relaciones entre dos variables

2. Relaciones entre dos variables

El modelo de regresin lineal simple nos permite construir un modelo para ex-

El modelo de regresin lineal simple nos permite construir un modelo para ex-

plicar la relacin entre dos variables.

plicar la relacin entre dos variables.

El objetivo es explicar el comportamiento de una variable Y, que deno-

El objetivo es explicar el comportamiento de una variable Y, que deno-

minaremos variable explicada (o dependiente o endgena), a partir de

minaremos variable explicada (o dependiente o endgena), a partir de

otra variable X, que llamaremos variable explicativa (o independiente

otra variable X, que llamaremos variable explicativa (o independiente

o exgena).

o exgena).

Ejemplo de relacin entre dos variables

Ejemplo de relacin entre dos variables

Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podramos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependern mucho de los ingresos:
cuanto ms dinero ganemos, mayor ser la parte que gastaremos en ocio.

Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podramos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependern mucho de los ingresos:
cuanto ms dinero ganemos, mayor ser la parte que gastaremos en ocio.

Es importante observar que tambin podramos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto ms dinero gastemos en ocio, ms ingresos tendremos.

Es importante observar que tambin podramos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto ms dinero gastemos en ocio, ms ingresos tendremos.

No es fcil la decisin de elegir cul es la variable explicativa y cul es la variable

No es fcil la decisin de elegir cul es la variable explicativa y cul es la variable

explicada. Como veremos ms adelante, depender en gran medida de las ca-

explicada. Como veremos ms adelante, depender en gran medida de las ca-

ractersticas de los datos que tengamos.

ractersticas de los datos que tengamos.

Las relaciones entre dos variables pueden ser de dos tipos:


1) Funcionales (o deterministas): cuando hay una frmula matemtica que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.

Ejemplo de relacin
funcional
Podemos conocer el rea de
un cuadrado a partir de la longitud de su lado.

Las relaciones entre dos variables pueden ser de dos tipos:


1) Funcionales (o deterministas): cuando hay una frmula matemtica que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.

Regresin lineal simple

Origen de los modelos


de regresin
Estos modelos fueron utilizados
por Laplace y Gauss en sus trabajos de astronoma y fsica desarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresin tiene su origen en los
trabajos de Galton en biologa
de finales del siglo XIX. La expresin de Galton:
regression towards mediocrity
dio nombre a la regresin.

Ejemplo de relacin
funcional
Podemos conocer el rea de
un cuadrado a partir de la longitud de su lado.

FUOC P03/75057/01013

2) Estadsticas (o estocsticas): cuando no existe una expresin matemtica


que las relacione de forma exacta.

En la relacin entre el peso y la altura es evidente que existen muchos factores,


como pueden ser factores genticos, la actividad fsica, la alimentacin, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relacin entre estas dos variables sea estadstica y no funcional.

Regresin lineal simple

Ejemplo de relacin
estadstica
Sabemos que hay una relacin
entre la altura y el peso de las
personas: en general, cuanta
ms altura, ms peso. Pero
no existe ninguna frmula
matemtica que nos d una en
funcin de la otra, ya que esto
significara que todas las personas que tienen la misma altura
tendran el mismo peso, y eso
sabemos que no es cierto.

FUOC P03/75057/01013

2) Estadsticas (o estocsticas): cuando no existe una expresin matemtica


que las relacione de forma exacta.

En la relacin entre el peso y la altura es evidente que existen muchos factores,


como pueden ser factores genticos, la actividad fsica, la alimentacin, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relacin entre estas dos variables sea estadstica y no funcional.

3. Diagramas de dispersin y curvas de regresin

3. Diagramas de dispersin y curvas de regresin

A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra

A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra

de individuos, el primer paso en un anlisis de regresin es representar estos datos

de individuos, el primer paso en un anlisis de regresin es representar estos datos

sobre unos ejes coordenados x-y. Esta representacin es el llamado diagrama de dis-

sobre unos ejes coordenados x-y. Esta representacin es el llamado diagrama de dis-

persin. Nos puede ayudar mucho en la bsqueda de un modelo que describa la

persin. Nos puede ayudar mucho en la bsqueda de un modelo que describa la

relacin entre las dos variables.

relacin entre las dos variables.

El diagrama de dispersin se obtiene representando cada observacin


(xi, yi) como un punto en el plano cartesiano XY.

Terminologa
El diagrama de dispersin tambin se conoce como nube
de puntos.

El diagrama de dispersin se obtiene representando cada observacin


(xi, yi) como un punto en el plano cartesiano XY.

Ejemplo de diagramas de dispersin

Ejemplo de diagramas de dispersin

El diagrama de dispersin puede presentar formas diversas:

El diagrama de dispersin puede presentar formas diversas:

Regresin lineal simple

Ejemplo de relacin
estadstica
Sabemos que hay una relacin
entre la altura y el peso de las
personas: en general, cuanta
ms altura, ms peso. Pero
no existe ninguna frmula
matemtica que nos d una en
funcin de la otra, ya que esto
significara que todas las personas que tienen la misma altura
tendran el mismo peso, y eso
sabemos que no es cierto.

Terminologa
El diagrama de dispersin tambin se conoce como nube
de puntos.

FUOC P03/75057/01013

Regresin lineal simple

FUOC P03/75057/01013

Regresin lineal simple

En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que tenemos una relacin funcional entre las dos variables dada por la ecuacin
de la recta.

En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que tenemos una relacin funcional entre las dos variables dada por la ecuacin
de la recta.

En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No ser una relacin funcional, ya que los puntos no se sitan sobre una curva, pero s que es posible asegurar la existencia de una fuerte relacin
entre las dos variables. De todos modos, vemos que no se trata de una relacin lineal (la
nube de puntos tiene forma de parbola).

En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No ser una relacin funcional, ya que los puntos no se sitan sobre una curva, pero s que es posible asegurar la existencia de una fuerte relacin
entre las dos variables. De todos modos, vemos que no se trata de una relacin lineal (la
nube de puntos tiene forma de parbola).

En el caso (d) no tenemos ningn tipo de relacin entre las variables. La nube de puntos no presenta una forma tubular bien determinada; los puntos se encuentran absolutamente dispersos.

En el caso (d) no tenemos ningn tipo de relacin entre las variables. La nube de puntos no presenta una forma tubular bien determinada; los puntos se encuentran absolutamente dispersos.

En los casos (e) y (f) podemos observar que s existe algn tipo de relacin entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
estn sobre una lnea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relacin lineal. En el caso (f) observamos una relacin lineal con pendiente
positiva, pero no tan fuerte como la anterior.

En los casos (e) y (f) podemos observar que s existe algn tipo de relacin entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
estn sobre una lnea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relacin lineal. En el caso (f) observamos una relacin lineal con pendiente
positiva, pero no tan fuerte como la anterior.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el


individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el


individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Individuo

10

X altura (cm)

161

152

167

153

161

168

167

153

159

173

Y peso (kg)

63

56

77

49

72

62

68

48

57

67

Individuo

10

X altura (cm)

161

152

167

153

161

168

167

153

159

173

Y peso (kg)

63

56

77

49

72

62

68

48

57

67

Definicin y ejemplo
de valor atpico

El diagrama de dispersin tambin nos puede ayudar a encontrar algn valor


atpico entre los datos de la muestra que pueda tener su origen en una mala
observacin o en el hecho de ser una observacin correspondiente a un individuo excepcional dentro de la muestra. Cuando tenemos un valor atpico, debemos controlar las influencias que pueda tener en el anlisis.

Por valor atpico entendemos


un valor muy diferente de los
otros y que muy posiblemente
es errneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagrama de dispersin saldr como
un punto solitario alejado de
los otros.

Definicin y ejemplo
de valor atpico

El diagrama de dispersin tambin nos puede ayudar a encontrar algn valor


atpico entre los datos de la muestra que pueda tener su origen en una mala
observacin o en el hecho de ser una observacin correspondiente a un individuo excepcional dentro de la muestra. Cuando tenemos un valor atpico, debemos controlar las influencias que pueda tener en el anlisis.

Por valor atpico entendemos


un valor muy diferente de los
otros y que muy posiblemente
es errneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagrama de dispersin saldr como
un punto solitario alejado de
los otros.

FUOC P03/75057/01013

4. Recta de regresin

Regresin lineal simple

FUOC P03/75057/01013

4. Recta de regresin

Una vez que hemos hecho el diagrama de dispersin y despus de obser-

Una vez que hemos hecho el diagrama de dispersin y despus de obser-

var una posible relacin lineal entre las dos variables, nos proponemos

var una posible relacin lineal entre las dos variables, nos proponemos

encontrar la ecuacin de la recta que mejor se ajuste a la nube de puntos.

encontrar la ecuacin de la recta que mejor se ajuste a la nube de puntos.

Esta recta se denomina recta de regresin.

Esta recta se denomina recta de regresin.

4.1. Estimacin de los parmetros: mtodo de los mnimos


cuadrados

4.1. Estimacin de los parmetros: mtodo de los mnimos


cuadrados

Una recta queda bien determinada si el valor de su pendiente (b) y de su or-

Una recta queda bien determinada si el valor de su pendiente (b) y de su or-

denada en el origen (a) son conocidos. De esta manera la ecuacin de la recta

denada en el origen (a) son conocidos. De esta manera la ecuacin de la recta

viene dada por:

viene dada por:


y = a + bx

y = a + bx

A partir de la frmula anterior definimos para cada observacin (xi, yi) el error

A partir de la frmula anterior definimos para cada observacin (xi, yi) el error

o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:

o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:

yi (a + bxi)

yi (a + bxi)

Por cada recta que consideremos, tendremos una coleccin diferente de resi-

Por cada recta que consideremos, tendremos una coleccin diferente de resi-

duos. Buscaremos la recta que d lugar a los residuos ms pequeos en cuanto

duos. Buscaremos la recta que d lugar a los residuos ms pequeos en cuanto

a la suma de los cuadrados.

a la suma de los cuadrados.

Para determinar una recta de regresin, utilizaremos el mtodo de los mnimos

Para determinar una recta de regresin, utilizaremos el mtodo de los mnimos

cuadrados.

cuadrados.

El mtodo de los mnimos cuadrados consiste en buscar los valores de los

El mtodo de los mnimos cuadrados consiste en buscar los valores de los

parmetros a y b de manera que la suma de los cuadrados de los residuos

parmetros a y b de manera que la suma de los cuadrados de los residuos

sea mnima. Esta recta es la recta de regresin por mnimos cuadrados.

sea mnima. Esta recta es la recta de regresin por mnimos cuadrados.

Regresin lineal simple

FUOC P03/75057/01013

Siendo la suma de los cuadrados la expresin:


n

( y i a bxi )

i=1

Regresin lineal simple

Terminologa

FUOC P03/75057/01013

Siendo la suma de los cuadrados la expresin:


n

La suma de los cuadrados de


los residuos tambin se denomina suma de los errores cuadrticos.

( y i a bxi )

i=1

para encontrar los valores de a y b, slo hay que determinar las derivadas par-

para encontrar los valores de a y b, slo hay que determinar las derivadas par-

ciales con respecto a los parmetros a y b:

ciales con respecto a los parmetros a y b:


n

2

( y i a bx i ) = 2 ( y i a bx i )x i

b i
i=1
=1

La resolucin de este sistema de


ecuaciones se encuentra en el anexo
1 de esta sesin.

y las igualamos a cero. As obtenemos el sistema de ecuaciones siguiente, cono-

y las igualamos a cero. As obtenemos el sistema de ecuaciones siguiente, cono-

cido como sistema de ecuaciones normales:

cido como sistema de ecuaciones normales:

( y i a bx i ) = 0

i=1

( y i a bxi )xi = 0

i=1

Las soluciones de este sistema de ecuaciones son:

s xy
=1
- y a = y bx
b = ------2 = i-------------------------------------------n
2
sx
x

x
(
)
i
i=1

en las que:

... habra que probar que, efectivamente, estos valores de los


parmetros hacen mnima la
suma de los cuadrados de los
residuos.

i=1

s xy
=1
- y a = y bx
b = ------2 = i-------------------------------------------n
2
sx
x

x
(
)
i
i=1

en las que:

En rigor...
... habra que probar que, efectivamente, estos valores de los
parmetros hacen mnima la
suma de los cuadrados de los
residuos.

( xi x ) ( yi y )

i=1
s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi).
n1

( y i a bxi )xi = 0

( xi x )

= 0

i=1

( xi x ) ( yi y )

En rigor...

( xi x ) ( yi y )

( y i a bxi )

La resolucin de este sistema de


ecuaciones se encuentra en el anexo
1 de esta sesin.

Las soluciones de este sistema de ecuaciones son:

( xi x ) ( yi y )

La suma de los cuadrados de


los residuos tambin se denomina suma de los errores cuadrticos.

2

( y i a bx i ) = 2 ( y i a bx i )

a i
i=1
=1

2

( y i a bx i ) = 2 ( y i a bx i )x i

b i
i=1
=1

Terminologa

2

( y i a bx i ) = 2 ( y i a bx i )

a i
i=1
=1

Regresin lineal simple

i=1
s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi).
n1

i=1
2
s x = ----------------------------- es la varianza muestral de las observaciones xi.
n1

Es muy importante obsevar que, de todas las rectas, la recta de regresin lineal
por mnimos cuadrados es aquella que hace mnima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresin la escribiremos de la manera siguiente:
y = 0 + 1 x

( xi x )

Notacin
Hemos hecho un cambio en
la notacin para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresin por mnimos cuadrados:
y = 0 + 1 x
obtenida al determinar a y b.

i=1
2
s x = ----------------------------- es la varianza muestral de las observaciones xi.
n1

Es muy importante obsevar que, de todas las rectas, la recta de regresin lineal
por mnimos cuadrados es aquella que hace mnima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresin la escribiremos de la manera siguiente:
y = 0 + 1 x

Notacin
Hemos hecho un cambio en
la notacin para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresin por mnimos cuadrados:
y = 0 + 1 x
obtenida al determinar a y b.

10

FUOC P03/75057/01013

Regresin lineal simple

donde los parmetros de la recta 0 y 1 vienen dados por:


0 = y 1 x

10

FUOC P03/75057/01013

donde los parmetros de la recta 0 y 1 vienen dados por:

s xy
1 = ------2
sx

0 = y 1 x

s xy
1 = ------2
sx

De ahora en adelante, a los residuos calculados con la recta de regresin los

De ahora en adelante, a los residuos calculados con la recta de regresin los

llamaremos ei , es decir:

llamaremos ei , es decir:
e i = y i y i

e i = y i y i

donde y i es el valor estimado para la recta de regresin.

donde y i es el valor estimado para la recta de regresin.

5. Interpretacin de los parmetros de la recta de regresin

5. Interpretacin de los parmetros de la recta de regresin

Una vez determinada la recta de regresin, es muy importante interpretar los

Una vez determinada la recta de regresin, es muy importante interpretar los

parmetros de la ecuacin en el contexto del fenmeno que se estudia.

parmetros de la ecuacin en el contexto del fenmeno que se estudia.

Interpretacin de la ordenada en el origen, 0 :


Este parmetro representa la estimacin del valor de Y cuando X es igual a cero:
y = 0 + 1 0 = 0 .
No siempre tiene una interpretacin prctica. Para que sea posible, es preciso

Interpretacin de la ordenada en el origen, 0 :


0 en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la ordenada en el origen no tendr
sentido, ya que correspondera al peso que tendran las
personas de altura nula.

Este parmetro representa la estimacin del valor de Y cuando X es igual a cero:


y = 0 + 1 0 = 0 .
No siempre tiene una interpretacin prctica. Para que sea posible, es preciso

que:

que:

1. realmente sea posible que X tome el valor x = 0;

1. realmente sea posible que X tome el valor x = 0;

2. se tengan suficientes observaciones cercanas al valor x = 0.

2. se tengan suficientes observaciones cercanas al valor x = 0.

Interpretacin de la pendiente de la recta, 1


Este parmetro representa la estimacin del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parmetro nos informa de
cmo estn relacionadas las dos variables en el sentido de que nos indica en
qu cantidad (y si es positiva o negativa) varan los valores de Y cuando varan

Regresin lineal simple

Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersin habamos observado que, en general, aumenta
el peso de las personas a medida que aumenta su altura.

Interpretacin de la pendiente de la recta, 1


Este parmetro representa la estimacin del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parmetro nos informa de
cmo estn relacionadas las dos variables en el sentido de que nos indica en
qu cantidad (y si es positiva o negativa) varan los valores de Y cuando varan

los valores de la X en una unidad.

los valores de la X en una unidad.

6. Construccin de la tabla para determinar los parmetros

6. Construccin de la tabla para determinar los parmetros

Veamos ahora cmo debemos determinar, en la prctica, la recta de regresin.

Veamos ahora cmo debemos determinar, en la prctica, la recta de regresin.

Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.

Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresin, calculamos la covarianza muestral sxy, la varianza
2
muestral s x y las medias x y y .

Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresin, calculamos la covarianza muestral sxy, la varianza
2
muestral s x y las medias x y y .

0 en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la ordenada en el origen no tendr
sentido, ya que correspondera al peso que tendran las
personas de altura nula.

Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersin habamos observado que, en general, aumenta
el peso de las personas a medida que aumenta su altura.

11

FUOC P03/75057/01013

Regresin lineal simple

Podemos calcular todas estas cantidades a partir de la tabla de clculos de la recta de regresin.
i

xi

yi

x xi

y yi

( x xi )

161

63

0,4

1,1

152

56

9,4

167

77

153

49

161

11

FUOC P03/75057/01013

Regresin lineal simple

Podemos calcular todas estas cantidades a partir de la tabla de clculos de la recta de regresin.
2

( x xi ) ( y yi )

xi

yi

x xi

y yi

( x xi )

0,16

0,44

161

63

0,4

1,1

0,16

0,44

5,9

88,36

55,46

152

56

9,4

5,9

88,36

55,46

5,6

15,1

31,36

84,56

167

77

5,6

15,1

31,36

84,56

8,4

12,9

70,56

108,36

153

49

8,4

12,9

70,56

108,36

72

0,4

10,1

0,16

4,04

161

72

0,4

10,1

0,16

4,04

168

62

6,6

0,1

43,56

0,66

168

62

6,6

0,1

43,56

0,66

167

68

5,6

6,1

31,36

34,16

167

68

5,6

6,1

31,36

34,16

153

48

8,4

13,9

70,56

116,76

153

48

8,4

13,9

70,56

116,76

159

57

2,4

4,9

5,76

11,76

159

57

2,4

4,9

5,76

11,76

10

173

67

11,6

5,1

134,56

59,16

10

173

67

11,6

5,1

134,56

59,16

1614

619

476,40

466,40

1614

619

476,40

466,40

i=1

i=1

1
1
Medias muestrales: x = --- x i = 161,4 y y = --- y i = 61,9
n
n
n

( xi x )

i=1

i=1

( xi x )

2
=1
- = 476,40
------------------- = 52,933
Varianza muestral: s x = i---------------------------n1
10 1

( xi x ) ( yi y )

1
1
Medias muestrales: x = --- x i = 161,4 y y = --- y i = 61,9
n
n

2
=1
- = 476,40
------------------- = 52,933
Varianza muestral: s x = i---------------------------n1
10 1

( xi x ) ( yi y )

466,40
=1
- = ------------------- = 51,822
Covarianza muestral: s xy = i-------------------------------------------n1
10 1

466,40
=1
- = ------------------- = 51,822
Covarianza muestral: s xy = i-------------------------------------------n1
10 1

Los parmetros son:

Los parmetros son:


s xy
51,822
- = ------------------- = 0,979009
1 = -----2
52,933
sx

s xy
51,822
- = ------------------- = 0,979009
1 = -----2
52,933
sx

0 = y 1 x = 61,9 0,979009 161,4 = 96,1121

0 = y 1 x = 61,9 0,979009 161,4 = 96,1121

Tenemos la recta de regresin siguiente:


y = 96,1121 + 0,979009x

( x xi ) ( y yi )

Tenemos la recta de regresin siguiente:


y = 96,1121 + 0,979009x

Podemos representar la recta de regresin en el diagrama de dispersin:

Podemos representar la recta de regresin en el diagrama de dispersin:

Interpretamos los parmetros obtenidos:

Interpretamos los parmetros obtenidos:

Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una persona de altura cero es 96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretacin de este parmetro.

Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una persona de altura cero es 96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretacin de este parmetro.

12

FUOC P03/75057/01013

Regresin lineal simple

Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razn de 0,979 kg por cada centmetro.

12

FUOC P03/75057/01013

Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razn de 0,979 kg por cada centmetro.

7. Interpolacin y extrapolacin

7. Interpolacin y extrapolacin

Uno de los objetivos ms importantes de la regresin es la aplicacin del mo-

Uno de los objetivos ms importantes de la regresin es la aplicacin del mo-

delo para el pronstico del valor de la variable dependiente (Y) para un valor

delo para el pronstico del valor de la variable dependiente (Y) para un valor

de la variable independiente (X) no observado en la muestra.

de la variable independiente (X) no observado en la muestra.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

En nuestro problema de los pesos y las alturas podramos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresin:

En nuestro problema de los pesos y las alturas podramos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresin:

y = 96,1121 + 0,979009x

y = 96,1121 + 0,979009x

para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:

para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:

y = 96,1121 + 0,979009 160 = 60,53

y = 96,1121 + 0,979009 160 = 60,53

Extrapolacin fuera
de rango

Un aspecto importante a la hora de aplicar el modelo de regresin obtenido es


el riesgo de la extrapolacin. Es decir, cuando queremos conocer el valor que
presentar la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:

1) Hemos determinado el modelo con la informacin contenida en la muestra, de manera que no hemos tenido ninguna informacin del comportamiento de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolacin que queremos hacer. Antes de utilizar el modelo de regresin, debemos preguntarnos por lo que estamos haciendo.

Regresin lineal simple

Si queremos saber el peso de


un beb que slo mide cuarenta centmetros, no podremos
utilizar la recta de regresin
obtenida. Las caractersticas
biolgicas del beb, muy diferentes de las que presentan las
personas adultas, harn que la
relacin entre el peso y la altura sea diferente. Deberamos
efectuar un anlisis de regresin a partir de una muestra
de bebs.

Sentido
de la extrapolacin
No tiene ningn sentido utilizar el modelo de regresin
para calcular el peso de personas de diez centmetros o tres
metros de altura. El modelo
nos dar un resultado numrico que, en todo caso, hay que
interpretar.

Extrapolacin fuera
de rango

Un aspecto importante a la hora de aplicar el modelo de regresin obtenido es


el riesgo de la extrapolacin. Es decir, cuando queremos conocer el valor que
presentar la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:

1) Hemos determinado el modelo con la informacin contenida en la muestra, de manera que no hemos tenido ninguna informacin del comportamiento de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolacin que queremos hacer. Antes de utilizar el modelo de regresin, debemos preguntarnos por lo que estamos haciendo.

Si queremos saber el peso de


un beb que slo mide cuarenta centmetros, no podremos
utilizar la recta de regresin
obtenida. Las caractersticas
biolgicas del beb, muy diferentes de las que presentan las
personas adultas, harn que la
relacin entre el peso y la altura sea diferente. Deberamos
efectuar un anlisis de regresin a partir de una muestra
de bebs.

Sentido
de la extrapolacin
No tiene ningn sentido utilizar el modelo de regresin
para calcular el peso de personas de diez centmetros o tres
metros de altura. El modelo
nos dar un resultado numrico que, en todo caso, hay que
interpretar.

13

FUOC P03/75057/01013

Regresin lineal simple

8. Modelos de regresin no lineales

13

FUOC P03/75057/01013

Regresin lineal simple

8. Modelos de regresin no lineales

Aparte de los modelos lineales, se pueden establecer otros, entre los cuales destaca el exponencial.

Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuacin:
y = a + bx
En el modelo exponencial queremos ajustar a los puntos una
curva de ecuacin:
y = kax con a > 0 y k > 0

El modelo exponencial es del tipo:


y = kax con a > 0, k > 0
donde k y a son valores constantes.

As, puesto que en el caso lineal es muy fcil ver si puede haber una relacin
lineal entre las variables a partir del diagrama de dispersin, en el caso exponencial es un poco ms difcil.

Para tratarlo, linealizamos el problema, es decir, transformamos las variables


x

de manera que el problema se convierta en lineal. Si en la ecuacin y = ka tomamos logaritmos ln y = ln(kax), obtenemos, por aplicacin de las propieda-

Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la poblacin, el nmero
de ordenadores infectados por
un virus en los primeros das de
contaminacin, los precios de
algunos productos, etc., son
exponenciales.

des de los logaritmos:

Aparte de los modelos lineales, se pueden establecer otros, entre los cuales destaca el exponencial.

Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuacin:
y = a + bx
En el modelo exponencial queremos ajustar a los puntos una
curva de ecuacin:
y = kax con a > 0 y k > 0

El modelo exponencial es del tipo:


y = kax con a > 0, k > 0
donde k y a son valores constantes.

As, puesto que en el caso lineal es muy fcil ver si puede haber una relacin
lineal entre las variables a partir del diagrama de dispersin, en el caso exponencial es un poco ms difcil.

Para tratarlo, linealizamos el problema, es decir, transformamos las variables


de manera que el problema se convierta en lineal. Si en la ecuacin y = kax tomamos logaritmos ln y = ln(kax), obtenemos, por aplicacin de las propieda-

Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la poblacin, el nmero
de ordenadores infectados por
un virus en los primeros das de
contaminacin, los precios de
algunos productos, etc., son
exponenciales.

des de los logaritmos:

ln y = ln k + x ln a

ln y = ln k + x ln a

Propiedades
de los logaritmos

Esta ltima ecuacin nos muestra un modelo lineal entre las variables X y ln Y.
As, si representamos el diagrama de dispersin de los puntos (xi, ln yi) y la nube

ln ab = ln a + ln b
ln ax = x ln a

Propiedades
de los logaritmos

Esta ltima ecuacin nos muestra un modelo lineal entre las variables X y ln Y.
As, si representamos el diagrama de dispersin de los puntos (xi, ln yi) y la nube

de puntos presenta una estructura lineal, podemos pensar que entre las varia-

de puntos presenta una estructura lineal, podemos pensar que entre las varia-

bles X e Y hay una relacin exponencial.

bles X e Y hay una relacin exponencial.

Ejemplo de la propagacin de un virus informtico

Ejemplo de la propagacin de un virus informtico

La tabla registra el nmero de das que han transcurrido desde que se ha detectado un
nuevo virus informtico y el nmero de ordenadores infectados en un pas.

La tabla registra el nmero de das que han transcurrido desde que se ha detectado un
nuevo virus informtico y el nmero de ordenadores infectados en un pas.

Nmero de
das

Nmero de ordenadores
infectados

Nmero de
das

Nmero de ordenadores
infectados

xi

yi

xi

yi

255

5,5413

255

5,5413

1.500

7,3132

1.500

7,3132

2.105

7,6521

2.105

7,6521

5.050

8,5271

5.050

8,5271

16.300

9,6989

16.300

9,6989

10

45.320

10,7215

10

45.320

10,7215

11

58.570

10,9780

11

58.570

10,9780

14

375.800

12,8368

14

375.800

12,8368

16

1.525.640

14,2379

16

1.525.640

14,2379

20

2.577.000

14,7621

20

2.577.000

14,7621

Transformacin de Y
ln yi

Transformacin de Y
ln yi

ln ab = ln a + ln b
ln ax = x ln a

14

FUOC P03/75057/01013

Regresin lineal simple

14

FUOC P03/75057/01013

El diagrama de dispersin de los puntos siguientes nos hace pensar en la existencia de


algn tipo de relacin entre las variables que no es lineal. Estudiaremos si se trata de una
relacin exponencial.

El diagrama de dispersin de los puntos siguientes nos hace pensar en la existencia de


algn tipo de relacin entre las variables que no es lineal. Estudiaremos si se trata de una
relacin exponencial.

Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dispersin correspondiente.

Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dispersin correspondiente.

Podemos observar que entre las variables X y ln Y existe una relacin lineal; por tanto,
entre las variables originales X e Y habr una relacin exponencial.

Podemos observar que entre las variables X y ln Y existe una relacin lineal; por tanto,
entre las variables originales X e Y habr una relacin exponencial.

Si calculamos la recta de regresin de ln y sobre x: ln y = 0 + 1 x

Si calculamos la recta de regresin de ln y sobre x: ln y = 0 + 1 x

5,84 + 0,482x
Obtenemos: ln y = 5,84 + 0,482x , es decir, y = e

5,84 + 0,482x
Obtenemos: ln y = 5,84 + 0,482x , es decir, y = e

De manera que, si queremos estimar el nmero de ordenadores infectados al cabo de


doce das, haremos lo siguiente:

De manera que, si queremos estimar el nmero de ordenadores infectados al cabo de


doce das, haremos lo siguiente:

Para x = 12: ln y = 5,84 + 0,482 12 = 11,624

Para x = 12: ln y = 5,84 + 0,482 12 = 11,624

Y tomando exponenciales, podemos aislar y :

Y tomando exponenciales, podemos aislar y :

y = exp(11,624) = 111.747,8195

y = exp(11,624) = 111.747,8195

Por tanto, al cabo de doce das el nmero estimado de ordenadores infectados ha sido de
111.748 unidades.

Por tanto, al cabo de doce das el nmero estimado de ordenadores infectados ha sido de
111.748 unidades.

9. Resumen

9. Resumen

En esta primera sesin hemos introducido los conceptos de relaciones funcio-

En esta primera sesin hemos introducido los conceptos de relaciones funcio-

nales y estadsticas, as como el de variables dependientes (o explicadas) y el de

nales y estadsticas, as como el de variables dependientes (o explicadas) y el de

variables independientes (o explicativas). A continuacin se ha comentado la

variables independientes (o explicativas). A continuacin se ha comentado la

construccin de un diagrama de dispersin como paso inicial a la hora de bus-

construccin de un diagrama de dispersin como paso inicial a la hora de bus-

Regresin lineal simple

FUOC P03/75057/01013

15

Regresin lineal simple

FUOC P03/75057/01013

15

car algn tipo de relacin entre dos variables. Si el diagrama nos muestra una

car algn tipo de relacin entre dos variables. Si el diagrama nos muestra una

estructura lineal, entonces buscamos la lnea recta que mejor se ajusta a nues-

estructura lineal, entonces buscamos la lnea recta que mejor se ajusta a nues-

tras observaciones. Lo hacemos mediante el mtodo de los mnimos cuadrados.

tras observaciones. Lo hacemos mediante el mtodo de los mnimos cuadrados.

Hemos puesto de manifesto la importancia de interpretar correctamente los pa-

Hemos puesto de manifesto la importancia de interpretar correctamente los pa-

rmetros de la recta. Tambin hemos visto cmo debemos utilizar la recta de re-

rmetros de la recta. Tambin hemos visto cmo debemos utilizar la recta de re-

gresin para hacer interpolaciones. Finalmente, hemos comentado una relacin

gresin para hacer interpolaciones. Finalmente, hemos comentado una relacin

no lineal tan importante como la relacin exponencial y la manera en que po-

no lineal tan importante como la relacin exponencial y la manera en que po-

demos transformarla en una lineal.

demos transformarla en una lineal.

Regresin lineal simple

16

FUOC P03/75057/01013

Regresin lineal simple

16

FUOC P03/75057/01013

Regresin lineal simple

Ejercicios

Ejercicios

1.

1.

El departamento de personal de una empresa informtica dedicada a la intro-

El departamento de personal de una empresa informtica dedicada a la intro-

duccin de datos ha llevado a cabo un programa de formacin inicial del per-

duccin de datos ha llevado a cabo un programa de formacin inicial del per-

sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)

sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)

obtenido en mecanografa de ocho estudiantes que siguieron el programa y el

obtenido en mecanografa de ocho estudiantes que siguieron el programa y el

nmero de semanas que hace que lo siguen:

nmero de semanas que hace que lo siguen:

Nmero de semanas

Ganancia de velocidad (p.p.m.)

Nmero de semanas

Ganancia de velocidad (p.p.m.)

87

87

119

119

47

47

195

195

162

162

234

234

72

72

110

110

a) Representad el diagrama de dispersin. Creis que es razonable suponer

a) Representad el diagrama de dispersin. Creis que es razonable suponer

que existe una relacin lineal entre el nmero de semanas y la ganancia de ve-

que existe una relacin lineal entre el nmero de semanas y la ganancia de ve-

locidad?

locidad?

b) Buscad la recta de regresin. Interpretad los parmetros obtenidos.

b) Buscad la recta de regresin. Interpretad los parmetros obtenidos.

c) Qu ganancia de velocidad podemos esperar de una persona que hace sie-

c) Qu ganancia de velocidad podemos esperar de una persona que hace sie-

te semanas que va a clase?

te semanas que va a clase?

2.

2.

Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco ms caro

Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco ms caro

que los anteriores, pero con unas prestaciones muy superiores, de manera que la

que los anteriores, pero con unas prestaciones muy superiores, de manera que la

labor de los tcnicos de los grandes centros comerciales es muy importante a la

labor de los tcnicos de los grandes centros comerciales es muy importante a la

hora de presentar este producto al cliente. Con el objetivo de saber si el nmero

hora de presentar este producto al cliente. Con el objetivo de saber si el nmero

de tcnicos comerciales presentes en una tienda (X) puede tener alguna inciden-

de tcnicos comerciales presentes en una tienda (X) puede tener alguna inciden-

cia en el nmero de aparatos vendidos durante una semana (Y), se observaron

cia en el nmero de aparatos vendidos durante una semana (Y), se observaron

quince centros comerciales con los resultados que se muestran a continuacin:

quince centros comerciales con los resultados que se muestran a continuacin:

15

xi

i=1

= 215 ;

15

xi

= 3.567 ;

i=1

15

yi

i=1

= 1.700 ;

15

xi yi

= 28.300

i=1

15

xi

i=1

= 215 ;

15

xi

= 3.567 ;

i=1

15

yi

i=1

= 1.700 ;

15

xi yi

= 28.300

i=1

a) Buscad la recta de regresin.

a) Buscad la recta de regresin.

b) Cul es el nmero de aparatos que se puede estimar que se vendern en un

b) Cul es el nmero de aparatos que se puede estimar que se vendern en un

centro con diecisiete comerciales?

centro con diecisiete comerciales?

17

FUOC P03/75057/01013

Regresin lineal simple

17

FUOC P03/75057/01013

Regresin lineal simple

Solucionario

Solucionario

1.

1.

Diagrama de dispersin:

Diagrama de dispersin:

El diagrama de dispersin nos muestra que la relacin entre las dos variables

El diagrama de dispersin nos muestra que la relacin entre las dos variables

es lineal con pendiente positiva, de manera que cuantas ms semanas pasan,

es lineal con pendiente positiva, de manera que cuantas ms semanas pasan,

mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-

mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-

gresin. A partir de la tabla de clculos siguiente:

gresin. A partir de la tabla de clculos siguiente:

y yi

( x xi )

xi

yi

x xi

87

41,25

119

9,25

47

195

( x xi ) ( y y i)

( x xi ) ( y y i)

xi

yi

x xi

82,5

87

41,25

82,5

119

9,25

81,25

243,75

47

81,25

243,75

66,75

200,25

195

66,75

200,25

162

33,75

33,75

162

33,75

33,75

234

105,75

16

423

234

105,75

16

423

72

56,25

112,5

72

56,25

112,5

110

18,25

18,25

110

18,25

18,25

40

1.026

1.114,00

40

1.026

44,00

n
40
1
Medias muestrales: x = --- x i = ------ = 5,0 y
8
ni = 1

n
1.206
1
y = --- y i = --------------- = 128,250
8
ni = 1

( xi x )

44,00
2
i=1
- = --------------- = 6,286
Varianza muestral: s x = ---------------------------n1
7
n

( xi x )( yi y )

1.114,00
=1
- = ------------------------ = 159,143
Covarianza muestral: s xy = i-------------------------------------------n1
7

y yi

( x xi )

44,00

1.114,00

n
40
1
Medias muestrales: x = --- x i = ------ = 5,0 y
8
ni = 1

n
1.206
1
y = --- y i = --------------- = 128,250
8
ni = 1

( xi x )

44,00
2
=1
- = --------------- = 6,286
Varianza muestral: s x = i---------------------------n1
7
n

( xi x )( yi y )

1.114,00
=1
- = ------------------------ = 159,143
Covarianza muestral: s xy = i-------------------------------------------n1
7

18

FUOC P03/75057/01013

Regresin lineal simple

18

FUOC P03/75057/01013

Ya podemos calcular los coeficientes de la recta de regresin:

Ya podemos calcular los coeficientes de la recta de regresin:

s xy
159,143
1 = ------2 = ---------------------- = 25,318 y
6,286
sx

s xy
159,143
1 = ------2 = ---------------------- = 25,318 y
6,286
sx

0 = y 1 x = 128,250 25,318 5 = 1,659

0 = y 1 x = 128,250 25,318 5 = 1,659

La recta de regresin obtenida es:

La recta de regresin obtenida es:

y = 0 + 1 x = 1,659 + 25,318x

y = 0 + 1 x = 1,659 + 25,318x

En este caso la ordenada en el origen no tiene ninguna interpretacin con sen-

En este caso la ordenada en el origen no tiene ninguna interpretacin con sen-

tido, ya que correspondera a la ganancia de velocidad por cero semanas de cla-

tido, ya que correspondera a la ganancia de velocidad por cero semanas de cla-

ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una

ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una

ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta s que nos da una

ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta s que nos da una

informacin til: por cada semana de clase se tiene una ganancia de velocidad

informacin til: por cada semana de clase se tiene una ganancia de velocidad

de aproximadamente 25 p.p.m.

de aproximadamente 25 p.p.m.

Para una persona que hace siete semanas que va a clase, podemos calcular la

Para una persona que hace siete semanas que va a clase, podemos calcular la

ganancia de velocidad a partir de la recta de regresin, considerando x = 7:

ganancia de velocidad a partir de la recta de regresin, considerando x = 7:

y = 1,659 + 25,318 7 = 178,885

y = 1,659 + 25,318 7 = 178,885

Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.

Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.

2.

2.

a) Para encontrar la recta de regresin, antes tenemos que encontrar las me-

a) Para encontrar la recta de regresin, antes tenemos que encontrar las me-

dias y covarianzas muestrales de las variables X e Y, as como la varianza mues-

dias y covarianzas muestrales de las variables X e Y, as como la varianza mues-

tral de X. A partir de los datos que nos da el enunciado:

tral de X. A partir de los datos que nos da el enunciado:

n
215
1
Medias muestrales: x = --- x i = ---------- = 14,333
15
ni = 1

n
215
1
Medias muestrales: x = --- x i = ---------- = 14,333
15
ni = 1

n
1.700
1
y = --- y i = --------------- = 113,333
15
ni = 1

n
1.700
1
y = --- y i = --------------- = 113,333
15
ni = 1

Regresin lineal simple

19

FUOC P03/75057/01013

Regresin lineal simple

Varianza muestral:

19

FUOC P03/75057/01013

Varianza muestral:

Para calcular la varianza muestral a partir de los datos del enunciado, utilizaremos la expresin equivalente:

La deduccin de esta frmula


se muestra en el anexo 2
de esta sesin.

Para calcular la varianza muestral a partir de los datos del enunciado, utilizaremos la expresin equivalente:

n x 2 nx 2
i
i
=1
2
s x = -----------------------------------n1

La deduccin de esta frmula


se muestra en el anexo 2
de esta sesin.

n x 2 nx 2
i
i
=1
2
s x = -----------------------------------n1

De manera que:

De manera que:

n x 2 nx 2
i
2
i
3.567 15 14,333
=1
2
s x = ------------------------------------ = ------------------------------------------------------ = 34,667
n1
14

n x 2 nx 2
i
2
i
3.567 15 14,333
=1
2
s x = ------------------------------------ = ------------------------------------------------------ = 34,667
n1
14

Covarianza muestral:

Covarianza muestral:

Tambin ahora utilizaremos una nueva expresin para calcular la covarianza


muestral:

s xy

La deduccin de esta frmula


se muestra en el anexo 3 de esta
sesin.

Tambin ahora utilizaremos una nueva expresin para calcular la covarianza


muestral:

n x y nxy
i i
i
=1
= --------------------------------------n1

De manera que:

s xy

Regresin lineal simple

s xy

n x y nxy
i i
i
=1
= --------------------------------------n1

De manera que:

n x y nxy
i i
i
=1
28.300 15 14,333 113,333
-------------------------------------- = ---------------------------------------------------------------------------------- = 280,952
=
n1
14

s xy

n x y nxy
i i
i
=1
28.300 15 14,333 113,333
-------------------------------------- = ---------------------------------------------------------------------------------- = 280,952
=
n1
14

Los parmetros de la recta de regresin son:

Los parmetros de la recta de regresin son:

s xy
280,952
1 = ------2 = ---------------------- = 8,104
34,667
sx

s xy
280,952
1 = ------2 = ---------------------- = 8,104
34,667
sx

0 = y 1 x = 113,333 8,104 14,333 = 2 ,829

0 = y 1 x = 113,333 8,104 14,333 = 2 ,829

La recta de regresin obtenida es:

La recta de regresin obtenida es:

y = 0 + 1 x = 2 ,829 + 8,104x

y = 0 + 1 x = 2 ,829 + 8,104x

b) Para un centro con diecisiete comerciales, podemos estimar las ventas de

b) Para un centro con diecisiete comerciales, podemos estimar las ventas de

aparatos de DVD mediante la recta de regresin obtenida:

aparatos de DVD mediante la recta de regresin obtenida:

y = 0 + 1 x = 2 ,829 + 8,104 17 = 134,939

y = 0 + 1 x = 2 ,829 + 8,104 17 = 134,939

Por tanto, en un centro con diecisiete comerciales se habrn vendido aproxi-

Por tanto, en un centro con diecisiete comerciales se habrn vendido aproxi-

madamente unos 135 aparatos.

madamente unos 135 aparatos.

La deduccin de esta frmula


se muestra en el anexo 3 de esta
sesin.

20

FUOC P03/75057/01013

Regresin lineal simple

20

FUOC P03/75057/01013

Anexos

Anexos

Anexo 1

Anexo 1

Resolucin del sistema de ecuaciones normales:

Resolucin del sistema de ecuaciones normales:

( yi 0 1 xi ) = 0

i=1
n

( y i 0 1 xi )xi = 0

i=1

A partir de la primera ecuacin del sistema:


n

yi 0 1 xi

i=1

i=1

( yi 0 1 xi ) = 0

i=1
n

( y i 0 1 xi )xi = 0

i=1

A partir de la primera ecuacin del sistema:

yi 0 1 xi

i=1

Regresin lineal simple

yi 0 1 xi

= ny n 0 n 1 x = 0

i=1

i=1

i=1

i=1

i=1

yi 0 1 xi

= ny n 0 n 1 x = 0

Dividiendo por n: y = 0 + 1 x y aislando la 0 : 0 = y 1 x

Dividiendo por n: y = 0 + 1 x y aislando la 0 : 0 = y 1 x

De la segunda ecuacin del sistema:

De la segunda ecuacin del sistema:

( y i 0 1 xi )xi

i=1

i=1

x i yi 0 xi 1 xi

i=1

i=1

i=1

i=1

x i y i n0 x 1 xi

( y i 0 1 xi )xi

= 0

i=1

i=1

x i y i = n 0 x + 1 x i , pero tenemos en cuenta que: 0 = y 1 x

entonces

i=1

i=1

x i yi

i=1

= n ( y 1 x )x + 1 x i = nxy 1 nx + 1 x i
i=1

i=1

i=1

i=1

i=1

i=1

x i y i n0 x 1 xi

= 0

x i y i = n 0 x + 1 x i , pero tenemos en cuenta que: 0 = y 1 x

entonces

i=1

i=1

x i yi

i=1

Aislando 1 :

x i yi 0 xi 1 xi

= n ( y 1 x )x + 1 x i = nxy 1 nx + 1 x i
i=1

i=1

Aislando 1 :
n

x i y i nxy

x i y i nxy

=1
1 = i--------------------------------n
2
2
xi nx

=1
1 = i--------------------------------n
2
2
xi nx

podemos dar una expresin equivalente a partir de la definicin de varianza

podemos dar una expresin equivalente a partir de la definicin de varianza

muestral:

muestral:

i=1

i=1

( xi x )
2
i=1
---------------------------sx =
n1
2

sx ( n 1 ) =

( xi x )

i=1

( xi

i=1

2x i x + x ) =

( xi x )

2
=1
s x = i---------------------------n1

xi

i=1

2nx + nx =

xi

i=1

nx

sx ( n 1 ) =

( xi x )

i=1

( xi

i=1

2x i x + x ) =

xi

i=1

2nx + nx =

xi

i=1

nx

21

FUOC P03/75057/01013

Regresin lineal simple

y de la definicin de covarianza muestral:

21

FUOC P03/75057/01013

y de la definicin de covarianza muestral:

( xi x ) ( yi y )

( xi x ) ( yi y )

=1
s xy = i-------------------------------------------n1

=1
s xy = i-------------------------------------------n1

i=1

i=1

i=1

i=1

( xi x ) ( y i y ) = xi y i x yi y x i + nxy =

s xy ( n 1 ) =

xi y i nxy nyx + nxy

Regresin lineal simple

i=1

i=1

i=1

i=1

( xi x ) ( y i y ) = xi y i x y i y x i + nxy =

s xy ( n 1 ) =

xi y i nxy

i=1

xi y i nxy nyx + nxy

i=1

xi y i nxy

i=1

i=1

Teniendo en cuenta la varianza y la covarianza, podemos expresar los parme-

Teniendo en cuenta la varianza y la covarianza, podemos expresar los parme-

tros de la recta de regresin de la manera siguiente:

tros de la recta de regresin de la manera siguiente:

s xy
1 = ------2
sx

s xy
1 = ------2
sx

0 = y 1 x

0 = y 1 x

Anexo 2

Anexo 2

Varianza muestral:

Varianza muestral:

Podemos deducir a partir de la frmula de su definicin:

Podemos deducir a partir de la frmula de su definicin:

2
sx

( xi x )

2
2
sx

i=1
= ---------------------------n1

una expresin equivalente desarrollando el cuadrado del numerador:


n

( xi x )

i=1

i=1

( xi

2x i x + x ) =

i=1

i=1

x i 2x x i + n ( x ) =
i=1

xi

i=1

2xx i + ( x )

i=1

De manera que:

( xi x )

i=1

i=1

i=1

=1
= i---------------------------n1

una expresin equivalente desarrollando el cuadrado del numerador:

2
2
2
2
x i 2xnx + n ( x ) = x i n ( x )

( xi x )

i=1

( xi

2x i x + x ) =

i=1

i=1

x i 2x x i + n ( x ) =
i=1

xi

i=1

n x 2 n ( x ) 2
i
i
=1
2
s x = --------------------------------------n1

Anexo 3

Anexo 3

Covarianza muestral:

Covarianza muestral:

A partir de la definicin de la covarianza:

A partir de la definicin de la covarianza:

( xi x ) ( yi y )

=1
s xy = i-------------------------------------------n1

i=1

i=1

2
2
2
2
x i 2xnx + n ( x ) = x i n ( x )

De manera que:
n x 2 n ( x ) 2
i
i
=1
2
s x = --------------------------------------n1

2xx i + ( x )

( xi x ) ( yi y )

=1
s xy = i-------------------------------------------n1

i=1

22

FUOC P03/75057/01013

Regresin lineal simple

si desarrollamos el producto del sumatorio del numerador:


n

( xi x )( yi y )

( xi y i xi y xy i + xy )

i=1

i=1
n

i=1

i=1

i=1

i=1

i=1

i=1

( xi x )( yi y )

( xi y i xi y xy i + xy )

i=1

= x i y i nxy

De manera que:

i=1

i=1
n

i=1

i=1

i=1

i=1

i=1

i=1

i=1

xi y i xi y xyi + xy

xi y i y x i x y i + xyn

s xy

s xy

= x i y i nxy

De manera que:

n x y nxy
i i
i
=1
= --------------------------------------n1

Regresin lineal simple

si desarrollamos el producto del sumatorio del numerador:

xi y i xi y xyi + xy

xi y i y x i x y i + xyn

i=1

22

FUOC P03/75057/01013

n x y nxy
i i
i
=1
= --------------------------------------n1

i=1

23

FUOC P03/75057/01013

Regresin lineal simple

23

FUOC P03/75057/01013

La calidad del ajuste

La calidad del ajuste

1. Introduccin

1. Introduccin

La recta de regresin por mnimos cuadrados minimiza la suma de los cuadra-

La recta de regresin por mnimos cuadrados minimiza la suma de los cuadra-

dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.

dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.

Mirando si en el diagrama de dispersin los puntos experimentales quedan

Mirando si en el diagrama de dispersin los puntos experimentales quedan

muy cerca de la recta de regresin obtenida, podemos tener una idea de si la

muy cerca de la recta de regresin obtenida, podemos tener una idea de si la

recta se ajusta o no a los datos, pero nos hace falta un valor numrico que nos

recta se ajusta o no a los datos, pero nos hace falta un valor numrico que nos

ayude a precisarlo.

ayude a precisarlo.

2. El coeficiente de determinacin, R2

2. El coeficiente de determinacin, R2

Queremos evaluar en qu grado el modelo de regresin lineal que hemos en-

Queremos evaluar en qu grado el modelo de regresin lineal que hemos en-

contrado a partir de un conjunto de observaciones explica las variaciones que

contrado a partir de un conjunto de observaciones explica las variaciones que

se producen en la variable dependiente de stas.

se producen en la variable dependiente de stas.

La medida ms importante de la bondad del ajuste es el coeficiente de


determinacin

R2.

Este coeficiente nos indica el grado de ajuste de la

recta de regresin a los valores de la muestra, y se define como la proporcin de varianza explicada por la recta de regresin, es decir:
Varianza explicada por la recta de regresin
2
R = ------------------------------------------------------------------------------------------------------------------------Varianza total de los datos

La medida ms importante de la bondad del ajuste es el coeficiente de


Notacin
La varianza explicada por la
recta de regresin es la varianza de los valores estimados y i .
La varianza total de los datos es
la varianza de los valores observados yi.

determinacin R2. Este coeficiente nos indica el grado de ajuste de la


recta de regresin a los valores de la muestra, y se define como la proporcin de varianza explicada por la recta de regresin, es decir:
Varianza explicada por la recta de regresin
2
R = ------------------------------------------------------------------------------------------------------------------------Varianza total de los datos

Buscaremos una expresin que nos permita calcular el coeficiente de determi-

Buscaremos una expresin que nos permita calcular el coeficiente de determi-

nacin. Veremos que la varianza de las observaciones se puede descomponer en

nacin. Veremos que la varianza de las observaciones se puede descomponer en

dos trminos: la varianza que queda explicada por el modelo de regresin lineal

dos trminos: la varianza que queda explicada por el modelo de regresin lineal

y una varianza debida a los residuos.

y una varianza debida a los residuos.

A partir de la definicin de residuos (ei) de la regresin como la diferencia entre


los valores observados (yi) y los valores estimados ( y i ) por la recta de regresin:
ei = yi y i ,
podemos escribir:

Regresin lineal simple

Notacin

A partir de la definicin de residuos (ei) de la regresin como la diferencia entre


los valores observados (yi) y los valores estimados ( y i ) por la recta de regresin:

Llamaremos indistintamente
valores estimados o valores predichos ( y i ) a los obtenidos mediante la recta de regresin.

ei = yi y i ,
podemos escribir:

yi = y i + ei.

yi = y i + ei.

Si ahora restamos a los dos miembros de esta igualdad la media de las obser-

Si ahora restamos a los dos miembros de esta igualdad la media de las obser-

vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con

vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con

Notacin
La varianza explicada por la
recta de regresin es la varianza de los valores estimados y i .
La varianza total de los datos es
la varianza de los valores observados yi.

Notacin
Llamaremos indistintamente
valores estimados o valores predichos ( y i ) a los obtenidos mediante la recta de regresin.

24

FUOC P03/75057/01013

Regresin lineal simple

24

FUOC P03/75057/01013

respecto a la media de las observaciones con las desviaciones con respecto a la

respecto a la media de las observaciones con las desviaciones con respecto a la

media de los valores estimados.

media de los valores estimados.

y i y = ( y i y ) + e i

y i y = ( y i y ) + e i

Representaremos grficamente las desviaciones con respecto a la media, las ob-

Representaremos grficamente las desviaciones con respecto a la media, las ob-

servaciones y los valores estimados con la recta de regresin.

servaciones y los valores estimados con la recta de regresin.

Observacin

Observacin

La recta de regresin pasa


por ( x , y ).

Elevando al cuadrado y sumando todos los valores, se puede demostrar que:


n

( yi y )

i=1

( y i y )

i=1

ei

Esta deduccin matemtica se


encuentra desarrollada en el anexo 1
de esta sesin.

La recta de regresin pasa


por ( x , y ).

Elevando al cuadrado y sumando todos los valores, se puede demostrar que:


n

( yi y )

i=1

i=1

( y i y )

i=1

ei

i=1

Dando nombres a estas cantidades, podemos escribir de una manera ms com-

Dando nombres a estas cantidades, podemos escribir de una manera ms com-

pacta esta expresin:

pacta esta expresin:

( yi y )

= SCT

Suma de cuadrados totales

i=1
n

Suma de cuadrados de la regresin

i=1
n

ei

( yi y )

= SCT

Suma de cuadrados totales

= SCR

Suma de cuadrados de la regresin

i=1

( y i y ) = SCR

( y i y )

i=1

= SCE

Suma de cuadrados de los errores

i=1

ei

= SCE

Suma de cuadrados de los errores

i=1

As, tenemos que:

As, tenemos que:


SCT = SCR + SCE

Regresin lineal simple

SCT = SCR + SCE

Esta deduccin matemtica se


encuentra desarrollada en el anexo 1
de esta sesin.

25

FUOC P03/75057/01013

Regresin lineal simple

25

FUOC P03/75057/01013

Regresin lineal simple

Podemos interpretar esta ltima expresin en el sentido de que la varianza total

Podemos interpretar esta ltima expresin en el sentido de que la varianza total

observada (SCT) en la variable Y se descompone en dos trminos: la varianza

observada (SCT) en la variable Y se descompone en dos trminos: la varianza

explicada por el modelo de regresin lineal (SCR) ms la varianza que no que-

explicada por el modelo de regresin lineal (SCR) ms la varianza que no que-

da explicada por el modelo, es decir, la varianza de los residuos (SCE).

da explicada por el modelo, es decir, la varianza de los residuos (SCE).

Entonces podemos escribir la definicin del coeficiente de determina-

Entonces podemos escribir la definicin del coeficiente de determina-

cin de esta manera:

cin de esta manera:

( y i y )

( y i y )

SCR
2
=1
R = ----------- = i---------------------------n
SCT
2
( yi y )

SCR
2
=1
R = ----------- = i---------------------------n
SCT
2
( yi y )

i=1

i=1

o tambin,

o tambin,
n

ei

ei

SCE
i=1
R = 1 ----------- = 1 ---------------------------.
n
SCT
2
( yi y )

SCE
i=1
R = 1 ----------- = 1 ---------------------------.
n
SCT
2
( yi y )

Observando estas expresiones, es fcil apreciar las caractersticas de este coefi-

Observando estas expresiones, es fcil apreciar las caractersticas de este coefi-

i=1

i=1

ciente. Siempre ser: 0 R 1 , de manera que:

ciente. Siempre ser: 0 R 1 , de manera que:

R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se encuentran sobre la recta de regresin. En este caso los residuos son cero y la
suma de sus cuadrados tambin y, por tanto, SCR = SCT.
R2 = 0 denota la inexistencia de relacin entre las variables X e Y. En este caso
la suma de residuos es mxima y tenemos que SCE = SCT.
Puesto que R2 nos explica la proporcin de variabilidad de los datos que que-

Observacin
Un coeficiente de determinacin diferente de cero no significa que haya relacin lineal
entre las variables. Por ejemplo, R2 = 0,5 slo nos dice que
el 50% de la varianza de las
observaciones queda explicado por el modelo lineal.

R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se encuentran sobre la recta de regresin. En este caso los residuos son cero y la
suma de sus cuadrados tambin y, por tanto, SCR = SCT.
R2 = 0 denota la inexistencia de relacin entre las variables X e Y. En este caso
la suma de residuos es mxima y tenemos que SCE = SCT.
Puesto que R2 nos explica la proporcin de variabilidad de los datos que que-

da explicada por el modelo de regresin, cuanto ms cercano a la unidad es-

da explicada por el modelo de regresin, cuanto ms cercano a la unidad es-

t, mejor es el ajuste.

t, mejor es el ajuste.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.

Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.

Individuos (y)

10

Individuos (y)

10

Altura

(xi)

161

152

167

153

161

168

167

153

159

173

Altura

(xi)

161

152

167

153

161

168

167

153

159

173

Peso

(yi)

63

56

77

49

72

62

68

48

57

67

Peso

(yi)

63

56

77

49

72

62

68

48

57

67

A partir de la recta de regresin:


y = 96,1121 + 0,979009x,

A partir de la recta de regresin:


y = 96,1121 + 0,979009x,

Observacin
Un coeficiente de determinacin diferente de cero no significa que haya relacin lineal
entre las variables. Por ejemplo, R2 = 0,5 slo nos dice que
el 50% de la varianza de las
observaciones queda explicado por el modelo lineal.

26

FUOC P03/75057/01013

Regresin lineal simple

podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodidad, disponer de los datos y los clculos en forma de tabla; en concreto, construiremos
una tabla de clculos del coeficiente de determinacin:
yi y

( yi y )

1,21

0,39

5,90

34,81

67,38

15,10

49

53,68

161

72

168

xi

yi

y i

yi y

( yi y )

161

63

61,51

1,10

152

56

52,70

167

77

153

26

FUOC P03/75057/01013

podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodidad, disponer de los datos y los clculos en forma de tabla; en concreto, construiremos
una tabla de clculos del coeficiente de determinacin:
yi y

( yi y )

1,21

0,39

5,90

34,81

67,38

15,10

49

53,68

161

72

168

0,38

5,68

32,22

5,52

2,55

128,97

6,26

ei

ei

xi

yi

y i

yi y

( yi y )

0,15

1,49

2,23

161

63

61,51

1,10

9,20

84,69

3,30

10,91

152

56

52,70

228,01

5,48

30,06

9,62

92,50

167

77

12,90

166,41

8,22

67,63

4,68

21,87

153

61,51

10,10

102,01

0,39

0,15

10,49

110,07

62

68,36

0,10

0,01

6,46

41,75

6,36

40,47

167

68

67,38

6,10

37,21

5,48

30,06

0,62

153

48

53,68

13,90

193,21

8,22

67,63

159

57

59,55

4,90

24,01

2,35

10

173

67

73,26

5,10

26,01

11,36

619

812,90

456,61

Regresin lineal simple

ei

ei

0,15

1,49

2,23

9,20

84,69

3,30

10,91

228,01

5,48

30,06

9,62

92,50

12,90

166,41

8,22

67,63

4,68

21,87

61,51

10,10

102,01

0,39

0,15

10,49

110,07

62

68,36

0,10

0,01

6,46

41,75

6,36

40,47

167

68

67,38

6,10

37,21

5,48

30,06

0,62

0,38

153

48

53,68

13,90

193,21

8,22

67,63

5,68

32,22

6,50

159

57

59,55

4,90

24,01

2,35

5,52

2,55

6,50

39,14

10

173

67

73,26

5,10

26,01

11,36

128,97

6,26

39,14

356,29

Tenemos que:

619

812,90

456,61

356,29

Tenemos que:
SCR = 456,61

SCR = 456,61

SCT = 812,90

SCT = 812,90

Por tanto, tenemos un coeficiente de determinacin:

Por tanto, tenemos un coeficiente de determinacin:

R2 = 456,61 / 812,90 = 0,5617

R2 = 456,61 / 812,90 = 0,5617

Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinacin. A partir de la suma de los cuadrados de los
residuos:

Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinacin. A partir de la suma de los cuadrados de los
residuos:

SCE = 356,29

SCE = 356,29

tenemos para el coeficiente de determinacin:

tenemos para el coeficiente de determinacin:

R2 = 1 ( 356,29 / 812,90 ) = 1 0,4383 = 0,5617

R2 = 1 ( 356,29 / 812,90 ) = 1 0,4383 = 0,5617

Evidentemente, coinciden los resultados.

Evidentemente, coinciden los resultados.

Hemos obtenido un coeficiente de determinacin R2 = 0,5617 que nos informa de que el


modelo de regresin lineal slo nos explica el 56,17% de la varianza de las observaciones.

Hemos obtenido un coeficiente de determinacin R2 = 0,5617 que nos informa de que el


modelo de regresin lineal slo nos explica el 56,17% de la varianza de las observaciones.

3. El coeficiente de correlacin muestral, r

3. El coeficiente de correlacin muestral, r

A partir del diagrama de dispersin podemos ver si hay algn tipo de relacin

A partir del diagrama de dispersin podemos ver si hay algn tipo de relacin

entre dos variables X e Y.

entre dos variables X e Y.

Se suele decir que X e Y tienen una relacin positiva si los valores

Se suele decir que X e Y tienen una relacin positiva si los valores

grandes de X estn aparejados con valores grandes de Y y valores pe-

grandes de X estn aparejados con valores grandes de Y y valores pe-

queos de X, con valores pequeos de Y. De manera anloga, se dice

queos de X, con valores pequeos de Y. De manera anloga, se dice

que X e Y tienen una relacin negativa si los valores grandes de X es-

que X e Y tienen una relacin negativa si los valores grandes de X es-

tn aparejados con los valores pequeos de Y y los pequeos de X, con

tn aparejados con los valores pequeos de Y y los pequeos de X, con

grandes de Y.

grandes de Y.

27

FUOC P03/75057/01013

Regresin lineal simple

27

FUOC P03/75057/01013

Ahora queremos medir estas relaciones de forma numrica. La covarianza mues-

Ahora queremos medir estas relaciones de forma numrica. La covarianza mues-

tral entre dos variables X e Y:

tral entre dos variables X e Y:

s xy

( xi x )( yi y )
i--------------------------------------------W
= =1
n1

s xy

( xi x )( yi y )
i--------------------------------------------W
= =1
n1

nos puede servir para medir estas relaciones positivas y negativas entre las va-

nos puede servir para medir estas relaciones positivas y negativas entre las va-

riables X e Y.

riables X e Y.

Si tenemos una relacin positiva, entonces la mayora de los puntos de coordenadas ( ( x i x ), ( y i y ) ) estarn en el primer y tercer cuadrante en que
( x i x ) ( y i y ) 0 , de manera que contribuirn de forma positiva a la suma.
Si tenemos una relacin negativa, entonces la mayora de los puntos de co-

Observad la figura de los ejemplos


de diagramas de dispersin en el
apartado 3 de la sesin El modelo
de regresin simple de este mdulo.

Esquema de relaciones
entre X e Y

Si tenemos una relacin positiva, entonces la mayora de los puntos de coordenadas ( ( x i x ), ( y i y ) ) estarn en el primer y tercer cuadrante en que
( x i x ) ( y i y ) 0 , de manera que contribuirn de forma positiva a la suma.
Si tenemos una relacin negativa, entonces la mayora de los puntos de co-

ordenadas ( ( x i x ) , ( y i y ) ) estarn en el segundo y cuarto cuadrante, en los

ordenadas ( ( x i x ) , ( y i y ) ) estarn en el segundo y cuarto cuadrante, en los

que ( x i x ) ( y i y ) 0 , de manera que contribuirn de forma negativa a la

que ( x i x ) ( y i y ) 0 , de manera que contribuirn de forma negativa a la

suma.

suma.

Si, por el contrario, no existe ningn tipo de relacin positiva o negativa, la

Si, por el contrario, no existe ningn tipo de relacin positiva o negativa, la

covarianza ser una cantidad pequea al encontrarse todos los puntos aproxi-

covarianza ser una cantidad pequea al encontrarse todos los puntos aproxi-

madamente igual repartidos por los cuatro cuadrantes, cosa que compensa

madamente igual repartidos por los cuatro cuadrantes, cosa que compensa

de forma aproximada las cantidades positivas y negativas del sumatorio.

de forma aproximada las cantidades positivas y negativas del sumatorio.

La covarianza presenta el gran inconveniente de depender de las unidades de

La covarianza presenta el gran inconveniente de depender de las unidades de

las variables que estudiamos.

las variables que estudiamos.

Definimos el coeficiente de correlacin muestral como:


n

( xi x )( yi y )
s xy
i
=1
r = --------- = -------------------------------------------------------------n
n
s x sy
2
2
(
x

x
)
i

(yi y )
i=1

Unidades del coeficiente


de correlacin muestral

Definimos el coeficiente de correlacin muestral como:

Al dividir la covarianza por las


desviaciones tpicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.

( xi x )( yi y )
s xy
i
=1
r = --------- = -------------------------------------------------------------n
n
s x sy
2
2
(
x

x
)
i

(yi y )

i=1

i=1

i=1

El coeficiente de correlacin se caracteriza por 1 r 1 , de manera que:

El coeficiente de correlacin se caracteriza por 1 r 1 , de manera que:

r = 1 o r = 1 cuando haya una asociacin lineal exacta entre las variables

r = 1 o r = 1 cuando haya una asociacin lineal exacta entre las variables

(en el primer caso positiva y en el segundo, negativa).

1 < r < 1 cuando la relacin entre las variables no sea lineal de forma exacta.

Regresin lineal simple

(en el primer caso positiva y en el segundo, negativa).

1 < r < 1 cuando la relacin entre las variables no sea lineal de forma exacta.

Para los otros valores siempre se formula la misma pregunta: a partir de qu

Para los otros valores siempre se formula la misma pregunta: a partir de qu

valor de r podemos decir que la relacin entre las variables es fuerte? Una re-

valor de r podemos decir que la relacin entre las variables es fuerte? Una re-

gla razonable es decir que la relacin es dbil si 0 < | r | < 0,5; fuerte si 0,8 <

gla razonable es decir que la relacin es dbil si 0 < | r | < 0,5; fuerte si 0,8 <

| r | < 1, y moderada si tiene otro valor.

| r | < 1, y moderada si tiene otro valor.

Observad la figura de los ejemplos


de diagramas de dispersin en el
apartado 3 de la sesin El modelo
de regresin simple de este mdulo.

Esquema de relaciones
entre X e Y

Unidades del coeficiente


de correlacin muestral
Al dividir la covarianza por las
desviaciones tpicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.

28

FUOC P03/75057/01013

Regresin lineal simple

28

FUOC P03/75057/01013

Regresin lineal simple

Para calcular el coeficiente de correlacin muestral, podemos utilizar la misma

Para calcular el coeficiente de correlacin muestral, podemos utilizar la misma

tabla de clculos que para obtener la recta de regresin. Lo ilustraremos con el

tabla de clculos que para obtener la recta de regresin. Lo ilustraremos con el

ejemplo de las alturas y los pesos.

ejemplo de las alturas y los pesos.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente


de correlacin. Antes tendremos que calcular la covarianza y las varianzas muestrales.

Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente


de correlacin. Antes tendremos que calcular la covarianza y las varianzas muestrales.

xi

yi

x xi

y yi

( x xi )

161

63

0,4

1,1

0,16

152

56

9,4

5,9

167

77

5,6

153

49

161

(y yi )

xi

yi

x xi

y yi

( x xi )

1,21

0,44

161

63

0,4

1,1

0,16

1,21

0,44

88,36

34,81

55,46

152

56

9,4

5,9

88,36

34,81

55,46

15,1

31,36

228,01

84,56

167

77

5,6

15,1

31,36

228,01

84,56

8,4

12,9

70,56

166,41

108,36

153

49

8,4

12,9

70,56

166,41

108,36

72

0,4

10,1

0,16

102,01

4,04

161

72

0,4

10,1

0,16

102,01

4,04

168

62

6,6

0,1

43,56

0,01

0,66

168

62

6,6

0,1

43,56

0,01

0,66

167

68

5,6

6,1

31,36

37,21

34,16

167

68

5,6

6,1

31,36

37,21

34,16

153

48

8,4

13,9

70,56

193,21

116,76

153

48

8,4

13,9

70,56

193,21

116,76

159

57

2,4

4,9

5,76

24,01

11,76

159

57

2,4

4,9

5,76

24,01

11,76

10

173

67

11,6

5,1

134,56

26,01

59,16

10

173

67

11,6

5,1

134,56

26,01

59,16

1.614

619

476,40

812,90

466,40

1.614

619

476,40

812,90

466,40

( xi x ) ( yi y )

466,40
=1
- = ------------------- = 51,822
s xy = i-------------------------------------------n1
10 1
n

( xi x )

( yi y )

( x xi ) ( y yi )

( xi x ) ( yi y )

466,40
=1
- = ------------------- = 51,822
s xy = i-------------------------------------------n1
10 1
n

( xi x )

476,40
2
=1
- = ------------------- = 52,933 de manera que sx = 7,276
s x = i---------------------------n1
10 1

(y yi )

( x xi ) ( y yi )

476,40
2
=1
- = ------------------- = 52,933 de manera que sx = 7,276
s x = i---------------------------n1
10 1
n

( yi y )

812,90
=1
s = i---------------------------= ------------------- = 90,322 de manera que sy = 9,504
n1
10 1

812,90
=1
s = i---------------------------= ------------------- = 90,322 de manera que sy = 9,504
n1
10 1

s xy
51,822
r = --------- = ------------------------------------ = 0,749
sx s y
7,276 9,504

s xy
51,822
r = --------- = ------------------------------------ = 0,749
sx s y
7,276 9,504

El coeficiente de correlacin lineal obtenido por nuestro ejemplo del peso y la altura es r =
0,749, que nos informa de la existencia de una moderada relacin entre estas dos variables,
as como de que, a medida que la altura crece, el peso tambin lo hace (ya que es positivo).

El coeficiente de correlacin lineal obtenido por nuestro ejemplo del peso y la altura es r =
0,749, que nos informa de la existencia de una moderada relacin entre estas dos variables,
as como de que, a medida que la altura crece, el peso tambin lo hace (ya que es positivo).

2
y

2
y

4. Relacin entre R2 y r

4. Relacin entre R2 y r

Es muy importante tener clara la diferencia entre el coeficiente de correlacin

Es muy importante tener clara la diferencia entre el coeficiente de correlacin

y el coeficiente de determinacin:

y el coeficiente de determinacin:

R2: mide la proporcin de variacin de la variable dependiente explicada

R2: mide la proporcin de variacin de la variable dependiente explicada

por la variable independiente.


r: mide el grado de asociacin entre las dos variables.

por la variable independiente.


r: mide el grado de asociacin entre las dos variables.

29

FUOC P03/75057/01013

Regresin lineal simple

No obstante, en la regresin lineal simple tenemos que R2 = r2, como fcilmente podemos comprobar.

Observacin
En la regresin lineal mltiple
ya no tendremos la igualdad
R2 = r2.

Comprobacin de que en regresin lineal simple R2 = r2


A partir de la ecuacin del coeficiente de correlacin:

29

FUOC P03/75057/01013

Regresin lineal simple

No obstante, en la regresin lineal simple tenemos que R2 = r2, como fcilmente podemos comprobar.

En la regresin lineal mltiple


ya no tendremos la igualdad
R2 = r2.

Comprobacin de que en regresin lineal simple R2 = r2


A partir de la ecuacin del coeficiente de correlacin:

s xy
r = --------sx s y

s xy
r = --------sx s y

y de la ecuacin de la pendiente de la recta de regresin:

y de la ecuacin de la pendiente de la recta de regresin:

s xy
1 = ------2
sx

s xy
1 = ------2
sx

tenemos la relacin siguiente:

tenemos la relacin siguiente:


s
1 = r ----y
sx

s
1 = r ----y
sx

Por otra parte, tenemos el otro parmetro de la recta de regresin: 0 = y 1 x y la ecuacin de los valores estimados: y i = 0 + 1 x i . De estas dos expresiones podemos escribir:

Por otra parte, tenemos el otro parmetro de la recta de regresin: 0 = y 1 x y la ecuacin de los valores estimados: y i = 0 + 1 x i . De estas dos expresiones podemos escribir:

y i y = 0 + 1 x i y = y 1 x + 1 x i y = 1 ( x i x )

y i y = 0 + 1 x i y = y 1 x + 1 x i y = 1 ( x i x )

Aplicando todas estas relaciones a la ecuacin del coeficiente de determinacin, y a partir


de la definicin de varianza muestral, tenemos:

Aplicando todas estas relaciones a la ecuacin del coeficiente de determinacin, y a partir


de la definicin de varianza muestral, tenemos:
2
sy ( xi x )
----2 ---------------------------2
s x ( yi y )

= r

2
2
r
( y i y )
2 (xi x )
2
R = --------------------------2- = 1 ---------------------------2 =
( yi y )
( yi y )

Esta relacin nos ayuda a comprender por qu antes considerbamos que un


2

= r

2
sy ( xi x )
----2 ---------------------------2
s x ( yi y )

2
2
r
( y i y )
2 (xi x )
2
R = --------------------------2- = 1 ---------------------------2 =
( yi y )
( yi y )

Esta relacin nos ayuda a comprender por qu antes considerbamos que un

valor de r = 0,5 era dbil. Este valor representar un R = 0,25, es decir, el mo-

valor de r = 0,5 era dbil. Este valor representar un R2 = 0,25, es decir, el mo-

delo de regresin slo nos explica un 25% de la variabilidad total de las obser-

delo de regresin slo nos explica un 25% de la variabilidad total de las obser-

vaciones.

vaciones.

Tambin es importante tener presente que r nos da ms informacin que R2. El

Tambin es importante tener presente que r nos da ms informacin que R2. El

signo de r nos informa de si la relacin es positiva o negativa. As pues, con el

signo de r nos informa de si la relacin es positiva o negativa. As pues, con el

valor de r siempre podremos calcular el valor de R , pero al revs siempre nos

valor de r siempre podremos calcular el valor de R2, pero al revs siempre nos

quedar indeterminado el valor del signo a menos que conozcamos la pendien-

quedar indeterminado el valor del signo a menos que conozcamos la pendien-

= 0,81, si sabemos que la pendiente de

te de la recta. Por ejemplo, dado un R2 = 0,81, si sabemos que la pendiente de

la recta de regresin es negativa, entonces podremos afirmar que el coeficiente

la recta de regresin es negativa, entonces podremos afirmar que el coeficiente

de correlacin ser r = 0,9.

de correlacin ser r = 0,9.

te de la recta. Por ejemplo, dado un

R2

Observacin

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Podemos comprobar la relacin entre el coeficiente de determinacin y el coeficiente de


correlacin con los resultados de nuestro ejemplo.

Podemos comprobar la relacin entre el coeficiente de determinacin y el coeficiente de


correlacin con los resultados de nuestro ejemplo.

Hemos obtenido: R2 = 0,5617 y r = 0,749.

Hemos obtenido: R2 = 0,5617 y r = 0,749.

De manera que r2 = 0,7492 = 0,561.

De manera que r2 = 0,7492 = 0,561.

30

FUOC P03/75057/01013

Regresin lineal simple

30

FUOC P03/75057/01013

Regresin lineal simple

5. Diagnstico de la regresin: anlisis de los residuos

5. Diagnstico de la regresin: anlisis de los residuos

Una vez hecho el ajuste de un modelo de regresin lineal a nuestros datos mues-

Una vez hecho el ajuste de un modelo de regresin lineal a nuestros datos mues-

trales, hay que efectuar el anlisis de los residuos.

trales, hay que efectuar el anlisis de los residuos.

Este anlisis, que a continuacin comentaremos de forma breve y muy intui-

Este anlisis, que a continuacin comentaremos de forma breve y muy intui-

tiva, nos servir para hacer un diagnstico de nuestro modelo de regresin.

tiva, nos servir para hacer un diagnstico de nuestro modelo de regresin.

El anlisis de los residuos consiste en ver la distribucin de los residuos. Esto

El anlisis de los residuos consiste en ver la distribucin de los residuos. Esto

lo haremos grficamente representando un diagrama de dispersin de los puntos ( y i , e ), es decir, sobre el eje de las abscisas representamos el valor estimado

lo haremos grficamente representando un diagrama de dispersin de los puntos ( y i , e ), es decir, sobre el eje de las abscisas representamos el valor estimado

y i y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, ei =


= y y i . Veamos un ejemplo:

y i y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, ei =


= y y i . Veamos un ejemplo:

Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la


nube de puntos ( y i , e ) no debe mostrar ningn tipo de estructura.

Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la


nube de puntos ( y i , e ) no debe mostrar ningn tipo de estructura.

Lo ilustraremos con un ejemplo ya clsico en la bibliografa: el ejemplo de


Anscombe (1973). A partir de las tablas de datos que se muestran a continuacin discutiremos cuatro casos:

Caso (a)

Caso (b)

Caso (c)

Caso (d)

X(a)

Y(a)

X(b)

Y(b)

X(c)

Y(c)

X(d)

Y(d)

10

8,04

10

9,14

10

7,46

6,95

8,14

6,77

13

7,58

13

8,74

13

8,81

8,77

11

8,33

11

14

9,96

Lectura complementaria
Encontraris el ejemplo
de Anscombe en el artculo
siguiente:
T.W. Anscombe (1973).
Graphs in Statistical
Analysis. The American
Statistician (nm. 27,
pg. 17-21).

Lo ilustraremos con un ejemplo ya clsico en la bibliografa: el ejemplo de


Anscombe (1973). A partir de las tablas de datos que se muestran a continuacin discutiremos cuatro casos:

Caso (a)

Caso (b)

Caso (c)

Caso (d)

X(a)

Y(a)

X(b)

Y(b)

X(c)

Y(c)

X(d)

Y(d)

6,58

10

8,04

10

9,14

10

7,46

6,58

5,76

6,95

8,14

6,77

5,76

12,74

7,71

13

7,58

13

8,74

13

12,74

7,71

7,11

8,84

8,81

8,77

7,11

8,84

9,26

11

7,81

8,47

11

8,33

11

9,26

11

7,81

8,47

14

8,10

14

8,84

7,04

14

9,96

14

8,10

14

8,84

7,04

7,24

6,13

6,08

5,25

7,24

6,13

6,08

5,25

4,26

3,10

5,39

19

12,50

4,26

3,10

5,39

19

12,50

12

10,84

12

9,13

12

8,15

5,56

12

10,84

12

9,13

12

8,15

5,56

4,82

7,26

6,42

7,91

4,82

7,26

6,42

7,91

5,68

4,74

5,73

6,89

5,68

4,74

5,73

6,89

Lectura complementaria
Encontraris el ejemplo
de Anscombe en el artculo
siguiente:
T.W. Anscombe (1973).
Graphs in Statistical
Analysis. The American
Statistician (nm. 27,
pg. 17-21).

31

FUOC P03/75057/01013

Regresin lineal simple

31

FUOC P03/75057/01013

Dibujaremos a continuacin el diagrama de dispersin y las rectas de regresin

Dibujaremos a continuacin el diagrama de dispersin y las rectas de regresin

en el ejemplo de Anscombe.

en el ejemplo de Anscombe.

Si hacemos la regresin de Y sobre X, en los cuatro casos obtenemos la misma

Si hacemos la regresin de Y sobre X, en los cuatro casos obtenemos la misma

recta:

recta:
y = 3 + 0,5x

y = 3 + 0,5x

El coeficiente de correlacin es el mismo para las cuatro con valor r = 0,82.

El coeficiente de correlacin es el mismo para las cuatro con valor r = 0,82.

Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-

Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-

nemos la representacin de los siguientes diagramas de residuos:

nemos la representacin de los siguientes diagramas de residuos:

Regresin lineal simple

32

FUOC P03/75057/01013

Regresin lineal simple

32

FUOC P03/75057/01013

Regresin lineal simple

Podemos observar que de las cuatro, slo la primera no presenta ningn tipo

Podemos observar que de las cuatro, slo la primera no presenta ningn tipo

de estructura sobre la nube de puntos, de manera que slo tendra sentido la

de estructura sobre la nube de puntos, de manera que slo tendra sentido la

regresin hecha sobre la muestra (a).

regresin hecha sobre la muestra (a).

Consideremos a continuacin el caso (b) del diagrama de dispersin. En ste se

Consideremos a continuacin el caso (b) del diagrama de dispersin. En ste se

observa un comportamiento curvilneo que nos hace pensar que un ajuste li-

observa un comportamiento curvilneo que nos hace pensar que un ajuste li-

neal no sera el ms conveniente. Esto se manifiesta de forma mucho ms evi-

neal no sera el ms conveniente. Esto se manifiesta de forma mucho ms evi-

dente en el diagrama de residuos.

dente en el diagrama de residuos.

Si consideramos la muestra (c), en el diagrama de dispersin podemos observar

Si consideramos la muestra (c), en el diagrama de dispersin podemos observar

la presencia del valor atpico (13, 12,74) que nos ha hecho ajustar un modelo

la presencia del valor atpico (13, 12,74) que nos ha hecho ajustar un modelo

errneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-

errneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-

mos una recta de regresin diferente:

mos una recta de regresin diferente:

y = 4,01 + 0,345x.

y = 4,01 + 0,345x.

y un coeficiente de correlacin r = 1. Podemos observar todos los puntos sobre

y un coeficiente de correlacin r = 1. Podemos observar todos los puntos sobre

la recta de regresin.

la recta de regresin.

El diagrama de los residuos tambin nos sugiere un buen modelo de regresin

El diagrama de los residuos tambin nos sugiere un buen modelo de regresin

para la muestra resultante de eliminar el valor atpico. A continuacin repre-

para la muestra resultante de eliminar el valor atpico. A continuacin repre-

sentamos el diagrama de dispersin y el diagrama de residuos.

sentamos el diagrama de dispersin y el diagrama de residuos.


Influencia de un valor
atpico

Influencia de un valor
atpico

En la muestra (c) hemos eliminado el valor atpico y hemos


representado de nuevo
el diagrama de dispersin
y la recta de regresin 1 y el
diagrama de residuos 2.

En la muestra (c) hemos eliminado el valor atpico y hemos


representado de nuevo
el diagrama de dispersin
y la recta de regresin 1 y el
diagrama de residuos 2.

Finalmente, en la muestra (d) la pendiente est determinada por un nico va-

Finalmente, en la muestra (d) la pendiente est determinada por un nico va-

lor. Tampoco es un modelo demasiado fiable.

lor. Tampoco es un modelo demasiado fiable.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Un ltimo ejemplo que todava podemos examinar es el de la relacin de las alturas y pesos. A partir de los datos de la tabla ya vista:

Un ltimo ejemplo que todava podemos examinar es el de la relacin de las alturas y pesos. A partir de los datos de la tabla ya vista:

yi y

( yi y )

1,21

0,39

5,90

34,81

67,38

15,10

49

53,68

72

61,51

yi y

( yi y )

1,21

0,39

5,90

34,81

67,38

15,10

49

53,68

72

61,51

ei

xi

yi

y i

yi y

( yi y )

0,15

1,49

2,23

161

63

61,51

1,10

9,20

84,69

3,30

10,91

152

56

52,70

228,01

5,48

30,06

9,62

92,50

167

77

12,90

166,41

8,22

67,63

4,68

21,87

153

10,10

102,01

0,39

0,15

10,49

110,07

161

xi

yi

y i

yi y

( yi y )

161

63

61,51

1,10

152

56

52,70

167

77

153

161

ei

ei

ei

0,15

1,49

2,23

9,20

84,69

3,30

10,91

228,01

5,48

30,06

9,62

92,50

12,90

166,41

8,22

67,63

4,68

21,87

10,10

102,01

0,39

0,15

10,49

110,07

33

FUOC P03/75057/01013

33

FUOC P03/75057/01013

yi y

( yi y )

ei

ei

xi

yi

y i

yi y

( yi y )

0,01

6,46

41,75

6,36

40,47

168

62

68,36

0,10

6,10

37,21

5,48

30,06

0,62

0,38

167

68

67,38

53,68

13,90

193,21

8,22

67,63

5,68

32,22

153

48

57

59,55

4,90

24,01

2,35

5,52

2,55

6,50

159

67

73,26

5,10

26,01

11,36

128,97

6,26

39,14

10

173

356,29

xi

yi

y i

yi y

( yi y )

168

62

68,36

0,10

167

68

67,38

153

48

159

10

173

Regresin lineal simple

61,9

812,90

456,61

Regresin lineal simple

yi y

( yi y )

ei

ei

0,01

6,46

41,75

6,36

40,47

6,10

37,21

5,48

30,06

0,62

0,38

53,68

13,90

193,21

8,22

67,63

5,68

32,22

57

59,55

4,90

24,01

2,35

5,52

2,55

6,50

67

73,26

5,10

26,01

11,36

128,97

6,26

39,14

61,9

812,90

456,61

356,29

es fcil representar el diagrama de residuos:

es fcil representar el diagrama de residuos:

No podemos observar ningn tipo de estructura en la representacin; por tanto, podemos concluir que el modelo de regresin obtenido es un buen modelo para explicar la
relacin entre las dos variables.

No podemos observar ningn tipo de estructura en la representacin; por tanto, podemos concluir que el modelo de regresin obtenido es un buen modelo para explicar la
relacin entre las dos variables.

6. Resumen

6. Resumen

En esta segunda sesin hemos introducido una medida numrica de la bondad

En esta segunda sesin hemos introducido una medida numrica de la bondad

del ajuste de la recta de regresin en las observaciones. Esta medida se obtiene

del ajuste de la recta de regresin en las observaciones. Esta medida se obtiene

con el coeficiente de determinacin R . Se ha discutido la interpretacin de los

con el coeficiente de determinacin R2. Se ha discutido la interpretacin de los

valores que puede tomar. A continuacin hemos visto el coeficiente de correla-

valores que puede tomar. A continuacin hemos visto el coeficiente de correla-

cin muestral, r, que nos mide el grado de asociacin entre dos variables. Hemos

cin muestral, r, que nos mide el grado de asociacin entre dos variables. Hemos

comprobado que en la regresin lineal simple R y r coinciden. Finalmente, he-

comprobado que en la regresin lineal simple R2 y r coinciden. Finalmente, he-

mos comentado la importancia de analizar los residuos para hacer un diagns-

mos comentado la importancia de analizar los residuos para hacer un diagns-

tico del modelo lineal obtenido.

tico del modelo lineal obtenido.

34

FUOC P03/75057/01013

Regresin lineal simple

34

FUOC P03/75057/01013

Ejercicios

Ejercicios

1.

1.

Una tienda de ordenadores llev a cabo un estudio para determinar la relacin en-

Una tienda de ordenadores llev a cabo un estudio para determinar la relacin en-

tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:

tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:

Gastos en publicidad
(
1.000 )

Ventas
(
100.000 )

Gastos en publicidad
(
1.000 )

Ventas
(
100.000 )

40

380

40

380

25

410

25

410

20

390

20

390

22

370

22

370

31

475

31

475

52

450

52

450

40

500

40

500

20

390

20

390

55

575

55

575

42

520

42

520

Con estos datos se han obtenido las cantidades siguientes:


10

xi

= 347

i=1

10

10

yi

= 4.460

i=1

10

i=1

10

= 6.018

i=1

( x i x ) = 1.522,1

( y i y )

10

( xi x )( yi y )

10

xi

= 347

i=1

( y i y ) = 43.590,0

i=1

Con estos datos se han obtenido las cantidades siguientes:

10

10

yi

= 4.460

i=1

10

( yi y )

( x i x ) = 1.522,1

10

( y i y )

= 6.018

i=1

i=1

= 23.793,66

10

( xi x )( yi y )

= 43.590,0

i=1

= 23.793,66

i=1

i=1

Y la recta de regresin: y = 308,88 + 3,95x.

Y la recta de regresin: y = 308,88 + 3,95x.

A partir de toda esta informacin, calculad el coeficiente de determinacin y

A partir de toda esta informacin, calculad el coeficiente de determinacin y

el coeficiente de correlacin.

el coeficiente de correlacin.

2.

2.

El departamento de personal de una empresa informtica dedicada a la introduc-

El departamento de personal de una empresa informtica dedicada a la introduc-

cin de datos ha llavado a cabo un programa de formacin inicial del personal.

cin de datos ha llavado a cabo un programa de formacin inicial del personal.

La tabla siguiente indica el progreso obtenido en mecanografa de ocho estudian-

La tabla siguiente indica el progreso obtenido en mecanografa de ocho estudian-

tes que siguieron el programa y el nmero de semanas que hace que lo siguen:

tes que siguieron el programa y el nmero de semanas que hace que lo siguen:

Nmero de semanas

Ganancia de velocidad
(p.p.m.)

Nmero de semanas

Ganancia de velocidad
(p.p.m.)

87

87

119

119

47

47

195

195

162

162

Regresin lineal simple

35

FUOC P03/75057/01013

Regresin lineal simple

35

FUOC P03/75057/01013

Regresin lineal simple

Nmero de semanas

Ganancia de velocidad
(p.p.m.)

Nmero de semanas

Ganancia de velocidad
(p.p.m.)

234

234

72

72

110

110

La recta de regresin calculada a partir de estos datos es:

La recta de regresin calculada a partir de estos datos es:

y = 1,659 + 25,318x

y = 1,659 + 25,318x

a) Calculad el coeficiente de determinacin.

a) Calculad el coeficiente de determinacin.

b) Haced un anlisis de los residuos y comentadlo.

b) Haced un anlisis de los residuos y comentadlo.

Solucionario

Solucionario

1.

1.

Calculamos el coeficiente de determinacin a partir de la expresin:

Calculamos el coeficiente de determinacin a partir de la expresin:

SCR
2
R = ----------SCT

SCR
2
R = ----------SCT

El enunciado del problema nos proporciona estos datos, ya que:


La suma de los cuadrados de la regresin es: SCR =

10

( y i y )

El enunciado del problema nos proporciona estos datos, ya que:


= 23.793,66

La suma de los cuadrados de la regresin es: SCR =

i=1

Y la suma de los cuadrados totales es: SCT =

10

( y i y ) = 43.590,0

10

= 23.793,66

i=1

Y la suma de los cuadrados totales es: SCT =

i=1

( y i y )

10

( y i y )

10

( yi y )

= 43.590,0

i=1
10

( y i y )

23.793,66
SCR
2
=1
= ---------------------------- = 0,5458
De manera que: R = ----------- = i---------------------------10
43.590,0
SCT
2
( yi y )

23.793,66
SCR
2
=1
= ---------------------------- = 0,5458
De manera que: R = ----------- = i---------------------------10
43.590,0
SCT
2
( yi y )

Resultado que podemos interpretar como que el modelo de regresin lineal

Resultado que podemos interpretar como que el modelo de regresin lineal

explica el 54,58% de la variabilidad de las ventas.

explica el 54,58% de la variabilidad de las ventas.

A partir de este valor podemos calcular el coeficiente de correlacin teniendo

A partir de este valor podemos calcular el coeficiente de correlacin teniendo

en cuenta que:

en cuenta que:

i=1

i=1

R2 = r2

R2 = r2

De manera que el coeficiente de correlacin es la raz cuadrada del coeficiente

De manera que el coeficiente de correlacin es la raz cuadrada del coeficiente

de determinacin con el mismo signo que la pendiente de la recta de regresin.

de determinacin con el mismo signo que la pendiente de la recta de regresin.

La recta de regresin es: y = 308,8 + 3,95x. La pendiente es positiva, de manera

La recta de regresin es: y = 308,8 + 3,95x. La pendiente es positiva, de manera

que tenemos una relacin positiva entre los gastos en publicidad y ventas.

que tenemos una relacin positiva entre los gastos en publicidad y ventas.

Cuanto ms se invierte en publicidad, ms se vende.

Cuanto ms se invierte en publicidad, ms se vende.

As pues, el coeficiente de correlacin es:

As pues, el coeficiente de correlacin es:

r = + R = + 0,5458 = 0,7388

r = + R = + 0,5458 = 0,7388

36

FUOC P03/75057/01013

Regresin lineal simple

36

FUOC P03/75057/01013

Regresin lineal simple

2.

2.

a) Lo primero que haremos ser construir la tabla de clculos:

a) Lo primero que haremos ser construir la tabla de clculos:

xi

(yi y )

( y i y )

y i

yi y

87

77,61

41,25

1.701,56

50,64

119

128,25

9,25

85,56

47

52,30

81,25

195

204,20

162

7
8

yi

( y i y )

xi

2.564,11

0,00

0,00

6.601,56

75,96

5.769,16

66,75

4.455,56

75,95

153,57

33,75

1.139,06

234

229,52

105,75

72

77,61

110

102,93

(yi y )

( y i y )

( y i y )

y i

yi y

87

77,61

41,25

1.701,56

50,64

2.564,11

119

128,25

9,25

85,56

0,00

0,00

47

52,30

81,25

6.601,56

75,96

5.769,16

5.768,86

195

204,20

66,75

4.455,56

75,95

5.768,86

25,32

640,95

162

153,57

33,75

1.139,06

25,32

640,95

11.183,06

101,27

10.255,82

234

229,52

105,75

11.183,06

101,27

10.255,82

56,25

3.164,06

50,64

2.564,11

72

77,61

56,25

3.164,06

50,64

2.564,11

18,25

333,06

25,32

641,05

110

102,93

18,25

333,06

25,32

641,05

28.204,05

1.026

28.663,50

yi

1.026

28.663,50

SCR = 28.204,05 SCT = 28.663,50

28.204,05

SCR = 28.204,05 SCT = 28.663,50

R = 28.204,05 / 28.663,50 = 0,9920

R = 28.204,05 / 28.663,50 = 0,9920

El modelo de regresin lineal explica el 99,20% de la varianza de la muestra.

El modelo de regresin lineal explica el 99,20% de la varianza de la muestra.

Tenemos bondad en el ajuste.

Tenemos bondad en el ajuste.

b) Para hacer el anlisis de los residuos, en primer lugar calcularemos los resi-

b) Para hacer el anlisis de los residuos, en primer lugar calcularemos los resi-

duos y despus haremos la representacin grfica.

duos y despus haremos la representacin grfica.

xi

yi

y i

e i = y i y i

xi

yi

y i

e i = y i y i

87

77,61

9,39

87

77,61

9,39

119

128,25

9,25

119

128,25

9,25

47

52,30

5,30

47

52,30

5,30

195

204,20

9,20

195

204,20

9,20

162

153,57

8,43

162

153,57

8,43

234

229,52

4,48

234

229,52

4,48

72

77,61

5,61

72

77,61

5,61

110

102,93

7,07

110

102,93

7,07

Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-

Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-

ma de residuos siguiente:

ma de residuos siguiente:

FUOC P03/75057/01013

37

Regresin lineal simple

FUOC P03/75057/01013

37

No observamos ningn tipo de forma determinada en los puntos de esta grfica.

No observamos ningn tipo de forma determinada en los puntos de esta grfica.

Este resultado, junto con el elevado coeficiente de determinacin, nos hace

Este resultado, junto con el elevado coeficiente de determinacin, nos hace

llegar a la conclusin de que el modelo lineal es adecuado para tratar este pro-

llegar a la conclusin de que el modelo lineal es adecuado para tratar este pro-

blema.

blema.

Regresin lineal simple

38

FUOC P03/75057/01013

Regresin lineal simple

38

FUOC P03/75057/01013

Regresin lineal simple

Anexos

Anexos

Anexo 1

Anexo 1

Descomposicin de la suma de cuadrados total

Descomposicin de la suma de cuadrados total

A continuacin veremos que la suma de cuadrados total de las observaciones

A continuacin veremos que la suma de cuadrados total de las observaciones

(SCT) se puede expresar de la manera siguiente:

(SCT) se puede expresar de la manera siguiente:

SCT = SCR + SCE

SCT = SCR + SCE

donde:

donde:

SCR es la suma de cuadrados de la regresin.

SCR es la suma de cuadrados de la regresin.

SCE es la suma de cuadrados de los residuos.

SCE es la suma de cuadrados de los residuos.

A partir de la definicin de residuos de la regresin como la diferencia entre

A partir de la definicin de residuos de la regresin como la diferencia entre

los valores observados y los valores estimados por la recta de regresin:

los valores observados y los valores estimados por la recta de regresin:

ei = yi y i

ei = yi y i

Podemos escribir:

Podemos escribir:
yi = y i + ei

yi = y i + ei

Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-

Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-

vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con

vaciones yi, obtenemos una expresin que nos relaciona las desviaciones con

respecto a la media, las observaciones y los valores estimados:

respecto a la media, las observaciones y los valores estimados:

y i y = ( y i y ) + e i

y i y = ( y i y ) + e i

Elevando al cuadrado y sumando todos los valores:

( yi y )

i=1

[ ( y i y ) + e i ]

i=1

2 ( y i y )e i =
i=1

i=1

y i e i

( y i y )

i=1

yei =

i=1

i=1

Elevando al cuadrado y sumando todos los valores:

+ 2 ( y i y )e i +
i=1

i=1

i=1

y i e i y e i = 0 + 0 = 0
i=1

Por tanto, es suficiente con ver que

ei

y i e i = 0 y

( yi y )

i=1

[ ( y i y ) + e i ]

i=1

2 ( y i y )e i =
i=1

i=1

y i e i

i=1

ei = 0

i=1

yei =

i=1

i=1

( y i y )

+ 2 ( y i y )e i +
i=1

i=1

i=1

y i e i y e i = 0 + 0 = 0
i=1

Por tanto, es suficiente con ver que

ei

y i e i = 0 y

ei

i=1

= 0

39

FUOC P03/75057/01013

Observamos que a partir de las ecuaciones normales:

0 =

( yi 0 1 xi )

( y i y i )

i=1

0 =

i=1

( y i 0 1 x i )x i =

i=1

0 =

0 =

ei xi

i=1

y i ei

i=1

( 0 1 xi )e i

i=1

( yi y )

i=1

= SCT

ei xi

i=1

y i ei

i=1

i=1

i=1

( 0 1 xi )e i

i=1

i=1

i=1

= 0 e i + 1 e i x i = 0

Hemos demostrado as que:


2

( y i y )

i=1

ei

( yi y )

i=1

i=1

( y i y )

i=1

ei

i=1

Si denominamos:

Suma de Cuadrados Totales.

Suma de Cuadrados de la Regresin.

i=1
n

i=1

( yi y )

= SCT

Suma de Cuadrados Totales.

= SCR

Suma de Cuadrados de la Regresin.

i=1

( y i y ) = SCR

ei

ei

i=1

( y i 0 1 x i )x i =

= 0 e i + 1 e i x i = 0

i=1

Si denominamos:

( y i y i )

i=1

Hemos demostrado as que:

Y, por tanto:
n

( yi 0 1 xi )

i=1

i=1

Y, por tanto:

( yi y )

39

FUOC P03/75057/01013

Observamos que a partir de las ecuaciones normales:

ei

Regresin lineal simple

( y i y )

i=1

= SCE

Suma de Cuadrados de los Errores.

ei

= SCE

Suma de Cuadrados de los Errores.

i=1

i=1

Tenemos que: SCT = SCR + SCE.

Tenemos que: SCT = SCR + SCE.

Regresin lineal simple

40

FUOC P03/75057/01013

Regresin lineal simple

40

FUOC P03/75057/01013

Regresin lineal simple

Inferencia en la regresin

Inferencia en la regresin

1. Introduccin

1. Introduccin

En otras sesiones nos hemos preocupado de estudiar la relacin lineal entre

En otras sesiones nos hemos preocupado de estudiar la relacin lineal entre

dos variables X e Y a partir de los valores observados en una muestra. Si en el

dos variables X e Y a partir de los valores observados en una muestra. Si en el

diagrama de dispersin observbamos una relacin lineal, entonces calculba-

diagrama de dispersin observbamos una relacin lineal, entonces calculba-

mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de

mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de

los cuadrados de los residuos fuese mnima. Es la llamada recta de regresin.

los cuadrados de los residuos fuese mnima. Es la llamada recta de regresin.

Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-

Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-

servaciones proviene de una poblacin. Nos preguntamos si esta relacin li-

servaciones proviene de una poblacin. Nos preguntamos si esta relacin li-

neal se puede extender de alguna manera a toda la poblacin.

neal se puede extender de alguna manera a toda la poblacin.

2. El modelo de regresin en la poblacin

2. El modelo de regresin en la poblacin

Modelo de regresin lineal

Modelo de regresin lineal

Es muy importante tener presente que, para un mismo valor de la variable X,

Es muy importante tener presente que, para un mismo valor de la variable X,

se pueden observar diferentes valores de la variable Y, es decir, asociado a cada

se pueden observar diferentes valores de la variable Y, es decir, asociado a cada

valor de X no hay un nico valor de Y, sino una distribucin de frecuencias

valor de X no hay un nico valor de Y, sino una distribucin de frecuencias

de Y. Esto se debe al hecho de que Y no slo depende de X, sino tambin de


otros factores difcilmente cuantificables o simplemente desconocidos. La influencia de este conjunto de factores es la que determina que la relacin entre
X e Y sea estadstica y no determinista. Todos estos factores son los responsables de los errores o residuos.
Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una
poblacin, ya sabemos encontrar la recta de regresin lineal y = 0 + 1 x .

El peso depende de la
altura y de otros factores
En el ejemplo de la relacin
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genticos,
la actividad fsica, la alimentacin, etc., que hacen que
una persona de una determinada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.

de Y. Esto se debe al hecho de que Y no slo depende de X, sino tambin de


otros factores difcilmente cuantificables o simplemente desconocidos. La influencia de este conjunto de factores es la que determina que la relacin entre
X e Y sea estadstica y no determinista. Todos estos factores son los responsables de los errores o residuos.
Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una
poblacin, ya sabemos encontrar la recta de regresin lineal y = 0 + 1 x .

Si tenemos en cuenta que llambamos residuo o error a la diferencia entre el valor


observado y el valor estimado e i = y i y i , para una observacin y , podemos es-

Si tenemos en cuenta que llambamos residuo o error a la diferencia entre el valor


observado y el valor estimado e i = y i y i , para una observacin y , podemos es-

cribir: y i = y i + e i , es decir:

cribir: y i = y i + e i , es decir:

y i = 0 + 1 x + e i
Podemos hacer lo mismo con varias muestras de esta misma poblacin.

y i = 0 + 1 x + e i
Podemos hacer lo mismo con varias muestras de esta misma poblacin.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresin correspondientes:

Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresin correspondientes:

El peso depende de la
altura y de otros factores
En el ejemplo de la relacin
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genticos,
la actividad fsica, la alimentacin, etc., que hacen que
una persona de una determinada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.

41

FUOC P03/75057/01013

Regresin lineal simple

41

FUOC P03/75057/01013

Muestra j = 1

Regresin lineal simple

Muestra j = 1

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

i=9

i = 10

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

i=9

i = 10

Altura ( xij )

161

152

167

153

161

168

167

153

159

173

Altura ( xij )

161

152

167

153

161

168

167

153

159

173

Peso ( yij )

63

56

77

49

72

62

68

48

57

67

Peso ( yij )

63

56

77

49

72

62

68

48

57

67

La recta de regresin correspondiente es: y = 96,112 + 0,979x.

La recta de regresin correspondiente es: y = 96,112 + 0,979x.

Muestra j = 2

Muestra j = 2

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

Altura

161

152

167

153

161

168

167

153

Altura

161

152

167

153

161

168

167

153

63

56

77

49

72

62

68

48

Peso (yij)

63

56

77

49

72

62

68

48

(xij)

Peso (yij)

La recta de regresin correspondiente es: y = 82,614 + 1,029x.

(xij)

La recta de regresin correspondiente es: y = 82,614 + 1,029x.

Muestra j = 3

Muestra j = 3

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

i=9

Individuos

i=1

i=2

i=3

i=4

i=5

i=6

i=7

i=8

i=9

Altura

161

152

167

153

161

168

167

153

159

Altura

161

152

167

153

161

168

167

153

159

63

56

77

49

72

62

68

48

57

Peso (yij)

63

56

77

49

72

62

68

48

57

(xij)

Peso (yij)

(xij)

La recta de regresin correspondiente es: y = 98,582 + 0,94x.

La recta de regresin correspondiente es: y = 98,582 + 0,94x.

Observamos que los valores obtenidos para cada coeficiente son relativamente similares:

Observamos que los valores obtenidos para cada coeficiente son relativamente similares:

0 : 96,112; 82,614; 98,528

0 : 96,112; 82,614; 98,528

1 : 0,979; 1,029; 0,945.

1 : 0,979; 1,029; 0,945.

Podemos pensar que si recogemos ms muestras de la misma poblacin, iremos obteniendo coeficientes parecidos a stos.

Podemos pensar que si recogemos ms muestras de la misma poblacin, iremos obteniendo coeficientes parecidos a stos.

Ahora el objetivo es dar un modelo para todos los individuos de la poblacin.

Ahora el objetivo es dar un modelo para todos los individuos de la poblacin.

ste vendr dado por una expresin anloga a las encontradas por las muestras.

ste vendr dado por una expresin anloga a las encontradas por las muestras.

Lllamamos modelo de regresin lineal para la poblacin a:


yi = 0 + 1 x + ei

Notacin

Lllamamos modelo de regresin lineal para la poblacin a:

No ponemos los sombreros


sobre los parmetros para indicar que ahora se trata de la
recta de regresin para la poblacin.

yi = 0 + 1 x + ei

Para encontrar este modelo para la poblacin, deberamos estudiar a todos los

Para encontrar este modelo para la poblacin, deberamos estudiar a todos los

individuos que la componen. Esto es prcticamente imposible, de manera que

individuos que la componen. Esto es prcticamente imposible, de manera que

deberemos estimarla a partir de los resultados calculados para una muestra. Es

deberemos estimarla a partir de los resultados calculados para una muestra. Es

decir, deberemos hacer inferencia estadstica.


Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen segn una distribucin normal de media cero y
2

varianza .
2) Los errores son independientes.

Distribucin de los errores


en la realidad
La distribucin de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varan menos su
peso que las personas que
miden 185 cm. De todos modos, aceptaremos la suposicin
de que siempre son iguales.

decir, deberemos hacer inferencia estadstica.


Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen segn una distribucin normal de media cero y
2

varianza .
2) Los errores son independientes.

Notacin
No ponemos los sombreros
sobre los parmetros para indicar que ahora se trata de la
recta de regresin para la poblacin.

Distribucin de los errores


en la realidad
La distribucin de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varan menos su
peso que las personas que
miden 185 cm. De todos modos, aceptaremos la suposicin
de que siempre son iguales.

42

FUOC P03/75057/01013

Regresin lineal simple

42

FUOC P03/75057/01013

Regresin lineal simple

Con estas suposiciones tenemos que:

Con estas suposiciones tenemos que:

1) Por cada valor fijo x de X obtenemos una distribucin de valores y de la va-

1) Por cada valor fijo x de X obtenemos una distribucin de valores y de la va-

riable Y. Y podemos calcular la media o la esperanza matemtica de cada una de

riable Y. Y podemos calcular la media o la esperanza matemtica de cada una de

estas distribuciones:

estas distribuciones:

x = E (Y x ) = E ( 0 + 1 x + e ) = 0 + 1 x + E ( e ) = 0 + 1 x

x = E (Y x ) = E ( 0 + 1 x + e ) = 0 + 1 x + E ( e ) = 0 + 1 x

2) Tambin podemos calcular su varianza:

2) Tambin podemos calcular su varianza:


2

Var ( Y x ) = Var ( 0 + 1 x + e ) = Var ( 0 + 1 x ) + Var ( e ) = 0 + =

Var ( Y x ) = Var ( 0 + 1 x + e ) = Var ( 0 + 1 x ) + Var ( e ) = 0 + =

Cada distribucin de valores de Y tiene la misma varianza 2, que es la varian-

Cada distribucin de valores de Y tiene la misma varianza 2, que es la varian-

za de los residuos.

za de los residuos.

En el grfico vemos la recta de regresin lineal para la poblacin.

En el grfico vemos la recta de regresin lineal para la poblacin.

Distribucin de las medias

Distribucin de las medias

El primer resultado nos dice


que estas medias se encuentran situadas sobre una recta.

Es importante tener presente que para tener bien determinado el modelo de


2

El primer resultado nos dice


que estas medias se encuentran situadas sobre una recta.

Es importante tener presente que para tener bien determinado el modelo de

regresin para la poblacin, debemos conocer tres parmetros: 0, 1 y .

regresin para la poblacin, debemos conocer tres parmetros: 0, 1 y 2.

Estos parmetros desconocidos se tienen que estimar a partir de una muestra

Estos parmetros desconocidos se tienen que estimar a partir de una muestra

de la poblacin.

de la poblacin.

Como se ve en la sesin El modelo de regresin simple, los parmetros de la

Como se ve en la sesin El modelo de regresin simple, los parmetros de la

recta se estiman por el mtodo de los mnimos cuadrados. Este mtodo determi-

recta se estiman por el mtodo de los mnimos cuadrados. Este mtodo determi-

na aquellos valores de los parmetros que hacen mnima la suma de los cuadra-

na aquellos valores de los parmetros que hacen mnima la suma de los cuadra-

dos de los residuos:

dos de los residuos:


n

( xi x )( yi y )

s xy
i=1
0 = y 1 x ; 1 = ------2 = -------------------------------------------n
2
sx
( xi x )
i=1

( xi x )( yi y )

s xy
i=1
0 = y 1 x ; 1 = ------2 = -------------------------------------------n
2
sx
( xi x )
i=1

43

FUOC P03/75057/01013

Regresin lineal simple

De manera que 0 y 1 son los valores estimados (o estimadores) de los parmetros 0 y 1 de la poblacin. Y la recta que mejor se ajusta a los datos es:

43

FUOC P03/75057/01013

Regresin lineal simple

De manera que 0 y 1 son los valores estimados (o estimadores) de los pa-

Valor medio

rmetros 0 y 1 de la poblacin. Y la recta que mejor se ajusta a los datos es:

Debemos interpretar:

Debemos interpretar:

y i = 0 + 1 x i

y i = 0+ 1 x i

Todava nos falta estimar la varianza de los errores aleatorios, 2. Este trmino

como la estimacin del valor


medio de la distribucin Y para
un valor fijo X = xi.

y i = 0 + 1 x i

y i = 0+ 1 x i

Todava nos falta estimar la varianza de los errores aleatorios, 2. Este trmino

como la estimacin del valor


medio de la distribucin Y para
un valor fijo X = xi.

refleja la variacin aleatoria en torno a la autntica recta de regresin.

refleja la variacin aleatoria en torno a la autntica recta de regresin.

Si consideramos los residuos de la regresin como estimaciones de los valores de

Si consideramos los residuos de la regresin como estimaciones de los valores de

los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza

los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza

de los residuos:

de los residuos:

2
2
1
s = ------------ ( y i y i )
n 2i = 1

Habitualmente, s2 se denomina varianza residual.

Hemos dividido la suma de las desviaciones al cuadrado por n 2, no por n 1.


Esto se debe a que estimamos la media de Y para un valor dado de X con una
frmula que contiene dos parmetros estimados a partir de los datos de la muestra ( y ). Diremos que hemos perdido dos grados de libertad.
0

Prdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la divisin por (n 1) en la frmula de la varianza muestral:
n

Ejemplo de las alturas y los pesos


Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
Individuos (i)

10

Altura

161

152

167

153

161

168

167

153

159

63

56

77

49

72

62

68

48

57

(x)

Peso (yi)

2
2
1
s = ------------ ( y i y i )
n 2i = 1

Terminologa

2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
2

Valor medio

2
x

( xi x )
i=1

s = ---------------------------n1
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.

Terminologa
Habitualmente, s2 se denomina varianza residual.

2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1
2

Hemos dividido la suma de las desviaciones al cuadrado por n 2, no por n 1.


Esto se debe a que estimamos la media de Y para un valor dado de X con una
frmula que contiene dos parmetros estimados a partir de los datos de la muestra ( y ). Diremos que hemos perdido dos grados de libertad.
0

El razonamiento es el mismo
que el que hacemos al justificar
la divisin por (n 1) en la frmula de la varianza muestral:
n

Ejemplo de las alturas y los pesos


Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
Individuos (i)

10

173

Altura

161

152

167

153

161

168

167

153

159

173

67

Peso (yi)

63

56

77

49

72

62

68

48

57

67

La recta de regresin correspondiente es:

Prdida de grados de
libertad

(x)

2
x

( xi x )
i=1

s = ---------------------------n1
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.

La recta de regresin correspondiente es:

y = 96,112 + 0,979x

y = 96,112 + 0,979x

Para hacer los clculos ms cmodos, es aconsejable construir la tabla de clculos por la
varianza de los residuos que se muestra a continuacin.
i

xi

yi

y i

xi x

( xi x )

161

63

61,51

0,4

152

56

52,70

167

77

153

En la sesin El modelo de regresin


simple se deduce la recta
de regresin correspondiente
a este ejemplo.

Para hacer los clculos ms cmodos, es aconsejable construir la tabla de clculos por la
varianza de los residuos que se muestra a continuacin.
i

xi

yi

y i

xi x

( xi x )

2,225

161

63

61,51

0,4

3,30

10,908

152

56

52,70

31,36

9,62

92,498

167

77

8,4

70,56

4,68

21,868

153

61,51

0,4

0,16

10,49

110,075

62

68,36

6,6

43,56

6,36

40,468

167

68

67,38

5,6

31,36

0,62

153

48

53,68

8,4

70,56

5,68

e i = y i y i

ei

0,16

1,49

9,4

88,36

67,38

5,6

49

53,68

161

72

168

7
8

e i = y i y i

ei

0,16

1,49

2,225

9,4

88,36

3,30

10,908

67,38

5,6

31,36

9,62

92,498

49

53,68

8,4

70,56

4,68

21,868

161

72

61,51

0,4

0,16

10,49

110,075

168

62

68,36

6,6

43,56

6,36

40,468

0,381

167

68

67,38

5,6

31,36

0,62

0,381

32,220

153

48

53,68

8,4

70,56

5,68

32,220

En la sesin El modelo de regresin


simple se deduce la recta
de regresin correspondiente
a este ejemplo.

44

FUOC P03/75057/01013

44

FUOC P03/75057/01013

e i = y i y i

ei

xi

yi

y i

xi x

( xi x )

5,76

2,55

6,504

159

57

59,55

2,4

134,56

6,26

39,143

10

173

67

73,26

11,6

356,290

1.6
14

619

xi

yi

y i

xi x

( xi x )

159

57

59,55

2,4

10

173

67

73,26

11,6

1.6
14

619

Regresin lineal simple

476,4

La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el nmero de observaciones menos 2, es decir, por 10 2 = 8, obtenemos
la varianza de los residuos:

Regresin lineal simple

e i = y i y i

ei

5,76

2,55

6,504

134,56

6,26

39,143

476,4

356,290

La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el nmero de observaciones menos 2, es decir, por 10 2 = 8, obtenemos
la varianza de los residuos:

356,290
2
2
1
s = ------------ ( y i y i ) = ---------------------- = 44,536
10 2
n2

356,290
2
2
1
s = ------------ ( y i y i ) = ---------------------- = 44,536
10 2
n2

i=1

i=1

3. Distribucin probabilstica de la pendiente ( 1 )

3. Distribucin probabilstica de la pendiente ( 1 )

La ordenada en el origen 0 nos informa del valor medio de la variable Y para

La ordenada en el origen 0 nos informa del valor medio de la variable Y para

un valor de X igual a cero. No siempre tiene interpretacin realista en el con-

un valor de X igual a cero. No siempre tiene interpretacin realista en el con-

texto del problema: por este motivo, nicamente consideraremos hacer infe-

texto del problema: por este motivo, nicamente consideraremos hacer infe-

rencia estadstica sobre la pendiente.

rencia estadstica sobre la pendiente.

Para poder hacer inferencia estadstica (hacer contrastes de hiptesis y buscar

Para poder hacer inferencia estadstica (hacer contrastes de hiptesis y buscar

intervalos de confianza), ser necesario conocer la distribucin de probabilidad de .

intervalos de confianza), ser necesario conocer la distribucin de probabilidad de .

Del modelo de regresin lineal tenemos que 1 es una combinacin lineal de

Del modelo de regresin lineal tenemos que 1 es una combinacin lineal de

las observaciones yi; y si stas tienen una distribucin normal y son indepen-

las observaciones yi; y si stas tienen una distribucin normal y son indepen-

dientes (tal como hemos supuesto al establecer el modelo de regresin), entonces tambin tendr una distribucin normal. Tendremos bien determinada

dientes (tal como hemos supuesto al establecer el modelo de regresin), entonces tambin tendr una distribucin normal. Tendremos bien determinada

esta distribucin cuando conozcamos la esperanza y la varianza.

esta distribucin cuando conozcamos la esperanza y la varianza.

A partir de la expresin de 1 podemos encontrar el valor esperado y la varianza.


Valor esperado de 1 :

Los desarrollos matemticos se


muestran en el anexo de esta sesin.

A partir de la expresin de 1 podemos encontrar el valor esperado y la varianza.


Valor esperado de 1 :

E ( 1 ) = 1

E ( 1 ) = 1

La pendiente estimada de la recta est distribuida segn una distribucin

La pendiente estimada de la recta est distribuida segn una distribucin

normal con una media igual al valor de este parmetro para la poblacin.

normal con una media igual al valor de este parmetro para la poblacin.

Aunque este valor es desconocido, este resultado nos ser muy til para te-

Aunque este valor es desconocido, este resultado nos ser muy til para te-

ner informacin de la poblacin haciendo inferencia estadstica. Esto lo ve-

ner informacin de la poblacin haciendo inferencia estadstica. Esto lo ve-

remos un poco ms adelante en esta sesin.

remos un poco ms adelante en esta sesin.

Varianza de 1 :

Varianza de 1 :
2

2
= --------------------------2
1
(
x
i x)

2
= --------------------------2
1
(
x
i x)

Los desarrollos matemticos se


muestran en el anexo de esta sesin.

45

FUOC P03/75057/01013

Regresin lineal simple

A continuacin veremos que necesitaremos la informacin de la muestra, ya

45

FUOC P03/75057/01013

A continuacin veremos que necesitaremos la informacin de la muestra, ya

que es un valor desconocido que tendremos que estimar.

que 2 es un valor desconocido que tendremos que estimar.

4. El intervalo de confianza para la pendiente

4. El intervalo de confianza para la pendiente

Acabamos de ver que las suposiciones del modelo de regresin lineal simple implican que el parmetro es una variable aleatoria distribuida normalmente

Acabamos de ver que las suposiciones del modelo de regresin lineal simple implican que el parmetro es una variable aleatoria distribuida normalmente

con:

con:

Media: 1

Media: 1

2
Varianza: = --------------------------2
1
( xi x )

2
Varianza: = --------------------------2
1
( xi x )

Dado que esta varianza 2 es desconocida, deberemos estimarla a partir de la

Dado que esta varianza 2 es desconocida, deberemos estimarla a partir de la

varianza muestral que ya hemos calculado anteriormente:

varianza muestral que ya hemos calculado anteriormente:

2
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1

2
2
1
s = ------------ ( y i 0 1 x i )
n 2i = 1

Definimos el error estndar de la pendiente como:

Definimos el error estndar de la pendiente como:

s
2
s = --------------------------2
1
(
x
i x)

s
2
s = --------------------------2
1
(
x
i x)

Dado que 1 sigue una distribucin normal con varianza desconocida (ya que

Dado que 1 sigue una distribucin normal con varianza desconocida (ya que

no se conoce 2), entonces la variable tipificada:

no se conoce ), entonces la variable tipificada:


1 1
----------------s

1 1
----------------s

tiene una distribucin t de Student con n 2 grados de libertad.


Con todo esto, tenemos que un intervalo de confianza de 100 (1 )%
por la pendiente 1 de la recta de regresin poblacional viene dado por:

tiene una distribucin t de Student con n 2 grados de libertad.


Intervalo de confianza
por la pendiente con un nivel
significativo .

Con todo esto, tenemos que un intervalo de confianza de 100 (1 )%


por la pendiente 1 de la recta de regresin poblacional viene dado por:

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]

ya que:

ya que:

1
P t 2, n 2 ----------------1- t 2, n 2 = 1
s

1
P t 2, n 2 ----------------1- t 2, n 2 = 1
s

Este intervalo est centrado en la estimacin puntual del parmetro, es decir,


en , y la cantidad en la que se alarga a cada lado de la estimacin depende

Este intervalo est centrado en la estimacin puntual del parmetro, es decir,


en , y la cantidad en la que se alarga a cada lado de la estimacin depende

del nivel deseado de confianza, (mediante el valor crtico t/2, n 2 ) y de la


variabilidad del estimador (mediante s ).

del nivel deseado de confianza, (mediante el valor crtico t/2, n 2 ) y de la


variabilidad del estimador (mediante s ).

Regresin lineal simple

Intervalo de confianza
por la pendiente con un nivel
significativo .

46

FUOC P03/75057/01013

Regresin lineal simple

46

FUOC P03/75057/01013

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Consideremos una vez ms el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresin correspondiente era: y = 96,112 + 0,979x, de manera
que 1 = 0,979.

Consideremos una vez ms el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresin correspondiente era: y = 96,112 + 0,979x, de manera
que 1 = 0,979.

Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, = 0,05 y mirando la tabla de la t de Student tenemos un valor crtico de t 2 ; n 2 = t 0,025;8 = 2,3060.

Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, = 0,05 y mirando la tabla de la t de Student tenemos un valor crtico de t 2 ; n 2 = t 0,025;8 = 2,3060.

Para calcular el intervalo de confianza: [ 1 t 2, n 2 s 1 1 + t 2, n 2 s ], antes


1
1
tenemos que calcular:

Para calcular el intervalo de confianza: [ 1 t 2, n 2 s 1 1 + t 2, n 2 s ], antes


1
1
tenemos que calcular:

2
1

s
= ---------------------------2(
x
i x)

donde:

2
1

s
= ---------------------------2(
x
i x)

donde:

2
1
s = -----------n2

( y i y i )

2
1
s = -----------n2

i=1

Antes ya hemos calculado la varianza de los residuos:

2
1
s = -----------n2

i=1

( y i y i )

i=1

Antes ya hemos calculado la varianza de los residuos:

356,290
2
( y i y i ) = ---------------------- = 44 , 536
10 2

De manera que:

2
1
s = -----------n2

( y i y i )

i=1

356,290
= ---------------------- = 44 , 536
10 2

De manera que:

2
1

s
44,536
= ---------------------------2- = ------------------- = 0,093
476,4
(
x

x
)
i

Por tanto, el error estndar de la pendiente ser: s =


1

0,093 = 0,306

2
1

s
44,536
= ---------------------------2- = ------------------- = 0,093
476,4
(
x

x
)
i

Por tanto, el error estndar de la pendiente ser: s =


1

0,093 = 0,306

Y el intervalo de confianza es: [0,979 2,3060 0,306; 0,979 + 2,3060 0,306].

Y el intervalo de confianza es: [0,979 2,3060 0,306; 0,979 + 2,3060 0,306].

Finalmente tenemos [0,274; 1,684]. As pues, tenemos un 95% de probabilidad de que la


pendiente de la recta de regresin para la poblacin se encuentre en este intervalo.

Finalmente tenemos [0,274; 1,684]. As pues, tenemos un 95% de probabilidad de que la


pendiente de la recta de regresin para la poblacin se encuentre en este intervalo.

5. El contraste de hiptesis sobre la pendiente

5. El contraste de hiptesis sobre la pendiente

Observemos que si en el modelo de regresin lineal la pendiente es cero, en-

Observemos que si en el modelo de regresin lineal la pendiente es cero, en-

tonces la variable X no tiene ningn efecto sobre la variable Y. En este caso

tonces la variable X no tiene ningn efecto sobre la variable Y. En este caso

diremos que X no es una variable explicativa del modelo.

diremos que X no es una variable explicativa del modelo.

En este apartado haremos un contraste de hiptesis sobre la pendiente de la

En este apartado haremos un contraste de hiptesis sobre la pendiente de la

recta de regresin para saber si podemos afirmar o no que ste es igual a cero.

recta de regresin para saber si podemos afirmar o no que ste es igual a cero.

Como en todos los contrastes de hiptesis, daremos los pasos siguientes:

Como en todos los contrastes de hiptesis, daremos los pasos siguientes:

1) Establecemos las hiptesis nula y alternativa:

1) Establecemos las hiptesis nula y alternativa:

Hiptesis nula:

H0: 1 = 0, es decir, la variable X no es explicativa.

Hiptesis alternativa: H1: 1 0, es decir, la variable X es explicativa.

Hiptesis nula:

H0: 1 = 0, es decir, la variable X no es explicativa.

Hiptesis alternativa: H1: 1 0, es decir, la variable X es explicativa.

Regresin lineal simple

47

FUOC P03/75057/01013

No rechazar la hiptesis nula significa que no se puede considerar el parmetro 1 significativamente diferente de cero. Es decir, la variable X no tiene influencia sobre la variable Y y, por tanto, no existe una relacin lineal entre las
dos variables.

Regresin lineal simple

Interpretacin geomtrica
No rechazar H0 significa que la
recta estimada tiene una pendiente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.

47

FUOC P03/75057/01013

No rechazar la hiptesis nula significa que no se puede considerar el parmetro 1 significativamente diferente de cero. Es decir, la variable X no tiene influencia sobre la variable Y y, por tanto, no existe una relacin lineal entre las
dos variables.

2) Fijamos un nivel significativo .

2) Fijamos un nivel significativo .

3) Bajo el supuesto de la hiptesis nula cierta (1 = 0) tenemos el estadstico

3) Bajo el supuesto de la hiptesis nula cierta (1 = 0) tenemos el estadstico

de contraste:

de contraste:
1
t = -----s

1
t = -----s

que corresponde a una observacin de una distribucin t de Student con n 2

que corresponde a una observacin de una distribucin t de Student con n 2

grados de libertad.

grados de libertad.

4) Finalmente, podemos actuar de dos maneras:

4) Finalmente, podemos actuar de dos maneras:

Interpretacin geomtrica
No rechazar H0 significa que la
recta estimada tiene una pendiente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.

a) A partir del p-valor. Este valor es: p = 2P(tn2 > |t|).


Si p se rechaza la hiptesis nula H0.
Si p > no se rechaza la hiptesis nula H0.

Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno ms alejado si la hiptesis
nula es cierta.

a) A partir del p-valor. Este valor es: p = 2P(tn2 > |t|).


Si p se rechaza la hiptesis nula H0.
Si p > no se rechaza la hiptesis nula H0.

b) A partir de los valores crticos t/2, n2, de manera que:

b) A partir de los valores crticos t/2, n2, de manera que:

Si |t| > t/2, n2, se rechaza la hiptesis nula H0; por tanto, hay una relacin

Si |t| > t/2, n2, se rechaza la hiptesis nula H0; por tanto, hay una relacin

lineal entre las variables X e Y.

lineal entre las variables X e Y.

Si |t| t/2, n2, no se rechaza la hiptesis nula H0; por tanto, no hay una

Si |t| t/2, n2, no se rechaza la hiptesis nula H0; por tanto, no hay una

relacin lineal entre X e Y. Decimos que la variable X es no explicativa.

relacin lineal entre X e Y. Decimos que la variable X es no explicativa.

Ejemplo de las alturas y los pesos

Ejemplo de las alturas y los pesos

Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hiptesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresin es cero.

Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hiptesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresin es cero.

1) Establecemos las hiptesis nula y alternativa:

1) Establecemos las hiptesis nula y alternativa:

Hiptesis nula:
Hiptesis alternativa:

Regresin lineal simple

H0: 1 = 0
H1: 1 0

Hiptesis nula:
Hiptesis alternativa:

H0: 1 = 0
H1: 1 0

1
2) Calculamos el estadstico de contraste: t = ------- = 3,202
s

1
2) Calculamos el estadstico de contraste: t = ------- = 3,202
s

Sigue una distribucin t de Student con n 2 = 10 2 = 8 grados de libertad.

Sigue una distribucin t de Student con n 2 = 10 2 = 8 grados de libertad.

3) Establecemos un criterio de decisin a partir de un nivel significativo fijado: si escogemos un nivel significativo de = 0,05:

3) Establecemos un criterio de decisin a partir de un nivel significativo fijado: si escogemos un nivel significativo de = 0,05:

a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 0,0063 = 0,0126 < 0,05; por tanto,
rechazamos la hiptesis nula.

a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 0,0063 = 0,0126 < 0,05; por tanto,
rechazamos la hiptesis nula.

b) A partir del valor crtico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusin: rechazamos la hiptesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza.

b) A partir del valor crtico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusin: rechazamos la hiptesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza.

Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno ms alejado si la hiptesis
nula es cierta.

FUOC P03/75057/01013

48

Regresin lineal simple

FUOC P03/75057/01013

48

6. Resumen

6. Resumen

En esta sesin dedicada a la regresin lineal simple hemos considerado que

En esta sesin dedicada a la regresin lineal simple hemos considerado que

nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de

nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de

una poblacin y que las utilizamos para extraer algunas conclusiones del com-

una poblacin y que las utilizamos para extraer algunas conclusiones del com-

portamiento de las variables sobre la poblacin. Hemos establecido el modelo

portamiento de las variables sobre la poblacin. Hemos establecido el modelo

de regresin lineal con sus hiptesis bsicas ms importantes y hemos visto

de regresin lineal con sus hiptesis bsicas ms importantes y hemos visto

cmo hacer inferencia sobre la pendiente de la recta obtenida a partir de la

cmo hacer inferencia sobre la pendiente de la recta obtenida a partir de la

muestra y, en particular, cmo calcular un intervalo de confianza y cmo ha-

muestra y, en particular, cmo calcular un intervalo de confianza y cmo ha-

cer un contraste de hiptesis para decidir si la variable X nos explica realmente

cer un contraste de hiptesis para decidir si la variable X nos explica realmente

el comportamiento de la variable Y.

el comportamiento de la variable Y.

Regresin lineal simple

49

FUOC P03/75057/01013

Regresin lineal simple

49

FUOC P03/75057/01013

Ejercicios

Ejercicios

1.

1.

El departamento de personal de una empresa informtica dedicada a la intro-

El departamento de personal de una empresa informtica dedicada a la intro-

duccin de datos ha llevado a cabo un programa de formacin inicial del per-

duccin de datos ha llevado a cabo un programa de formacin inicial del per-

sonal. La tabla siguiente indica el progreso obtenido en mecanografa de ocho

sonal. La tabla siguiente indica el progreso obtenido en mecanografa de ocho

estudiantes que siguieron el programa y el nmero de semanas que hace que

estudiantes que siguieron el programa y el nmero de semanas que hace que

lo siguen:

lo siguen:
Nmero de
semanas

Ganancia de velocidad
(p.p.m.)

Nmero de
semanas

Ganancia de velocidad
(p.p.m.)

87

87

119

119

47

47

195

195

162

162

234

234

72

72

110

110

La recta de regresin calculada a partir de estos datos es:

La recta de regresin calculada a partir de estos datos es:

y i = 1,659 + 25,318xi

y i = 1,659 + 25,318xi

a) Calculad un intervalo de confianza del 95% para la pendiente de la recta

a) Calculad un intervalo de confianza del 95% para la pendiente de la recta

de regresin.

de regresin.

b) Haced un contraste de hiptesis con un nivel de significacin = 0,05, para

b) Haced un contraste de hiptesis con un nivel de significacin = 0,05, para

saber si la variable nmero de semanas es explicativa de la variable ganan-

saber si la variable nmero de semanas es explicativa de la variable ganan-

cia de velocidad.

cia de velocidad.

2.

2.

Una tienda de ordenadores llev a cabo un estudio para determinar la relacin

Una tienda de ordenadores llev a cabo un estudio para determinar la relacin

entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-

entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-

guientes:

guientes:
Gastos en publicidad
(x 1.000 )

Ventas
(x 1.000 )

Gastos en publicidad
(x 1.000 )

Ventas
(x 1.000 )

40

380

40

380

25

410

25

410

20

390

20

390

22

370

22

370

31

475

31

475

52

450

52

450

40

500

40

500

20

390

20

390

55

575

55

575

42

520

42

520

Regresin lineal simple

50

FUOC P03/75057/01013

Regresin lineal simple

Con estos datos se han obtenido las cantidades siguientes:


10

x i = 347

i=1
10

10

y i = 4.460

i=1

10

( x i x ) = 1.522,1

i=1
10

10

( x i x ) ( y i y ) = 6.018

10

y i = 4.460

i=1

10

i=1

( xi x )( yi y )
10

( yi y )

( x i x ) = 1.522,1

= 6.018

= 43.590,0

i=1

( y i y )

= 19.796,34

10

i=1

i=1

10

i=1

10

( y i y ) = 43.590,0

( y i y i )

= 23.793,66

x i = 347

i=1

i=1

( y i y )

Regresin lineal simple

Con estos datos se han obtenido las cantidades siguientes:

i=1

10

50

FUOC P03/75057/01013

10

( y i y i )

= 23.793,66

i=1

= 19.796,34

i=1

Y la recta de regresin: y = 308,8 + 3,95 x.

Y la recta de regresin: y = 308,8 + 3,95 x.

A partir de toda esta informacin, calculad un intervalo de confianza del 95%

A partir de toda esta informacin, calculad un intervalo de confianza del 95%

para la pendiente.

para la pendiente.

Solucionario

Solucionario

1.

1.

a) Intervalo de confianza:

a) Intervalo de confianza:

Queremos un intervalo de confianza del 95%, por tanto, = 0,05 y obser-

Queremos un intervalo de confianza del 95%, por tanto, = 0,05 y obser-

vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor

vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor

crtico de t/2;n2 = = t0,025;6 = 2,4469.

crtico de t/2;n2 = = t0,025;6 = 2,4469.

Como siempre, lo primero que haremos es una tabla de clculos adecuada con

Como siempre, lo primero que haremos es una tabla de clculos adecuada con

lo que nos piden en este problema:

lo que nos piden en este problema:

xi

yi

xi x

( xi x )

87

119

y i

e i = y i y i

ei

xi

yi

xi x

( xi x )

77,61

9,39

88,116

87

128,25

9,25

85,544

119

47

52,30

5,30

28,037

195

204,20

9,20

84,695

162

153,57

8,43

71,115

234

16

229,52

4,48

72

77,61

110

102,93

40

1.026

35

44

e i = y i y i

ei

77,61

9,39

88,116

128,25

9,25

85,544

47

52,30

5,30

28,037

195

204,20

9,20

84,695

162

153,57

8,43

71,115

20,061

234

16

229,52

4,48

20,061

5,61

31,506

72

77,61

5,61

31,506

7,07

49,971

110

102,93

7,07

49,971

459,045

40

1.026

35

44

459,045

El intervalo de confianza viene dado por:

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1

Y ya estamos en condiciones de calcular cada uno de estos trminos:


2

y i

El intervalo de confianza viene dado por:

s
76,507
2
s = --------------------------2- = ------------------- = 1,739
1
44,0
(
x

x
)
i

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]
1

Y ya estamos en condiciones de calcular cada uno de estos trminos:


2

s
76,507
2
s = --------------------------2- = ------------------- = 1,739
1
44,0
(
x

x
)
i

51

FUOC P03/75057/01013

Regresin lineal simple

51

FUOC P03/75057/01013

n
459,045
2
2
1
donde s = -----------( y i y i ) = ---------------------- = 76,507.
10 2
n 2 i
=1

n
459,045
2
2
1
donde s = -----------( y i y i ) = ---------------------- = 76,507.
10 2
n 2 i
=1

Por tanto, s =

Por tanto, s =

1,739 = 1,319 .

Y el intervalo de confianza es:

1,739 = 1,319 .

Y el intervalo de confianza es:

[25,318 2,4469 1,319; 25,318 + 2,4469 1,319]


Es decir:

[25,318 2,4469 1,319; 25,318 + 2,4469 1,319]


Es decir:

[22,092; 28,545]

[22,092; 28,545]

b) Contraste de hiptesis para = 0,05:

b) Contraste de hiptesis para = 0,05:

1) Establecemos las hiptesis nula y alternativa:

1) Establecemos las hiptesis nula y alternativa:

Hiptesis nula:

H0: 1 = 0

Hiptesis nula:

H0: 1 = 0

Hiptesis alternativa:

H1: 1 0

Hiptesis alternativa:

H1: 1 0

2) Calculamos el estadstico de contraste:

2) Calculamos el estadstico de contraste:

1
t = ------ = 19,200
s

1
t = ------ = 19,200
s

Sigue una distribucin t de Student con n 2 = 6 grados de libertad.

Sigue una distribucin t de Student con n 2 = 6 grados de libertad.

3) Conclusin: puesto que para = 0,05 tenemos un valor crtico t0,025;6 =

3) Conclusin: puesto que para = 0,05 tenemos un valor crtico t0,025;6 =

2,4469 menor que el estadstico de contraste t = 19,200, entonces rechazamos

2,4469 menor que el estadstico de contraste t = 19,200, entonces rechazamos

la hiptesis nula, de manera que la pendiente es diferente de cero y la variable

la hiptesis nula, de manera que la pendiente es diferente de cero y la variable

nmero de semanas es explicativa de la ganancia de velocidad.

nmero de semanas es explicativa de la ganancia de velocidad.

2.

2.

El intervalo de confianza viene dado por:

El intervalo de confianza viene dado por:

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]

[ 1 t 2, n 2 s 1 1 + t 2, n 2 s ]

Necesitamos calcular el error estndar de la pendiente y encontrar los valores

Necesitamos calcular el error estndar de la pendiente y encontrar los valores

crticos.

crticos.

1) Error estndar de la pendiente:

1) Error estndar de la pendiente:

Primero calculamos:

Primero calculamos:

n
19.796,34
2
2
1
s = ------------ ( y i y i ) = --------------------------- = 2.474,54
10 2
n 2i = 1

n
19.796,34
2
2
1
s = ------------ ( y i y i ) = --------------------------- = 2.474,54
10 2
n 2i = 1

Regresin lineal simple

52

FUOC P03/75057/01013

Regresin lineal simple

de manera que:

52

FUOC P03/75057/01013

Regresin lineal simple

de manera que:
2

s
2.474,54
2
s = --------------------------2 = ------------------------ = 1,626
1
1.522,1
( xi x )
Por tanto, el error estndar de la pendiente vale: s =
1

1,626 = 1,275

s
2.474,54
2
s = --------------------------2 = ------------------------ = 1,626
1
1.522,1
( xi x )
Por tanto, el error estndar de la pendiente vale: s =
1

1,626 = 1,275

2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores cr-

2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores cr-

ticos:

ticos:
t0,025;8 = 2,3060.

3) Por tanto, el intervalo de confianza es:

t0,025;8 = 2,3060.
3) Por tanto, el intervalo de confianza es:

[3,953 2,3060 1,275; 3,953 + 2,3060 1,275]


Es decir:

[3,953 2,3060 1,275; 3,953 + 2,3060 1,275]


Es decir:

[1,013; 6,894]

[1,013; 6,894]

Este intervalo de confianza no contiene el valor cero; por tanto, este resultado

Este intervalo de confianza no contiene el valor cero; por tanto, este resultado

nos indica que el gasto en publicidad es explicativo de las ventas con una con-

nos indica que el gasto en publicidad es explicativo de las ventas con una con-

fianza del 95%.

fianza del 95%.

53

FUOC P03/75057/01013

Regresin lineal simple

53

FUOC P03/75057/01013

Anexos

Anexos

Anexo 1

Anexo 1

a) Valor esperado de 1 :

a) Valor esperado de 1 :
E ( 1 ) = 1

E ( 1 ) = 1

Manipulando un poco la expresin que tenemos para 1 :

Manipulando un poco la expresin que tenemos para 1 :

( xi x ) ( yi y )

s xy
i-------------------------------------------=1
- =
1 = -----n
2 =
2
sx
( xj x )
j=1

( xi x ) ( yi y )

s xy
i-------------------------------------------=1
- =
1 = -----n
2 =
2
sx
( xj x )

( xi x )

- yi
---------------------------n
2
i=1
(xj x )

j=1

j=1

( xi x )
- , podemos escribir: 1 =
Si hacemos: w i = ---------------------------n
2
( xj x )

i=1

i=1

E ( wi yi ) =

i=1

wi ( 0 + 1 xi )

i=1

Vemos que:

wi

= 0 y que

i=1

wi xi

i=1

Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) = kE(X).

wi 0 + 1 wi xi

i=1

wi 0 + 1 wi xi

i=1

E ( 1 ) = E w i y i =

wi E ( yi ) =

i=1

i=1

j=1

wi yi

i=1

Si ahora calculamos el valor esperado:

( xi x )

j=1

Si ahora calculamos el valor esperado:


n

- yi
---------------------------n
2
i=1
(xj x )

( xi x )
- , podemos escribir: 1 =
Si hacemos: w i = ---------------------------n
2
( xj x )

wi yi

j=1

E ( 1 ) = E w i y i =

Regresin lineal simple

i=1

i=1

i=1

Vemos que:
Observacin

wi

i=1

wi xi

wi E ( yi )

i=1

wi 0 + 1 wi xi

Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) = kE(X).

i=1

wi 0 + 1 wi xi

= 0 y que

i=1

i=1

i=1

wi ( 0 + 1 xi )

= 1

E ( wi yi ) =

= 0 wi + 1 w i xi
i=1

i=1

i=1

= 0 wi + 1 w i xi

= 1
Observacin

i=1

Puesto que:
n

n
( xi x )
1
=
------------------------------( xi x ) = 0
w i = ---------------------------
n
n
2
2 i=1
i=1
i=1
(
x

x
)
(
x

x
)
i
i
i=1

Para calcular el trmino

i=1

i=1

Ya que:

wi

i=1

= 0

i=1

i=1

w i x i , utilizaremos la igualdad siguiente:


n

w i xi wi x

i=1

n
( xi x )
1
=
------------------------------( xi x ) = 0
w i = ---------------------------
n
n
2
2 i=1
i=1
i=1
(
x

x
)
(
x

x
)
i
i

x = 1
--- x i
n

es fcil ver que:

i=1

wi ( xi x )

Puesto que:
n

i=1

w i x i x wi

i=1

i=1

( xi x )

i=1

= 0

Para calcular el trmino

wi xi

wi ( xi x )

i=1

i=1

Ya que:

wi

i=1

= 0

w i x i , utilizaremos la igualdad siguiente:


n

w i xi wi x

i=1

i=1

es fcil ver que:

i=1

i=1

x = 1
--- x i
n

i=1

w i x i x wi

i=1

i=1

wi xi

i=1

( xi x )

i=1

= 0

54

FUOC P03/75057/01013

Regresin lineal simple

De manera que:

( xi x )

2
n

(xi x )
=1
- = 1
- ( x i x ) = i--------------------------- w i ( xi x ) = ---------------------------n
n
2
2
i=1
i=1
(
x

x
)
(
x

x
)
i
i

( xi x )

(xi x )
=1
- = 1
- ( x i x ) = i--------------------------- w i ( xi x ) = ---------------------------n
n
2
2
i=1
i=1
(
x

x
)
(
x

x
)
i
i

i=1

i=1

wi xi

Regresin lineal simple

De manera que:

As pues:

54

FUOC P03/75057/01013

i=1

i=1

= 1

As pues:

i=1

wi xi

= 1

i=1

Y, finalmente, tenemos que: E ( 1 ) = 1.

Y, finalmente, tenemos que: E ( 1 ) = 1.

b) Varianza de 1 :

b) Varianza de 1 :

= Var ( 1 ) = Var w i y i =
1

i=1

Var ( w i y i ) =

i=1

w i Var ( y i ) =

i=1

Propiedad de la varianza

= Var ( 1 ) = Var w i y i =
1

i=1

Var ( w i y i ) =

i=1

w i Var ( y i )

i=1

Var(kX) = k2Var (X).

2
n

( xi x )
2
2
2
2
1
= w i = ---------------------------- = ---------------------------n
n

2
2
i=1
i=1
( xi x )
( xi x )

i=1

i=1

2
Tenemos que la varianza de 1 es: = ---------------------------n
1
2
(
x

x
)
i
i=1

Propiedad de la varianza
Var(kX) = k2Var (X).

2
n

( xi x )
2
2
2
2
1
= w i = ---------------------------- = ---------------------------n
n

2
2
i=1
i=1
( xi x )
( xi x )

i=1

i=1

2
Tenemos que la varianza de 1 es: = ---------------------------n
1
2
(
x

x
)
i
i=1

También podría gustarte