P. 1
15TB1WIOWYUI8NVB52CU

15TB1WIOWYUI8NVB52CU

|Views: 652|Likes:
Publicado porguccisan

More info:

Published by: guccisan on Aug 22, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

12/30/2012

pdf

text

original

Sections

  • El modelo de regresión simple
  • 1.Introducción
  • 2.Relaciones entre dos variables
  • 3.Diagramas de dispersión y curvas de regresión
  • 4.Recta de regresión
  • 4.1.Estimación de los parámetros: método de los mínimos
  • 5.Interpretación de los parámetros de la recta de regresión
  • 6.Construcción de la tabla para determinar los parámetros
  • 7.Interpolación y extrapolación
  • 8.Modelos de regresión no lineales
  • 9.Resumen
  • Ejercicios
  • Anexos
  • La calidad del ajuste
  • 2.El coeficiente de determinación, R2
  • 3.El coeficiente de correlación muestral, r
  • 4.Relación entre R2
  • 5.Diagnóstico de la regresión: análisis de los residuos
  • 6.Resumen
  • Inferencia en la regresión
  • 2.El modelo de regresión en la población
  • 3.Distribución probabilística de la pendiente ()
  • 4.El intervalo de confianza para la pendiente
  • 5.El contraste de hipótesis sobre la pendiente

Regresión lineal

simple
Josep Gibergans Bàguena
P03/75057/01013
Regresión lineal
simple
Josep Gibergans Bàguena
P03/75057/01013
© FUOC • P03/75057/01013 Regresión lineal simple
Índice
Sesión 1
El modelo de regresión simple.............................................................. 5
1. Introducción ............................................................................................ 5
2. Relaciones entre dos variables ................................................................. 5
3. Diagramas de dispersión y curvas de regresión....................................... 6
4. Recta de regresión.................................................................................... 8
4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8
5. Interpretación de los parámetros de la recta de regresión....................... 10
6. Construcción de la tabla para determinar los parámetros ...................... 10
7. Interpolación y extrapolación ................................................................. 12
8. Modelos de regresión no lineales ............................................................ 13
9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20
Sesión 2
La calidad del ajuste................................................................................ 23
1. Introducción ............................................................................................ 23
2. El coeficiente de determinación, R
2
......................................................... 23
3. El coeficiente de correlación muestral, r.................................................. 26
4. Relación entre R
2
y r ................................................................................ 28
5. Diagnóstico de la regresión: análisis de los residuos ............................... 30
6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38
Sesión 3
Inferencia en la regresión ..................................................................... 40
1. Introducción ............................................................................................ 40
2. El modelo de regresión en la población .................................................. 40
3. Distribución probabilística de la pendiente ( ) .................................... 44
4. El intervalo de confianza para la pendiente............................................ 45
5. El contraste de hipótesis sobre la pendiente ........................................... 46
6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53
β
ˆ
1
© FUOC • P03/75057/01013 Regresión lineal simple
Índice
Sesión 1
El modelo de regresión simple.............................................................. 5
1. Introducción ............................................................................................ 5
2. Relaciones entre dos variables ................................................................. 5
3. Diagramas de dispersión y curvas de regresión....................................... 6
4. Recta de regresión.................................................................................... 8
4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8
5. Interpretación de los parámetros de la recta de regresión....................... 10
6. Construcción de la tabla para determinar los parámetros ...................... 10
7. Interpolación y extrapolación ................................................................. 12
8. Modelos de regresión no lineales ............................................................ 13
9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20
Sesión 2
La calidad del ajuste................................................................................ 23
1. Introducción ............................................................................................ 23
2. El coeficiente de determinación, R
2
......................................................... 23
3. El coeficiente de correlación muestral, r.................................................. 26
4. Relación entre R
2
y r ................................................................................ 28
5. Diagnóstico de la regresión: análisis de los residuos ............................... 30
6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38
Sesión 3
Inferencia en la regresión ..................................................................... 40
1. Introducción ............................................................................................ 40
2. El modelo de regresión en la población .................................................. 40
3. Distribución probabilística de la pendiente ( ) .................................... 44
4. El intervalo de confianza para la pendiente............................................ 45
5. El contraste de hipótesis sobre la pendiente ........................................... 46
6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53
β
ˆ
1
© FUOC • P03/75057/01013 5 Regresión lineal simple
El modelo de regresión simple
1. Introducción
Después de estudiar cómo hay que organizar, representar gráficamente y analizar
un conjunto de datos a partir de algunos parámetros, nos proponemos estu-
diar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relación entre estas variables.
Queremos construir modelos que describan la relación entre las variables con
el propósito, principalmente, de predecir los valores de una variable a partir de
los valores de la otra. Lo haremos con el modelo de regresión lineal simple.
2. Relaciones entre dos variables
El modelo de regresión lineal simple nos permite construir un modelo para ex-
plicar la relación entre dos variables.
Ejemplo de relación entre dos variables
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton-
ces podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable
explicada. Como veremos más adelante, dependerá en gran medida de las ca-
racterísticas de los datos que tengamos.
Las relaciones entre dos variables pueden ser de dos tipos:
1) Funcionales (o deterministas): cuando hay una fórmula matemática que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.
El objetivo es explicar el comportamiento de una variable Y, que deno-
minaremos variable explicada (o dependiente o endógena), a partir de
otra variable X, que llamaremos variable explicativa (o independiente
o exógena).
Origen de los modelos
de regresión
Estos modelos fueron utilizados
por Laplace y Gauss en sus tra-
bajos de astronomía y física de-
sarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresión tiene su origen en los
trabajos de Galton en biología
de finales del siglo XIX. La expre-
sión de Galton:
“regression towards mediocrity”
dio nombre a la regresión.
Ejemplo de relación
funcional
Podemos conocer el área de
un cuadrado a partir de la lon-
gitud de su lado.
© FUOC • P03/75057/01013 5 Regresión lineal simple
El modelo de regresión simple
1. Introducción
Después de estudiar cómo hay que organizar, representar gráficamente y analizar
un conjunto de datos a partir de algunos parámetros, nos proponemos estu-
diar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relación entre estas variables.
Queremos construir modelos que describan la relación entre las variables con
el propósito, principalmente, de predecir los valores de una variable a partir de
los valores de la otra. Lo haremos con el modelo de regresión lineal simple.
2. Relaciones entre dos variables
El modelo de regresión lineal simple nos permite construir un modelo para ex-
plicar la relación entre dos variables.
Ejemplo de relación entre dos variables
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton-
ces podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable
explicada. Como veremos más adelante, dependerá en gran medida de las ca-
racterísticas de los datos que tengamos.
Las relaciones entre dos variables pueden ser de dos tipos:
1) Funcionales (o deterministas): cuando hay una fórmula matemática que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.
El objetivo es explicar el comportamiento de una variable Y, que deno-
minaremos variable explicada (o dependiente o endógena), a partir de
otra variable X, que llamaremos variable explicativa (o independiente
o exógena).
Origen de los modelos
de regresión
Estos modelos fueron utilizados
por Laplace y Gauss en sus tra-
bajos de astronomía y física de-
sarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresión tiene su origen en los
trabajos de Galton en biología
de finales del siglo XIX. La expre-
sión de Galton:
“regression towards mediocrity”
dio nombre a la regresión.
Ejemplo de relación
funcional
Podemos conocer el área de
un cuadrado a partir de la lon-
gitud de su lado.
© FUOC • P03/75057/01013 6 Regresión lineal simple
2) Estadísticas (o estocásticas): cuando no existe una expresión matemática
que las relacione de forma exacta.
En la relación entre el peso y la altura es evidente que existen muchos factores,
como pueden ser factores genéticos, la actividad física, la alimentación, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relación entre es-
tas dos variables sea estadística y no funcional.
3. Diagramas de dispersión y curvas de regresión
A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra
de individuos, el primer paso en un análisis de regresión es representar estos datos
sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis-
persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la
relación entre las dos variables.
Ejemplo de diagramas de dispersión
El diagrama de dispersión puede presentar formas diversas:
El diagrama de dispersión se obtiene representando cada observación
(x
i
, y
i
) como un punto en el plano cartesiano XY.
Ejemplo de relación
estadística
Sabemos que hay una relación
entre la altura y el peso de las
personas: en general, cuanta
más altura, más peso. Pero
no existe ninguna fórmula
matemática que nos dé una en
función de la otra, ya que esto
significaría que todas las perso-
nas que tienen la misma altura
tendrían el mismo peso, y eso
sabemos que no es cierto.
Terminología
El diagrama de dispersión tam-
bién se conoce como nube
de puntos.
© FUOC • P03/75057/01013 6 Regresión lineal simple
2) Estadísticas (o estocásticas): cuando no existe una expresión matemática
que las relacione de forma exacta.
En la relación entre el peso y la altura es evidente que existen muchos factores,
como pueden ser factores genéticos, la actividad física, la alimentación, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relación entre es-
tas dos variables sea estadística y no funcional.
3. Diagramas de dispersión y curvas de regresión
A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra
de individuos, el primer paso en un análisis de regresión es representar estos datos
sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis-
persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la
relación entre las dos variables.
Ejemplo de diagramas de dispersión
El diagrama de dispersión puede presentar formas diversas:
El diagrama de dispersión se obtiene representando cada observación
(x
i
, y
i
) como un punto en el plano cartesiano XY.
Ejemplo de relación
estadística
Sabemos que hay una relación
entre la altura y el peso de las
personas: en general, cuanta
más altura, más peso. Pero
no existe ninguna fórmula
matemática que nos dé una en
función de la otra, ya que esto
significaría que todas las perso-
nas que tienen la misma altura
tendrían el mismo peso, y eso
sabemos que no es cierto.
Terminología
El diagrama de dispersión tam-
bién se conoce como nube
de puntos.
© FUOC • P03/75057/01013 7 Regresión lineal simple
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma-
nera que tenemos una relación funcional entre las dos variables dada por la ecuación
de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se si-
túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun-
tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab-
solutamente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega-
tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el
individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:
El diagrama de dispersión también nos puede ayudar a encontrar algún valor
atípico entre los datos de la muestra que pueda tener su origen en una mala
observación o en el hecho de ser una observación correspondiente a un indi-
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de-
bemos controlar las influencias que pueda tener en el análisis.
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
Definición y ejemplo
de valor atípico
Por valor atípico entendemos
un valor muy diferente de los
otros y que muy posiblemente
es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
© FUOC • P03/75057/01013 7 Regresión lineal simple
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma-
nera que tenemos una relación funcional entre las dos variables dada por la ecuación
de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se si-
túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun-
tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab-
solutamente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega-
tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el
individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:
El diagrama de dispersión también nos puede ayudar a encontrar algún valor
atípico entre los datos de la muestra que pueda tener su origen en una mala
observación o en el hecho de ser una observación correspondiente a un indi-
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de-
bemos controlar las influencias que pueda tener en el análisis.
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
Definición y ejemplo
de valor atípico
Por valor atípico entendemos
un valor muy diferente de los
otros y que muy posiblemente
es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
© FUOC • P03/75057/01013 8 Regresión lineal simple
4. Recta de regresión
4.1. Estimación de los parámetros: método de los mínimos
cuadrados
Una recta queda bien determinada si el valor de su pendiente (b) y de su or-
denada en el origen (a) son conocidos. De esta manera la ecuación de la recta
viene dada por:
y = a + bx
A partir de la fórmula anterior definimos para cada observación (x
i
, y
i
) el error
o residuo como la distancia vertical entre el punto (x
i
, y
i
) y la recta, es decir:
y
i
– (a + bx
i
)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Para determinar una recta de regresión, utilizaremos el método de los mínimos
cuadrados.
Una vez que hemos hecho el diagrama de dispersión y después de obser-
var una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión.
El método de los mínimos cuadrados consiste en buscar los valores de los
parámetros a y b de manera que la suma de los cuadrados de los residuos
sea mínima. Esta recta es la recta de regresión por mínimos cuadrados.
© FUOC • P03/75057/01013 8 Regresión lineal simple
4. Recta de regresión
4.1. Estimación de los parámetros: método de los mínimos
cuadrados
Una recta queda bien determinada si el valor de su pendiente (b) y de su or-
denada en el origen (a) son conocidos. De esta manera la ecuación de la recta
viene dada por:
y = a + bx
A partir de la fórmula anterior definimos para cada observación (x
i
, y
i
) el error
o residuo como la distancia vertical entre el punto (x
i
, y
i
) y la recta, es decir:
y
i
– (a + bx
i
)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Para determinar una recta de regresión, utilizaremos el método de los mínimos
cuadrados.
Una vez que hemos hecho el diagrama de dispersión y después de obser-
var una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión.
El método de los mínimos cuadrados consiste en buscar los valores de los
parámetros a y b de manera que la suma de los cuadrados de los residuos
sea mínima. Esta recta es la recta de regresión por mínimos cuadrados.
© FUOC • P03/75057/01013 9 Regresión lineal simple
Siendo la suma de los cuadrados la expresión:
para encontrar los valores de a y b, sólo hay que determinar las derivadas par-
ciales con respecto a los parámetros a y b:
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono-
cido como sistema de ecuaciones normales:
Las soluciones de este sistema de ecuaciones son:
y
en las que:
• es la covarianza muestral de las observaciones (x
i
, y
i
).
• es la varianza muestral de las observaciones x
i
.
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresión la escribiremos de la manera siguiente:
Terminología
La suma de los cuadrados de
los residuos también se deno-
mina suma de los errores cua-
dráticos.
y
i
a – bx
i
– ( )
2
i 1 =
n

a ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )
i 1 =
n

– =
b ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )x
i
i 1 =
n

– =
La resolución de este sistema de
ecuaciones se encuentra en el anexo
1 de esta sesión.
y
i
a – bx
i
– ( )
i 1 =
n

0 =
y
i
a – bx
i
– ( )x
i
0 =
i 1 =
n

¹
¹
¹
¹
'
¹
¹
¹
¹
b
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= = a y bx – =
En rigor...
... habría que probar que, efec-
tivamente, estos valores de los
parámetros hacen mínima la
suma de los cuadrados de los
residuos.
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
= Notación
Hemos hecho un cambio en
la notación para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresión por mí-
nimos cuadrados:
obtenida al determinar a y b.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
y
ˆ
β
ˆ
0 β
ˆ
1x + =
© FUOC • P03/75057/01013 9 Regresión lineal simple
Siendo la suma de los cuadrados la expresión:
para encontrar los valores de a y b, sólo hay que determinar las derivadas par-
ciales con respecto a los parámetros a y b:
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono-
cido como sistema de ecuaciones normales:
Las soluciones de este sistema de ecuaciones son:
y
en las que:
• es la covarianza muestral de las observaciones (x
i
, y
i
).
• es la varianza muestral de las observaciones x
i
.
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresión la escribiremos de la manera siguiente:
Terminología
La suma de los cuadrados de
los residuos también se deno-
mina suma de los errores cua-
dráticos.
y
i
a – bx
i
– ( )
2
i 1 =
n

a ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )
i 1 =
n

– =
b ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )x
i
i 1 =
n

– =
La resolución de este sistema de
ecuaciones se encuentra en el anexo
1 de esta sesión.
y
i
a – bx
i
– ( )
i 1 =
n

0 =
y
i
a – bx
i
– ( )x
i
0 =
i 1 =
n

¹
¹
¹
¹
'
¹
¹
¹
¹
b
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= = a y bx – =
En rigor...
... habría que probar que, efec-
tivamente, estos valores de los
parámetros hacen mínima la
suma de los cuadrados de los
residuos.
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
= Notación
Hemos hecho un cambio en
la notación para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresión por mí-
nimos cuadrados:
obtenida al determinar a y b.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
y
ˆ
β
ˆ
0 β
ˆ
1x + =
© FUOC • P03/75057/01013 10 Regresión lineal simple
donde los parámetros de la recta y vienen dados por:
y
De ahora en adelante, a los residuos calculados con la recta de regresión los
llamaremos e
i
, es decir:
donde es el valor estimado para la recta de regresión.
5. Interpretación de los parámetros de la recta de regresión
Una vez determinada la recta de regresión, es muy importante interpretar los
parámetros de la ecuación en el contexto del fenómeno que se estudia.
• Interpretación de la ordenada en el origen, :
Este parámetro representa la estimación del valor de Y cuando X es igual a cero:
.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que:
1. realmente sea posible que X tome el valor x · 0;
2. se tengan suficientes observaciones cercanas al valor x · 0.
• Interpretación de la pendiente de la recta,
Este parámetro representa la estimación del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de
cómo están relacionadas las dos variables en el sentido de que nos indica en
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían
los valores de la X en una unidad.
6. Construcción de la tabla para determinar los parámetros
Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Ejemplo de las alturas y los pesos
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral s
xy
, la varianza
muestral y las medias y .
β
ˆ
0 β
ˆ
1
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
=
e
i
y
i
y
ˆ
i
– =
y
ˆ
i
β
ˆ
0
en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la orde-
nada en el origen no tendrá
sentido, ya que corresponde-
ría al peso que tendrían las
personas de altura nula.
β
ˆ
0
y
ˆ
β
ˆ
0 β
ˆ
10 + β
ˆ
0 = =
β
ˆ
1
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersión habíamos obser-
vado que, en general, aumenta
el peso de las personas a medi-
da que aumenta su altura.
s
x
2
x y
© FUOC • P03/75057/01013 10 Regresión lineal simple
donde los parámetros de la recta y vienen dados por:
y
De ahora en adelante, a los residuos calculados con la recta de regresión los
llamaremos e
i
, es decir:
donde es el valor estimado para la recta de regresión.
5. Interpretación de los parámetros de la recta de regresión
Una vez determinada la recta de regresión, es muy importante interpretar los
parámetros de la ecuación en el contexto del fenómeno que se estudia.
• Interpretación de la ordenada en el origen, :
Este parámetro representa la estimación del valor de Y cuando X es igual a cero:
.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que:
1. realmente sea posible que X tome el valor x · 0;
2. se tengan suficientes observaciones cercanas al valor x · 0.
• Interpretación de la pendiente de la recta,
Este parámetro representa la estimación del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de
cómo están relacionadas las dos variables en el sentido de que nos indica en
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían
los valores de la X en una unidad.
6. Construcción de la tabla para determinar los parámetros
Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Ejemplo de las alturas y los pesos
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral s
xy
, la varianza
muestral y las medias y .
β
ˆ
0 β
ˆ
1
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
=
e
i
y
i
y
ˆ
i
– =
y
ˆ
i
β
ˆ
0
en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la orde-
nada en el origen no tendrá
sentido, ya que corresponde-
ría al peso que tendrían las
personas de altura nula.
β
ˆ
0
y
ˆ
β
ˆ
0 β
ˆ
10 + β
ˆ
0 = =
β
ˆ
1
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersión habíamos obser-
vado que, en general, aumenta
el peso de las personas a medi-
da que aumenta su altura.
s
x
2
x y
© FUOC • P03/75057/01013 11 Regresión lineal simple
Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re-
gresión.
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
Los parámetros son:
Tenemos la recta de regresión siguiente:
Podemos representar la recta de regresión en el diagrama de dispersión:
Interpretamos los parámetros obtenidos:
• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per-
sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretación de este parámetro.
i x
i
y
i

1 161 63 0,4 –1,1 0,16 –0,44
2 152 56 9,4 5,9 88,36 55,46
3 167 77 –5,6 –15,1 31,36 84,56
4 153 49 8,4 12,9 70,56 108,36
5 161 72 0,4 –10,1 0,16 –4,04
6 168 62 –6,6 –0,1 43,56 0,66
7 167 68 –5,6 –6,1 31,36 34,16
8 153 48 8,4 13,9 70,56 116,76
9 159 57 2,4 4,9 5,76 11,76
10 173 67 –11,6 –5,1 134,56 59,16
Σ 1614 619 476,40 466,40
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

161,4 = = y
1
n
--- y
i
i 1 =
n

61,9 = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
-------------------
52,933 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
β
ˆ
1
s
xy
s
x
2
-------
51,822
52,933
------------------- 0,979009 = = =
β
ˆ
0
y β
ˆ
1
x – 61,9 0,979009 161,4 96,1121 – = ⋅ – = =
y
ˆ
96,1121 – 0,979009x + =
© FUOC • P03/75057/01013 11 Regresión lineal simple
Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re-
gresión.
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
Los parámetros son:
Tenemos la recta de regresión siguiente:
Podemos representar la recta de regresión en el diagrama de dispersión:
Interpretamos los parámetros obtenidos:
• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per-
sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretación de este parámetro.
i x
i
y
i

1 161 63 0,4 –1,1 0,16 –0,44
2 152 56 9,4 5,9 88,36 55,46
3 167 77 –5,6 –15,1 31,36 84,56
4 153 49 8,4 12,9 70,56 108,36
5 161 72 0,4 –10,1 0,16 –4,04
6 168 62 –6,6 –0,1 43,56 0,66
7 167 68 –5,6 –6,1 31,36 34,16
8 153 48 8,4 13,9 70,56 116,76
9 159 57 2,4 4,9 5,76 11,76
10 173 67 –11,6 –5,1 134,56 59,16
Σ 1614 619 476,40 466,40
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

161,4 = = y
1
n
--- y
i
i 1 =
n

61,9 = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
-------------------
52,933 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
β
ˆ
1
s
xy
s
x
2
-------
51,822
52,933
------------------- 0,979009 = = =
β
ˆ
0
y β
ˆ
1
x – 61,9 0,979009 161,4 96,1121 – = ⋅ – = =
y
ˆ
96,1121 – 0,979009x + =
© FUOC • P03/75057/01013 12 Regresión lineal simple
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
7. Interpolación y extrapolación
Uno de los objetivos más importantes de la regresión es la aplicación del mo-
delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra.
Ejemplo de las alturas y los pesos
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es
el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que
presentará la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:
1) Hemos determinado el modelo con la información contenida en la mues-
tra, de manera que no hemos tenido ninguna información del comportamien-
to de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. An-
tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta-
mos haciendo.
y
ˆ
96,1121 – 0,979009x + =
y
ˆ
96,1121 – 0,979009 160 ⋅ + 60,53 = =
Extrapolación fuera
de rango
Si queremos saber el peso de
un bebé que sólo mide cuaren-
ta centímetros, no podremos
utilizar la recta de regresión
obtenida. Las características
biológicas del bebé, muy dife-
rentes de las que presentan las
personas adultas, harán que la
relación entre el peso y la altu-
ra sea diferente. Deberíamos
efectuar un análisis de regre-
sión a partir de una muestra
de bebés.
Sentido
de la extrapolación
No tiene ningún sentido utili-
zar el modelo de regresión
para calcular el peso de perso-
nas de diez centímetros o tres
metros de altura. El modelo
nos dará un resultado numéri-
co que, en todo caso, hay que
interpretar.
© FUOC • P03/75057/01013 12 Regresión lineal simple
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
7. Interpolación y extrapolación
Uno de los objetivos más importantes de la regresión es la aplicación del mo-
delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra.
Ejemplo de las alturas y los pesos
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es
el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que
presentará la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:
1) Hemos determinado el modelo con la información contenida en la mues-
tra, de manera que no hemos tenido ninguna información del comportamien-
to de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. An-
tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta-
mos haciendo.
y
ˆ
96,1121 – 0,979009x + =
y
ˆ
96,1121 – 0,979009 160 ⋅ + 60,53 = =
Extrapolación fuera
de rango
Si queremos saber el peso de
un bebé que sólo mide cuaren-
ta centímetros, no podremos
utilizar la recta de regresión
obtenida. Las características
biológicas del bebé, muy dife-
rentes de las que presentan las
personas adultas, harán que la
relación entre el peso y la altu-
ra sea diferente. Deberíamos
efectuar un análisis de regre-
sión a partir de una muestra
de bebés.
Sentido
de la extrapolación
No tiene ningún sentido utili-
zar el modelo de regresión
para calcular el peso de perso-
nas de diez centímetros o tres
metros de altura. El modelo
nos dará un resultado numéri-
co que, en todo caso, hay que
interpretar.
© FUOC • P03/75057/01013 13 Regresión lineal simple
8. Modelos de regresión no lineales
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des-
taca el exponencial.
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso exponen-
cial es un poco más difícil.
Para tratarlo, linealizamos el problema, es decir, transformamos las variables
de manera que el problema se convierta en lineal. Si en la ecuación y = ka
x
to-
mamos logaritmos ln y = ln(ka
x
), obtenemos, por aplicación de las propieda-
des de los logaritmos:
ln y = ln k + x ln a
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y.
Así, si representamos el diagrama de dispersión de los puntos (x
i
, ln y
i
) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
bles X e Y hay una relación exponencial.
Ejemplo de la propagación de un virus informático
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
El modelo exponencial es del tipo:
y = ka
x
con a > 0, k > 0
donde k y a son valores constantes.
Número de
días
x
i
Número de ordenadores
infectados
y
i
Transformación de Y
ln y
i
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuación:
y · a + bx
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
y · ka
x
con a > 0 y k > 0
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la población, el número
de ordenadores infectados por
un virus en los primeros días de
contaminación, los precios de
algunos productos, etc., son
exponenciales.
Propiedades
de los logaritmos
ln ab = ln a + ln b
ln a
x
= x ln a
© FUOC • P03/75057/01013 13 Regresión lineal simple
8. Modelos de regresión no lineales
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des-
taca el exponencial.
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso exponen-
cial es un poco más difícil.
Para tratarlo, linealizamos el problema, es decir, transformamos las variables
de manera que el problema se convierta en lineal. Si en la ecuación y = ka
x
to-
mamos logaritmos ln y = ln(ka
x
), obtenemos, por aplicación de las propieda-
des de los logaritmos:
ln y = ln k + x ln a
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y.
Así, si representamos el diagrama de dispersión de los puntos (x
i
, ln y
i
) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
bles X e Y hay una relación exponencial.
Ejemplo de la propagación de un virus informático
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
El modelo exponencial es del tipo:
y = ka
x
con a > 0, k > 0
donde k y a son valores constantes.
Número de
días
x
i
Número de ordenadores
infectados
y
i
Transformación de Y
ln y
i
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuación:
y · a + bx
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
y · ka
x
con a > 0 y k > 0
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la población, el número
de ordenadores infectados por
un virus en los primeros días de
contaminación, los precios de
algunos productos, etc., son
exponenciales.
Propiedades
de los logaritmos
ln ab = ln a + ln b
ln a
x
= x ln a
© FUOC • P03/75057/01013 14 Regresión lineal simple
El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de
algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial.
Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis-
persión correspondiente.
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Si calculamos la recta de regresión de ln y sobre x:
Obtenemos: , es decir,
De manera que, si queremos estimar el número de ordenadores infectados al cabo de
doce días, haremos lo siguiente:
Para x · 12:
Y tomando exponenciales, podemos aislar :
· exp(11,624) · 111.747,8195
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de
111.748 unidades.
9. Resumen
En esta primera sesión hemos introducido los conceptos de relaciones funcio-
nales y estadísticas, así como el de variables dependientes (o explicadas) y el de
variables independientes (o explicativas). A continuación se ha comentado la
construcción de un diagrama de dispersión como paso inicial a la hora de bus-
y
ˆ
ln β
ˆ
0 β
ˆ
1x + =
y
ˆ
ln 5,84 0,482x + = y
ˆ
e
5,84 0,482x +
=
y
ˆ
ln 5,84 0,482 + 12 ⋅ 11,624 = =
y
ˆ
y
ˆ
© FUOC • P03/75057/01013 14 Regresión lineal simple
El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de
algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial.
Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis-
persión correspondiente.
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Si calculamos la recta de regresión de ln y sobre x:
Obtenemos: , es decir,
De manera que, si queremos estimar el número de ordenadores infectados al cabo de
doce días, haremos lo siguiente:
Para x · 12:
Y tomando exponenciales, podemos aislar :
· exp(11,624) · 111.747,8195
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de
111.748 unidades.
9. Resumen
En esta primera sesión hemos introducido los conceptos de relaciones funcio-
nales y estadísticas, así como el de variables dependientes (o explicadas) y el de
variables independientes (o explicativas). A continuación se ha comentado la
construcción de un diagrama de dispersión como paso inicial a la hora de bus-
y
ˆ
ln β
ˆ
0 β
ˆ
1x + =
y
ˆ
ln 5,84 0,482x + = y
ˆ
e
5,84 0,482x +
=
y
ˆ
ln 5,84 0,482 + 12 ⋅ 11,624 = =
y
ˆ
y
ˆ
© FUOC • P03/75057/01013 15 Regresión lineal simple
car algún tipo de relación entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues-
tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados.
Hemos puesto de manifesto la importancia de interpretar correctamente los pa-
rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re-
gresión para hacer interpolaciones. Finalmente, hemos comentado una relación
no lineal tan importante como la relación exponencial y la manera en que po-
demos transformarla en una lineal.
© FUOC • P03/75057/01013 15 Regresión lineal simple
car algún tipo de relación entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues-
tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados.
Hemos puesto de manifesto la importancia de interpretar correctamente los pa-
rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re-
gresión para hacer interpolaciones. Finalmente, hemos comentado una relación
no lineal tan importante como la relación exponencial y la manera en que po-
demos transformarla en una lineal.
© FUOC • P03/75057/01013 16 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer
que existe una relación lineal entre el número de semanas y la ganancia de ve-
locidad?
b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.
c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie-
te semanas que va a clase?
2.
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
labor de los técnicos de los grandes centros comerciales es muy importante a la
hora de presentar este producto al cliente. Con el objetivo de saber si el “número
de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden-
cia en el “número de aparatos vendidos durante una semana” (Y), se observaron
quince centros comerciales con los resultados que se muestran a continuación:
; ; ;
a) Buscad la recta de regresión.
b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un
centro con diecisiete comerciales?
Número de semanas Ganancia de velocidad (p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
x
i
i 1 =
15

215 = x
i
2
i 1 =
15

3.567 = y
i
i 1 =
15

1.700 = x
i
y
i
i 1 =
15

28.300 =
© FUOC • P03/75057/01013 16 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer
que existe una relación lineal entre el número de semanas y la ganancia de ve-
locidad?
b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.
c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie-
te semanas que va a clase?
2.
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
labor de los técnicos de los grandes centros comerciales es muy importante a la
hora de presentar este producto al cliente. Con el objetivo de saber si el “número
de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden-
cia en el “número de aparatos vendidos durante una semana” (Y), se observaron
quince centros comerciales con los resultados que se muestran a continuación:
; ; ;
a) Buscad la recta de regresión.
b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un
centro con diecisiete comerciales?
Número de semanas Ganancia de velocidad (p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
x
i
i 1 =
15

215 = x
i
2
i 1 =
15

3.567 = y
i
i 1 =
15

1.700 = x
i
y
i
i 1 =
15

28.300 =
© FUOC • P03/75057/01013 17 Regresión lineal simple
Solucionario
1.
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
gresión. A partir de la tabla de cálculos siguiente:
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
i x
i
y
i

1 3 87 2 41,25 4 82,5
2 5 119 0 9,25 0 0
3 2 47 3 81,25 9 243,75
4 8 195 –3 –66,75 9 200,25
5 6 162 –1 –33,75 1 33,75
6 9 234 –4 –105,75 16 423
7 3 72 2 56,25 4 112,5
8 4 110 1 18,25 1 18,25
Σ 40 1.026 44,00 1.114,00
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

40
8
------
5,0 = = =
y
1
n
--- y
i
i 1 =
n

1.206
8
---------------
128,250 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
44,00
7
---------------
6,286 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
1.114,00
7
------------------------
159,143 = = =
© FUOC • P03/75057/01013 17 Regresión lineal simple
Solucionario
1.
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
gresión. A partir de la tabla de cálculos siguiente:
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
i x
i
y
i

1 3 87 2 41,25 4 82,5
2 5 119 0 9,25 0 0
3 2 47 3 81,25 9 243,75
4 8 195 –3 –66,75 9 200,25
5 6 162 –1 –33,75 1 33,75
6 9 234 –4 –105,75 16 423
7 3 72 2 56,25 4 112,5
8 4 110 1 18,25 1 18,25
Σ 40 1.026 44,00 1.114,00
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

40
8
------
5,0 = = =
y
1
n
--- y
i
i 1 =
n

1.206
8
---------------
128,250 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
44,00
7
---------------
6,286 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
1.114,00
7
------------------------
159,143 = = =
© FUOC • P03/75057/01013 18 Regresión lineal simple
Ya podemos calcular los coeficientes de la recta de regresión:
y
La recta de regresión obtenida es:
En este caso la ordenada en el origen no tiene ninguna interpretación con sen-
tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla-
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una
información útil: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x · 7:
Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.
2.
a) Para encontrar la recta de regresión, antes tenemos que encontrar las me-
dias y covarianzas muestrales de las variables X e Y, así como la varianza mues-
tral de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
β
ˆ
1
s
xy
s
x
2
------
159,143
6,286
----------------------
25,318 = = =
β
ˆ
0 y β
ˆ
1x – 128,250 25,318 5 ⋅ – 1,659 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 1,659 25,318x + = =
y
ˆ
1,659 25,318 7 ⋅ + 178,885 = =
x
1
n
--- x
i
i 1 =
n

215
15
----------
14,333 = = =
y
1
n
--- y
i
i 1 =
n

1.700
15
---------------
113,333 = = =
© FUOC • P03/75057/01013 18 Regresión lineal simple
Ya podemos calcular los coeficientes de la recta de regresión:
y
La recta de regresión obtenida es:
En este caso la ordenada en el origen no tiene ninguna interpretación con sen-
tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla-
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una
información útil: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x · 7:
Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.
2.
a) Para encontrar la recta de regresión, antes tenemos que encontrar las me-
dias y covarianzas muestrales de las variables X e Y, así como la varianza mues-
tral de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
β
ˆ
1
s
xy
s
x
2
------
159,143
6,286
----------------------
25,318 = = =
β
ˆ
0 y β
ˆ
1x – 128,250 25,318 5 ⋅ – 1,659 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 1,659 25,318x + = =
y
ˆ
1,659 25,318 7 ⋅ + 178,885 = =
x
1
n
--- x
i
i 1 =
n

215
15
----------
14,333 = = =
y
1
n
--- y
i
i 1 =
n

1.700
15
---------------
113,333 = = =
© FUOC • P03/75057/01013 19 Regresión lineal simple
• Varianza muestral:
Para calcular la varianza muestral a partir de los datos del enunciado, utiliza-
remos la expresión equivalente:
De manera que:
• Covarianza muestral:
También ahora utilizaremos una nueva expresión para calcular la covarianza
muestral:
De manera que:
Los parámetros de la recta de regresión son:
La recta de regresión obtenida es:
b) Para un centro con diecisiete comerciales, podemos estimar las ventas de
aparatos de DVD mediante la recta de regresión obtenida:
Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-
madamente unos 135 aparatos.
La deducción de esta fórmula
se muestra en el anexo 2
de esta sesión.
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
=
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
3.567 15 14,333
2
⋅ –
14
------------------------------------------------------
34,667 = = =
La deducción de esta fórmula
se muestra en el anexo 3 de esta
sesión.
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
28.300 15 14,333 113,333 ⋅ ⋅ –
14
----------------------------------------------------------------------------------
280,952 = = =
β
ˆ
1
s
xy
s
x
2
------
280,952
34,667
----------------------
8,104 = = =
β
ˆ
0 y β
ˆ
1x – 113,333 8,104 14,333 ⋅ – 2 – ,829 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104x + = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104 17 ⋅ + 134,939 = = =
© FUOC • P03/75057/01013 19 Regresión lineal simple
• Varianza muestral:
Para calcular la varianza muestral a partir de los datos del enunciado, utiliza-
remos la expresión equivalente:
De manera que:
• Covarianza muestral:
También ahora utilizaremos una nueva expresión para calcular la covarianza
muestral:
De manera que:
Los parámetros de la recta de regresión son:
La recta de regresión obtenida es:
b) Para un centro con diecisiete comerciales, podemos estimar las ventas de
aparatos de DVD mediante la recta de regresión obtenida:
Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-
madamente unos 135 aparatos.
La deducción de esta fórmula
se muestra en el anexo 2
de esta sesión.
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
=
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
3.567 15 14,333
2
⋅ –
14
------------------------------------------------------
34,667 = = =
La deducción de esta fórmula
se muestra en el anexo 3 de esta
sesión.
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
28.300 15 14,333 113,333 ⋅ ⋅ –
14
----------------------------------------------------------------------------------
280,952 = = =
β
ˆ
1
s
xy
s
x
2
------
280,952
34,667
----------------------
8,104 = = =
β
ˆ
0 y β
ˆ
1x – 113,333 8,104 14,333 ⋅ – 2 – ,829 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104x + = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104 17 ⋅ + 134,939 = = =
© FUOC • P03/75057/01013 20 Regresión lineal simple
Anexos
Anexo 1
Resolución del sistema de ecuaciones normales:
A partir de la primera ecuación del sistema:
Dividiendo por n: y aislando la :
De la segunda ecuación del sistema:
, pero tenemos en cuenta que:
entonces
Aislando :
podemos dar una expresión equivalente a partir de la definición de varianza
muestral:
y
i
β
0
β
1
x
i
– – ( ) 0 =
i 1 =
n

y
i
β
0
β
1
x
i
– – ( )x
i
0 =
i 1 =
n

¹
¹
¹
'
¹
¹
¹
y
i
β
0
– β
1
x
i

i 1 =
n

y
i
i 1 =
n

β
0
i 1 =
n

– β
1
x
i
i 1 =
n

– ny nβ
0
– nβ
1
x – 0 = = =
y β
0
= β
1
x + β
0
β
0
y = β
1
x –
y
i
β
0
– β
1
x
i
– ( )x
i
i 1 =
n

x
i
y
i
i 1 =
n

β
0
x
i
i 1 =
n

– β
1
x
i
2
i 1 =
n

– x
i
y
i
i 1 =
n


0
x – β
1
x
i
2
i 1 =
n

– 0 = = =
x
i
y
i
i 1 =
n


0
x β
1
x
i
2
i 1 =
n

+ = β
0
y = β
1
x –
x
i
y
i
i 1 =
n

n y β –
1
x ( )x β
1
x
i
2
i 1 =
n

+ nxy β
1
– nx
2
β
1
x
i
2
i 1 =
n

+ = =
β
1
β
1
x
i
y
i
i 1 =
n

nxy –
x
i
2
i 1 =
n

nx
2

---------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
s
x
2
n 1 – ( ) x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
2nx
2
nx
2
+ –
i 1 =
n

x
i
2
nx
2

i 1 =
n

= = = =
© FUOC • P03/75057/01013 20 Regresión lineal simple
Anexos
Anexo 1
Resolución del sistema de ecuaciones normales:
A partir de la primera ecuación del sistema:
Dividiendo por n: y aislando la :
De la segunda ecuación del sistema:
, pero tenemos en cuenta que:
entonces
Aislando :
podemos dar una expresión equivalente a partir de la definición de varianza
muestral:
y
i
β
0
β
1
x
i
– – ( ) 0 =
i 1 =
n

y
i
β
0
β
1
x
i
– – ( )x
i
0 =
i 1 =
n

¹
¹
¹
'
¹
¹
¹
y
i
β
0
– β
1
x
i

i 1 =
n

y
i
i 1 =
n

β
0
i 1 =
n

– β
1
x
i
i 1 =
n

– ny nβ
0
– nβ
1
x – 0 = = =
y β
0
= β
1
x + β
0
β
0
y = β
1
x –
y
i
β
0
– β
1
x
i
– ( )x
i
i 1 =
n

x
i
y
i
i 1 =
n

β
0
x
i
i 1 =
n

– β
1
x
i
2
i 1 =
n

– x
i
y
i
i 1 =
n


0
x – β
1
x
i
2
i 1 =
n

– 0 = = =
x
i
y
i
i 1 =
n


0
x β
1
x
i
2
i 1 =
n

+ = β
0
y = β
1
x –
x
i
y
i
i 1 =
n

n y β –
1
x ( )x β
1
x
i
2
i 1 =
n

+ nxy β
1
– nx
2
β
1
x
i
2
i 1 =
n

+ = =
β
1
β
1
x
i
y
i
i 1 =
n

nxy –
x
i
2
i 1 =
n

nx
2

---------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
s
x
2
n 1 – ( ) x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
2nx
2
nx
2
+ –
i 1 =
n

x
i
2
nx
2

i 1 =
n

= = = =
© FUOC • P03/75057/01013 21 Regresión lineal simple
y de la definición de covarianza muestral:
Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-
tros de la recta de regresión de la manera siguiente:
i
Anexo 2
Varianza muestral:
Podemos deducir a partir de la fórmula de su definición:
una expresión equivalente desarrollando el cuadrado del numerador:
De manera que:
Anexo 3
Covarianza muestral:
A partir de la definición de la covarianza:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
xy
n 1 – ( ) x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
i 1 =
n

x y
i
i 1 =
n

– y x
i
i 1 =
n

nxy + – = = =
x
i
y
i
i 1 =
n

nxy – nyx nxy + – x
i
y
i
i 1 =
n

nxy – = =
β
ˆ
1
s
xy
s
x
2
------
= β
0
y = β
1
x –
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
i 1 =
n

2xx
i
x ( )
2
i 1 =
n

+
i 1 =
n

– = = =
x
i
2
i 1 =
n

= 2x x
i
n x ( )
2
+
i 1 =
n

– x
i
2
i 1 =
n

2xnx n x ( )
2
+ – x
i
2
i 1 =
n

. ,
| `
n x ( )
2
– = =
s
x
2
x
i
2
i 1 =
n

. ,
| `
n x ( )
2

n 1 –
---------------------------------------
=
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
© FUOC • P03/75057/01013 21 Regresión lineal simple
y de la definición de covarianza muestral:
Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-
tros de la recta de regresión de la manera siguiente:
i
Anexo 2
Varianza muestral:
Podemos deducir a partir de la fórmula de su definición:
una expresión equivalente desarrollando el cuadrado del numerador:
De manera que:
Anexo 3
Covarianza muestral:
A partir de la definición de la covarianza:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
xy
n 1 – ( ) x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
i 1 =
n

x y
i
i 1 =
n

– y x
i
i 1 =
n

nxy + – = = =
x
i
y
i
i 1 =
n

nxy – nyx nxy + – x
i
y
i
i 1 =
n

nxy – = =
β
ˆ
1
s
xy
s
x
2
------
= β
0
y = β
1
x –
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
i 1 =
n

2xx
i
x ( )
2
i 1 =
n

+
i 1 =
n

– = = =
x
i
2
i 1 =
n

= 2x x
i
n x ( )
2
+
i 1 =
n

– x
i
2
i 1 =
n

2xnx n x ( )
2
+ – x
i
2
i 1 =
n

. ,
| `
n x ( )
2
– = =
s
x
2
x
i
2
i 1 =
n

. ,
| `
n x ( )
2

n 1 –
---------------------------------------
=
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
© FUOC • P03/75057/01013 22 Regresión lineal simple
si desarrollamos el producto del sumatorio del numerador:
De manera que:
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
(
i 1 =
n

x
i
y – xy
i
xy) + – x
i
y
i
i 1 =
n

x
i
y
i 1 =
n

– xy
i
i 1 =
n

xy
i 1 =
n

+ – = =
x
i
y
i
i 1 =
n

y x
i
i 1 =
n

– x y
i
i 1 =
n

xyn + – x
i
y
i
i 1 =
n

. ,
| `
nxy – = =
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
·
© FUOC • P03/75057/01013 22 Regresión lineal simple
si desarrollamos el producto del sumatorio del numerador:
De manera que:
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
(
i 1 =
n

x
i
y – xy
i
xy) + – x
i
y
i
i 1 =
n

x
i
y
i 1 =
n

– xy
i
i 1 =
n

xy
i 1 =
n

+ – = =
x
i
y
i
i 1 =
n

y x
i
i 1 =
n

– x y
i
i 1 =
n

xyn + – x
i
y
i
i 1 =
n

. ,
| `
nxy – = =
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
·
© FUOC • P03/75057/01013 23 Regresión lineal simple
La calidad del ajuste
1. Introducción
La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo.
2. El coeficiente de determinación, R
2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
Buscaremos una expresión que nos permita calcular el coeficiente de determi-
nación. Veremos que la varianza de las observaciones se puede descomponer en
dos términos: la varianza que queda explicada por el modelo de regresión lineal
y una varianza debida a los residuos.
A partir de la definición de residuos (e
i
) de la regresión como la diferencia entre
los valores observados (y
i
) y los valores estimados ( ) por la recta de regresión:
e
i
· y
i
− ,
podemos escribir:
y
i
· + e
i
.
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
La medida más importante de la bondad del ajuste es el coeficiente de
determinación R
2
. Este coeficiente nos indica el grado de ajuste de la
recta de regresión a los valores de la muestra, y se define como la pro-
porción de varianza explicada por la recta de regresión, es decir:
Notación
La varianza explicada por la
recta de regresión es la varian-
za de los valores estimados .
La varianza total de los datos es
la varianza de los valores obser-
vados y
i
.
y
ˆ
i
R
2 Varianza explicada por la recta de regresión
Varianza total de los datos
-------------------------------------------------------------------------------------------------------------------------
=
y
ˆ
i
Notación
Llamaremos indistintamente
valores estimados o valores pre-
dichos ( ) a los obtenidos me-
diante la recta de regresión.
y
ˆ
i y
ˆ
i
y
ˆ
i
© FUOC • P03/75057/01013 23 Regresión lineal simple
La calidad del ajuste
1. Introducción
La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo.
2. El coeficiente de determinación, R
2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
Buscaremos una expresión que nos permita calcular el coeficiente de determi-
nación. Veremos que la varianza de las observaciones se puede descomponer en
dos términos: la varianza que queda explicada por el modelo de regresión lineal
y una varianza debida a los residuos.
A partir de la definición de residuos (e
i
) de la regresión como la diferencia entre
los valores observados (y
i
) y los valores estimados ( ) por la recta de regresión:
e
i
· y
i
− ,
podemos escribir:
y
i
· + e
i
.
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
La medida más importante de la bondad del ajuste es el coeficiente de
determinación R
2
. Este coeficiente nos indica el grado de ajuste de la
recta de regresión a los valores de la muestra, y se define como la pro-
porción de varianza explicada por la recta de regresión, es decir:
Notación
La varianza explicada por la
recta de regresión es la varian-
za de los valores estimados .
La varianza total de los datos es
la varianza de los valores obser-
vados y
i
.
y
ˆ
i
R
2 Varianza explicada por la recta de regresión
Varianza total de los datos
-------------------------------------------------------------------------------------------------------------------------
=
y
ˆ
i
Notación
Llamaremos indistintamente
valores estimados o valores pre-
dichos ( ) a los obtenidos me-
diante la recta de regresión.
y
ˆ
i y
ˆ
i
y
ˆ
i
© FUOC • P03/75057/01013 24 Regresión lineal simple
respecto a la media de las observaciones con las desviaciones con respecto a la
media de los valores estimados.
Representaremos gráficamente las desviaciones con respecto a la media, las ob-
servaciones y los valores estimados con la recta de regresión.
Elevando al cuadrado y sumando todos los valores, se puede demostrar que:
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
Suma de cuadrados totales
Suma de cuadrados de la regresión
Suma de cuadrados de los errores
Así, tenemos que:
SCT · SCR + SCE
y
i
y y
ˆ
i
y – ( ) e
i
+ = –
Observación
La recta de regresión pasa
por ( , ). x y
Esta deducción matemática se
encuentra desarrollada en el anexo 1
de esta sesión.
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
2
i 1 =
n

SCE =
© FUOC • P03/75057/01013 24 Regresión lineal simple
respecto a la media de las observaciones con las desviaciones con respecto a la
media de los valores estimados.
Representaremos gráficamente las desviaciones con respecto a la media, las ob-
servaciones y los valores estimados con la recta de regresión.
Elevando al cuadrado y sumando todos los valores, se puede demostrar que:
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
Suma de cuadrados totales
Suma de cuadrados de la regresión
Suma de cuadrados de los errores
Así, tenemos que:
SCT · SCR + SCE
y
i
y y
ˆ
i
y – ( ) e
i
+ = –
Observación
La recta de regresión pasa
por ( , ). x y
Esta deducción matemática se
encuentra desarrollada en el anexo 1
de esta sesión.
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
2
i 1 =
n

SCE =
© FUOC • P03/75057/01013 25 Regresión lineal simple
Podemos interpretar esta última expresión en el sentido de que la varianza total
observada (SCT) en la variable Y se descompone en dos términos: la varianza
explicada por el modelo de regresión lineal (SCR) más la varianza que no que-
da explicada por el modelo, es decir, la varianza de los residuos (SCE).
Observando estas expresiones, es fácil apreciar las características de este coefi-
ciente. Siempre será: , de manera que:
• R
2
· 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en-
cuentran sobre la recta de regresión. En este caso los residuos son cero y la
suma de sus cuadrados también y, por tanto, SCR · SCT.
• R
2
· 0 denota la inexistencia de relación entre las variables X e Y. En este caso
la suma de residuos es máxima y tenemos que SCE · SCT.
• Puesto que R
2
nos explica la proporción de variabilidad de los datos que que-
da explicada por el modelo de regresión, cuanto más cercano a la unidad es-
té, mejor es el ajuste.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
A partir de la recta de regresión:
· –96,1121 + 0,979009x,
Entonces podemos escribir la definición del coeficiente de determina-
ción de esta manera:
o también,
.
Individuos (y) 1 2 3 4 5 6 7 8 9 10
Altura (x
i
) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
R
2
SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
= =
R
2
1
SCE
SCT
-----------
1
e
i
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
– = – =
0 R
2
1 ≤ ≤
Observación
Un coeficiente de determina-
ción diferente de cero no signi-
fica que haya relación lineal
entre las variables. Por ejem-
plo, R
2
· 0,5 sólo nos dice que
el 50% de la varianza de las
observaciones queda explica-
do por el modelo lineal.
y
ˆ
© FUOC • P03/75057/01013 25 Regresión lineal simple
Podemos interpretar esta última expresión en el sentido de que la varianza total
observada (SCT) en la variable Y se descompone en dos términos: la varianza
explicada por el modelo de regresión lineal (SCR) más la varianza que no que-
da explicada por el modelo, es decir, la varianza de los residuos (SCE).
Observando estas expresiones, es fácil apreciar las características de este coefi-
ciente. Siempre será: , de manera que:
• R
2
· 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en-
cuentran sobre la recta de regresión. En este caso los residuos son cero y la
suma de sus cuadrados también y, por tanto, SCR · SCT.
• R
2
· 0 denota la inexistencia de relación entre las variables X e Y. En este caso
la suma de residuos es máxima y tenemos que SCE · SCT.
• Puesto que R
2
nos explica la proporción de variabilidad de los datos que que-
da explicada por el modelo de regresión, cuanto más cercano a la unidad es-
té, mejor es el ajuste.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
A partir de la recta de regresión:
· –96,1121 + 0,979009x,
Entonces podemos escribir la definición del coeficiente de determina-
ción de esta manera:
o también,
.
Individuos (y) 1 2 3 4 5 6 7 8 9 10
Altura (x
i
) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
R
2
SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
= =
R
2
1
SCE
SCT
-----------
1
e
i
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
– = – =
0 R
2
1 ≤ ≤
Observación
Un coeficiente de determina-
ción diferente de cero no signi-
fica que haya relación lineal
entre las variables. Por ejem-
plo, R
2
· 0,5 sólo nos dice que
el 50% de la varianza de las
observaciones queda explica-
do por el modelo lineal.
y
ˆ
© FUOC • P03/75057/01013 26 Regresión lineal simple
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR · 456,61
SCT · 812,90
Por tanto, tenemos un coeficiente de determinación:
R
2
· 456,61 / 812,90 · 0,5617
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los
residuos:
SCE · 356,29
tenemos para el coeficiente de determinación:
R
2
· 1 – ( 356,29 / 812,90 ) · 1 – 0,4383 · 0,5617
Evidentemente, coinciden los resultados.
Hemos obtenido un coeficiente de determinación R
2
· 0,5617 que nos informa de que el
modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.
3. El coeficiente de correlación muestral, r
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 619 812,90 456,61 356,29
Se suele decir que X e Y tienen una relación positiva si los valores
grandes de X están aparejados con valores grandes de Y y valores pe-
queños de X, con valores pequeños de Y. De manera análoga, se dice
que X e Y tienen una relación negativa si los valores grandes de X es-
tán aparejados con los valores pequeños de Y y los pequeños de X, con
grandes de Y.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 26 Regresión lineal simple
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR · 456,61
SCT · 812,90
Por tanto, tenemos un coeficiente de determinación:
R
2
· 456,61 / 812,90 · 0,5617
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los
residuos:
SCE · 356,29
tenemos para el coeficiente de determinación:
R
2
· 1 – ( 356,29 / 812,90 ) · 1 – 0,4383 · 0,5617
Evidentemente, coinciden los resultados.
Hemos obtenido un coeficiente de determinación R
2
· 0,5617 que nos informa de que el
modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.
3. El coeficiente de correlación muestral, r
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 619 812,90 456,61 356,29
Se suele decir que X e Y tienen una relación positiva si los valores
grandes de X están aparejados con valores grandes de Y y valores pe-
queños de X, con valores pequeños de Y. De manera análoga, se dice
que X e Y tienen una relación negativa si los valores grandes de X es-
tán aparejados con los valores pequeños de Y y los pequeños de X, con
grandes de Y.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 27 Regresión lineal simple
Ahora queremos medir estas relaciones de forma numérica. La covarianza mues-
tral entre dos variables X e Y:
W
nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y.
• Si tenemos una relación positiva, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el primer y tercer cuadrante en que
, de manera que contribuirán de forma positiva a la suma.
• Si tenemos una relación negativa, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el segundo y cuarto cuadrante, en los
que , de manera que contribuirán de forma negativa a la
suma.
• Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la
covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
de forma aproximada las cantidades positivas y negativas del sumatorio.
La covarianza presenta el gran inconveniente de depender de las unidades de
las variables que estudiamos.
El coeficiente de correlación se caracteriza por , de manera que:
• r · 1 o r · −1 cuando haya una asociación lineal exacta entre las variables
(en el primer caso positiva y en el segundo, negativa).
• cuando la relación entre las variables no sea lineal de forma exacta.
• Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué
valor de r podemos decir que la relación entre las variables es fuerte? Una re-
gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 <
| r | < 1, y moderada si tiene otro valor.
Definimos el coeficiente de correlación muestral como:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
Esquema de relaciones
entre X e Y
Observad la figura de los ejemplos
de diagramas de dispersión en el
apartado 3 de la sesión “El modelo
de regresión simple” de este módulo.
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≥
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≤
Unidades del coeficiente
de correlación muestral
Al dividir la covarianza por las
desviaciones típicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.
r
s
xy
s
x
s
y
---------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
y
i
y – ( )
2
i 1 =
n

i 1 =
n

--------------------------------------------------------------
= =
1 – r 1 ≤ ≤
1 – r < 1 <
© FUOC • P03/75057/01013 27 Regresión lineal simple
Ahora queremos medir estas relaciones de forma numérica. La covarianza mues-
tral entre dos variables X e Y:
W
nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y.
• Si tenemos una relación positiva, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el primer y tercer cuadrante en que
, de manera que contribuirán de forma positiva a la suma.
• Si tenemos una relación negativa, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el segundo y cuarto cuadrante, en los
que , de manera que contribuirán de forma negativa a la
suma.
• Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la
covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
de forma aproximada las cantidades positivas y negativas del sumatorio.
La covarianza presenta el gran inconveniente de depender de las unidades de
las variables que estudiamos.
El coeficiente de correlación se caracteriza por , de manera que:
• r · 1 o r · −1 cuando haya una asociación lineal exacta entre las variables
(en el primer caso positiva y en el segundo, negativa).
• cuando la relación entre las variables no sea lineal de forma exacta.
• Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué
valor de r podemos decir que la relación entre las variables es fuerte? Una re-
gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 <
| r | < 1, y moderada si tiene otro valor.
Definimos el coeficiente de correlación muestral como:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
Esquema de relaciones
entre X e Y
Observad la figura de los ejemplos
de diagramas de dispersión en el
apartado 3 de la sesión “El modelo
de regresión simple” de este módulo.
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≥
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≤
Unidades del coeficiente
de correlación muestral
Al dividir la covarianza por las
desviaciones típicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.
r
s
xy
s
x
s
y
---------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
y
i
y – ( )
2
i 1 =
n

i 1 =
n

--------------------------------------------------------------
= =
1 – r 1 ≤ ≤
1 – r < 1 <
© FUOC • P03/75057/01013 28 Regresión lineal simple
Para calcular el coeficiente de correlación muestral, podemos utilizar la misma
tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el
ejemplo de las alturas y los pesos.
Ejemplo de las alturas y los pesos
Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente
de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.
de manera que s
x
· 7,276
de manera que s
y
· 9,504
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r ·
0,749, que nos informa de la existencia de una moderada relación entre estas dos variables,
así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo).
4. Relación entre R
2
y r
Es muy importante tener clara la diferencia entre el coeficiente de correlación
y el coeficiente de determinación:
• R
2
: mide la proporción de variación de la variable dependiente explicada
por la variable independiente.
• r: mide el grado de asociación entre las dos variables.
i x
i
y
i
1 161 63 0,4 –1,1 0,16 1,21 –0,44
2 152 56 9,4 5,9 88,36 34,81 55,46
3 167 77 –5,6 –15,1 31,36 228,01 84,56
4 153 49 8,4 12,9 70,56 166,41 108,36
5 161 72 0,4 –10,1 0,16 102,01 –4,04
6 168 62 –6,6 –0,1 43,56 0,01 0,66
7 167 68 –5,6 –6,1 31,36 37,21 34,16
8 153 48 8,4 13,9 70,56 193,21 116,76
9 159 57 2,4 4,9 5,76 24,01 11,76
10 173 67 –11,6 –5,1 134,56 26,01 59,16
Σ 1.614 619 476,40 812,90 466,40
x x
i
– y y
i
– x x
i
– ( )
2
y y
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
------------------- 52,933 = = =
s
y
2
y
i
y – ( )
2
i 1 =
n

n 1 –
----------------------------
812,90
10 1 –
-------------------
90,322 = = =
r
s
xy
s
x
s
y
---------
51,822
7,276 9,504 ⋅
------------------------------------ 0,749 = = =
© FUOC • P03/75057/01013 28 Regresión lineal simple
Para calcular el coeficiente de correlación muestral, podemos utilizar la misma
tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el
ejemplo de las alturas y los pesos.
Ejemplo de las alturas y los pesos
Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente
de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.
de manera que s
x
· 7,276
de manera que s
y
· 9,504
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r ·
0,749, que nos informa de la existencia de una moderada relación entre estas dos variables,
así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo).
4. Relación entre R
2
y r
Es muy importante tener clara la diferencia entre el coeficiente de correlación
y el coeficiente de determinación:
• R
2
: mide la proporción de variación de la variable dependiente explicada
por la variable independiente.
• r: mide el grado de asociación entre las dos variables.
i x
i
y
i
1 161 63 0,4 –1,1 0,16 1,21 –0,44
2 152 56 9,4 5,9 88,36 34,81 55,46
3 167 77 –5,6 –15,1 31,36 228,01 84,56
4 153 49 8,4 12,9 70,56 166,41 108,36
5 161 72 0,4 –10,1 0,16 102,01 –4,04
6 168 62 –6,6 –0,1 43,56 0,01 0,66
7 167 68 –5,6 –6,1 31,36 37,21 34,16
8 153 48 8,4 13,9 70,56 193,21 116,76
9 159 57 2,4 4,9 5,76 24,01 11,76
10 173 67 –11,6 –5,1 134,56 26,01 59,16
Σ 1.614 619 476,40 812,90 466,40
x x
i
– y y
i
– x x
i
– ( )
2
y y
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
------------------- 52,933 = = =
s
y
2
y
i
y – ( )
2
i 1 =
n

n 1 –
----------------------------
812,90
10 1 –
-------------------
90,322 = = =
r
s
xy
s
x
s
y
---------
51,822
7,276 9,504 ⋅
------------------------------------ 0,749 = = =
© FUOC • P03/75057/01013 29 Regresión lineal simple
No obstante, en la regresión lineal simple tenemos que R
2
· r
2
, como fácilmen-
te podemos comprobar.
Comprobación de que en regresión lineal simple R
2
= r
2
A partir de la ecuación del coeficiente de correlación:
y de la ecuación de la pendiente de la recta de regresión:
tenemos la relación siguiente:
Por otra parte, tenemos el otro parámetro de la recta de regresión: y la ecua-
ción de los valores estimados: . De estas dos expresiones podemos escribir:
Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir
de la definición de varianza muestral, tenemos:
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r · 0,5 era débil. Este valor representará un R
2
· 0,25, es decir, el mo-
delo de regresión sólo nos explica un 25% de la variabilidad total de las obser-
vaciones.
También es importante tener presente que r nos da más información que R
2
. El
signo de r nos informa de si la relación es positiva o negativa. Así pues, con el
valor de r siempre podremos calcular el valor de R
2
, pero al revés siempre nos
quedará indeterminado el valor del signo a menos que conozcamos la pendien-
te de la recta. Por ejemplo, dado un R
2
· 0,81, si sabemos que la pendiente de
la recta de regresión es negativa, entonces podremos afirmar que el coeficiente
de correlación será r · −0,9.
Ejemplo de las alturas y los pesos
Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de
correlación con los resultados de nuestro ejemplo.
Hemos obtenido: R
2
· 0,5617 y r · 0,749.
De manera que r
2
· 0,749
2
· 0,561.
Observación
En la regresión lineal múltiple
ya no tendremos la igualdad
R
2
· r
2
.
r
s
xy
s
x
s
y
--------- =
β
ˆ
1
s
xy
s
x
2
------
=
β
ˆ
1 r
s
y
s
x
---- =
β
ˆ
0 y β
ˆ
1x – =
y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
y
ˆ
i
y – β
ˆ
0 β
ˆ
1x
i
y – + y β
ˆ
1x β
ˆ
1x
i
y – + – β
ˆ
1 x
i
x – ( ) = = =
R
2
y
ˆ
i
y – ( )
2

y
i
y – ( )
2

--------------------------- β
ˆ
1
2
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
r
2 s
y
2
s
x
2
----
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
1
r
2
= = = =
¹ ¹ ¹ ' ¹ ¹ ¹
© FUOC • P03/75057/01013 29 Regresión lineal simple
No obstante, en la regresión lineal simple tenemos que R
2
· r
2
, como fácilmen-
te podemos comprobar.
Comprobación de que en regresión lineal simple R
2
= r
2
A partir de la ecuación del coeficiente de correlación:
y de la ecuación de la pendiente de la recta de regresión:
tenemos la relación siguiente:
Por otra parte, tenemos el otro parámetro de la recta de regresión: y la ecua-
ción de los valores estimados: . De estas dos expresiones podemos escribir:
Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir
de la definición de varianza muestral, tenemos:
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r · 0,5 era débil. Este valor representará un R
2
· 0,25, es decir, el mo-
delo de regresión sólo nos explica un 25% de la variabilidad total de las obser-
vaciones.
También es importante tener presente que r nos da más información que R
2
. El
signo de r nos informa de si la relación es positiva o negativa. Así pues, con el
valor de r siempre podremos calcular el valor de R
2
, pero al revés siempre nos
quedará indeterminado el valor del signo a menos que conozcamos la pendien-
te de la recta. Por ejemplo, dado un R
2
· 0,81, si sabemos que la pendiente de
la recta de regresión es negativa, entonces podremos afirmar que el coeficiente
de correlación será r · −0,9.
Ejemplo de las alturas y los pesos
Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de
correlación con los resultados de nuestro ejemplo.
Hemos obtenido: R
2
· 0,5617 y r · 0,749.
De manera que r
2
· 0,749
2
· 0,561.
Observación
En la regresión lineal múltiple
ya no tendremos la igualdad
R
2
· r
2
.
r
s
xy
s
x
s
y
--------- =
β
ˆ
1
s
xy
s
x
2
------
=
β
ˆ
1 r
s
y
s
x
---- =
β
ˆ
0 y β
ˆ
1x – =
y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
y
ˆ
i
y – β
ˆ
0 β
ˆ
1x
i
y – + y β
ˆ
1x β
ˆ
1x
i
y – + – β
ˆ
1 x
i
x – ( ) = = =
R
2
y
ˆ
i
y – ( )
2

y
i
y – ( )
2

--------------------------- β
ˆ
1
2
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
r
2 s
y
2
s
x
2
----
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
1
r
2
= = = =
¹ ¹ ¹ ' ¹ ¹ ¹
© FUOC • P03/75057/01013 30 Regresión lineal simple
5. Diagnóstico de la regresión: análisis de los residuos
Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues-
trales, hay que efectuar el análisis de los residuos.
Este análisis, que a continuación comentaremos de forma breve y muy intui-
tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.
El análisis de los residuos consiste en ver la distribución de los residuos. Esto
lo haremos gráficamente representando un diagrama de dispersión de los pun-
tos ( , e
i
), es decir, sobre el eje de las abscisas representamos el valor estimado
y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, e
i
·
· y
i
– . Veamos un ejemplo:
Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la
nube de puntos ( , e
i
) no debe mostrar ningún tipo de estructura.
Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de
Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
ción discutiremos cuatro casos:
Caso (a) Caso (b) Caso (c) Caso (d)
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d)
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
y
ˆ
i
y
ˆ
i
y
ˆ
i
y
ˆ
i
Lectura complementaria
Encontraréis el ejemplo
de Anscombe en el artículo
siguiente:
T.W. Anscombe (1973).
“Graphs in Statistical
Analysis”. The American
Statistician (núm. 27,
pág. 17-21).
© FUOC • P03/75057/01013 30 Regresión lineal simple
5. Diagnóstico de la regresión: análisis de los residuos
Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues-
trales, hay que efectuar el análisis de los residuos.
Este análisis, que a continuación comentaremos de forma breve y muy intui-
tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.
El análisis de los residuos consiste en ver la distribución de los residuos. Esto
lo haremos gráficamente representando un diagrama de dispersión de los pun-
tos ( , e
i
), es decir, sobre el eje de las abscisas representamos el valor estimado
y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, e
i
·
· y
i
– . Veamos un ejemplo:
Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la
nube de puntos ( , e
i
) no debe mostrar ningún tipo de estructura.
Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de
Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
ción discutiremos cuatro casos:
Caso (a) Caso (b) Caso (c) Caso (d)
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d)
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
y
ˆ
i
y
ˆ
i
y
ˆ
i
y
ˆ
i
Lectura complementaria
Encontraréis el ejemplo
de Anscombe en el artículo
siguiente:
T.W. Anscombe (1973).
“Graphs in Statistical
Analysis”. The American
Statistician (núm. 27,
pág. 17-21).
© FUOC • P03/75057/01013 31 Regresión lineal simple
Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión
en el ejemplo de Anscombe.
Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma
recta:

· 3 + 0,5x
El coeficiente de correlación es el mismo para las cuatro con valor r · 0,82.
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
nemos la representación de los siguientes diagramas de residuos:
y
ˆ
© FUOC • P03/75057/01013 31 Regresión lineal simple
Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión
en el ejemplo de Anscombe.
Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma
recta:

· 3 + 0,5x
El coeficiente de correlación es el mismo para las cuatro con valor r · 0,82.
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
nemos la representación de los siguientes diagramas de residuos:
y
ˆ
© FUOC • P03/75057/01013 32 Regresión lineal simple
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se
observa un comportamiento curvilíneo que nos hace pensar que un ajuste li-
neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi-
dente en el diagrama de residuos.
Si consideramos la muestra (c), en el diagrama de dispersión podemos observar
la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo
erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-
mos una recta de regresión diferente:

· 4,01 + 0,345x.
y un coeficiente de correlación r · 1. Podemos observar todos los puntos sobre
la recta de regresión.
El diagrama de los residuos también nos sugiere un buen modelo de regresión
para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos.
Finalmente, en la muestra (d) la pendiente está determinada por un único va-
lor. Tampoco es un modelo demasiado fiable.
Ejemplo de las alturas y los pesos
Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe-
sos. A partir de los datos de la tabla ya vista:
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
y
ˆ
Influencia de un valor
atípico
En la muestra (c) hemos elimi-
nado el valor atípico y hemos
representado de nuevo
el diagrama de dispersión
y la recta de regresión 1 y el
diagrama de residuos 2.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 32 Regresión lineal simple
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se
observa un comportamiento curvilíneo que nos hace pensar que un ajuste li-
neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi-
dente en el diagrama de residuos.
Si consideramos la muestra (c), en el diagrama de dispersión podemos observar
la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo
erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-
mos una recta de regresión diferente:

· 4,01 + 0,345x.
y un coeficiente de correlación r · 1. Podemos observar todos los puntos sobre
la recta de regresión.
El diagrama de los residuos también nos sugiere un buen modelo de regresión
para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos.
Finalmente, en la muestra (d) la pendiente está determinada por un único va-
lor. Tampoco es un modelo demasiado fiable.
Ejemplo de las alturas y los pesos
Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe-
sos. A partir de los datos de la tabla ya vista:
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
y
ˆ
Influencia de un valor
atípico
En la muestra (c) hemos elimi-
nado el valor atípico y hemos
representado de nuevo
el diagrama de dispersión
y la recta de regresión 1 y el
diagrama de residuos 2.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 33 Regresión lineal simple
es fácil representar el diagrama de residuos:
No podemos observar ningún tipo de estructura en la representación; por tanto, pode-
mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la
relación entre las dos variables.
6. Resumen
En esta segunda sesión hemos introducido una medida numérica de la bondad
del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene
con el coeficiente de determinación R
2
. Se ha discutido la interpretación de los
valores que puede tomar. A continuación hemos visto el coeficiente de correla-
ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos
comprobado que en la regresión lineal simple R
2
y r coinciden. Finalmente, he-
mos comentado la importancia de analizar los residuos para hacer un diagnós-
tico del modelo lineal obtenido.
i x
i
y
i
e
i
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 61,9 812,90 456,61 356,29
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 33 Regresión lineal simple
es fácil representar el diagrama de residuos:
No podemos observar ningún tipo de estructura en la representación; por tanto, pode-
mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la
relación entre las dos variables.
6. Resumen
En esta segunda sesión hemos introducido una medida numérica de la bondad
del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene
con el coeficiente de determinación R
2
. Se ha discutido la interpretación de los
valores que puede tomar. A continuación hemos visto el coeficiente de correla-
ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos
comprobado que en la regresión lineal simple R
2
y r coinciden. Finalmente, he-
mos comentado la importancia de analizar los residuos para hacer un diagnós-
tico del modelo lineal obtenido.
i x
i
y
i
e
i
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 61,9 812,90 456,61 356,29
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 34 Regresión lineal simple
Ejercicios
1.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,88 + 3,95x.
A partir de toda esta información, calculad el coeficiente de determinación y
el coeficiente de correlación.
2.
El departamento de personal de una empresa informática dedicada a la introduc-
ción de datos ha llavado a cabo un programa de formación inicial del personal.
La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian-
tes que siguieron el programa y el número de semanas que hace que lo siguen:
Gastos en publicidad
(× × 1.000 €)
Ventas
(× × 100.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Número de semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 =
y
ˆ
© FUOC • P03/75057/01013 34 Regresión lineal simple
Ejercicios
1.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,88 + 3,95x.
A partir de toda esta información, calculad el coeficiente de determinación y
el coeficiente de correlación.
2.
El departamento de personal de una empresa informática dedicada a la introduc-
ción de datos ha llavado a cabo un programa de formación inicial del personal.
La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian-
tes que siguieron el programa y el número de semanas que hace que lo siguen:
Gastos en publicidad
(× × 1.000 €)
Ventas
(× × 100.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Número de semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 =
y
ˆ
© FUOC • P03/75057/01013 35 Regresión lineal simple
La recta de regresión calculada a partir de estos datos es:

· 1,659 + 25,318x
a) Calculad el coeficiente de determinación.
b) Haced un análisis de los residuos y comentadlo.
Solucionario
1.
Calculamos el coeficiente de determinación a partir de la expresión:
El enunciado del problema nos proporciona estos datos, ya que:
• La suma de los cuadrados de la regresión es:
• Y la suma de los cuadrados totales es:
De manera que:
Resultado que podemos interpretar como que el modelo de regresión lineal
explica el 54,58% de la variabilidad de las ventas.
A partir de este valor podemos calcular el coeficiente de correlación teniendo
en cuenta que:
R
2
· r
2
De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente
de determinación con el mismo signo que la pendiente de la recta de regresión.
La recta de regresión es:

· 308,8 + 3,95x. La pendiente es positiva, de manera
que tenemos una relación positiva entre los gastos en publicidad y ventas.
Cuanto más se invierte en publicidad, más se vende.
Así pues, el coeficiente de correlación es:
Número de semanas
Ganancia de velocidad
(p.p.m.)
9 234
3 72
4 110
y
ˆ
R
2 SCR
SCT
-----------
=
SCR y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = =
SCT y
i
y – ( )
2
i 1 =
10

43.590,0 = =
R
2 SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
10

y
i
y – ( )
2
i 1 =
10

----------------------------
23.793,66
43.590,0
----------------------------
0,5458 = = = =
y
ˆ
r + R
2
+ 0,5458 0,7388 = = =
© FUOC • P03/75057/01013 35 Regresión lineal simple
La recta de regresión calculada a partir de estos datos es:

· 1,659 + 25,318x
a) Calculad el coeficiente de determinación.
b) Haced un análisis de los residuos y comentadlo.
Solucionario
1.
Calculamos el coeficiente de determinación a partir de la expresión:
El enunciado del problema nos proporciona estos datos, ya que:
• La suma de los cuadrados de la regresión es:
• Y la suma de los cuadrados totales es:
De manera que:
Resultado que podemos interpretar como que el modelo de regresión lineal
explica el 54,58% de la variabilidad de las ventas.
A partir de este valor podemos calcular el coeficiente de correlación teniendo
en cuenta que:
R
2
· r
2
De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente
de determinación con el mismo signo que la pendiente de la recta de regresión.
La recta de regresión es:

· 308,8 + 3,95x. La pendiente es positiva, de manera
que tenemos una relación positiva entre los gastos en publicidad y ventas.
Cuanto más se invierte en publicidad, más se vende.
Así pues, el coeficiente de correlación es:
Número de semanas
Ganancia de velocidad
(p.p.m.)
9 234
3 72
4 110
y
ˆ
R
2 SCR
SCT
-----------
=
SCR y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = =
SCT y
i
y – ( )
2
i 1 =
10

43.590,0 = =
R
2 SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
10

y
i
y – ( )
2
i 1 =
10

----------------------------
23.793,66
43.590,0
----------------------------
0,5458 = = = =
y
ˆ
r + R
2
+ 0,5458 0,7388 = = =
© FUOC • P03/75057/01013 36 Regresión lineal simple
2.
a) Lo primero que haremos será construir la tabla de cálculos:
SCR · 28.204,05 SCT · 28.663,50
R
2
· 28.204,05 / 28.663,50 · 0,9920
El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.
Tenemos bondad en el ajuste.
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-
ma de residuos siguiente:
i x
i
y
i

1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11
2 5 119 128,25 –9,25 85,56 0,00 0,00
3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16
4 8 195 204,20 66,75 4.455,56 75,95 5.768,86
5 6 162 153,57 33,75 1.139,06 25,32 640,95
6 9 234 229,52 105,75 11.183,06 101,27 10.255,82
7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11
8 4 110 102,93 –18,25 333,06 –25,32 641,05
Σ 1.026 28.663,50 28.204,05
i x
i
y
i

1 3 87 77,61 9,39
2 5 119 128,25 –9,25
3 2 47 52,30 –5,30
4 8 195 204,20 –9,20
5 6 162 153,57 8,43
6 9 234 229,52 4,48
7 3 72 77,61 –5,61
8 4 110 102,93 7,07
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
ˆ
i
y – ( ) y
ˆ
i
y – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– =
© FUOC • P03/75057/01013 36 Regresión lineal simple
2.
a) Lo primero que haremos será construir la tabla de cálculos:
SCR · 28.204,05 SCT · 28.663,50
R
2
· 28.204,05 / 28.663,50 · 0,9920
El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.
Tenemos bondad en el ajuste.
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-
ma de residuos siguiente:
i x
i
y
i

1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11
2 5 119 128,25 –9,25 85,56 0,00 0,00
3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16
4 8 195 204,20 66,75 4.455,56 75,95 5.768,86
5 6 162 153,57 33,75 1.139,06 25,32 640,95
6 9 234 229,52 105,75 11.183,06 101,27 10.255,82
7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11
8 4 110 102,93 –18,25 333,06 –25,32 641,05
Σ 1.026 28.663,50 28.204,05
i x
i
y
i

1 3 87 77,61 9,39
2 5 119 128,25 –9,25
3 2 47 52,30 –5,30
4 8 195 204,20 –9,20
5 6 162 153,57 8,43
6 9 234 229,52 4,48
7 3 72 77,61 –5,61
8 4 110 102,93 7,07
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
ˆ
i
y – ( ) y
ˆ
i
y – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– =
© FUOC • P03/75057/01013 37 Regresión lineal simple
No observamos ningún tipo de forma determinada en los puntos de esta gráfica.
Este resultado, junto con el elevado coeficiente de determinación, nos hace
llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro-
blema.
© FUOC • P03/75057/01013 37 Regresión lineal simple
No observamos ningún tipo de forma determinada en los puntos de esta gráfica.
Este resultado, junto con el elevado coeficiente de determinación, nos hace
llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro-
blema.
© FUOC • P03/75057/01013 38 Regresión lineal simple
Anexos
Anexo 1
Descomposición de la suma de cuadrados total
A continuación veremos que la suma de cuadrados total de las observaciones
(SCT) se puede expresar de la manera siguiente:
SCT · SCR + SCE
donde:
• SCR es la suma de cuadrados de la regresión.
• SCE es la suma de cuadrados de los residuos.
A partir de la definición de residuos de la regresión como la diferencia entre
los valores observados y los valores estimados por la recta de regresión:
e
i
· y
i

Podemos escribir:
y
i
· + e
i
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Elevando al cuadrado y sumando todos los valores:
0 0
Por tanto, es suficiente con ver que y
y
ˆ
i
y
ˆ
i
y
i
y – y
ˆ
i
y – ( ) e
i
+ =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( ) e
i
+ [ ]
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

2 y
ˆ
i
y – ( )e
i
i 1 =
n

e
i
2
i 1 =
n

+ + = =
2 y
ˆ
i
y – ( )e
i
i 1 =
n

y
ˆ
i
e
i
i 1 =
n

ye
i
i 1 =
n

– y
ˆ
i
e
i
i 1 =
n

y e
i
i 1 =
n

– 0 0 + 0 = = = =
y
ˆ
i
e
i
i 1 =
n

0 = e
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 38 Regresión lineal simple
Anexos
Anexo 1
Descomposición de la suma de cuadrados total
A continuación veremos que la suma de cuadrados total de las observaciones
(SCT) se puede expresar de la manera siguiente:
SCT · SCR + SCE
donde:
• SCR es la suma de cuadrados de la regresión.
• SCE es la suma de cuadrados de los residuos.
A partir de la definición de residuos de la regresión como la diferencia entre
los valores observados y los valores estimados por la recta de regresión:
e
i
· y
i

Podemos escribir:
y
i
· + e
i
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Elevando al cuadrado y sumando todos los valores:
0 0
Por tanto, es suficiente con ver que y
y
ˆ
i
y
ˆ
i
y
i
y – y
ˆ
i
y – ( ) e
i
+ =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( ) e
i
+ [ ]
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

2 y
ˆ
i
y – ( )e
i
i 1 =
n

e
i
2
i 1 =
n

+ + = =
2 y
ˆ
i
y – ( )e
i
i 1 =
n

y
ˆ
i
e
i
i 1 =
n

ye
i
i 1 =
n

– y
ˆ
i
e
i
i 1 =
n

y e
i
i 1 =
n

– 0 0 + 0 = = = =
y
ˆ
i
e
i
i 1 =
n

0 = e
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 39 Regresión lineal simple
Observamos que a partir de las ecuaciones normales:
Y, por tanto:
Hemos demostrado así que:
Si denominamos:
Suma de Cuadrados Totales.
Suma de Cuadrados de la Regresión.
Suma de Cuadrados de los Errores.
Tenemos que: SCT · SCR + SCE.
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
i 1 =
n

y
i
y
ˆ
i
– ( )
i 1 =
n

e
i
i 1 =
n

= = =
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )x
i
i 1 =
n

e
i
x
i
i 1 =
n

= =
y
ˆ
i
e
i
i 1 =
n

β
ˆ
0 β
ˆ
1x
i
– ( )e
i
i 1 =
n

β
ˆ
0 e
i
i 1 =
n

β
ˆ
1 e
i
x
i
i 1 =
n

+ 0 = = =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
i 1 =
n

SCE =
© FUOC • P03/75057/01013 39 Regresión lineal simple
Observamos que a partir de las ecuaciones normales:
Y, por tanto:
Hemos demostrado así que:
Si denominamos:
Suma de Cuadrados Totales.
Suma de Cuadrados de la Regresión.
Suma de Cuadrados de los Errores.
Tenemos que: SCT · SCR + SCE.
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
i 1 =
n

y
i
y
ˆ
i
– ( )
i 1 =
n

e
i
i 1 =
n

= = =
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )x
i
i 1 =
n

e
i
x
i
i 1 =
n

= =
y
ˆ
i
e
i
i 1 =
n

β
ˆ
0 β
ˆ
1x
i
– ( )e
i
i 1 =
n

β
ˆ
0 e
i
i 1 =
n

β
ˆ
1 e
i
x
i
i 1 =
n

+ 0 = = =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
i 1 =
n

SCE =
© FUOC • P03/75057/01013 40 Regresión lineal simple
Inferencia en la regresión
1. Introducción
En otras sesiones nos hemos preocupado de estudiar la relación lineal entre
dos variables X e Y a partir de los valores observados en una muestra. Si en el
diagrama de dispersión observábamos una relación lineal, entonces calculába-
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.
Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-
servaciones proviene de una población. Nos preguntamos si esta relación li-
neal se puede extender de alguna manera a toda la población.
2. El modelo de regresión en la población
Modelo de regresión lineal
Es muy importante tener presente que, para un mismo valor de la variable X,
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada
valor de X no hay un único valor de Y, sino una distribución de frecuencias
de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de
otros factores difícilmente cuantificables o simplemente desconocidos. La in-
fluencia de este conjunto de factores es la que determina que la relación entre
X e Y sea estadística y no determinista. Todos estos factores son los responsa-
bles de los errores o residuos.
Dada una muestra de observaciones (x
i
, y
i
), y · 1, ... , n de individuos de una
población, ya sabemos encontrar la recta de regresión lineal .
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor
observado y el valor estimado , para una observación y
i
, podemos es-
cribir: , es decir:
Podemos hacer lo mismo con varias muestras de esta misma población.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
El peso depende de la
altura y de otros factores
En el ejemplo de la relación
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genéticos,
la actividad física, la alimenta-
ción, etc., que hacen que
una persona de una determi-
nada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
e
i
y
i
y
ˆ
i
– =
y
i
y
ˆ
i
e
i
+ =
y
i
β
ˆ
0 β
ˆ
1x e
i
+ + =
© FUOC • P03/75057/01013 40 Regresión lineal simple
Inferencia en la regresión
1. Introducción
En otras sesiones nos hemos preocupado de estudiar la relación lineal entre
dos variables X e Y a partir de los valores observados en una muestra. Si en el
diagrama de dispersión observábamos una relación lineal, entonces calculába-
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.
Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-
servaciones proviene de una población. Nos preguntamos si esta relación li-
neal se puede extender de alguna manera a toda la población.
2. El modelo de regresión en la población
Modelo de regresión lineal
Es muy importante tener presente que, para un mismo valor de la variable X,
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada
valor de X no hay un único valor de Y, sino una distribución de frecuencias
de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de
otros factores difícilmente cuantificables o simplemente desconocidos. La in-
fluencia de este conjunto de factores es la que determina que la relación entre
X e Y sea estadística y no determinista. Todos estos factores son los responsa-
bles de los errores o residuos.
Dada una muestra de observaciones (x
i
, y
i
), y · 1, ... , n de individuos de una
población, ya sabemos encontrar la recta de regresión lineal .
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor
observado y el valor estimado , para una observación y
i
, podemos es-
cribir: , es decir:
Podemos hacer lo mismo con varias muestras de esta misma población.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
El peso depende de la
altura y de otros factores
En el ejemplo de la relación
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genéticos,
la actividad física, la alimenta-
ción, etc., que hacen que
una persona de una determi-
nada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
e
i
y
i
y
ˆ
i
– =
y
i
y
ˆ
i
e
i
+ =
y
i
β
ˆ
0 β
ˆ
1x e
i
+ + =
© FUOC • P03/75057/01013 41 Regresión lineal simple
La recta de regresión correspondiente es: = –96,112 + 0,979x.
La recta de regresión correspondiente es: = –82,614 + 1,029x.
La recta de regresión correspondiente es: = –98,582 + 0,94x.
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
: –96,112; –82,614; –98,528
: 0,979; 1,029; 0,945.
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Ahora el objetivo es dar un modelo para todos los individuos de la población.
Éste vendrá dado por una expresión análoga a las encontradas por las muestras.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística.
Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen según una distribución normal de media cero y
varianza .
2) Los errores son independientes.
Muestra j = 1
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9 i = = 10
Altura ( x
ij
) 161 152 167 153 161 168 167 153 159 173
Peso ( y
ij
) 63 56 77 49 72 62 68 48 57 67
Muestra j = 2
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8
Altura (x
ij
) 161 152 167 153 161 168 167 153
Peso (y
ij
) 63 56 77 49 72 62 68 48
Muestra j = 3
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9
Altura (x
ij
) 161 152 167 153 161 168 167 153 159
Peso (y
ij
) 63 56 77 49 72 62 68 48 57
Lllamamos modelo de regresión lineal para la población a:
y
ˆ
y
ˆ
y
ˆ
β
ˆ
0
β
ˆ
1
Notación
No ponemos los “sombreros”
sobre los parámetros para indi-
car que ahora se trata de la
recta de regresión para la po-
blación.
y
i
β
0
β
1
x e
i
+ + =
σ
2
Distribución de los errores
en la realidad
La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varían menos su
peso que las personas que
miden 185 cm. De todos mo-
dos, aceptaremos la suposición
de que siempre son iguales.
© FUOC • P03/75057/01013 41 Regresión lineal simple
La recta de regresión correspondiente es: = –96,112 + 0,979x.
La recta de regresión correspondiente es: = –82,614 + 1,029x.
La recta de regresión correspondiente es: = –98,582 + 0,94x.
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
: –96,112; –82,614; –98,528
: 0,979; 1,029; 0,945.
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Ahora el objetivo es dar un modelo para todos los individuos de la población.
Éste vendrá dado por una expresión análoga a las encontradas por las muestras.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística.
Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen según una distribución normal de media cero y
varianza .
2) Los errores son independientes.
Muestra j = 1
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9 i = = 10
Altura ( x
ij
) 161 152 167 153 161 168 167 153 159 173
Peso ( y
ij
) 63 56 77 49 72 62 68 48 57 67
Muestra j = 2
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8
Altura (x
ij
) 161 152 167 153 161 168 167 153
Peso (y
ij
) 63 56 77 49 72 62 68 48
Muestra j = 3
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9
Altura (x
ij
) 161 152 167 153 161 168 167 153 159
Peso (y
ij
) 63 56 77 49 72 62 68 48 57
Lllamamos modelo de regresión lineal para la población a:
y
ˆ
y
ˆ
y
ˆ
β
ˆ
0
β
ˆ
1
Notación
No ponemos los “sombreros”
sobre los parámetros para indi-
car que ahora se trata de la
recta de regresión para la po-
blación.
y
i
β
0
β
1
x e
i
+ + =
σ
2
Distribución de los errores
en la realidad
La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varían menos su
peso que las personas que
miden 185 cm. De todos mo-
dos, aceptaremos la suposición
de que siempre son iguales.
© FUOC • P03/75057/01013 42 Regresión lineal simple
Con estas suposiciones tenemos que:
1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va-
riable Y. Y podemos calcular la media o la esperanza matemática de cada una de
estas distribuciones:
2) También podemos calcular su varianza:
Cada distribución de valores de Y tiene la misma varianza σ
2
, que es la varian-
za de los residuos.
En el gráfico vemos la recta de regresión lineal para la población.
Es importante tener presente que para tener bien determinado el modelo de
regresión para la población, debemos conocer tres parámetros: β
0
, β
1
y σ
2
.
Estos parámetros desconocidos se tienen que estimar a partir de una muestra
de la población.
Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la
recta se estiman por el método de los mínimos cuadrados. Este método determi-
na aquellos valores de los parámetros que hacen mínima la suma de los cuadra-
dos de los residuos:
;
µ
x
E Y x ( ) E β
0
β
1
x e + + ( ) β
0
β
1
x E e ( ) + + β
0
β
1
x + = = = =
Var Y x ( ) Var β
0
β
1
x e + + ( ) Var β
0
β
1
x + ( ) Var e ( ) + 0 σ
2
+ σ
2
= = = =
Distribución de las medias
El primer resultado nos dice
que estas medias se encuen-
tran situadas sobre una recta.
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= =
© FUOC • P03/75057/01013 42 Regresión lineal simple
Con estas suposiciones tenemos que:
1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va-
riable Y. Y podemos calcular la media o la esperanza matemática de cada una de
estas distribuciones:
2) También podemos calcular su varianza:
Cada distribución de valores de Y tiene la misma varianza σ
2
, que es la varian-
za de los residuos.
En el gráfico vemos la recta de regresión lineal para la población.
Es importante tener presente que para tener bien determinado el modelo de
regresión para la población, debemos conocer tres parámetros: β
0
, β
1
y σ
2
.
Estos parámetros desconocidos se tienen que estimar a partir de una muestra
de la población.
Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la
recta se estiman por el método de los mínimos cuadrados. Este método determi-
na aquellos valores de los parámetros que hacen mínima la suma de los cuadra-
dos de los residuos:
;
µ
x
E Y x ( ) E β
0
β
1
x e + + ( ) β
0
β
1
x E e ( ) + + β
0
β
1
x + = = = =
Var Y x ( ) Var β
0
β
1
x e + + ( ) Var β
0
β
1
x + ( ) Var e ( ) + 0 σ
2
+ σ
2
= = = =
Distribución de las medias
El primer resultado nos dice
que estas medias se encuen-
tran situadas sobre una recta.
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= =
© FUOC • P03/75057/01013 43 Regresión lineal simple
De manera que y son los valores estimados (o “estimadores”) de los pa-
rámetros y de la población. Y la recta que mejor se ajusta a los datos es:
Todavía nos falta estimar la varianza de los errores aleatorios, σ
2
. Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Si consideramos los residuos de la regresión como estimaciones de los valores de
los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza
de los residuos:
Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1.
Esto se debe a que estimamos la media de Y para un valor dado de X con una
fórmula que contiene dos parámetros estimados a partir de los datos de la mues-
tra ( y ). Diremos que “hemos perdido dos grados de libertad”.
Ejemplo de las alturas y los pesos
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
La recta de regresión correspondiente es:
· −96,112 + 0,979x
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (x) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
i x
i
y
i

1 161 63 61,51 –0,4 0,16 1,49 2,225
2 152 56 52,70 –9,4 88,36 3,30 10,908
3 167 77 67,38 5,6 31,36 9,62 92,498
4 153 49 53,68 –8,4 70,56 –4,68 21,868
5 161 72 61,51 –0,4 0,16 10,49 110,075
6 168 62 68,36 6,6 43,56 –6,36 40,468
7 167 68 67,38 5,6 31,36 0,62 0,381
8 153 48 53,68 –8,4 70,56 –5,68 32,220
β
ˆ
0 β
ˆ
1
β
0
β
1
Valor medio
Debemos interpretar:
como la estimación del valor
medio de la distribución Y para
un valor fijo X = x
i
.
y
ˆ
i
β
0
ˆ
β
1
ˆ
x
i
+ = y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
Terminología
Habitualmente, s
2
se denomi-
na varianza residual.
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
2
i 1 =
n

=
β
ˆ
0 β
ˆ
1
Pérdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la división por (n – 1) en la fór-
mula de la varianza muestral:
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
----------------------------
=
y
ˆ
En la sesión “El modelo de regresión
simple” se deduce la recta
de regresión correspondiente
a este ejemplo.
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
© FUOC • P03/75057/01013 43 Regresión lineal simple
De manera que y son los valores estimados (o “estimadores”) de los pa-
rámetros y de la población. Y la recta que mejor se ajusta a los datos es:
Todavía nos falta estimar la varianza de los errores aleatorios, σ
2
. Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Si consideramos los residuos de la regresión como estimaciones de los valores de
los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza
de los residuos:
Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1.
Esto se debe a que estimamos la media de Y para un valor dado de X con una
fórmula que contiene dos parámetros estimados a partir de los datos de la mues-
tra ( y ). Diremos que “hemos perdido dos grados de libertad”.
Ejemplo de las alturas y los pesos
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
La recta de regresión correspondiente es:
· −96,112 + 0,979x
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (x) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
i x
i
y
i

1 161 63 61,51 –0,4 0,16 1,49 2,225
2 152 56 52,70 –9,4 88,36 3,30 10,908
3 167 77 67,38 5,6 31,36 9,62 92,498
4 153 49 53,68 –8,4 70,56 –4,68 21,868
5 161 72 61,51 –0,4 0,16 10,49 110,075
6 168 62 68,36 6,6 43,56 –6,36 40,468
7 167 68 67,38 5,6 31,36 0,62 0,381
8 153 48 53,68 –8,4 70,56 –5,68 32,220
β
ˆ
0 β
ˆ
1
β
0
β
1
Valor medio
Debemos interpretar:
como la estimación del valor
medio de la distribución Y para
un valor fijo X = x
i
.
y
ˆ
i
β
0
ˆ
β
1
ˆ
x
i
+ = y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
Terminología
Habitualmente, s
2
se denomi-
na varianza residual.
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
2
i 1 =
n

=
β
ˆ
0 β
ˆ
1
Pérdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la división por (n – 1) en la fór-
mula de la varianza muestral:
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
----------------------------
=
y
ˆ
En la sesión “El modelo de regresión
simple” se deduce la recta
de regresión correspondiente
a este ejemplo.
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
© FUOC • P03/75057/01013 44 Regresión lineal simple
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 · 8, obtenemos
la varianza de los residuos:
3. Distribución probabilística de la pendiente ( )
La ordenada en el origen nos informa del valor medio de la variable Y para
un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente.
Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar
intervalos de confianza), será necesario conocer la distribución de probabili-
dad de .
Del modelo de regresión lineal tenemos que es una combinación lineal de
las observaciones y
i
; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), enton-
ces también tendrá una distribución normal. Tendremos bien determinada
esta distribución cuando conozcamos la esperanza y la varianza.
A partir de la expresión de podemos encontrar el valor esperado y la varianza.
• Valor esperado de :
La pendiente estimada de la recta está distribuida según una distribución
normal con una media igual al valor de este parámetro para la población.
Aunque este valor es desconocido, este resultado nos será muy útil para te-
ner información de la población haciendo inferencia estadística. Esto lo ve-
remos un poco más adelante en esta sesión.
• Varianza de :
i x
i
y
i

9 159 57 59,55 –2,4 5,76 –2,55 6,504
10 173 67 73,26 11,6 134,56 –6,26 39,143
Σ
1.6
14
619 476,4 356,290
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
----------------------
44,536 = = =
β
ˆ
1
β
0
β
ˆ
1
β
ˆ
1
β
ˆ
1
β
ˆ
1 Los desarrollos matemáticos se
muestran en el anexo de esta sesión.
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
2
σ
2
x
i
x – ( )
2

--------------------------
=
© FUOC • P03/75057/01013 44 Regresión lineal simple
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 · 8, obtenemos
la varianza de los residuos:
3. Distribución probabilística de la pendiente ( )
La ordenada en el origen nos informa del valor medio de la variable Y para
un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente.
Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar
intervalos de confianza), será necesario conocer la distribución de probabili-
dad de .
Del modelo de regresión lineal tenemos que es una combinación lineal de
las observaciones y
i
; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), enton-
ces también tendrá una distribución normal. Tendremos bien determinada
esta distribución cuando conozcamos la esperanza y la varianza.
A partir de la expresión de podemos encontrar el valor esperado y la varianza.
• Valor esperado de :
La pendiente estimada de la recta está distribuida según una distribución
normal con una media igual al valor de este parámetro para la población.
Aunque este valor es desconocido, este resultado nos será muy útil para te-
ner información de la población haciendo inferencia estadística. Esto lo ve-
remos un poco más adelante en esta sesión.
• Varianza de :
i x
i
y
i

9 159 57 59,55 –2,4 5,76 –2,55 6,504
10 173 67 73,26 11,6 134,56 –6,26 39,143
Σ
1.6
14
619 476,4 356,290
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
----------------------
44,536 = = =
β
ˆ
1
β
0
β
ˆ
1
β
ˆ
1
β
ˆ
1
β
ˆ
1 Los desarrollos matemáticos se
muestran en el anexo de esta sesión.
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
2
σ
2
x
i
x – ( )
2

--------------------------
=
© FUOC • P03/75057/01013 45 Regresión lineal simple
A continuación veremos que necesitaremos la información de la muestra, ya
que σ
2
es un valor desconocido que tendremos que estimar.
4. El intervalo de confianza para la pendiente
Acabamos de ver que las suposiciones del modelo de regresión lineal simple im-
plican que el parámetro es una variable aleatoria distribuida normalmente
con:
– Media:
– Varianza:
Dado que esta varianza σ
2
es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Definimos el error estándar de la pendiente como:
Dado que sigue una distribución normal con varianza desconocida (ya que
no se conoce σ
2
), entonces la variable tipificada:
tiene una distribución t de Student con n – 2 grados de libertad.
Este intervalo está centrado en la estimación puntual del parámetro, es decir,
en , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico t
α/2, n − 2
) y de la
variabilidad del estimador (mediante ).
Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)%
por la pendiente β
1
de la recta de regresión poblacional viene dado por:
ya que:
β
ˆ
1
β
1
σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2

--------------------------
=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 β
ˆ
– 1x
i
– ( )
2
i 1 =
n

=
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
=
β
ˆ
1
β
ˆ
1 β
1

s
β
ˆ
1
-----------------
Intervalo de confianza
por la pendiente con un nivel
significativo α.
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
P t
α 2 n 2 – , ⁄

β
ˆ
1 β
1

s
β
ˆ
1
----------------- t
α 2 n 2 – , ⁄
≤ ≤
. ,

| `
1 α – =
β
ˆ
1
β
ˆ
1 s
β
ˆ
1
© FUOC • P03/75057/01013 45 Regresión lineal simple
A continuación veremos que necesitaremos la información de la muestra, ya
que σ
2
es un valor desconocido que tendremos que estimar.
4. El intervalo de confianza para la pendiente
Acabamos de ver que las suposiciones del modelo de regresión lineal simple im-
plican que el parámetro es una variable aleatoria distribuida normalmente
con:
– Media:
– Varianza:
Dado que esta varianza σ
2
es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Definimos el error estándar de la pendiente como:
Dado que sigue una distribución normal con varianza desconocida (ya que
no se conoce σ
2
), entonces la variable tipificada:
tiene una distribución t de Student con n – 2 grados de libertad.
Este intervalo está centrado en la estimación puntual del parámetro, es decir,
en , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico t
α/2, n − 2
) y de la
variabilidad del estimador (mediante ).
Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)%
por la pendiente β
1
de la recta de regresión poblacional viene dado por:
ya que:
β
ˆ
1
β
1
σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2

--------------------------
=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 β
ˆ
– 1x
i
– ( )
2
i 1 =
n

=
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
=
β
ˆ
1
β
ˆ
1 β
1

s
β
ˆ
1
-----------------
Intervalo de confianza
por la pendiente con un nivel
significativo α.
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
P t
α 2 n 2 – , ⁄

β
ˆ
1 β
1

s
β
ˆ
1
----------------- t
α 2 n 2 – , ⁄
≤ ≤
. ,

| `
1 α – =
β
ˆ
1
β
ˆ
1 s
β
ˆ
1
© FUOC • P03/75057/01013 46 Regresión lineal simple
Ejemplo de las alturas y los pesos
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: · –96,112 + 0,979x, de manera
que · 0,979.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α · 0,05 y mi-
rando la tabla de la t de Student tenemos un valor crítico de
Para calcular el intervalo de confianza: , antes
tenemos que calcular:
donde:
Antes ya hemos calculado la varianza de los residuos:
De manera que:
Por tanto, el error estándar de la pendiente será:
Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
5. El contraste de hipótesis sobre la pendiente
Observemos que si en el modelo de regresión lineal la pendiente es cero, en-
tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable explicativa del modelo.
En este apartado haremos un contraste de hipótesis sobre la pendiente de la
recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Como en todos los contrastes de hipótesis, daremos los pasos siguientes:
1) Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H
0
: β
1
· 0, es decir, la variable X no es explicativa.
• Hipótesis alternativa: H
1
: β
1
≠ 0, es decir, la variable X es explicativa.
y
ˆ
β
ˆ
1
t
α 2; n 2 – ⁄
t
0,025;8
2,3060. = =
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
---------------------- 44,536 = = =
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
44,536
476,4
-------------------
0,093 = = =
s
β
ˆ
1
0,093 0,306 = =
© FUOC • P03/75057/01013 46 Regresión lineal simple
Ejemplo de las alturas y los pesos
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: · –96,112 + 0,979x, de manera
que · 0,979.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α · 0,05 y mi-
rando la tabla de la t de Student tenemos un valor crítico de
Para calcular el intervalo de confianza: , antes
tenemos que calcular:
donde:
Antes ya hemos calculado la varianza de los residuos:
De manera que:
Por tanto, el error estándar de la pendiente será:
Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
5. El contraste de hipótesis sobre la pendiente
Observemos que si en el modelo de regresión lineal la pendiente es cero, en-
tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable explicativa del modelo.
En este apartado haremos un contraste de hipótesis sobre la pendiente de la
recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Como en todos los contrastes de hipótesis, daremos los pasos siguientes:
1) Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H
0
: β
1
· 0, es decir, la variable X no es explicativa.
• Hipótesis alternativa: H
1
: β
1
≠ 0, es decir, la variable X es explicativa.
y
ˆ
β
ˆ
1
t
α 2; n 2 – ⁄
t
0,025;8
2,3060. = =
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
---------------------- 44,536 = = =
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
44,536
476,4
-------------------
0,093 = = =
s
β
ˆ
1
0,093 0,306 = =
© FUOC • P03/75057/01013 47 Regresión lineal simple
No rechazar la hipótesis nula significa que no se puede considerar el paráme-
tro β
1
significativamente diferente de cero. Es decir, la variable X no tiene in-
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las
dos variables.
2) Fijamos un nivel significativo α.
3) Bajo el supuesto de la hipótesis nula cierta (β
1
· 0) tenemos el estadístico
de contraste:
que corresponde a una observación de una distribución t de Student con n − 2
grados de libertad.
4) Finalmente, podemos actuar de dos maneras:
a) A partir del p-valor. Este valor es: p · 2P(t
n–2
> |t|).
• Si p ≤ α se rechaza la hipótesis nula H
0
.
• Si p > α no se rechaza la hipótesis nula H
0
.
b) A partir de los valores críticos tt
α/2, n–2
, de manera que:
• Si |t| > t
α/2, n–2
, se rechaza la hipótesis nula H
0
; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ t
α/2, n–2
, no se rechaza la hipótesis nula H
0
; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Ejemplo de las alturas y los pesos
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n – 2 · 10 – 2 · 8 grados de libertad.
3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-
gemos un nivel significativo de α · 0,05:
a) A partir del p-valor: P(|t| > 3,202) · 2P(t > 3,202) · 2 · 0,0063 · 0,0126 < 0,05; por tanto,
rechazamos la hipótesis nula.
b) A partir del valor crítico que es t
0,025;8
· 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al-
tura es explicativa del peso de las personas con un 95% de confianza.
Interpretación geométrica
No rechazar H
0
significa que la
recta estimada tiene una pen-
diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
t
β
ˆ
1
s
β
ˆ
1
------
=
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno más alejado si la hipótesis
nula es cierta.
t
β
ˆ
1
s
β
ˆ
1
-------
3,202 = =
© FUOC • P03/75057/01013 47 Regresión lineal simple
No rechazar la hipótesis nula significa que no se puede considerar el paráme-
tro β
1
significativamente diferente de cero. Es decir, la variable X no tiene in-
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las
dos variables.
2) Fijamos un nivel significativo α.
3) Bajo el supuesto de la hipótesis nula cierta (β
1
· 0) tenemos el estadístico
de contraste:
que corresponde a una observación de una distribución t de Student con n − 2
grados de libertad.
4) Finalmente, podemos actuar de dos maneras:
a) A partir del p-valor. Este valor es: p · 2P(t
n–2
> |t|).
• Si p ≤ α se rechaza la hipótesis nula H
0
.
• Si p > α no se rechaza la hipótesis nula H
0
.
b) A partir de los valores críticos tt
α/2, n–2
, de manera que:
• Si |t| > t
α/2, n–2
, se rechaza la hipótesis nula H
0
; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ t
α/2, n–2
, no se rechaza la hipótesis nula H
0
; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Ejemplo de las alturas y los pesos
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n – 2 · 10 – 2 · 8 grados de libertad.
3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-
gemos un nivel significativo de α · 0,05:
a) A partir del p-valor: P(|t| > 3,202) · 2P(t > 3,202) · 2 · 0,0063 · 0,0126 < 0,05; por tanto,
rechazamos la hipótesis nula.
b) A partir del valor crítico que es t
0,025;8
· 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al-
tura es explicativa del peso de las personas con un 95% de confianza.
Interpretación geométrica
No rechazar H
0
significa que la
recta estimada tiene una pen-
diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
t
β
ˆ
1
s
β
ˆ
1
------
=
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno más alejado si la hipótesis
nula es cierta.
t
β
ˆ
1
s
β
ˆ
1
-------
3,202 = =
© FUOC • P03/75057/01013 48 Regresión lineal simple
6. Resumen
En esta sesión dedicada a la regresión lineal simple hemos considerado que
nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de
una población y que las utilizamos para extraer algunas conclusiones del com-
portamiento de las variables sobre la población. Hemos establecido el modelo
de regresión lineal con sus hipótesis básicas más importantes y hemos visto
cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la
muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha-
cer un contraste de hipótesis para decidir si la variable X nos explica realmente
el comportamiento de la variable Y.
© FUOC • P03/75057/01013 48 Regresión lineal simple
6. Resumen
En esta sesión dedicada a la regresión lineal simple hemos considerado que
nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de
una población y que las utilizamos para extraer algunas conclusiones del com-
portamiento de las variables sobre la población. Hemos establecido el modelo
de regresión lineal con sus hipótesis básicas más importantes y hemos visto
cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la
muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha-
cer un contraste de hipótesis para decidir si la variable X nos explica realmente
el comportamiento de la variable Y.
© FUOC • P03/75057/01013 49 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
La recta de regresión calculada a partir de estos datos es:
· 1,659 + 25,318x
i
a) Calculad un intervalo de confianza del 95% para la pendiente de la recta
de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α · 0,05, para
saber si la variable “número de semanas” es explicativa de la variable “ganan-
cia de velocidad”.
2.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes:
Número de
semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Gastos en publicidad
(x 1.000 €)
Ventas
(x 1.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
y
ˆ
i
© FUOC • P03/75057/01013 49 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
La recta de regresión calculada a partir de estos datos es:
· 1,659 + 25,318x
i
a) Calculad un intervalo de confianza del 95% para la pendiente de la recta
de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α · 0,05, para
saber si la variable “número de semanas” es explicativa de la variable “ganan-
cia de velocidad”.
2.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes:
Número de
semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Gastos en publicidad
(x 1.000 €)
Ventas
(x 1.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
y
ˆ
i
© FUOC • P03/75057/01013 50 Regresión lineal simple
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,8 + 3,95 x.
A partir de toda esta información, calculad un intervalo de confianza del 95%
para la pendiente.
Solucionario
1.
a) Intervalo de confianza:
Queremos un intervalo de confianza del 95%, por tanto, α · 0,05 y obser-
vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor
crítico de t
α/2;n–2
· · t
0,025;6
· 2,4469.
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
El intervalo de confianza viene dado por:
Y ya estamos en condiciones de calcular cada uno de estos términos:
i x
i
y
i
1 3 87 –2 4 77,61 9,39 88,116
2 5 119 0 0 128,25 –9,25 85,544
3 2 47 –3 9 52,30 –5,30 28,037
4 8 195 3 9 204,20 –9,20 84,695
5 6 162 1 1 153,57 8,43 71,115
6 9 234 4 16 229,52 4,48 20,061
7 3 72 –2 4 77,61 –5,61 31,506
8 4 110 –1 1 102,93 7,07 49,971
Σ 40 1.026 35 44 459,045
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = y
i
y
ˆ
i
– ( )
2
i 1 =
10

19.796,34 =
y
ˆ
x
i
x – x
i
x – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– = e
i
2
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

---------------------------
76,507
44,0
-------------------
1,739 = = =
© FUOC • P03/75057/01013 50 Regresión lineal simple
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,8 + 3,95 x.
A partir de toda esta información, calculad un intervalo de confianza del 95%
para la pendiente.
Solucionario
1.
a) Intervalo de confianza:
Queremos un intervalo de confianza del 95%, por tanto, α · 0,05 y obser-
vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor
crítico de t
α/2;n–2
· · t
0,025;6
· 2,4469.
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
El intervalo de confianza viene dado por:
Y ya estamos en condiciones de calcular cada uno de estos términos:
i x
i
y
i
1 3 87 –2 4 77,61 9,39 88,116
2 5 119 0 0 128,25 –9,25 85,544
3 2 47 –3 9 52,30 –5,30 28,037
4 8 195 3 9 204,20 –9,20 84,695
5 6 162 1 1 153,57 8,43 71,115
6 9 234 4 16 229,52 4,48 20,061
7 3 72 –2 4 77,61 –5,61 31,506
8 4 110 –1 1 102,93 7,07 49,971
Σ 40 1.026 35 44 459,045
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = y
i
y
ˆ
i
– ( )
2
i 1 =
10

19.796,34 =
y
ˆ
x
i
x – x
i
x – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– = e
i
2
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

---------------------------
76,507
44,0
-------------------
1,739 = = =
© FUOC • P03/75057/01013 51 Regresión lineal simple
donde .
Por tanto, .
Y el intervalo de confianza es:
[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]
Es decir:
[22,092; 28,545]
b) Contraste de hipótesis para α · 0,05:
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n − 2 · 6 grados de libertad.
3) Conclusión: puesto que para α · 0,05 tenemos un valor crítico t
0,025;6
·
2,4469 menor que el estadístico de contraste t · 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”.
2.
El intervalo de confianza viene dado por:
Necesitamos calcular el error estándar de la pendiente y encontrar los valores
críticos.
1) Error estándar de la pendiente:
Primero calculamos:
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

459,045
10 2 –
----------------------
76,507 = = =
s
β
ˆ
1
1,739 1,319 = =
t
β
ˆ
1
s
β
ˆ
1
------
19,200 = =
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

19.796,34
10 2 –
---------------------------
2.474,54 = = =
© FUOC • P03/75057/01013 51 Regresión lineal simple
donde .
Por tanto, .
Y el intervalo de confianza es:
[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]
Es decir:
[22,092; 28,545]
b) Contraste de hipótesis para α · 0,05:
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n − 2 · 6 grados de libertad.
3) Conclusión: puesto que para α · 0,05 tenemos un valor crítico t
0,025;6
·
2,4469 menor que el estadístico de contraste t · 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”.
2.
El intervalo de confianza viene dado por:
Necesitamos calcular el error estándar de la pendiente y encontrar los valores
críticos.
1) Error estándar de la pendiente:
Primero calculamos:
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

459,045
10 2 –
----------------------
76,507 = = =
s
β
ˆ
1
1,739 1,319 = =
t
β
ˆ
1
s
β
ˆ
1
------
19,200 = =
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

19.796,34
10 2 –
---------------------------
2.474,54 = = =
© FUOC • P03/75057/01013 52 Regresión lineal simple
de manera que:
Por tanto, el error estándar de la pendiente vale:
2) Un intervalo de confianza del 95% con n · 10, tenenemos unos valores crí-
ticos:
t
0,025;8
· ±2,3060.
3) Por tanto, el intervalo de confianza es:
[3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
fianza del 95%.
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
2.474,54
1.522,1
------------------------
1,626 = = =
s
β
ˆ
1
1,626 1,275 = =
© FUOC • P03/75057/01013 52 Regresión lineal simple
de manera que:
Por tanto, el error estándar de la pendiente vale:
2) Un intervalo de confianza del 95% con n · 10, tenenemos unos valores crí-
ticos:
t
0,025;8
· ±2,3060.
3) Por tanto, el intervalo de confianza es:
[3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
fianza del 95%.
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
2.474,54
1.522,1
------------------------
1,626 = = =
s
β
ˆ
1
1,626 1,275 = =
© FUOC • P03/75057/01013 53 Regresión lineal simple
Anexos
Anexo 1
a) Valor esperado de :
Manipulando un poco la expresión que tenemos para :
Si hacemos: , podemos escribir:
Si ahora calculamos el valor esperado:
Vemos que: y que
Para calcular el término , utilizaremos la igualdad siguiente:
Ya que:
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
j
x – ( )
2
j 1 =
n

---------------------------------------------
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------y
i
i 1 =
n

= = =
w
i
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------
= β
ˆ
1 w
i
y
i
i 1 =
n

=
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) · kE(X).
E β
ˆ
1 ( ) E w
i
y
i
i 1 =
n

. ,
| `
E w
i
y
i
( )
i 1 =
n

w
i
E y
i
( )
i 1 =
n

= = = =
w
i
β
0
β
1
x
i
+ ( )
i 1 =
n

w
i
β
0
β
1
w
i
x
i
+
i 1 =
n

= = =
w
i
β
0
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ β
0
w
i
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ = =
w
i
i 1 =
n

0 = w
i
x
i
i 1 =
n

1 =
Observación
Puesto que:
es fácil ver que:
x
1
n
--- x
i
i 1 =
n

=
x
i
x – ( )
i 1 =
n

0 =
w
i
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

1
x
i
x – ( )
2
i 1 =
n

------------------------------- x
i
x – ( )
i 1 =
n

0 = = =
w
i
x
i
i 1 =
n

w
i
x
i
x – ( )
i 1 =
n

w
i
x
i
i 1 =
n

w
i
x
i 1 =
n

– w
i
x
i
i 1 =
n

x w
i
i 1 =
n

– w
i
x
i
i 1 =
n

= = =
w
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 53 Regresión lineal simple
Anexos
Anexo 1
a) Valor esperado de :
Manipulando un poco la expresión que tenemos para :
Si hacemos: , podemos escribir:
Si ahora calculamos el valor esperado:
Vemos que: y que
Para calcular el término , utilizaremos la igualdad siguiente:
Ya que:
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
j
x – ( )
2
j 1 =
n

---------------------------------------------
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------y
i
i 1 =
n

= = =
w
i
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------
= β
ˆ
1 w
i
y
i
i 1 =
n

=
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) · kE(X).
E β
ˆ
1 ( ) E w
i
y
i
i 1 =
n

. ,
| `
E w
i
y
i
( )
i 1 =
n

w
i
E y
i
( )
i 1 =
n

= = = =
w
i
β
0
β
1
x
i
+ ( )
i 1 =
n

w
i
β
0
β
1
w
i
x
i
+
i 1 =
n

= = =
w
i
β
0
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ β
0
w
i
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ = =
w
i
i 1 =
n

0 = w
i
x
i
i 1 =
n

1 =
Observación
Puesto que:
es fácil ver que:
x
1
n
--- x
i
i 1 =
n

=
x
i
x – ( )
i 1 =
n

0 =
w
i
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

1
x
i
x – ( )
2
i 1 =
n

------------------------------- x
i
x – ( )
i 1 =
n

0 = = =
w
i
x
i
i 1 =
n

w
i
x
i
x – ( )
i 1 =
n

w
i
x
i
i 1 =
n

w
i
x
i 1 =
n

– w
i
x
i
i 1 =
n

x w
i
i 1 =
n

– w
i
x
i
i 1 =
n

= = =
w
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 54 Regresión lineal simple
De manera que:
Así pues:
Y, finalmente, tenemos que: .
b) Varianza de :

Tenemos que la varianza de es:
w
i
x
i
x – ( )
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

----------------------------- x
i
x – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

x
i
x – ( )
2
i 1 =
n

-----------------------------
1 = = =
w
i
x
i
i 1 =
n

1 =
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
Var β
ˆ
1 ( ) Var w
i
y
i
i 1 =
n

. ,
| `
Var w
i
y
i
( )
i 1 =
n

w
i
2
Var y
i
( )
i 1 =
n

= = = = =
Propiedad de la varianza
Var(kX) · k
2
Var (X).
σ
2
w
i
2
i 1 =
n

σ
2 x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

. ,



| `
2
σ
2 1
x
i
x – ( )
2
i 1 =
n

----------------------------- = = =
β
ˆ
1 σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2
i 1 =
n

-----------------------------
=
© FUOC • P03/75057/01013 54 Regresión lineal simple
De manera que:
Así pues:
Y, finalmente, tenemos que: .
b) Varianza de :

Tenemos que la varianza de es:
w
i
x
i
x – ( )
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

----------------------------- x
i
x – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

x
i
x – ( )
2
i 1 =
n

-----------------------------
1 = = =
w
i
x
i
i 1 =
n

1 =
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
Var β
ˆ
1 ( ) Var w
i
y
i
i 1 =
n

. ,
| `
Var w
i
y
i
( )
i 1 =
n

w
i
2
Var y
i
( )
i 1 =
n

= = = = =
Propiedad de la varianza
Var(kX) · k
2
Var (X).
σ
2
w
i
2
i 1 =
n

σ
2 x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

. ,



| `
2
σ
2 1
x
i
x – ( )
2
i 1 =
n

----------------------------- = = =
β
ˆ
1 σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2
i 1 =
n

-----------------------------
=

© FUOC • P03/75057/01013

Regresión lineal simple

Índice

Sesión 1 El modelo de regresión simple .............................................................. 1. Introducción ............................................................................................ 2. Relaciones entre dos variables ................................................................. 3. Diagramas de dispersión y curvas de regresión ....................................... 4. Recta de regresión .................................................................................... 4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 5 5 5 6 8 8

5. Interpretación de los parámetros de la recta de regresión....................... 10 6. Construcción de la tabla para determinar los parámetros ...................... 10 7. Interpolación y extrapolación ................................................................. 12 8. Modelos de regresión no lineales ............................................................ 13 9. Resumen................................................................................................... 14 Ejercicios ....................................................................................................... 16 Anexos .......................................................................................................... 20 Sesión 2 La calidad del ajuste ................................................................................ 23 1. Introducción ............................................................................................ 23 2. El coeficiente de determinación, R2......................................................... 23 3. El coeficiente de correlación muestral, r.................................................. 26 4. Relación entre R2 y r ................................................................................ 28 5. Diagnóstico de la regresión: análisis de los residuos ............................... 30 6. Resumen................................................................................................... 33 Ejercicios ....................................................................................................... 34 Anexos .......................................................................................................... 38 Sesión 3 Inferencia en la regresión ..................................................................... 40 1. Introducción ............................................................................................ 40 2. El modelo de regresión en la población .................................................. 40 ˆ 3. Distribución probabilística de la pendiente ( β 1 ) .................................... 44 4. El intervalo de confianza para la pendiente ............................................ 45 5. El contraste de hipótesis sobre la pendiente ........................................... 46 6. Resumen................................................................................................... 48 Ejercicios ....................................................................................................... 49 Anexos .......................................................................................................... 53

© FUOC • P03/75057/01013

5

Regresión lineal simple

El modelo de regresión simple

1. Introducción Después de estudiar cómo hay que organizar, representar gráficamente y analizar un conjunto de datos a partir de algunos parámetros, nos proponemos estudiar las relaciones entre variables. Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas de un conjunto de personas por separado. Ahora el objetivo es determinar si existe alguna relación entre estas variables. Queremos construir modelos que describan la relación entre las variables con el propósito, principalmente, de predecir los valores de una variable a partir de los valores de la otra. Lo haremos con el modelo de regresión lineal simple.

Origen de los modelos de regresión Estos modelos fueron utilizados por Laplace y Gauss en sus trabajos de astronomía y física desarrollados durante el siglo XVIII, pero el nombre de modelos de regresión tiene su origen en los trabajos de Galton en biología de finales del siglo XIX. La expresión de Galton: “regression towards mediocrity” dio nombre a la regresión.

2. Relaciones entre dos variables El modelo de regresión lineal simple nos permite construir un modelo para explicar la relación entre dos variables.

El objetivo es explicar el comportamiento de una variable Y, que denominaremos variable explicada (o dependiente o endógena), a partir de otra variable X, que llamaremos variable explicativa (o independiente o exógena).

Ejemplo de relación entre dos variables Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podríamos escoger la segunda como variable explicada Y y la primera como variable explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos: cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio. Es importante observar que también podríamos escoger las variables a la inversa, es decir, los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y. Cuanto más dinero gastemos en ocio, más ingresos tendremos.

No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable explicada. Como veremos más adelante, dependerá en gran medida de las características de los datos que tengamos. Las relaciones entre dos variables pueden ser de dos tipos: 1) Funcionales (o deterministas): cuando hay una fórmula matemática que permite calcular los valores de una de las variables a partir de los valores que toma la otra.

Ejemplo de relación funcional Podemos conocer el área de un cuadrado a partir de la longitud de su lado.

3. Esta representación es el llamado diagrama de dispersión. En la relación entre el peso y la altura es evidente que existen muchos factores. Todos estos factores y otros que no conocemos hacen que la relación entre estas dos variables sea estadística y no funcional. Pero no existe ninguna fórmula matemática que nos dé una en función de la otra. que hacen que una persona de una determinada altura tenga un peso u otro. ya que esto significaría que todas las personas que tienen la misma altura tendrían el mismo peso. El diagrama de dispersión se obtiene representando cada observación (xi. más peso. etc. la actividad física.© FUOC • P03/75057/01013 6 Regresión lineal simple 2) Estadísticas (o estocásticas): cuando no existe una expresión matemática que las relacione de forma exacta. Diagramas de dispersión y curvas de regresión A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra de individuos. y eso sabemos que no es cierto. yi) como un punto en el plano cartesiano XY. como pueden ser factores genéticos. el primer paso en un análisis de regresión es representar estos datos sobre unos ejes coordenados x-y. Ejemplo de relación estadística Sabemos que hay una relación entre la altura y el peso de las personas: en general. Nos puede ayudar mucho en la búsqueda de un modelo que describa la relación entre las dos variables. cuanta más altura. la alimentación. Ejemplo de diagramas de dispersión El diagrama de dispersión puede presentar formas diversas: . Terminología El diagrama de dispersión también se conoce como nube de puntos.

Por ejemplo. una persona de 150 cm de altura y 150 kg de peso. tal como se ve en la tabla siguiente: Individuo X altura (cm) Y peso (kg) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 Definición y ejemplo de valor atípico Por valor atípico entendemos un valor muy diferente de los otros y que muy posiblemente es erróneo. ya que a medida que el valor de X aumenta. En el caso (f) observamos una relación lineal con pendiente positiva. pero no tan fuerte como la anterior. De todos modos. el valor de Y disminuye. . En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos variables. en el que la pendiente es positiva. En el diagrama de dispersión saldrá como un punto solitario alejado de los otros. pero sí que es posible asegurar la existencia de una fuerte relación entre las dos variables. En el primer caso. el individuo 2 tiene 152 cm de altura y 56 kg de peso. de manera que podemos pensar en una fuerte relación lineal.© FUOC • P03/75057/01013 7 Regresión lineal simple En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso. En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene una forma bien determinada. los puntos se encuentran absolutamente dispersos. Cuando tenemos un valor atípico. Los puntos no están sobre una línea recta. pero se acercan bastante. No será una relación funcional.. etc. La nube de puntos no presenta una forma “tubular” bien determinada. En estos dos casos los puntos se ajustan perfectamente sobre la recta. vemos que no se trata de una relación lineal (la nube de puntos tiene forma de parábola). que nos indica que a medida que X aumenta. la Y es cada vez menor y lo contrario en el segundo caso. debemos controlar las influencias que pueda tener en el análisis. de manera que tenemos una relación funcional entre las dos variables dada por la ecuación de la recta. ya que los puntos no se sitúan sobre una curva. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa. con pendiente negativa. En el caso (d) no tenemos ningún tipo de relación entre las variables. El diagrama de dispersión también nos puede ayudar a encontrar algún valor atípico entre los datos de la muestra que pueda tener su origen en una mala observación o en el hecho de ser una observación correspondiente a un individuo excepcional dentro de la muestra.

El método de los mínimos cuadrados consiste en buscar los valores de los parámetros a y b de manera que la suma de los cuadrados de los residuos sea mínima. Esta recta es la recta de regresión por mínimos cuadrados. es decir: yi – (a + bxi) Por cada recta que consideremos. yi) el error o residuo como la distancia vertical entre el punto (xi. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto a la suma de los cuadrados. yi) y la recta. 4. nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. utilizaremos el método de los mínimos cuadrados. . Esta recta se denomina recta de regresión. Recta de regresión Una vez que hemos hecho el diagrama de dispersión y después de observar una posible relación lineal entre las dos variables. Estimación de los parámetros: método de los mínimos cuadrados Una recta queda bien determinada si el valor de su pendiente (b) y de su ordenada en el origen (a) son conocidos.1. De esta manera la ecuación de la recta viene dada por: y = a + bx A partir de la fórmula anterior definimos para cada observación (xi.© FUOC • P03/75057/01013 8 Regresión lineal simple 4. tendremos una colección diferente de residuos. Para determinar una recta de regresión.

n–1 ∑ ( xi – x ) n 2 Notación Hemos hecho un cambio en la notación para distinguir de manera clara entre una recta cualquiera: y = a + bx y la recta de regresión por mínimos cuadrados: ˆ ˆ ˆ y = β0 + β1 x obtenida al determinar a y b. de todas las rectas.. estos valores de los parámetros hacen mínima la suma de los cuadrados de los residuos.© FUOC • P03/75057/01013 9 Regresión lineal simple Siendo la suma de los cuadrados la expresión: n 2 Terminología La suma de los cuadrados de los residuos también se denomina suma de los errores cuadráticos.es la varianza muestral de las observaciones xi. . efectivamente.y a = y – bx n 2 2 sx ( xi – x ) ∑ i=1 ∑ ( xi – x ) ( yi – y ) n En rigor.. en las que: n • i=1 s xy = -------------------------------------------. la recta de regresión la escribiremos de la manera siguiente: ˆ ˆ ˆ y = β0 + β1 x .. conocido como sistema de ecuaciones normales:          i=1 ∑ ( y i – a – bxi ) n n = 0 i=1 ∑ ( y i – a – bxi )xi = 0 Las soluciones de este sistema de ecuaciones son: s xy =1 b = -----. Así obtenemos el sistema de ecuaciones siguiente. la recta de regresión lineal por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados de los residuos. Es muy importante obsevar que. y las igualamos a cero. A partir de ahora. sólo hay que determinar las derivadas parciales con respecto a los parámetros a y b: 2 ∂  ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )  ∂ a  i∑1 i=1 = n n 2 ∂  ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )x i  ∂ b  i∑1 i=1 = n n La resolución de este sistema de ecuaciones se encuentra en el anexo 1 de esta sesión.es la covarianza muestral de las observaciones (xi. n–1 ∑ ( xi – x ) ( yi – y ) • i=1 2 s x = ---------------------------. habría que probar que..= i-------------------------------------------. yi). i=1 ∑ ( y i – a – bxi ) para encontrar los valores de a y b.

No siempre tiene una interpretación práctica. Construcción de la tabla para determinar los parámetros Veamos ahora cómo debemos determinar. calculamos la covarianza muestral sxy. es decir: ˆ ei = yi – yi ˆ donde y i es el valor estimado para la recta de regresión. realmente sea posible que X tome el valor x = 0. Interpretación de los parámetros de la recta de regresión Una vez determinada la recta de regresión. 5. β 0 : Este parámetro representa la estimación del valor de Y cuando X es igual a cero: ˆ ˆ ˆ ˆ y = β0 + β1 0 = β0 . en la práctica. la recta de regresión. es preciso que: 1. la varianza 2 muestral s x y las medias x y y . a los residuos calculados con la recta de regresión los llamaremos ei . Ejemplo de las alturas y los pesos Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas. 6. ˆ • Interpretación de la pendiente de la recta. ya que correspondería al peso que tendrían las personas de altura nula. ˆ β 0 en el ejemplo de los pesos y las alturas En el ejemplo de los pesos y las alturas. es muy importante interpretar los parámetros de la ecuación en el contexto del fenómeno que se estudia. Para que sea posible. 2. en general. β 1 Este parámetro representa la estimación del incremento que experimenta la variable Y cuando X aumenta en una unidad. en el diagrama de dispersión habíamos observado que.© FUOC • P03/75057/01013 10 Regresión lineal simple ˆ ˆ donde los parámetros de la recta β 0 y β 1 vienen dados por: ˆ ˆ β0 = y – β1 x y s xy ˆ β 1 = -----2 sx De ahora en adelante. Este parámetro nos informa de cómo están relacionadas las dos variables en el sentido de que nos indica en qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían los valores de la X en una unidad. el valor de la ordenada en el origen no tendrá sentido. Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas. Para determinar la recta de regresión. ˆ • Interpretación de la ordenada en el origen. aumenta el peso de las personas a medida que aumenta su altura. Pendiente en el ejemplo de los pesos y las alturas En el ejemplo de los pesos y las alturas. . se tengan suficientes observaciones cercanas al valor x = 0.

16 43.1 ( x – xi ) 2 ( x – xi ) ( y – yi ) –0.9 –15.9 –5. .40 0.76 134.4 y y = -. Ya hemos comentado antes que muchas veces no tiene sentido la interpretación de este parámetro.36 31.1 13.76 11.16 88.822 n–1 10 – 1 Los parámetros son: s xy 51.4 0.933 sx ˆ ˆ β 0 = y – β 1 x = 61. no tiene sentido pensar que el peso de una persona de altura cero es –96.1 –6.6 –5.04 0.1121 + 0.46 84.4 2.56 5.9 – 0.1 12.4 9.9 n n i=1 i=1 476.1121 Tenemos la recta de regresión siguiente: ˆ y = – 96.= -----------------.979009 ⋅ 161.56 108.6 y – yi –1.979009 2 52.40 =1 Covarianza muestral: s xy = i-------------------------------------------.4 –11.= 0.66 34.9 4.56 31.40 2 =1 Varianza muestral: s x = i---------------------------.16 466.979009x Podemos representar la recta de regresión en el diagrama de dispersión: ∑ ( xi – x ) ( yi – y ) Interpretamos los parámetros obtenidos: • Ordenada en el origen: evidentemente.822 ˆ β 1 = -----.933 n–1 10 – 1 ∑ ( xi – x ) n n 2 466.= -----------------.= -----------------.4 = – 96.∑ y i = 61.76 59.1 5.4 –5.36 70.16 116.36 –4.= 51.∑ x i = 161. i 1 2 3 4 5 6 7 8 9 10 Σ xi 161 152 167 153 161 168 167 153 159 173 1614 yi 63 56 77 49 72 62 68 48 57 67 619 n n x – xi 0.1 –0.44 55.40 1 1 Medias muestrales: x = -.= 52.6 8.56 0.36 70.6 8.4 –6.1121 kg.© FUOC • P03/75057/01013 11 Regresión lineal simple Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de regresión.9 –10.56 476.

60 m. Las características biológicas del bebé.53 Extrapolación fuera de rango Si queremos saber el peso de un bebé que sólo mide cuarenta centímetros.979009x para un valor de X de 160 cm. Entonces tenemos que ir con mucho cuidado: 1) Hemos determinado el modelo con la información contenida en la muestra.979009 ⋅ 160 = 60. no podremos utilizar la recta de regresión obtenida. harán que la relación entre el peso y la altura sea diferente. tenemos un valor estimado para la Y de 60. debemos preguntarnos por lo que estamos haciendo.979 kg por cada centímetro. El modelo nos dará un resultado numérico que. .979009. Es decir. muy diferentes de las que presentan las personas adultas.1121 + 0. de manera que no hemos tenido ninguna información del comportamiento de la variable Y para valores de X de fuera del rango de la muestra. 2) Es posible que no tenga sentido la extrapolación que queremos hacer. hay que interpretar. Antes de utilizar el modelo de regresión. cuando queremos conocer el valor que presentará la variable Y para un determinado valor de X que se encuentre fuera del intervalo de valores que toma la muestra. Deberíamos efectuar un análisis de regresión a partir de una muestra de bebés. Ejemplo de las alturas y los pesos En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el peso de una persona de altura 1. Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es el riesgo de la extrapolación. Interpolación y extrapolación Uno de los objetivos más importantes de la regresión es la aplicación del modelo para el pronóstico del valor de la variable dependiente (Y) para un valor de la variable independiente (X) no observado en la muestra.1121 + 0. 7. en todo caso. A partir de nuestra recta de regresión: ˆ y = – 96. Un valor positivo que nos informa de que el peso aumenta con la altura a razón de 0.53 kg: ˆ y = – 96. Sentido de la extrapolación No tiene ningún sentido utilizar el modelo de regresión para calcular el peso de personas de diez centímetros o tres metros de altura.© FUOC • P03/75057/01013 12 Regresión lineal simple • Pendiente: tenemos una pendiente de 0.

Número de días xi 1 2 4 5 8 10 11 14 16 20 Número de ordenadores infectados yi 255 1. Ejemplo de la propagación de un virus informático La tabla registra el número de días que han transcurrido desde que se ha detectado un nuevo virus informático y el número de ordenadores infectados en un país.2379 14.© FUOC • P03/75057/01013 13 Regresión lineal simple 8. Si en la ecuación y = kax tomamos logaritmos ln y = ln(kax).800 1.000 Transformación de Y ln yi 5. transformamos las variables de manera que el problema se convierta en lineal. k > 0 donde k y a son valores constantes. Así. etc. Curva en un modelo exponencial En el modelo lineal hemos ajustado la nube de puntos a una recta de ecuación: y = a + bx En el modelo exponencial queremos ajustar a los puntos una curva de ecuación: y = kax con a > 0 y k > 0 El modelo exponencial es del tipo: y = kax con a > 0. se pueden establecer otros. en el caso exponencial es un poco más difícil. obtenemos.7621 .105 5. es decir.7215 10.320 58. Modelos de regresión no lineales Aparte de los modelos lineales.3132 7.500 2. si representamos el diagrama de dispersión de los puntos (xi.570 375. ln yi) y la nube de puntos presenta una estructura lineal.5271 9.050 16.9780 12.5413 7.. linealizamos el problema.300 45. por aplicación de las propiedades de los logaritmos: ln y = ln k + x ln a Propiedades de los logaritmos ln ab = ln a + ln b ln ax = x ln a Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y. los precios de algunos productos. puesto que en el caso lineal es muy fácil ver si puede haber una relación lineal entre las variables a partir del diagrama de dispersión. entre los cuales destaca el exponencial. el número de ordenadores infectados por un virus en los primeros días de contaminación. Ejemplos de relaciones exponenciales Las relaciones entre la variable tiempo (X) y otras variables (Y) como la población.8368 14.577. Para tratarlo.640 2.6521 8.525. podemos pensar que entre las variables X e Y hay una relación exponencial. Así. son exponenciales.6989 10.

Estudiaremos si se trata de una relación exponencial.482x .8195 Por tanto.© FUOC • P03/75057/01013 14 Regresión lineal simple El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de algún tipo de relación entre las variables que no es lineal.624 ˆ Y tomando exponenciales. Podemos observar que entre las variables X y ln Y existe una relación lineal.482 ⋅ 12 = 11. podemos aislar y : ˆ y = exp(11. por tanto. ˆ ˆ ˆ Si calculamos la recta de regresión de ln y sobre x: ln y = β 0 + β 1 x 5. y = e De manera que.482x ˆ ˆ Obtenemos: ln y = 5.84 + 0. A continuación se ha comentado la construcción de un diagrama de dispersión como paso inicial a la hora de bus- . entre las variables originales X e Y habrá una relación exponencial.84 + 0. Resumen En esta primera sesión hemos introducido los conceptos de relaciones funcionales y estadísticas. haremos lo siguiente: ˆ Para x = 12: ln y = 5. al cabo de doce días el número estimado de ordenadores infectados ha sido de 111.84 + 0. si queremos estimar el número de ordenadores infectados al cabo de doce días. Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dispersión correspondiente. así como el de variables dependientes (o explicadas) y el de variables independientes (o explicativas). 9.624) = 111. es decir.748 unidades.747.

entonces buscamos la línea recta que mejor se ajusta a nuestras observaciones. Finalmente. Si el diagrama nos muestra una estructura lineal. hemos comentado una relación no lineal tan importante como la relación exponencial y la manera en que podemos transformarla en una lineal. También hemos visto cómo debemos utilizar la recta de regresión para hacer interpolaciones. .© FUOC • P03/75057/01013 15 Regresión lineal simple car algún tipo de relación entre dos variables. Hemos puesto de manifesto la importancia de interpretar correctamente los parámetros de la recta. Lo hacemos mediante el método de los mínimos cuadrados.

700 .© FUOC • P03/75057/01013 16 Regresión lineal simple Ejercicios 1. i=1 ∑ xi 15 2 = 3. Ha salido al mercado un nuevo modelo de grabadora de DVD. de manera que la labor de los técnicos de los grandes centros comerciales es muy importante a la hora de presentar este producto al cliente. i=1 ∑ xi yi 15 = 28. Interpretad los parámetros obtenidos. se observaron quince centros comerciales con los resultados que se muestran a continuación: i=1 ∑ xi 15 = 215 . pero con unas prestaciones muy superiores.) 87 119 47 195 162 234 72 110 a) Representad el diagrama de dispersión.m. i=1 ∑ yi 15 = 1.567 . El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal.m. b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un centro con diecisiete comerciales? . un poco más caro que los anteriores.) obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 9 3 4 Ganancia de velocidad (p.p. La tabla siguiente indica el progreso en pulsaciones por minuto (p. Con el objetivo de saber si el “número de técnicos comerciales presentes en una tienda” (X) puede tener alguna incidencia en el “número de aparatos vendidos durante una semana” (Y).p. ¿Creéis que es razonable suponer que existe una relación lineal entre el número de semanas y la ganancia de velocidad? b) Buscad la recta de regresión. c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace siete semanas que va a clase? 2.300 a) Buscad la recta de regresión.

75 56. mayor es la ganancia de velocidad.25 33.25 ( x – xi ) 4 0 9 9 1 16 4 1 44.∑ y i = -------------.75 200.250 8 ni = 1 44.= ----------------------.25 9.25 81.00 2 i=1 Varianza muestral: s x = ---------------------------.25 1.114.= 128.= 6.5 18. Por tanto. A partir de la tabla de cálculos siguiente: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 40 yi 87 119 47 195 162 234 72 110 1.= --------------.114.= 159.00 2 ( x – xi ) ( y – y i) 82.© FUOC • P03/75057/01013 17 Regresión lineal simple Solucionario 1.25 18. de manera que cuantas más semanas pasan.143 n–1 7 ∑ ( xi – x )( yi – y ) .75 –33.5 0 243.206 1 y = -.75 423 112.= 5.25 –66. tiene sentido buscar la recta de regresión.00 =1 Covarianza muestral: s xy = i-------------------------------------------.∑ x i = -----.0 y 8 ni = 1 n 1. Diagrama de dispersión: El diagrama de dispersión nos muestra que la relación entre las dos variables es lineal con pendiente positiva.75 –105.286 n–1 7 n ∑ ( xi – x ) n 2 1.00 n 40 1 Medias muestrales: x = -.026 x – xi 2 0 3 –3 –1 –4 2 1 y – yi 41.

a) Para encontrar la recta de regresión. 2. La pendiente de la recta sí que nos da una información útil: por cada semana de clase se tiene una ganancia de velocidad de aproximadamente 25 p.318x En este caso la ordenada en el origen no tiene ninguna interpretación con sentido.659 + 25.p.333 15 ni = 1 .318 ⋅ 7 = 178. antes tenemos que encontrar las medias y covarianzas muestrales de las variables X e Y. A partir de los datos que nos da el enunciado: n 215 1 • Medias muestrales: x = -.= 25. considerando x = 7: ˆ y = 1. Para una persona que hace siete semanas que va a clase. así como la varianza muestral de X.659 + 25.p. Evidentemente. podemos calcular la ganancia de velocidad a partir de la recta de regresión.∑ y i = -------------.286 sx ˆ ˆ β 0 = y – β 1 x = 128. no tiene sentido pensar que sin hacer clases se tiene una ganacia de velocidad de 1.= 14.659 p.= 113. ya que correspondería a la ganancia de velocidad por cero semanas de clases.333 15 ni = 1 n 1.© FUOC • P03/75057/01013 18 Regresión lineal simple Ya podemos calcular los coeficientes de la recta de regresión: s xy 159.m.700 1 y = -.m.659 La recta de regresión obtenida es: ˆ ˆ ˆ y = β 0 + β 1 x = 1.250 – 25.143 ˆ β 1 = -----. aproximadamente una ganancia de 179 pulsaciones por minuto.318 y 2 6.885 Es decir.= ---------------------.318 ⋅ 5 = 1.∑ x i = --------.

667 n–1 14 • Covarianza muestral: También ahora utilizaremos una nueva expresión para calcular la covarianza muestral: La deducción de esta fórmula se muestra en el anexo 3 de esta sesión.104 ⋅ 17 = 134.= 8. en un centro con diecisiete comerciales se habrán vendido aproximadamente unos 135 aparatos.333 = 2 s x = ----------------------------------.829 + 8.333 – 8.952 = n–1 14 Los parámetros de la recta de regresión son: s xy 280.939 Por tanto. utilizaremos la expresión equivalente: La deducción de esta fórmula se muestra en el anexo 2 de esta sesión.333 = – 2 . s xy De manera que:  n x y  – nxy  i∑1 i i = = -------------------------------------n–1 s xy  n x y  – nxy  i∑1 i i = 28.952 ˆ β 1 = -----.= 280.829 + 8.© FUOC • P03/75057/01013 19 Regresión lineal simple • Varianza muestral: Para calcular la varianza muestral a partir de los datos del enunciado. podemos estimar las ventas de aparatos de DVD mediante la recta de regresión obtenida: ˆ ˆ ˆ y = β 0 + β 1 x = – 2 .300 – 15 ⋅ 14.= 34.829 La recta de regresión obtenida es: ˆ ˆ ˆ y = β 0 + β 1 x = – 2 .667 sx ˆ ˆ β 0 = y – β 1 x = 113.333 ⋅ 113.567 – 15 ⋅ 14.  n x 2 – nx 2  i∑1 i  = 2 s x = ----------------------------------n–1 De manera que:  n x 2 – nx 2 2  i∑1 i  3.104x b) Para un centro con diecisiete comerciales.= ----------------------------------------------------.104 2 34.104 ⋅ 14.= ---------------------.= ---------------------------------------------------------------------------------.333 -------------------------------------. .

pero tenemos en cuenta que: β 0 = y – β 1 x i=1 n 2 entonces i=1 ∑ x i yi n = n ( y – β 1 x )x + β 1 ∑ x i = nxy – β 1 nx + β 1 ∑ x i i=1 i=1 n 2 2 n 2 Aislando β 1 : =1 β 1 = i--------------------------------n 2 2 ∑ xi – nx i=1 ∑ x i y i – nxy n podemos dar una expresión equivalente a partir de la definición de varianza muestral: n 2 2 i=1 s x = ---------------------------n–1 ∑ ( xi – x ) sx ( n – 1 ) = 2 i=1 ∑ ( xi – x ) n 2 = i=1 ∑ ( xi n 2 – 2x i x + x ) = 2 i=1 ∑ xi n 2 – 2nx + nx = 2 2 i=1 ∑ xi n 2 – nx 2 .© FUOC • P03/75057/01013 20 Regresión lineal simple Anexos Anexo 1 Resolución del sistema de ecuaciones normales:        i=1 n i=1 ∑ ( yi – β 0 – β1 xi ) = 0 n ∑ ( y i – β 0 – β 1 xi )xi = 0 A partir de la primera ecuación del sistema: n n n n i=1 ∑ yi – β0 – β1 xi = i=1 ∑ yi – ∑ β0 – ∑ β1 xi i=1 i=1 = ny – nβ 0 – nβ 1 x = 0 Dividiendo por n: y = β 0 + β 1 x y aislando la β 0 : β 0 = y – β 1 x De la segunda ecuación del sistema: n n n n n n i=1 ∑ ( y i – β0 – β1 xi )xi = i=1 ∑ x i yi – ∑ β0 xi – ∑ β 1 xi i=1 i=1 2 = i=1 ∑ x i y i – nβ0 x – β1 ∑ xi i=1 2 = 0 i=1 ∑ n x i y i = nβ 0 x + β 1 ∑ x i .

podemos expresar los parámetros de la recta de regresión de la manera siguiente: s xy ˆ β 1 = -----2 sx Anexo 2 Varianza muestral: Podemos deducir a partir de la fórmula de su definición: n i β 0 = y – β1 x 2 sx i=1 = ---------------------------n–1 ∑ ( xi – x ) 2 una expresión equivalente desarrollando el cuadrado del numerador: n n n n n i=1 ∑ ( xi – x ) n 2 2 = i=1 ∑ ( xi 2 – 2x i x + x ) = 2 i=1 ∑ xi 2 – i=1 ∑ 2xx i + ∑ ( x ) i=1 n 2 = = i=1 ∑ x i – 2x ∑ x i + n ( x ) = i=1 n 2 i=1 ∑ n 2 2 2 2 x i – 2xnx + n ( x ) =  ∑ x i  – n ( x )   i=1 De manera que:  n x 2 – n ( x ) 2  i∑1 i  = 2 s x = -------------------------------------n–1 Anexo 3 Covarianza muestral: A partir de la definición de la covarianza: =1 s xy = i-------------------------------------------n–1 ∑ ( xi – x ) ( yi – y ) n .© FUOC • P03/75057/01013 21 Regresión lineal simple y de la definición de covarianza muestral: n =1 s xy = i-------------------------------------------n–1 n n n n ∑ ( xi – x ) ( yi – y ) s xy ( n – 1 ) = i=1 ∑ ( xi – x ) ( y i – y ) = ∑ xi y i – x ∑ yi – y ∑ x i + nxy = i=1 i=1 n i=1 = i=1 ∑ xi y i – nxy – nyx + nxy n = i=1 ∑ xi y i – nxy Teniendo en cuenta la varianza y la covarianza.

© FUOC • P03/75057/01013 22 Regresión lineal simple si desarrollamos el producto del sumatorio del numerador: n n n n n n i=1 ∑ ( xi – x )( yi – y ) = = n i=1 ∑ ( xi y i – xi y – xy i + xy ) n n = i=1 ∑ xi y i – ∑ xi y – ∑ xyi + ∑ xy i=1 i=1 i=1 = i=1 ∑ xi y i – y ∑ x i – x ∑ y i + xyn i=1 i=1 =  ∑ x i y i – nxy   i=1 n De manera que: s xy  n x y  – nxy  i∑1 i i = = -------------------------------------n–1 .

A partir de la definición de residuos (ei) de la regresión como la diferencia entre ˆ los valores observados (yi) y los valores estimados ( y i ) por la recta de regresión: ˆ e i = yi − y i . . podemos escribir: ˆ yi = y i + ei. es decir: Varianza explicada por la recta de regresión 2 R = -----------------------------------------------------------------------------------------------------------------------Varianza total de los datos Notación La varianza explicada por la recta de regresión es la varianˆ za de los valores estimados y i . La varianza total de los datos es la varianza de los valores observados yi. podemos tener una idea de si la recta se ajusta o no a los datos. y se define como la proporción de varianza explicada por la recta de regresión. Ahora nos preguntamos si este ajuste es lo bastante bueno. pero nos hace falta un valor numérico que nos ayude a precisarlo. Introducción La recta de regresión por mínimos cuadrados minimiza la suma de los cuadrados de los residuos.© FUOC • P03/75057/01013 23 Regresión lineal simple La calidad del ajuste 1. Buscaremos una expresión que nos permita calcular el coeficiente de determinación. Veremos que la varianza de las observaciones se puede descomponer en dos términos: la varianza que queda explicada por el modelo de regresión lineal y una varianza debida a los residuos. Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores de la muestra. Mirando si en el diagrama de dispersión los puntos experimentales quedan muy cerca de la recta de regresión obtenida. Si ahora restamos a los dos miembros de esta igualdad la media de las observaciones yi. La medida más importante de la bondad del ajuste es el coeficiente de determinación R2. obtenemos una expresión que nos relaciona las desviaciones con Notación Llamaremos indistintamente valores estimados o valores preˆ dichos ( y i ) a los obtenidos mediante la recta de regresión. 2. R2 Queremos evaluar en qué grado el modelo de regresión lineal que hemos encontrado a partir de un conjunto de observaciones explica las variaciones que se producen en la variable dependiente de éstas. El coeficiente de determinación.

Observación La recta de regresión pasa por ( x . las observaciones y los valores estimados con la recta de regresión. podemos escribir de una manera más compacta esta expresión: n i=1 n ∑ ( yi – y ) ˆ ∑ ( yi – y ) n 2 = SCT Suma de cuadrados totales 2 = SCR Suma de cuadrados de la regresión i=1 i=1 ∑ ei 2 = SCE Suma de cuadrados de los errores Así. y ). i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ ( yi – y ) n 2 + i=1 ∑ ei n 2 Dando nombres a estas cantidades. Elevando al cuadrado y sumando todos los valores.© FUOC • P03/75057/01013 24 Regresión lineal simple respecto a la media de las observaciones con las desviaciones con respecto a la media de los valores estimados. tenemos que: SCT = SCR + SCE . se puede demostrar que: Esta deducción matemática se encuentra desarrollada en el anexo 1 de esta sesión. ˆ yi – y = ( y i – y ) + ei Representaremos gráficamente las desviaciones con respecto a la media.

cuanto más cercano a la unidad esté. • Puesto que R2 nos explica la proporción de variabilidad de los datos que queda explicada por el modelo de regresión. es decir. n SCE i=1 R = 1 – ----------. A partir de la recta de regresión: ˆ y = –96. • R2 = 0 denota la inexistencia de relación entre las variables X e Y. la varianza de los residuos (SCE). etc. En este caso la suma de residuos es máxima y tenemos que SCE = SCT. es decir. n SCT 2 ∑ ( yi – y ) 2 i=1 ∑ ei 2 Observando estas expresiones. por tanto. En este caso los residuos son cero y la suma de sus cuadrados también y. Individuos (y) Altura Peso (xi) (yi) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 2 Observación Un coeficiente de determinación diferente de cero no significa que haya relación lineal entre las variables. Por ejemplo.1121 + 0. cuando todos los puntos se encuentran sobre la recta de regresión. Entonces podemos escribir la definición del coeficiente de determinación de esta manera: SCR 2 =1 R = ---------. mejor es el ajuste..= i---------------------------n SCT 2 ∑ ( yi – y ) i=1 ˆ ∑ ( yi – y ) n 2 o también. el individuo 2 tiene 152 cm de altura y 56 kg de peso. SCR = SCT.© FUOC • P03/75057/01013 25 Regresión lineal simple Podemos interpretar esta última expresión en el sentido de que la varianza total observada (SCT) en la variable Y se descompone en dos términos: la varianza explicada por el modelo de regresión lineal (SCR) más la varianza que no queda explicada por el modelo. Siempre será: 0 ≤ R ≤ 1 .5 sólo nos dice que el 50% de la varianza de las observaciones queda explicado por el modelo lineal.979009x. . Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso.= 1 – ---------------------------. de manera que: • R2 = 1 cuando el ajuste es perfecto. es fácil apreciar las características de este coeficiente. R2 = 0.

90 2 ˆ yi – y –0.20 5.36 ˆ ( yi – y ) 0.06 67.70 67.55 73.10 ( yi – y ) 1.55 –6.10 –5.10 –12.© FUOC • P03/75057/01013 26 Regresión lineal simple podemos calcular los valores estimados y los residuos.38 32.07 40.63 5.29 128.75 30.5617 que nos informa de que el modelo de regresión lineal sólo nos explica el 56.46 5.5617 Evidentemente. .50 21.39 –9.36 0.22 –2.01 26.15 41. r A partir del diagrama de dispersión podemos ver si hay algún tipo de relación entre dos variables X e Y.14 356.52 2 ei 1. Se suele decir que X e Y tienen una relación positiva si los valores grandes de X están aparejados con valores grandes de Y y valores pequeños de X.48 –8. Hemos obtenido un coeficiente de determinación R2 = 0.01 0. con grandes de Y. en concreto.51 68.38 53.68 10.90 5.49 3.90 15.48 –8.01 166.22 –0.36 67.21 193.26 ei 2 2.47 0.63 0.35 11. coinciden los resultados. con valores pequeños de Y.26 yi – y 1.90 –4.69 30. De manera análoga.10 6.5617 Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinación.38 53.06 67.90 Por tanto.10 0. A partir de la suma de los cuadrados de los residuos: SCE = 356.39 6.87 110. se dice que X e Y tienen una relación negativa si los valores grandes de X están aparejados con los valores pequeños de Y y los pequeños de X.81 228.29 tenemos para el coeficiente de determinación: R2 = 1 – ( 356.91 92.29 / 812.17% de la varianza de las observaciones.50 39. El coeficiente de correlación muestral.62 –4.68 59. disponer de los datos y los cálculos en forma de tabla. por comodidad.4383 = 0.01 37.61 SCT = 812.23 10.61 3.68 61.01 812.90 ) = 1 – 0.21 24.21 34. Es muy conveniente.51 52.62 –5.90 10.68 –2. xi 161 152 167 153 161 168 167 153 159 173 yi 63 56 77 49 72 62 68 48 57 67 619 ˆ yi 61. construiremos una tabla de cálculos del coeficiente de determinación: i 1 2 3 4 5 6 7 8 9 10 Σ Tenemos que: SCR = 456.30 9.49 –6.22 6.41 102. tenemos un coeficiente de determinación: R2 = 456.97 456.61 / 812.90 = 0.10 –13.15 84.

( y i – y ) ) estarán en el segundo y cuarto cuadrante. por el contrario.5. • Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué valor de r podemos decir que la relación entre las variables es fuerte? Una regla razonable es decir que la relación es débil si 0 < | r | < 0.= -------------------------------------------------------------n n s x sy 2 2 ( xi – x ) ∑ ( y i – y ) ∑ i=1 i=1 El coeficiente de correlación se caracteriza por – 1 ≤ r ≤ 1 . no existe ningún tipo de relación positiva o negativa. La covarianza muestral entre dos variables X e Y: s xy ∑ ( xi – x )( yi – y ) i=1 -------------------------------------------.8 < | r | < 1. . y moderada si tiene otro valor. de manera que contribuirán de forma negativa a la suma. Unidades del coeficiente de correlación muestral Al dividir la covarianza por las desviaciones típicas de X y de Y. Esquema de relaciones entre X e Y Definimos el coeficiente de correlación muestral como: n ∑ ( xi – x )( yi – y ) s xy i=1 r = -------. ( y i – y ) ) estarán en el primer y tercer cuadrante en que ( x i – x ) ( y i – y ) ≥ 0 . fuerte si 0. • – 1 < r < 1 cuando la relación entre las variables no sea lineal de forma exacta. de manera que: • r = 1 o r = −1 cuando haya una asociación lineal exacta entre las variables (en el primer caso positiva y en el segundo. entonces la mayoría de los puntos de coordenadas ( ( x i – x ). hemos conseguido una medida adimensional que no depende de las unidades de las variables. la covarianza será una cantidad pequeña al encontrarse todos los puntos aproximadamente igual repartidos por los cuatro cuadrantes. negativa). entonces la mayoría de los puntos de coordenadas ( ( x i – x ) . • Si tenemos una relación positiva. • Si tenemos una relación negativa. • Si. cosa que compensa de forma aproximada las cantidades positivas y negativas del sumatorio. en los que ( x i – x ) ( y i – y ) ≤ 0 . La covarianza presenta el gran inconveniente de depender de las unidades de las variables que estudiamos. de manera que contribuirán de forma positiva a la suma.W = n–1 n nos puede servir para medir estas relaciones positivas y negativas entre las variables X e Y.© FUOC • P03/75057/01013 27 Regresión lineal simple Ahora queremos medir estas relaciones de forma numérica. Observad la figura de los ejemplos de diagramas de dispersión en el apartado 3 de la sesión “El modelo de regresión simple” de este módulo.

1 ( x – xi ) 2 (y – yi ) 2 ( x – xi ) ( y – yi ) –0.822 n–1 10 – 1 n ∑ ( xi – x ) ( yi – y ) n 476.01 0. 4.01 166.= ----------------------------------.9 –10.504 El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r = 0.36 –4.56 5.16 116.4 2.1 12.90 =1 s = i---------------------------.= -----------------.9 –5.© FUOC • P03/75057/01013 28 Regresión lineal simple Para calcular el coeficiente de correlación muestral. • r: mide el grado de asociación entre las dos variables.= -----------------.76 11. a medida que la altura crece.276 ⋅ 9.4 –6.= 52. Ejemplo de las alturas y los pesos Consideremos de nuevo el ejemplo de los pesos y las alturas.749 sx s y 7. Lo ilustraremos con el ejemplo de las alturas y los pesos.6 y – yi –1.41 102.322 de manera que sy = 9.16 466.56 31.40 =1 s xy = i-------------------------------------------.9 4.04 0.40 1.9 –15.822 r = -------.1 –6. así como de que.= -----------------.16 88.56 476.40 2 =1 s x = i---------------------------.90 466.933 de manera que sx = 7.749.44 55.6 –5.= 51.56 108.66 34. Buscaremos el coeficiente de correlación. Relación entre R2 y r Es muy importante tener clara la diferencia entre el coeficiente de correlación y el coeficiente de determinación: • R2: mide la proporción de variación de la variable dependiente explicada por la variable independiente.36 31. i 1 2 3 4 5 6 7 8 9 10 Σ xi 161 152 167 153 161 168 167 153 159 173 1.276 n–1 10 – 1 n ∑ ( xi – x ) 2 812.4 –11. podemos utilizar la misma tabla de cálculos que para obtener la recta de regresión. Antes tendremos que calcular la covarianza y las varianzas muestrales. el peso también lo hace (ya que es positivo).56 0.01 812.36 70.1 13.= 0. que nos informa de la existencia de una moderada relación entre estas dos variables.4 9.46 84.01 26.36 70.76 59.21 34.4 0.40 0.6 8.6 8.4 –5.21 24.16 43.81 228.614 yi 63 56 77 49 72 62 68 48 57 67 619 x – xi 0.21 193. .1 5.504 n–1 10 – 1 2 y ∑ ( yi – y ) 2 s xy 51.= 90.1 –0.01 37.76 134.

es decir.5617 y r = 0. entonces podremos afirmar que el coeficiente de correlación será r = −0. Por ejemplo. Este valor representará un R2 = 0. Comprobación de que en regresión lineal simple R2 = r2 A partir de la ecuación del coeficiente de correlación: s xy r = -------sx s y y de la ecuación de la pendiente de la recta de regresión: s xy ˆ β 1 = -----2 sx tenemos la relación siguiente: sy ˆ β 1 = r ---sx ˆ ˆ Por otra parte. tenemos: 2 sy ∑ ( xi – x ) ---.= β 1 --------------------------. con el valor de r siempre podremos calcular el valor de R2. tenemos el otro parámetro de la recta de regresión: β 0 = y – β 1 x y la ecuaˆ + β x .749. Ejemplo de las alturas y los pesos Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de correlación con los resultados de nuestro ejemplo. como fácilmente podemos comprobar. Así pues.5 era débil. De estas dos expresiones podemos escribir: ˆ ˆ ción de los valores estimados: y i = β 0 1 i ˆ ˆ ˆ ˆ ˆ ˆ yi – y = β0 + β1 xi – y = y – β1 x + β 1 xi – y = β1 ( xi – x ) Aplicando todas estas relaciones a la ecuación del coeficiente de determinación.ˆ 2 ∑ ( x i – x )2 r 2 R = -------------------------. pero al revés siempre nos quedará indeterminado el valor del signo a menos que conozcamos la pendiente de la recta.561.9.© FUOC • P03/75057/01013 29 Regresión lineal simple No obstante. El signo de r nos informa de si la relación es positiva o negativa.81. y a partir de la definición de varianza muestral. 2 ˆ ∑ ( yi – y ) . en la regresión lineal simple tenemos que R2 = r2.25. De manera que r2 = 0. Hemos obtenido: R2 = 0. si sabemos que la pendiente de la recta de regresión es negativa. dado un R2 = 0.= 2 2 ∑ ( yi – y ) ∑ ( yi – y ) 2 = r 2 Esta relación nos ayuda a comprender por qué antes considerábamos que un valor de r = 0.7492 = 0. el modelo de regresión sólo nos explica un 25% de la variabilidad total de las observaciones.        1 .--------------------------2 2 s x ∑ ( yi – y ) 2 Observación En la regresión lineal múltiple ya no tendremos la igualdad R2 = r2. También es importante tener presente que r nos da más información que R2.

11 7.71 8.74 7.84 4. A partir de las tablas de datos que se muestran a continuación discutiremos cuatro casos: Lectura complementaria Encontraréis el ejemplo de Anscombe en el artículo siguiente: T. sobre el eje de las abscisas representamos el valor estimado i ˆ y i y sobre el eje de ordenadas. entonces la ˆ nube de puntos ( y i .73 Caso (d) X(d) 8 8 8 8 8 8 8 19 8 8 8 Y(d) 6.58 8. Veamos un ejemplo: i Si el modelo lineal obtenido se ajusta bien a los datos muestrales.84 6.58 5.82 5.13 3.10 6.84 8.10 9.74 Caso (c) X(c) 10 8 13 9 11 14 6 4 12 7 5 Y(c) 7.26 4. 27.13 7.96 7.33 9.24 4. Anscombe (1973). es decir.14 8. 17-21). e ).91 6. pág. Esto lo haremos gráficamente representando un diagrama de dispersión de los punˆ tos ( y i . i Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de Anscombe (1973). “Graphs in Statistical Analysis”.39 8.04 6.25 12. que a continuación comentaremos de forma breve y muy intuitiva. Este análisis.46 6. The American Statistician (núm.56 7.15 6.77 9.76 7.77 12.81 8. Diagnóstico de la regresión: análisis de los residuos Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos muestrales. El análisis de los residuos consiste en ver la distribución de los residuos.08 5.68 Caso (b) X(b) 10 8 13 9 11 14 6 4 12 7 5 Y(b) 9.14 8.42 5. Caso (a) X(a) 10 8 13 9 11 14 6 4 12 7 5 Y(a) 8.04 5. hay que efectuar el análisis de los residuos.50 5. el valor correspondiente del residuo.© FUOC • P03/75057/01013 30 Regresión lineal simple 5.47 7. nos servirá para hacer un diagnóstico de nuestro modelo de regresión. ei = ˆ = y – y i . es decir.26 10.81 8.89 .74 8.26 8.95 7.W. e ) no debe mostrar ningún tipo de estructura.

Si ahora hacemos el estudio de los residuos tal como hemos indicado antes.82. Si hacemos la regresión de Y sobre X.5x El coeficiente de correlación es el mismo para las cuatro con valor r = 0. en los cuatro casos obtenemos la misma recta: ˆ y = 3 + 0. tenemos la representación de los siguientes diagramas de residuos: .© FUOC • P03/75057/01013 31 Regresión lineal simple Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión en el ejemplo de Anscombe.

en el diagrama de dispersión podemos observar la presencia del valor atípico (13. Tampoco es un modelo demasiado fiable.48 –8.49 3. y un coeficiente de correlación r = 1.41 102. Podemos observar todos los puntos sobre la recta de regresión. A partir de los datos de la tabla ya vista: i 1 2 3 4 5 xi 161 152 167 153 161 yi 63 56 77 49 72 ˆ yi 61.38 53.15 .10 –12.01 2 ˆ yi – y –0.81 228. Esto se manifiesta de forma mucho más evidente en el diagrama de residuos.51 52.01 166. sólo la primera no presenta ningún tipo de estructura sobre la nube de puntos. El diagrama de los residuos también nos sugiere un buen modelo de regresión para la muestra resultante de eliminar el valor atípico.50 21. En éste se observa un comportamiento curvilíneo que nos hace pensar que un ajuste lineal no sería el más conveniente.23 10.10 ( yi – y ) 1. Influencia de un valor atípico En la muestra (c) hemos eliminado el valor atípico y hemos representado de nuevo el diagrama de dispersión y la recta de regresión 1 y el diagrama de residuos 2.15 2 ei 1.90 10. de manera que sólo tendría sentido la regresión hecha sobre la muestra (a). A continuación representamos el diagrama de dispersión y el diagrama de residuos. ya que si lo eliminamos.68 61. entonces obtenemos una recta de regresión diferente: ˆ y = 4.01 + 0.62 –4.87 110.70 67.39 –9. Finalmente. 12. Ejemplo de las alturas y los pesos Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pesos.49 ei 2 2. Consideremos a continuación el caso (b) del diagrama de dispersión.74) que nos ha hecho ajustar un modelo erróneo al resto de las observaciones.39 ˆ ( yi – y ) 0. Si consideramos la muestra (c).63 0.91 92. en la muestra (d) la pendiente está determinada por un único valor.90 15.20 5.69 30.06 67.345x.30 9.07 84.21 34.10 –5.22 –0.© FUOC • P03/75057/01013 32 Regresión lineal simple Podemos observar que de las cuatro.68 10.51 yi – y 1.

Resumen En esta segunda sesión hemos introducido una medida numérica de la bondad del ajuste de la recta de regresión en las observaciones.90 es fácil representar el diagrama de residuos: No podemos observar ningún tipo de estructura en la representación.26 ei 2 41.63 5.26 yi – y 0. 6.35 11.36 0.10 6.14 356.21 193. .38 32. Hemos comprobado que en la regresión lineal simple R2 y r coinciden.46 5.22 –2. hemos comentado la importancia de analizar los residuos para hacer un diagnóstico del modelo lineal obtenido.36 67.47 0. A continuación hemos visto el coeficiente de correlación muestral. por tanto.06 67.55 –6.21 24.55 73. que nos mide el grado de asociación entre dos variables.38 53.75 30. podemos concluir que el modelo de regresión obtenido es un buen modelo para explicar la relación entre las dos variables.61 40.29 37.90 5.62 –5.52 128. Finalmente.© FUOC • P03/75057/01013 33 Regresión lineal simple i 6 7 8 9 10 Σ xi 168 167 153 159 173 yi 62 68 48 57 67 61. Se ha discutido la interpretación de los valores que puede tomar.36 2 ˆ ( yi – y ) ei –6.90 –4.01 2 ˆ yi – y 6.01 26.9 ˆ yi 68.01 812.97 456. Esta medida se obtiene con el coeficiente de determinación R2.10 ( yi – y ) 0.10 –13. r.22 6.48 –8.68 59.68 –2.50 39.

2.793.66 ˆ Y la recta de regresión: y = 308.88 + 3.0 i=1 ˆ ∑ ( yi – y ) 10 2 = 23. Se obtuvieron los datos siguientes: Gastos en publicidad (× 1.95x.460 i=1 ∑ ( xi – x )( yi – y ) = 6. El departamento de personal de una empresa informática dedicada a la introducción de datos ha llavado a cabo un programa de formación inicial del personal.018 i=1 ∑ 10 ( x i – x ) = 1.p.© FUOC • P03/75057/01013 34 Regresión lineal simple Ejercicios 1.1 2 i=1 ∑ ( yi – y ) 10 2 = 43. A partir de toda esta información.m.000 €) × 40 25 20 22 31 52 40 20 55 42 Ventas (× 100.) 87 119 47 195 162 . Una tienda de ordenadores llevó a cabo un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas.522. calculad el coeficiente de determinación y el coeficiente de correlación.000 €) × 380 410 390 370 475 450 500 390 575 520 Con estos datos se han obtenido las cantidades siguientes: 10 10 10 i=1 ∑ xi = 347 i=1 ∑ yi = 4. La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 Ganancia de velocidad (p.590.

= --------------------------. ˆ La recta de regresión es: y = 308.0 23.0 SCT 2 ∑ ( yi – y ) i=1 ˆ ∑ ( yi – y ) 2 Resultado que podemos interpretar como que el modelo de regresión lineal explica el 54. La pendiente es positiva. Cuanto más se invierte en publicidad.) 234 72 110 La recta de regresión calculada a partir de estos datos es: ˆ y = 1.= 0.= i---------------------------.5458 = 0.m.318x a) Calculad el coeficiente de determinación. ya que: • La suma de los cuadrados de la regresión es: SCR = 10 i=1 ˆ ∑ ( yi – y ) 10 2 = 23.p.8 + 3.© FUOC • P03/75057/01013 35 Regresión lineal simple Número de semanas 9 3 4 Ganancia de velocidad (p.793.7388 2 .5458 10 43. el coeficiente de correlación es: r = + R = + 0.590. Solucionario 1.66 SCR 2 =1 De manera que: R = ---------. Así pues. de manera que tenemos una relación positiva entre los gastos en publicidad y ventas.58% de la variabilidad de las ventas.590. b) Haced un análisis de los residuos y comentadlo. Calculamos el coeficiente de determinación a partir de la expresión: SCR 2 R = ---------SCT El enunciado del problema nos proporciona estos datos. más se vende. A partir de este valor podemos calcular el coeficiente de correlación teniendo en cuenta que: R2 = r2 De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente de determinación con el mismo signo que la pendiente de la recta de regresión.793.66 • Y la suma de los cuadrados totales es: SCT = i=1 10 ∑ ( yi – y ) 2 = 43.95x.659 + 25.

20 8.11 641.75 105.9920 El modelo de regresión lineal explica el 99.64 –25.564.50 2.564.663.00 –75.25 –9.32 ˆ ( yi – y ) 2 1.25 –81.56 1.39 –9.50 R = 28.07 2 Si representamos el valor del residuo frente al valor ajustado.05 SCR = 28.95 10.32 101.61 128.204.026 ˆ yi 77.96 75.56 6.75 –56.52 77.61 128.455.601.43 4.701.06 11.20 153. i 1 2 3 4 5 6 7 8 xi 3 5 2 8 6 9 3 4 yi 87 119 47 195 162 234 72 110 ˆ yi 77.52 77.64 0.61 7.05 / 28.16 5.27 –50.56 85.86 640.204.50 = 0.204.06 333.25 52.25 (yi – y ) 2 ˆ ( yi – y ) –50.255.93 yi – y –41. en primer lugar calcularemos los residuos y después haremos la representación gráfica.11 0.05 28.75 33.768.61 102.769.183.20 153.00 5.© FUOC • P03/75057/01013 36 Regresión lineal simple 2.20% de la varianza de la muestra.93 ˆ ei = y i – y i 9. tenemos el diagrama de residuos siguiente: .164.57 229.25 66.61 102.06 28.48 –5. Tenemos bondad en el ajuste. b) Para hacer el análisis de los residuos.57 229.06 3.30 –9.663.30 204.05 SCT = 28.95 25.56 4.25 –18.25 52.82 2.663. a) Lo primero que haremos será construir la tabla de cálculos: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 yi 87 119 47 195 162 234 72 110 1.139.25 –5.30 204.

. nos hace llegar a la conclusión de que el modelo lineal es adecuado para tratar este problema.© FUOC • P03/75057/01013 37 Regresión lineal simple No observamos ningún tipo de forma determinada en los puntos de esta gráfica. junto con el elevado coeficiente de determinación. Este resultado.

A partir de la definición de residuos de la regresión como la diferencia entre los valores observados y los valores estimados por la recta de regresión: ˆ e i = yi − y i Podemos escribir: ˆ yi = y i + e i Y si ahora restamos a los dos miembros de esta igualdad la media de las observaciones yi. las observaciones y los valores estimados: ˆ yi – y = ( yi – y ) + ei Elevando al cuadrado y sumando todos los valores: i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ [ ( yi – y ) + ei ] n 2 = i=1 ˆ ∑ ( yi – y ) n 2 ˆ + 2 ∑ ( y i – y )e i + i=1 n i=1 ∑ ei n 2 ˆ 2 ∑ ( y i – y )e i = i=1 n i=1 ∑ n ˆ yi ei – i=1 ∑ n yei = i=1 ∑ n ˆ yi ei – y ∑ ei = 0 + 0 = 0 i=1 n 0 0 Por tanto. obtenemos una expresión que nos relaciona las desviaciones con respecto a la media.© FUOC • P03/75057/01013 38 Regresión lineal simple Anexos Anexo 1 Descomposición de la suma de cuadrados total A continuación veremos que la suma de cuadrados total de las observaciones (SCT) se puede expresar de la manera siguiente: SCT = SCR + SCE donde: • SCR es la suma de cuadrados de la regresión. • SCE es la suma de cuadrados de los residuos. es suficiente con ver que i=1 ∑ n ˆ yi ei = 0 y i=1 ∑ ei n = 0 .

2 = SCR Suma de Cuadrados de la Regresión. por tanto: ˆ ∑ yi ei n = i=1 i=1 ∑ ( β0 – β1 xi )e i n ˆ ˆ ˆ ˆ = β0 ∑ ei + β1 ∑ ei xi = 0 i=1 i=1 n n Hemos demostrado así que: i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ ( yi – y ) n 2 + i=1 ∑ ei n 2 Si denominamos: n i=1 n ∑ ( yi – y ) ˆ ∑ ( yi – y ) n 2 = SCT Suma de Cuadrados Totales.© FUOC • P03/75057/01013 39 Regresión lineal simple Observamos que a partir de las ecuaciones normales: n n n 0 = i=1 n ∑ ( yi – β0 – β1 xi ) ˆ ˆ = i=1 ˆ ∑ ( yi – yi ) n = i=1 ∑ ei 0 = i=1 ∑ ˆ ˆ ( y i – β 0 – β 1 x i )x i = i=1 ∑ ei xi Y. Tenemos que: SCT = SCR + SCE. . i=1 i=1 ∑ ei = SCE Suma de Cuadrados de los Errores.

como pueden ser aspectos genéticos. se pueden observar diferentes valores de la variable Y. Introducción En otras sesiones nos hemos preocupado de estudiar la relación lineal entre dos variables X e Y a partir de los valores observados en una muestra. Esto se debe al hecho de que Y no sólo depende de X. para una observación y . yi). Si en el diagrama de dispersión observábamos una relación lineal. Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresión correspondientes: . . n de individuos de una ˆ ˆ ˆ población.. ˆ cribir: y i = y i + e i . la alimentación. que hacen que una persona de una determinada altura tenga un peso u otro. etc. Para una altura fija.© FUOC • P03/75057/01013 40 Regresión lineal simple Inferencia en la regresión 1. es decir. podemos esi El peso depende de la altura y de otros factores En el ejemplo de la relación entre el peso y la altura de las personas. y = 1. la actividad física. de por ejemplo 170 cm. sino también de otros factores difícilmente cuantificables o simplemente desconocidos. Todos estos factores son los responsables de los errores o residuos. sino una distribución de frecuencias de Y. ya sabemos encontrar la recta de regresión lineal y = β 0 + β 1 x . Nos preguntamos si esta relación lineal se puede extender de alguna manera a toda la población. Es la llamada recta de regresión. asociado a cada valor de X no hay un único valor de Y. Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor ˆ observado y el valor estimado e i = y i – y i . Ahora cambiaremos el punto de vista y pensaremos que esta muestra de observaciones proviene de una población. 2.. para un mismo valor de la variable X. . La influencia de este conjunto de factores es la que determina que la relación entre X e Y sea estadística y no determinista. no todas las personas tienen el mismo peso.. es evidente que existen muchos factores. El modelo de regresión en la población Modelo de regresión lineal Es muy importante tener presente que. Dada una muestra de observaciones (xi. entonces calculábamos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de los cuadrados de los residuos fuese mínima. es decir: ˆ ˆ yi = β0 + β1 x + ei Podemos hacer lo mismo con varias muestras de esta misma población.

aceptaremos la suposición de que siempre son iguales.© FUOC • P03/75057/01013 41 Regresión lineal simple Muestra j = 1 Individuos Altura ( xij ) Peso ( yij ) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 i=9 159 57 i = 10 173 67 ˆ La recta de regresión correspondiente es: y = –96.979x. 2 Distribución de los errores en la realidad La distribución de los errores es diferente para diferentes valores de X. . deberíamos estudiar a todos los individuos que la componen. 0.029. De todos modos.979. Ahora el objetivo es dar un modelo para todos los individuos de la población. Lllamamos modelo de regresión lineal para la población a: yi = β0 + β1 x + ei Para encontrar este modelo para la población. Muestra j = 2 Individuos Altura (xij) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 Peso (yij) ˆ La recta de regresión correspondiente es: y = –82. tenemos que hacer dos suposiciones muy importantes: 1) Los errores se distribuyen según una distribución normal de media cero y varianza σ .614.582 + 0. deberemos hacer inferencia estadística.112. de manera que deberemos estimarla a partir de los resultados calculados para una muestra. Antes de continuar. –82.94x. Éste vendrá dado por una expresión análoga a las encontradas por las muestras. Observamos que los valores obtenidos para cada coeficiente son relativamente similares: ˆ β 0 : –96.029x. Esto es prácticamente imposible. 1.614 + 1. Es decir.945. Notación No ponemos los “sombreros” sobre los parámetros para indicar que ahora se trata de la recta de regresión para la población. Muestra j = 3 Individuos Altura (xij) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 i=9 159 57 Peso (yij) ˆ La recta de regresión correspondiente es: y = –98. las personas que miden cerca de 160 cm varían menos su peso que las personas que miden 185 cm. iremos obteniendo coeficientes parecidos a éstos.528 ˆ β 1 : 0. Por ejemplo. –98. 2) Los errores son independientes.112 + 0. Podemos pensar que si recogemos más muestras de la misma población.

Y podemos calcular la media o la esperanza matemática de cada una de estas distribuciones: µ x = E (Y x ) = E ( β 0 + β1 x + e ) = β0 + β1 x + E ( e ) = β 0 + β1 x 2) También podemos calcular su varianza: Var ( Y x ) = Var ( β 0 + β 1 x + e ) = Var ( β 0 + β 1 x ) + Var ( e ) = 0 + σ = σ 2 2 Cada distribución de valores de Y tiene la misma varianza σ2. β1 y σ2. que es la varianza de los residuos. Como se ve en la sesión “El modelo de regresión simple”.© FUOC • P03/75057/01013 42 Regresión lineal simple Con estas suposiciones tenemos que: 1) Por cada valor fijo x de X obtenemos una distribución de valores y de la variable Y. Este método determina aquellos valores de los parámetros que hacen mínima la suma de los cuadrados de los residuos: n s xy ˆ ˆ ˆ i=1 β 0 = y – β 1 x . Es importante tener presente que para tener bien determinado el modelo de regresión para la población. Distribución de las medias El primer resultado nos dice que estas medias se encuentran situadas sobre una recta. debemos conocer tres parámetros: β0.= -------------------------------------------n 2 2 sx ∑ ( xi – x ) i=1 ∑ ( xi – x )( yi – y ) . Estos parámetros desconocidos se tienen que estimar a partir de una muestra de la población. los parámetros de la recta se estiman por el método de los mínimos cuadrados. β 1 = -----. En el gráfico vemos la recta de regresión lineal para la población.

∑ ( y i – β 0 – β 1 x i ) n – 2i = 1 2 n n Terminología Habitualmente. ∑ ( xi – x ) i=1 n 2 La recta de regresión correspondiente es: ˆ y = −96.225 10.38 53. i 1 2 3 4 5 6 7 8 xi 161 152 167 153 161 168 167 153 yi 63 56 77 49 72 62 68 48 ˆ yi 61.∑ ( y i – y i ) n – 2i = 1 2 1 ˆ ˆ s = -----------.36 31. entonces podemos estimar su varianza a partir de la varianza de los residuos: Valor medio Debemos interpretar: ˆ ˆ ˆ y i = β 0+ β 1 x i como la estimación del valor medio de la distribución Y para un valor fijo X = xi.70 67. no por n − 1.68 10.4 –9.56 0.4 6. Hemos dividido la suma de las desviaciones al cuadrado por n − 2. s2 se denomina varianza residual.68 ei 2 En la sesión “El modelo de regresión simple” se deduce la recta de regresión correspondiente a este ejemplo.6 5.© FUOC • P03/75057/01013 43 Regresión lineal simple ˆ ˆ De manera que β 0 y β 1 son los valores estimados (o “estimadores”) de los parámetros β 0 y β 1 de la población.4 5.68 61. es aconsejable construir la tabla de cálculos por la varianza de los residuos que se muestra a continuación. Y la recta que mejor se ajusta a los datos es: ˆ ˆ ˆ yi = β0 + β1 xi Todavía nos falta estimar la varianza de los errores aleatorios.56 31.51 52. Este término refleja la variación aleatoria en torno a la auténtica recta de regresión.36 0.6 –8.51 68.62 –5.62 –4.868 110.56 2 ˆ ei = y i – y i 1.220 .4 –0. Si consideramos los residuos de la regresión como estimaciones de los valores de los errores aleatorios. 2 1 ˆ 2 s = -----------.381 32.38 53.16 43.36 67.49 –6.4 ( xi – x ) 0. Esto se debe a que estimamos la media de Y para un valor dado de X con una fórmula que contiene dos parámetros estimados a partir de los datos de la muesˆ ˆ tra ( β y β ).468 0.075 40.112 + 0. 0 1 Pérdida de grados de libertad El razonamiento es el mismo que el que hacemos al justificar la división por (n – 1) en la fórmula de la varianza muestral: Ejemplo de las alturas y los pesos Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez personas: Individuos (i) Altura Peso (yi) (x) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 2 x s = --------------------------n–1 Lo hacemos porque hemos perdido un grado de libertad al estimar la media a partir de los datos de la muestra.498 21.6 –8.36 70.16 88.908 92. Diremos que “hemos perdido dos grados de libertad”.49 3.68 xi – x –0. σ2.979x Para hacer los cálculos más cómodos.30 9. 2.36 70.

Aunque este valor es desconocido.∑ ( y i – y i ) = ---------------------.4 11. será necesario conocer la distribución de probabiliˆ dad de β .76 2 ˆ ei = y i – y i –2.290 134. Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar intervalos de confianza). ˆ E ( β1 ) = β1 La pendiente estimada de la recta está distribuida según una distribución normal con una media igual al valor de este parámetro para la población.56 476.© FUOC • P03/75057/01013 44 Regresión lineal simple i 9 10 Σ xi 159 173 1. ˆ • Valor esperado de β 1 : Los desarrollos matemáticos se muestran en el anexo de esta sesión. No siempre tiene interpretación realista en el contexto del problema: por este motivo.504 39.290 2 1 ˆ 2 s = -----------.26 ei 2 6. Distribución probabilística de la pendiente ( β 1 ) La ordenada en el origen β 0 nos informa del valor medio de la variable Y para un valor de X igual a cero. y si éstas tienen una distribución normal y son independientes (tal como hemos supuesto al establecer el modelo de regresión). ˆ A partir de la expresión de β 1 podemos encontrar el valor esperado y la varianza. obtenemos la varianza de los residuos: 356.4 La octava columna contiene los cuadrados de los residuos. 1 ˆ Del modelo de regresión lineal tenemos que β 1 es una combinación lineal de las observaciones yi.55 –6. Sumando todos los datos y dividiendo por el número de observaciones menos 2. Esto lo veremos un poco más adelante en esta sesión. Tendremos bien determinada 1 esta distribución cuando conozcamos la esperanza y la varianza.6 ( xi – x ) 5. es decir. por 10 – 2 = 8. únicamente consideraremos hacer inferencia estadística sobre la pendiente.143 356.6 14 yi 57 67 619 ˆ yi 59.= 44. este resultado nos será muy útil para tener información de la población haciendo inferencia estadística.26 xi – x –2. ˆ • Varianza de β 1 : σ 2 σ β = -------------------------ˆ 2 1 ( xi – x ) ∑ 2 .536 10 – 2 n–2 i=1 n ˆ 3.55 73. entonˆ ces β también tendrá una distribución normal.

n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2. deberemos estimarla a partir de la varianza muestral que ya hemos calculado anteriormente: 2 2 1 ˆ s = -----------. 4. α (mediante el valor crítico tα/2. n − 2 ) y de la ˆ variabilidad del estimador β (mediante s ). 1 ˆ β1 . es decir.∑ ( y i – β 0 – ˆ 1 x i ) β n – 2i = 1 n 2 Definimos el error estándar de la pendiente como: s 2 s β = -------------------------ˆ 2 1 ( xi – x ) ∑ ˆ Dado que β 1 sigue una distribución normal con varianza desconocida (ya que no se conoce σ2). n – 2 = 1 – α sβ ˆ   1 Este intervalo está centrado en la estimación puntual del parámetro. n – 2 s β ] ˆ ˆ 1 1 Intervalo de confianza por la pendiente con un nivel significativo α. El intervalo de confianza para la pendiente Acabamos de ver que las suposiciones del modelo de regresión lineal simple imˆ plican que el parámetro β es una variable aleatoria distribuida normalmente 1 con: – Media: β 1 σ 2 – Varianza: σ β = -------------------------ˆ 2 1 ∑ ( xi – x ) Dado que esta varianza σ2 es desconocida.© FUOC • P03/75057/01013 45 Regresión lineal simple A continuación veremos que necesitaremos la información de la muestra. ˆ en β .≤ t α ⁄ 2. Con todo esto. ya que: ˆ   β1 – β1 P  –t α ⁄ 2. tenemos que un intervalo de confianza de 100 (1 − α)% por la pendiente β1 de la recta de regresión poblacional viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2. entonces la variable tipificada: ˆ β1 – β1 ---------------sβ ˆ 1 2 tiene una distribución t de Student con n – 2 grados de libertad. n – 2 ≤ ---------------. ya que σ2 es un valor desconocido que tendremos que estimar. y la cantidad en la que se alarga a cada lado de la estimación depende 1 del nivel deseado de confianza.

093 = 0. de manera ˆ que β 1 = 0. La recta de regresión correspondiente era: y = –96. n – 2 s β ]. Finalmente tenemos [0. antes ˆ ˆ 1 1 tenemos que calcular: sβ ˆ donde: 2 1 s = --------------------------2 ( xi – x ) ∑ 2 2 1 s = -----------n–2 i=1 ˆ ∑ ( yi – yi ) n 2 Antes ya hemos calculado la varianza de los residuos: 2 1 s = -----------n–2 i=1 ˆ ∑ ( y i – yi ) n 2 356. es decir.= 44 . En este apartado haremos un contraste de hipótesis sobre la pendiente de la recta de regresión para saber si podemos afirmar o no que éste es igual a cero.3060.= ------------------.3060 · 0. 5.979x. entonces la variable X no tiene ningún efecto sobre la variable Y. El contraste de hipótesis sobre la pendiente Observemos que si en el modelo de regresión lineal la pendiente es cero.306]. daremos los pasos siguientes: 1) Establecemos las hipótesis nula y alternativa: • Hipótesis nula: H0: β1 = 0. tenemos un 95% de probabilidad de que la pendiente de la recta de regresión para la población se encuentre en este intervalo. el error estándar de la pendiente será: s β = ˆ 1 Y el intervalo de confianza es: [0. la variable X es explicativa.05 y mirando la tabla de la t de Student tenemos un valor crítico de t α ⁄ 2 . 0.= 0.684]. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2. es decir. Como en todos los contrastes de hipótesis. 1.306 2 sβ ˆ 2 1 Por tanto.274. Calcularemos un intervalo de confianza del 95% para la pendiente. Así pues.979.536 = --------------------------. n – 2 = t 0.093 2 476. . α = 0.979 – 2. 536 10 – 2 De manera que: s 44.8 = 2. En este caso diremos que X no es una variable explicativa del modelo.3060 · 0.979 + 2.306.© FUOC • P03/75057/01013 46 Regresión lineal simple Ejemplo de las alturas y los pesos Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez ˆ personas.4 ( xi – x ) ∑ 0. la variable X no es explicativa.112 + 0. ˆ ˆ Para calcular el intervalo de confianza: [ β 1 – t α ⁄ 2.025.290 = ---------------------. Por tanto. • Hipótesis alternativa: H1: β1 ≠ 0.

202 > 2. 1) Establecemos las hipótesis nula y alternativa: Hipótesis nula: Hipótesis alternativa: H0: β1 = 0 H1: β1 ≠ 0 Recordemos que. • Si p > α no se rechaza la hipótesis nula H0.306. rechazamos la hipótesis nula. 3) Bajo el supuesto de la hipótesis nula cierta (β1 = 0) tenemos el estadístico de contraste: ˆ β1 t = -----sβ ˆ Interpretación geométrica No rechazar H0 significa que la recta estimada tiene una pendiente nula y.202) = 2P(t > 3.0063 = 0. por tanto. . Este valor es: p = 2P(tn–2 > |t|). • Si |t| ≤ tα/2. de manera que: • Si |t| > tα/2.. .0126 < 0. hay una relación lineal entre las variables X e Y. 3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si escogemos un nivel significativo de α = 0. por tanto. Ejemplo de las alturas y los pesos Continuando con el ejemplo de las alturas y los pesos.= 3. por tanto. el p-valor es la probabilidad del resultado observado o de uno más alejado si la hipótesis nula es cierta. se rechaza la hipótesis nula H0. ˆ β1 2) Calculamos el estadístico de contraste: t = -----.© FUOC • P03/75057/01013 47 Regresión lineal simple No rechazar la hipótesis nula significa que no se puede considerar el parámetro β1 significativamente diferente de cero. Es decir. no hay una relación lineal entre X e Y.. b) A partir del valor crítico que es t0..025. 4) Finalmente. • Si p ≤ α se rechaza la hipótesis nula H0. no se rechaza la hipótesis nula H0.05. queremos contrastar la hipótesis nula de que la variable X no es explicativa de la variable Y. la variable X no tiene influencia sobre la variable Y y. Decimos que la variable X es no explicativa. dado que 3. no existe una relación lineal entre las dos variables. 2) Fijamos un nivel significativo α. que la pendiente de la recta de regresión es cero. n–2.202 sβ ˆ 1 Sigue una distribución t de Student con n – 2 = 10 – 2 = 8 grados de libertad.. 1 que corresponde a una observación de una distribución t de Student con n − 2 grados de libertad.3060. n–2. para cualquier valor de X la variable Y toma un mismo valor.8 = 2.05: a) A partir del p-valor: P(|t| > 3. por tanto. b) A partir de los valores críticos ±tα/2. podemos actuar de dos maneras: a) A partir del p-valor. n–2.202) = 2 · 0. llegamos a la misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza. es decir. por tanto.

Resumen En esta sesión dedicada a la regresión lineal simple hemos considerado que nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de una población y que las utilizamos para extraer algunas conclusiones del comportamiento de las variables sobre la población. .© FUOC • P03/75057/01013 48 Regresión lineal simple 6. Hemos establecido el modelo de regresión lineal con sus hipótesis básicas más importantes y hemos visto cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la muestra y. en particular. cómo calcular un intervalo de confianza y cómo hacer un contraste de hipótesis para decidir si la variable X nos explica realmente el comportamiento de la variable Y.

000 €) 380 410 390 370 475 450 500 390 575 520 .05. La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 9 3 4 Ganancia de velocidad (p. b) Haced un contraste de hipótesis con un nivel de significación α = 0.© FUOC • P03/75057/01013 49 Regresión lineal simple Ejercicios 1. Se obtuvieron los datos siguientes: Gastos en publicidad (x 1. El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal.000 €) 40 25 20 22 31 52 40 20 55 42 Ventas (x 1. para saber si la variable “número de semanas” es explicativa de la variable “ganancia de velocidad”.659 + 25.m.318xi a) Calculad un intervalo de confianza del 95% para la pendiente de la recta de regresión.p. Una tienda de ordenadores llevó a cabo un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas.) 87 119 47 195 162 234 72 110 La recta de regresión calculada a partir de estos datos es: ˆ y i = 1. 2.

= -----------------.43 4.95 x.522.0 ( xi – x ) ∑ 2 . A partir de toda esta información. calculad un intervalo de confianza del 95% para la pendiente.544 28. Como siempre.037 84.93 ˆ ei = y i – y i 9.507 2 s β = -------------------------.061 31.52 77. a) Intervalo de confianza: Queremos un intervalo de confianza del 95%.61 128.025.39 –9.018 i=1 10 ∑ ( x i – x ) = 1.© FUOC • P03/75057/01013 50 Regresión lineal simple Con estos datos se han obtenido las cantidades siguientes: 10 10 10 i=1 10 ∑ x i = 347 i=1 ∑ y i = 4.971 459. n – 2 s β ] ˆ ˆ 1 1 Y ya estamos en condiciones de calcular cada uno de estos términos: s 76.045 El intervalo de confianza viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2.4469.460 i=1 10 ∑ ( xi – x )( yi – y ) ∑ ( yi – y ) 10 2 = 6.30 204.20 8.34 ˆ Y la recta de regresión: y = 308.115 20.116 85.07 ei 2 88.793.1 2 = 43.05 y observando la tabla de la t de Student para 6 grados de libertad. lo primero que haremos es una tabla de cálculos adecuada con lo que nos piden en este problema: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 40 yi 87 119 47 195 162 234 72 110 1.695 71.25 –5.6 = 2.20 153. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2.506 49. α = 0.48 –5.61 102.590.n–2 = = t0.57 229.61 7. Solucionario 1.739 ˆ 2 1 44.026 xi – x –2 0 –3 3 1 4 –2 –1 35 ( xi – x ) 4 0 9 9 1 16 4 1 44 2 ˆ yi 77.30 –9.25 52.66 i=1 ˆ ∑ ( yi – yi ) 2 = 19.= 1.796. por tanto.0 i=1 i=1 ˆ ∑ ( yi – y ) 2 = 23.8 + 3. tenemos un valor crítico de tα/2.

= 19.200.4469 menor que el estadístico de contraste t = 19.200 sβ ˆ 1 Sigue una distribución t de Student con n − 2 = 6 grados de libertad.092.= 76. 10 – 2 n – 2i = 1 Por tanto.54 10 – 2 n – 2i = 1 . 25. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2. Y el intervalo de confianza es: [25.796.05: 1) Establecemos las hipótesis nula y alternativa: Hipótesis nula: Hipótesis alternativa: H0: β1 = 0 H1: β1 ≠ 0 2) Calculamos el estadístico de contraste: ˆ β1 t = -----.318 – 2.= 2.318 + 2.319] Es decir: [22.545] b) Contraste de hipótesis para α = 0.∑ ( y i – y i ) = ---------------------. s β = ˆ 1 1.319 .739 = 1.4469 · 1.4469 · 1.6 = 2.507.∑ ( y i – y i ) = --------------------------.319.474. entonces rechazamos la hipótesis nula.045 2 1 ˆ 2 donde s = -----------. n – 2 s β ] ˆ ˆ 1 1 Necesitamos calcular el error estándar de la pendiente y encontrar los valores críticos.025. 28. 3) Conclusión: puesto que para α = 0. 2.34 2 1 ˆ 2 s = -----------. de manera que la pendiente es diferente de cero y la variable “número de semanas” es explicativa de la “ganancia de velocidad”. 1) Error estándar de la pendiente: Primero calculamos: n 19.05 tenemos un valor crítico t0. El intervalo de confianza viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2.© FUOC • P03/75057/01013 51 Regresión lineal simple n 459.

el error estándar de la pendiente vale: s β = ˆ 1 2 1.275] Es decir: [1.54 2 s β = -------------------------.025.626 ˆ 2 1 1.522. 3.626 = 1. el intervalo de confianza es: [3.1 ∑ ( xi – x ) Por tanto. 3) Por tanto.3060 · 1. tenenemos unos valores críticos: t0.= 1.474.953 − 2.3060.894] Este intervalo de confianza no contiene el valor cero.275.8 = ±2. este resultado nos indica que el gasto en publicidad es explicativo de las ventas con una confianza del 95%. 6.3060 · 1.013.© FUOC • P03/75057/01013 52 Regresión lineal simple de manera que: s 2.953 + 2.275 2) Un intervalo de confianza del 95% con n = 10.= ----------------------. por tanto. .

= i=1 ∑ wi ( β0 + β1 xi ) n n = i=1 ∑ wi β0 + β1 wi xi n n n = = i=1 ∑ wi β0 + ∑ β1 wi xi i=1 n n = β 0 ∑ wi + β 1 ∑ w i xi i=1 i=1 Vemos que: i=1 ∑ wi n n = 0 y que i=1 ∑ wi xi = 1 Observación Puesto que: n ( xi – x ) 1 ∑ w i = ∑ ---------------------------..© FUOC • P03/75057/01013 53 Regresión lineal simple Anexos Anexo 1 ˆ a) Valor esperado de β 1 : ˆ E ( β1 ) = β1 ˆ Manipulando un poco la expresión que tenemos para β 1 : n s xy =1 ˆ β 1 = -----.y i n 2 i=1 ∑ (xj – x ) j=1 n ( xi – x ) ( xi – x ) ˆ Si hacemos: w i = ---------------------------. podemos escribir: β 1 = n 2 ∑ ( xj – x ) j=1 i=1 ∑ wi yi n Si ahora calculamos el valor esperado: ˆ E ( β 1 ) = E  ∑ w i y i =   i=1 n n n i=1 ∑ E ( wi yi ) = i=1 ∑ wi E ( yi ) = Propiedad de la linealidad La propiedad de la linealidad de la esperanza de una variable es: E(kX) = kE(X). utilizaremos la igualdad siguiente: i=1 ∑ ( xi – x ) n = 0 i=1 ∑ wi ( xi – x ) n = i=1 ∑ w i xi – ∑ wi x i=1 = i=1 ∑ w i x i – x ∑ wi i=1 = i=1 ∑ wi xi Ya que: i=1 ∑ wi = 0 .= ------------------------------.= i-------------------------------------------.= n 2 2 sx ∑ ( xj – x ) j=1 ∑ ( xi – x ) ( yi – y ) ∑ ---------------------------.∑ ( xi – x ) = 0 n n 2 2 i=1 i=1 ∑ ( xi – x ) ∑ ( xi – x ) i = 1 i=1 n i=1 n x = 1 ∑ xi -n i=1 n es fácil ver que: Para calcular el término n i=1 n n n n n ∑ w i x i .

 2  n ( xi – x )  2 2 2 2 1 = σ ∑ w i = σ  ∑ ---------------------------. finalmente. tenemos que: E ( β 1 ) = β 1.= 1 n n 2 2 i=1 i=1 ( xi – x ) ( xi – x ) ∑ ∑ i=1 i=1 n n ∑ ( xi – x ) n 2 Así pues: i=1 ∑ wi xi n = 1 ˆ Y.© FUOC • P03/75057/01013 54 Regresión lineal simple De manera que: (xi – x ) i=1 ∑ w i ( xi – x ) = ∑ ---------------------------.( xi – x ) = ---------------------------. ˆ b) Varianza de β 1 : ˆ σ β = Var ( β 1 ) = Var  ∑ w i y i = ˆ 1   i=1 n i=1 ∑ n Var ( w i y i ) = i=1 ∑ w i Var ( y i ) n 2 = Propiedad de la varianza Var(kX) = k2Var (X). = σ ---------------------------n n i = 1 2 2 i=1 ∑ ( xi – x )  ∑ ( xi – x )  n i=1 i=1 σ 2 ˆ Tenemos que la varianza de β 1 es: σβ = ---------------------------ˆ n 1 2 ( xi – x ) ∑ i=1 2 .

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->