Regresión lineal

simple
Josep Gibergans Bàguena
P03/75057/01013
Regresión lineal
simple
Josep Gibergans Bàguena
P03/75057/01013
© FUOC • P03/75057/01013 Regresión lineal simple
Índice
Sesión 1
El modelo de regresión simple.............................................................. 5
1. Introducción ............................................................................................ 5
2. Relaciones entre dos variables ................................................................. 5
3. Diagramas de dispersión y curvas de regresión....................................... 6
4. Recta de regresión.................................................................................... 8
4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8
5. Interpretación de los parámetros de la recta de regresión....................... 10
6. Construcción de la tabla para determinar los parámetros ...................... 10
7. Interpolación y extrapolación ................................................................. 12
8. Modelos de regresión no lineales ............................................................ 13
9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20
Sesión 2
La calidad del ajuste................................................................................ 23
1. Introducción ............................................................................................ 23
2. El coeficiente de determinación, R
2
......................................................... 23
3. El coeficiente de correlación muestral, r.................................................. 26
4. Relación entre R
2
y r ................................................................................ 28
5. Diagnóstico de la regresión: análisis de los residuos ............................... 30
6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38
Sesión 3
Inferencia en la regresión ..................................................................... 40
1. Introducción ............................................................................................ 40
2. El modelo de regresión en la población .................................................. 40
3. Distribución probabilística de la pendiente ( ) .................................... 44
4. El intervalo de confianza para la pendiente............................................ 45
5. El contraste de hipótesis sobre la pendiente ........................................... 46
6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53
β
ˆ
1
© FUOC • P03/75057/01013 Regresión lineal simple
Índice
Sesión 1
El modelo de regresión simple.............................................................. 5
1. Introducción ............................................................................................ 5
2. Relaciones entre dos variables ................................................................. 5
3. Diagramas de dispersión y curvas de regresión....................................... 6
4. Recta de regresión.................................................................................... 8
4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8
5. Interpretación de los parámetros de la recta de regresión....................... 10
6. Construcción de la tabla para determinar los parámetros ...................... 10
7. Interpolación y extrapolación ................................................................. 12
8. Modelos de regresión no lineales ............................................................ 13
9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20
Sesión 2
La calidad del ajuste................................................................................ 23
1. Introducción ............................................................................................ 23
2. El coeficiente de determinación, R
2
......................................................... 23
3. El coeficiente de correlación muestral, r.................................................. 26
4. Relación entre R
2
y r ................................................................................ 28
5. Diagnóstico de la regresión: análisis de los residuos ............................... 30
6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38
Sesión 3
Inferencia en la regresión ..................................................................... 40
1. Introducción ............................................................................................ 40
2. El modelo de regresión en la población .................................................. 40
3. Distribución probabilística de la pendiente ( ) .................................... 44
4. El intervalo de confianza para la pendiente............................................ 45
5. El contraste de hipótesis sobre la pendiente ........................................... 46
6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53
β
ˆ
1
© FUOC • P03/75057/01013 5 Regresión lineal simple
El modelo de regresión simple
1. Introducción
Después de estudiar cómo hay que organizar, representar gráficamente y analizar
un conjunto de datos a partir de algunos parámetros, nos proponemos estu-
diar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relación entre estas variables.
Queremos construir modelos que describan la relación entre las variables con
el propósito, principalmente, de predecir los valores de una variable a partir de
los valores de la otra. Lo haremos con el modelo de regresión lineal simple.
2. Relaciones entre dos variables
El modelo de regresión lineal simple nos permite construir un modelo para ex-
plicar la relación entre dos variables.
Ejemplo de relación entre dos variables
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton-
ces podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable
explicada. Como veremos más adelante, dependerá en gran medida de las ca-
racterísticas de los datos que tengamos.
Las relaciones entre dos variables pueden ser de dos tipos:
1) Funcionales (o deterministas): cuando hay una fórmula matemática que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.
El objetivo es explicar el comportamiento de una variable Y, que deno-
minaremos variable explicada (o dependiente o endógena), a partir de
otra variable X, que llamaremos variable explicativa (o independiente
o exógena).
Origen de los modelos
de regresión
Estos modelos fueron utilizados
por Laplace y Gauss en sus tra-
bajos de astronomía y física de-
sarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresión tiene su origen en los
trabajos de Galton en biología
de finales del siglo XIX. La expre-
sión de Galton:
“regression towards mediocrity”
dio nombre a la regresión.
Ejemplo de relación
funcional
Podemos conocer el área de
un cuadrado a partir de la lon-
gitud de su lado.
© FUOC • P03/75057/01013 5 Regresión lineal simple
El modelo de regresión simple
1. Introducción
Después de estudiar cómo hay que organizar, representar gráficamente y analizar
un conjunto de datos a partir de algunos parámetros, nos proponemos estu-
diar las relaciones entre variables.
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas
de un conjunto de personas por separado. Ahora el objetivo es determinar si
existe alguna relación entre estas variables.
Queremos construir modelos que describan la relación entre las variables con
el propósito, principalmente, de predecir los valores de una variable a partir de
los valores de la otra. Lo haremos con el modelo de regresión lineal simple.
2. Relaciones entre dos variables
El modelo de regresión lineal simple nos permite construir un modelo para ex-
plicar la relación entre dos variables.
Ejemplo de relación entre dos variables
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton-
ces podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable
explicada. Como veremos más adelante, dependerá en gran medida de las ca-
racterísticas de los datos que tengamos.
Las relaciones entre dos variables pueden ser de dos tipos:
1) Funcionales (o deterministas): cuando hay una fórmula matemática que
permite calcular los valores de una de las variables a partir de los valores que
toma la otra.
El objetivo es explicar el comportamiento de una variable Y, que deno-
minaremos variable explicada (o dependiente o endógena), a partir de
otra variable X, que llamaremos variable explicativa (o independiente
o exógena).
Origen de los modelos
de regresión
Estos modelos fueron utilizados
por Laplace y Gauss en sus tra-
bajos de astronomía y física de-
sarrollados durante el siglo XVIII,
pero el nombre de modelos de
regresión tiene su origen en los
trabajos de Galton en biología
de finales del siglo XIX. La expre-
sión de Galton:
“regression towards mediocrity”
dio nombre a la regresión.
Ejemplo de relación
funcional
Podemos conocer el área de
un cuadrado a partir de la lon-
gitud de su lado.
© FUOC • P03/75057/01013 6 Regresión lineal simple
2) Estadísticas (o estocásticas): cuando no existe una expresión matemática
que las relacione de forma exacta.
En la relación entre el peso y la altura es evidente que existen muchos factores,
como pueden ser factores genéticos, la actividad física, la alimentación, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relación entre es-
tas dos variables sea estadística y no funcional.
3. Diagramas de dispersión y curvas de regresión
A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra
de individuos, el primer paso en un análisis de regresión es representar estos datos
sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis-
persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la
relación entre las dos variables.
Ejemplo de diagramas de dispersión
El diagrama de dispersión puede presentar formas diversas:
El diagrama de dispersión se obtiene representando cada observación
(x
i
, y
i
) como un punto en el plano cartesiano XY.
Ejemplo de relación
estadística
Sabemos que hay una relación
entre la altura y el peso de las
personas: en general, cuanta
más altura, más peso. Pero
no existe ninguna fórmula
matemática que nos dé una en
función de la otra, ya que esto
significaría que todas las perso-
nas que tienen la misma altura
tendrían el mismo peso, y eso
sabemos que no es cierto.
Terminología
El diagrama de dispersión tam-
bién se conoce como nube
de puntos.
© FUOC • P03/75057/01013 6 Regresión lineal simple
2) Estadísticas (o estocásticas): cuando no existe una expresión matemática
que las relacione de forma exacta.
En la relación entre el peso y la altura es evidente que existen muchos factores,
como pueden ser factores genéticos, la actividad física, la alimentación, etc.
que hacen que una persona de una determinada altura tenga un peso u otro.
Todos estos factores y otros que no conocemos hacen que la relación entre es-
tas dos variables sea estadística y no funcional.
3. Diagramas de dispersión y curvas de regresión
A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra
de individuos, el primer paso en un análisis de regresión es representar estos datos
sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis-
persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la
relación entre las dos variables.
Ejemplo de diagramas de dispersión
El diagrama de dispersión puede presentar formas diversas:
El diagrama de dispersión se obtiene representando cada observación
(x
i
, y
i
) como un punto en el plano cartesiano XY.
Ejemplo de relación
estadística
Sabemos que hay una relación
entre la altura y el peso de las
personas: en general, cuanta
más altura, más peso. Pero
no existe ninguna fórmula
matemática que nos dé una en
función de la otra, ya que esto
significaría que todas las perso-
nas que tienen la misma altura
tendrían el mismo peso, y eso
sabemos que no es cierto.
Terminología
El diagrama de dispersión tam-
bién se conoce como nube
de puntos.
© FUOC • P03/75057/01013 7 Regresión lineal simple
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma-
nera que tenemos una relación funcional entre las dos variables dada por la ecuación
de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se si-
túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun-
tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab-
solutamente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega-
tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el
individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:
El diagrama de dispersión también nos puede ayudar a encontrar algún valor
atípico entre los datos de la muestra que pueda tener su origen en una mala
observación o en el hecho de ser una observación correspondiente a un indi-
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de-
bemos controlar las influencias que pueda tener en el análisis.
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
Definición y ejemplo
de valor atípico
Por valor atípico entendemos
un valor muy diferente de los
otros y que muy posiblemente
es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
© FUOC • P03/75057/01013 7 Regresión lineal simple
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma-
nera que tenemos una relación funcional entre las dos variables dada por la ecuación
de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se si-
túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun-
tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab-
solutamente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega-
tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el
individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:
El diagrama de dispersión también nos puede ayudar a encontrar algún valor
atípico entre los datos de la muestra que pueda tener su origen en una mala
observación o en el hecho de ser una observación correspondiente a un indi-
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de-
bemos controlar las influencias que pueda tener en el análisis.
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
Definición y ejemplo
de valor atípico
Por valor atípico entendemos
un valor muy diferente de los
otros y que muy posiblemente
es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
© FUOC • P03/75057/01013 8 Regresión lineal simple
4. Recta de regresión
4.1. Estimación de los parámetros: método de los mínimos
cuadrados
Una recta queda bien determinada si el valor de su pendiente (b) y de su or-
denada en el origen (a) son conocidos. De esta manera la ecuación de la recta
viene dada por:
y = a + bx
A partir de la fórmula anterior definimos para cada observación (x
i
, y
i
) el error
o residuo como la distancia vertical entre el punto (x
i
, y
i
) y la recta, es decir:
y
i
– (a + bx
i
)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Para determinar una recta de regresión, utilizaremos el método de los mínimos
cuadrados.
Una vez que hemos hecho el diagrama de dispersión y después de obser-
var una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión.
El método de los mínimos cuadrados consiste en buscar los valores de los
parámetros a y b de manera que la suma de los cuadrados de los residuos
sea mínima. Esta recta es la recta de regresión por mínimos cuadrados.
© FUOC • P03/75057/01013 8 Regresión lineal simple
4. Recta de regresión
4.1. Estimación de los parámetros: método de los mínimos
cuadrados
Una recta queda bien determinada si el valor de su pendiente (b) y de su or-
denada en el origen (a) son conocidos. De esta manera la ecuación de la recta
viene dada por:
y = a + bx
A partir de la fórmula anterior definimos para cada observación (x
i
, y
i
) el error
o residuo como la distancia vertical entre el punto (x
i
, y
i
) y la recta, es decir:
y
i
– (a + bx
i
)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Para determinar una recta de regresión, utilizaremos el método de los mínimos
cuadrados.
Una vez que hemos hecho el diagrama de dispersión y después de obser-
var una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión.
El método de los mínimos cuadrados consiste en buscar los valores de los
parámetros a y b de manera que la suma de los cuadrados de los residuos
sea mínima. Esta recta es la recta de regresión por mínimos cuadrados.
© FUOC • P03/75057/01013 9 Regresión lineal simple
Siendo la suma de los cuadrados la expresión:
para encontrar los valores de a y b, sólo hay que determinar las derivadas par-
ciales con respecto a los parámetros a y b:
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono-
cido como sistema de ecuaciones normales:
Las soluciones de este sistema de ecuaciones son:
y
en las que:
• es la covarianza muestral de las observaciones (x
i
, y
i
).
• es la varianza muestral de las observaciones x
i
.
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresión la escribiremos de la manera siguiente:
Terminología
La suma de los cuadrados de
los residuos también se deno-
mina suma de los errores cua-
dráticos.
y
i
a – bx
i
– ( )
2
i 1 =
n

a ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )
i 1 =
n

– =
b ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )x
i
i 1 =
n

– =
La resolución de este sistema de
ecuaciones se encuentra en el anexo
1 de esta sesión.
y
i
a – bx
i
– ( )
i 1 =
n

0 =
y
i
a – bx
i
– ( )x
i
0 =
i 1 =
n

¹
¹
¹
¹
'
¹
¹
¹
¹
b
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= = a y bx – =
En rigor...
... habría que probar que, efec-
tivamente, estos valores de los
parámetros hacen mínima la
suma de los cuadrados de los
residuos.
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
= Notación
Hemos hecho un cambio en
la notación para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresión por mí-
nimos cuadrados:
obtenida al determinar a y b.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
y
ˆ
β
ˆ
0 β
ˆ
1x + =
© FUOC • P03/75057/01013 9 Regresión lineal simple
Siendo la suma de los cuadrados la expresión:
para encontrar los valores de a y b, sólo hay que determinar las derivadas par-
ciales con respecto a los parámetros a y b:
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono-
cido como sistema de ecuaciones normales:
Las soluciones de este sistema de ecuaciones son:
y
en las que:
• es la covarianza muestral de las observaciones (x
i
, y
i
).
• es la varianza muestral de las observaciones x
i
.
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta de regresión la escribiremos de la manera siguiente:
Terminología
La suma de los cuadrados de
los residuos también se deno-
mina suma de los errores cua-
dráticos.
y
i
a – bx
i
– ( )
2
i 1 =
n

a ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )
i 1 =
n

– =
b ∂

y
i
a – bx
i
– ( )
2
i 1 =
n

. ,
| `
2 y
i
a – bx
i
– ( )x
i
i 1 =
n

– =
La resolución de este sistema de
ecuaciones se encuentra en el anexo
1 de esta sesión.
y
i
a – bx
i
– ( )
i 1 =
n

0 =
y
i
a – bx
i
– ( )x
i
0 =
i 1 =
n

¹
¹
¹
¹
'
¹
¹
¹
¹
b
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= = a y bx – =
En rigor...
... habría que probar que, efec-
tivamente, estos valores de los
parámetros hacen mínima la
suma de los cuadrados de los
residuos.
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
= Notación
Hemos hecho un cambio en
la notación para distinguir de
manera clara entre una recta
cualquiera:
y = a + bx
y la recta de regresión por mí-
nimos cuadrados:
obtenida al determinar a y b.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
y
ˆ
β
ˆ
0 β
ˆ
1x + =
© FUOC • P03/75057/01013 10 Regresión lineal simple
donde los parámetros de la recta y vienen dados por:
y
De ahora en adelante, a los residuos calculados con la recta de regresión los
llamaremos e
i
, es decir:
donde es el valor estimado para la recta de regresión.
5. Interpretación de los parámetros de la recta de regresión
Una vez determinada la recta de regresión, es muy importante interpretar los
parámetros de la ecuación en el contexto del fenómeno que se estudia.
• Interpretación de la ordenada en el origen, :
Este parámetro representa la estimación del valor de Y cuando X es igual a cero:
.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que:
1. realmente sea posible que X tome el valor x · 0;
2. se tengan suficientes observaciones cercanas al valor x · 0.
• Interpretación de la pendiente de la recta,
Este parámetro representa la estimación del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de
cómo están relacionadas las dos variables en el sentido de que nos indica en
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían
los valores de la X en una unidad.
6. Construcción de la tabla para determinar los parámetros
Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Ejemplo de las alturas y los pesos
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral s
xy
, la varianza
muestral y las medias y .
β
ˆ
0 β
ˆ
1
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
=
e
i
y
i
y
ˆ
i
– =
y
ˆ
i
β
ˆ
0
en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la orde-
nada en el origen no tendrá
sentido, ya que corresponde-
ría al peso que tendrían las
personas de altura nula.
β
ˆ
0
y
ˆ
β
ˆ
0 β
ˆ
10 + β
ˆ
0 = =
β
ˆ
1
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersión habíamos obser-
vado que, en general, aumenta
el peso de las personas a medi-
da que aumenta su altura.
s
x
2
x y
© FUOC • P03/75057/01013 10 Regresión lineal simple
donde los parámetros de la recta y vienen dados por:
y
De ahora en adelante, a los residuos calculados con la recta de regresión los
llamaremos e
i
, es decir:
donde es el valor estimado para la recta de regresión.
5. Interpretación de los parámetros de la recta de regresión
Una vez determinada la recta de regresión, es muy importante interpretar los
parámetros de la ecuación en el contexto del fenómeno que se estudia.
• Interpretación de la ordenada en el origen, :
Este parámetro representa la estimación del valor de Y cuando X es igual a cero:
.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que:
1. realmente sea posible que X tome el valor x · 0;
2. se tengan suficientes observaciones cercanas al valor x · 0.
• Interpretación de la pendiente de la recta,
Este parámetro representa la estimación del incremento que experimenta la
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de
cómo están relacionadas las dos variables en el sentido de que nos indica en
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían
los valores de la X en una unidad.
6. Construcción de la tabla para determinar los parámetros
Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Ejemplo de las alturas y los pesos
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral s
xy
, la varianza
muestral y las medias y .
β
ˆ
0 β
ˆ
1
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
=
e
i
y
i
y
ˆ
i
– =
y
ˆ
i
β
ˆ
0
en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos y
las alturas, el valor de la orde-
nada en el origen no tendrá
sentido, ya que corresponde-
ría al peso que tendrían las
personas de altura nula.
β
ˆ
0
y
ˆ
β
ˆ
0 β
ˆ
10 + β
ˆ
0 = =
β
ˆ
1
Pendiente en el ejemplo
de los pesos y las alturas
En el ejemplo de los pesos
y las alturas, en el diagrama
de dispersión habíamos obser-
vado que, en general, aumenta
el peso de las personas a medi-
da que aumenta su altura.
s
x
2
x y
© FUOC • P03/75057/01013 11 Regresión lineal simple
Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re-
gresión.
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
Los parámetros son:
Tenemos la recta de regresión siguiente:
Podemos representar la recta de regresión en el diagrama de dispersión:
Interpretamos los parámetros obtenidos:
• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per-
sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretación de este parámetro.
i x
i
y
i

1 161 63 0,4 –1,1 0,16 –0,44
2 152 56 9,4 5,9 88,36 55,46
3 167 77 –5,6 –15,1 31,36 84,56
4 153 49 8,4 12,9 70,56 108,36
5 161 72 0,4 –10,1 0,16 –4,04
6 168 62 –6,6 –0,1 43,56 0,66
7 167 68 –5,6 –6,1 31,36 34,16
8 153 48 8,4 13,9 70,56 116,76
9 159 57 2,4 4,9 5,76 11,76
10 173 67 –11,6 –5,1 134,56 59,16
Σ 1614 619 476,40 466,40
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

161,4 = = y
1
n
--- y
i
i 1 =
n

61,9 = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
-------------------
52,933 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
β
ˆ
1
s
xy
s
x
2
-------
51,822
52,933
------------------- 0,979009 = = =
β
ˆ
0
y β
ˆ
1
x – 61,9 0,979009 161,4 96,1121 – = ⋅ – = =
y
ˆ
96,1121 – 0,979009x + =
© FUOC • P03/75057/01013 11 Regresión lineal simple
Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re-
gresión.
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
Los parámetros son:
Tenemos la recta de regresión siguiente:
Podemos representar la recta de regresión en el diagrama de dispersión:
Interpretamos los parámetros obtenidos:
• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per-
sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretación de este parámetro.
i x
i
y
i

1 161 63 0,4 –1,1 0,16 –0,44
2 152 56 9,4 5,9 88,36 55,46
3 167 77 –5,6 –15,1 31,36 84,56
4 153 49 8,4 12,9 70,56 108,36
5 161 72 0,4 –10,1 0,16 –4,04
6 168 62 –6,6 –0,1 43,56 0,66
7 167 68 –5,6 –6,1 31,36 34,16
8 153 48 8,4 13,9 70,56 116,76
9 159 57 2,4 4,9 5,76 11,76
10 173 67 –11,6 –5,1 134,56 59,16
Σ 1614 619 476,40 466,40
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

161,4 = = y
1
n
--- y
i
i 1 =
n

61,9 = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
-------------------
52,933 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
β
ˆ
1
s
xy
s
x
2
-------
51,822
52,933
------------------- 0,979009 = = =
β
ˆ
0
y β
ˆ
1
x – 61,9 0,979009 161,4 96,1121 – = ⋅ – = =
y
ˆ
96,1121 – 0,979009x + =
© FUOC • P03/75057/01013 12 Regresión lineal simple
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
7. Interpolación y extrapolación
Uno de los objetivos más importantes de la regresión es la aplicación del mo-
delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra.
Ejemplo de las alturas y los pesos
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es
el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que
presentará la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:
1) Hemos determinado el modelo con la información contenida en la mues-
tra, de manera que no hemos tenido ninguna información del comportamien-
to de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. An-
tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta-
mos haciendo.
y
ˆ
96,1121 – 0,979009x + =
y
ˆ
96,1121 – 0,979009 160 ⋅ + 60,53 = =
Extrapolación fuera
de rango
Si queremos saber el peso de
un bebé que sólo mide cuaren-
ta centímetros, no podremos
utilizar la recta de regresión
obtenida. Las características
biológicas del bebé, muy dife-
rentes de las que presentan las
personas adultas, harán que la
relación entre el peso y la altu-
ra sea diferente. Deberíamos
efectuar un análisis de regre-
sión a partir de una muestra
de bebés.
Sentido
de la extrapolación
No tiene ningún sentido utili-
zar el modelo de regresión
para calcular el peso de perso-
nas de diez centímetros o tres
metros de altura. El modelo
nos dará un resultado numéri-
co que, en todo caso, hay que
interpretar.
© FUOC • P03/75057/01013 12 Regresión lineal simple
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
7. Interpolación y extrapolación
Uno de los objetivos más importantes de la regresión es la aplicación del mo-
delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra.
Ejemplo de las alturas y los pesos
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es
el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que
presentará la variable Y para un determinado valor de X que se encuentre fuera
del intervalo de valores que toma la muestra. Entonces tenemos que ir con
mucho cuidado:
1) Hemos determinado el modelo con la información contenida en la mues-
tra, de manera que no hemos tenido ninguna información del comportamien-
to de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. An-
tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta-
mos haciendo.
y
ˆ
96,1121 – 0,979009x + =
y
ˆ
96,1121 – 0,979009 160 ⋅ + 60,53 = =
Extrapolación fuera
de rango
Si queremos saber el peso de
un bebé que sólo mide cuaren-
ta centímetros, no podremos
utilizar la recta de regresión
obtenida. Las características
biológicas del bebé, muy dife-
rentes de las que presentan las
personas adultas, harán que la
relación entre el peso y la altu-
ra sea diferente. Deberíamos
efectuar un análisis de regre-
sión a partir de una muestra
de bebés.
Sentido
de la extrapolación
No tiene ningún sentido utili-
zar el modelo de regresión
para calcular el peso de perso-
nas de diez centímetros o tres
metros de altura. El modelo
nos dará un resultado numéri-
co que, en todo caso, hay que
interpretar.
© FUOC • P03/75057/01013 13 Regresión lineal simple
8. Modelos de regresión no lineales
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des-
taca el exponencial.
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso exponen-
cial es un poco más difícil.
Para tratarlo, linealizamos el problema, es decir, transformamos las variables
de manera que el problema se convierta en lineal. Si en la ecuación y = ka
x
to-
mamos logaritmos ln y = ln(ka
x
), obtenemos, por aplicación de las propieda-
des de los logaritmos:
ln y = ln k + x ln a
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y.
Así, si representamos el diagrama de dispersión de los puntos (x
i
, ln y
i
) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
bles X e Y hay una relación exponencial.
Ejemplo de la propagación de un virus informático
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
El modelo exponencial es del tipo:
y = ka
x
con a > 0, k > 0
donde k y a son valores constantes.
Número de
días
x
i
Número de ordenadores
infectados
y
i
Transformación de Y
ln y
i
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuación:
y · a + bx
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
y · ka
x
con a > 0 y k > 0
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la población, el número
de ordenadores infectados por
un virus en los primeros días de
contaminación, los precios de
algunos productos, etc., son
exponenciales.
Propiedades
de los logaritmos
ln ab = ln a + ln b
ln a
x
= x ln a
© FUOC • P03/75057/01013 13 Regresión lineal simple
8. Modelos de regresión no lineales
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des-
taca el exponencial.
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso exponen-
cial es un poco más difícil.
Para tratarlo, linealizamos el problema, es decir, transformamos las variables
de manera que el problema se convierta en lineal. Si en la ecuación y = ka
x
to-
mamos logaritmos ln y = ln(ka
x
), obtenemos, por aplicación de las propieda-
des de los logaritmos:
ln y = ln k + x ln a
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y.
Así, si representamos el diagrama de dispersión de los puntos (x
i
, ln y
i
) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia-
bles X e Y hay una relación exponencial.
Ejemplo de la propagación de un virus informático
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
El modelo exponencial es del tipo:
y = ka
x
con a > 0, k > 0
donde k y a son valores constantes.
Número de
días
x
i
Número de ordenadores
infectados
y
i
Transformación de Y
ln y
i
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
Curva en un modelo
exponencial
En el modelo lineal hemos
ajustado la nube de puntos
a una recta de ecuación:
y · a + bx
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
y · ka
x
con a > 0 y k > 0
Ejemplos de relaciones
exponenciales
Las relaciones entre la variable
tiempo (X) y otras variables (Y)
como la población, el número
de ordenadores infectados por
un virus en los primeros días de
contaminación, los precios de
algunos productos, etc., son
exponenciales.
Propiedades
de los logaritmos
ln ab = ln a + ln b
ln a
x
= x ln a
© FUOC • P03/75057/01013 14 Regresión lineal simple
El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de
algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial.
Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis-
persión correspondiente.
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Si calculamos la recta de regresión de ln y sobre x:
Obtenemos: , es decir,
De manera que, si queremos estimar el número de ordenadores infectados al cabo de
doce días, haremos lo siguiente:
Para x · 12:
Y tomando exponenciales, podemos aislar :
· exp(11,624) · 111.747,8195
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de
111.748 unidades.
9. Resumen
En esta primera sesión hemos introducido los conceptos de relaciones funcio-
nales y estadísticas, así como el de variables dependientes (o explicadas) y el de
variables independientes (o explicativas). A continuación se ha comentado la
construcción de un diagrama de dispersión como paso inicial a la hora de bus-
y
ˆ
ln β
ˆ
0 β
ˆ
1x + =
y
ˆ
ln 5,84 0,482x + = y
ˆ
e
5,84 0,482x +
=
y
ˆ
ln 5,84 0,482 + 12 ⋅ 11,624 = =
y
ˆ
y
ˆ
© FUOC • P03/75057/01013 14 Regresión lineal simple
El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de
algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial.
Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis-
persión correspondiente.
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Si calculamos la recta de regresión de ln y sobre x:
Obtenemos: , es decir,
De manera que, si queremos estimar el número de ordenadores infectados al cabo de
doce días, haremos lo siguiente:
Para x · 12:
Y tomando exponenciales, podemos aislar :
· exp(11,624) · 111.747,8195
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de
111.748 unidades.
9. Resumen
En esta primera sesión hemos introducido los conceptos de relaciones funcio-
nales y estadísticas, así como el de variables dependientes (o explicadas) y el de
variables independientes (o explicativas). A continuación se ha comentado la
construcción de un diagrama de dispersión como paso inicial a la hora de bus-
y
ˆ
ln β
ˆ
0 β
ˆ
1x + =
y
ˆ
ln 5,84 0,482x + = y
ˆ
e
5,84 0,482x +
=
y
ˆ
ln 5,84 0,482 + 12 ⋅ 11,624 = =
y
ˆ
y
ˆ
© FUOC • P03/75057/01013 15 Regresión lineal simple
car algún tipo de relación entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues-
tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados.
Hemos puesto de manifesto la importancia de interpretar correctamente los pa-
rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re-
gresión para hacer interpolaciones. Finalmente, hemos comentado una relación
no lineal tan importante como la relación exponencial y la manera en que po-
demos transformarla en una lineal.
© FUOC • P03/75057/01013 15 Regresión lineal simple
car algún tipo de relación entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues-
tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados.
Hemos puesto de manifesto la importancia de interpretar correctamente los pa-
rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re-
gresión para hacer interpolaciones. Finalmente, hemos comentado una relación
no lineal tan importante como la relación exponencial y la manera en que po-
demos transformarla en una lineal.
© FUOC • P03/75057/01013 16 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer
que existe una relación lineal entre el número de semanas y la ganancia de ve-
locidad?
b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.
c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie-
te semanas que va a clase?
2.
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
labor de los técnicos de los grandes centros comerciales es muy importante a la
hora de presentar este producto al cliente. Con el objetivo de saber si el “número
de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden-
cia en el “número de aparatos vendidos durante una semana” (Y), se observaron
quince centros comerciales con los resultados que se muestran a continuación:
; ; ;
a) Buscad la recta de regresión.
b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un
centro con diecisiete comerciales?
Número de semanas Ganancia de velocidad (p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
x
i
i 1 =
15

215 = x
i
2
i 1 =
15

3.567 = y
i
i 1 =
15

1.700 = x
i
y
i
i 1 =
15

28.300 =
© FUOC • P03/75057/01013 16 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer
que existe una relación lineal entre el número de semanas y la ganancia de ve-
locidad?
b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.
c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie-
te semanas que va a clase?
2.
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro
que los anteriores, pero con unas prestaciones muy superiores, de manera que la
labor de los técnicos de los grandes centros comerciales es muy importante a la
hora de presentar este producto al cliente. Con el objetivo de saber si el “número
de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden-
cia en el “número de aparatos vendidos durante una semana” (Y), se observaron
quince centros comerciales con los resultados que se muestran a continuación:
; ; ;
a) Buscad la recta de regresión.
b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un
centro con diecisiete comerciales?
Número de semanas Ganancia de velocidad (p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
x
i
i 1 =
15

215 = x
i
2
i 1 =
15

3.567 = y
i
i 1 =
15

1.700 = x
i
y
i
i 1 =
15

28.300 =
© FUOC • P03/75057/01013 17 Regresión lineal simple
Solucionario
1.
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
gresión. A partir de la tabla de cálculos siguiente:
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
i x
i
y
i

1 3 87 2 41,25 4 82,5
2 5 119 0 9,25 0 0
3 2 47 3 81,25 9 243,75
4 8 195 –3 –66,75 9 200,25
5 6 162 –1 –33,75 1 33,75
6 9 234 –4 –105,75 16 423
7 3 72 2 56,25 4 112,5
8 4 110 1 18,25 1 18,25
Σ 40 1.026 44,00 1.114,00
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

40
8
------
5,0 = = =
y
1
n
--- y
i
i 1 =
n

1.206
8
---------------
128,250 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
44,00
7
---------------
6,286 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
1.114,00
7
------------------------
159,143 = = =
© FUOC • P03/75057/01013 17 Regresión lineal simple
Solucionario
1.
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
gresión. A partir de la tabla de cálculos siguiente:
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
i x
i
y
i

1 3 87 2 41,25 4 82,5
2 5 119 0 9,25 0 0
3 2 47 3 81,25 9 243,75
4 8 195 –3 –66,75 9 200,25
5 6 162 –1 –33,75 1 33,75
6 9 234 –4 –105,75 16 423
7 3 72 2 56,25 4 112,5
8 4 110 1 18,25 1 18,25
Σ 40 1.026 44,00 1.114,00
x x
i
– y y
i
– x x
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
x
1
n
--- x
i
i 1 =
n

40
8
------
5,0 = = =
y
1
n
--- y
i
i 1 =
n

1.206
8
---------------
128,250 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
44,00
7
---------------
6,286 = = =
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
1.114,00
7
------------------------
159,143 = = =
© FUOC • P03/75057/01013 18 Regresión lineal simple
Ya podemos calcular los coeficientes de la recta de regresión:
y
La recta de regresión obtenida es:
En este caso la ordenada en el origen no tiene ninguna interpretación con sen-
tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla-
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una
información útil: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x · 7:
Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.
2.
a) Para encontrar la recta de regresión, antes tenemos que encontrar las me-
dias y covarianzas muestrales de las variables X e Y, así como la varianza mues-
tral de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
β
ˆ
1
s
xy
s
x
2
------
159,143
6,286
----------------------
25,318 = = =
β
ˆ
0 y β
ˆ
1x – 128,250 25,318 5 ⋅ – 1,659 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 1,659 25,318x + = =
y
ˆ
1,659 25,318 7 ⋅ + 178,885 = =
x
1
n
--- x
i
i 1 =
n

215
15
----------
14,333 = = =
y
1
n
--- y
i
i 1 =
n

1.700
15
---------------
113,333 = = =
© FUOC • P03/75057/01013 18 Regresión lineal simple
Ya podemos calcular los coeficientes de la recta de regresión:
y
La recta de regresión obtenida es:
En este caso la ordenada en el origen no tiene ninguna interpretación con sen-
tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla-
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una
información útil: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x · 7:
Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.
2.
a) Para encontrar la recta de regresión, antes tenemos que encontrar las me-
dias y covarianzas muestrales de las variables X e Y, así como la varianza mues-
tral de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
β
ˆ
1
s
xy
s
x
2
------
159,143
6,286
----------------------
25,318 = = =
β
ˆ
0 y β
ˆ
1x – 128,250 25,318 5 ⋅ – 1,659 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 1,659 25,318x + = =
y
ˆ
1,659 25,318 7 ⋅ + 178,885 = =
x
1
n
--- x
i
i 1 =
n

215
15
----------
14,333 = = =
y
1
n
--- y
i
i 1 =
n

1.700
15
---------------
113,333 = = =
© FUOC • P03/75057/01013 19 Regresión lineal simple
• Varianza muestral:
Para calcular la varianza muestral a partir de los datos del enunciado, utiliza-
remos la expresión equivalente:
De manera que:
• Covarianza muestral:
También ahora utilizaremos una nueva expresión para calcular la covarianza
muestral:
De manera que:
Los parámetros de la recta de regresión son:
La recta de regresión obtenida es:
b) Para un centro con diecisiete comerciales, podemos estimar las ventas de
aparatos de DVD mediante la recta de regresión obtenida:
Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-
madamente unos 135 aparatos.
La deducción de esta fórmula
se muestra en el anexo 2
de esta sesión.
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
=
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
3.567 15 14,333
2
⋅ –
14
------------------------------------------------------
34,667 = = =
La deducción de esta fórmula
se muestra en el anexo 3 de esta
sesión.
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
28.300 15 14,333 113,333 ⋅ ⋅ –
14
----------------------------------------------------------------------------------
280,952 = = =
β
ˆ
1
s
xy
s
x
2
------
280,952
34,667
----------------------
8,104 = = =
β
ˆ
0 y β
ˆ
1x – 113,333 8,104 14,333 ⋅ – 2 – ,829 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104x + = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104 17 ⋅ + 134,939 = = =
© FUOC • P03/75057/01013 19 Regresión lineal simple
• Varianza muestral:
Para calcular la varianza muestral a partir de los datos del enunciado, utiliza-
remos la expresión equivalente:
De manera que:
• Covarianza muestral:
También ahora utilizaremos una nueva expresión para calcular la covarianza
muestral:
De manera que:
Los parámetros de la recta de regresión son:
La recta de regresión obtenida es:
b) Para un centro con diecisiete comerciales, podemos estimar las ventas de
aparatos de DVD mediante la recta de regresión obtenida:
Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-
madamente unos 135 aparatos.
La deducción de esta fórmula
se muestra en el anexo 2
de esta sesión.
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
=
s
x
2
x
i
2
i 1 =
n

. ,
| `
nx
2

n 1 –
------------------------------------
3.567 15 14,333
2
⋅ –
14
------------------------------------------------------
34,667 = = =
La deducción de esta fórmula
se muestra en el anexo 3 de esta
sesión.
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
28.300 15 14,333 113,333 ⋅ ⋅ –
14
----------------------------------------------------------------------------------
280,952 = = =
β
ˆ
1
s
xy
s
x
2
------
280,952
34,667
----------------------
8,104 = = =
β
ˆ
0 y β
ˆ
1x – 113,333 8,104 14,333 ⋅ – 2 – ,829 = = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104x + = =
y
ˆ
β
ˆ
0 β
ˆ
1x + 2 – ,829 8,104 17 ⋅ + 134,939 = = =
© FUOC • P03/75057/01013 20 Regresión lineal simple
Anexos
Anexo 1
Resolución del sistema de ecuaciones normales:
A partir de la primera ecuación del sistema:
Dividiendo por n: y aislando la :
De la segunda ecuación del sistema:
, pero tenemos en cuenta que:
entonces
Aislando :
podemos dar una expresión equivalente a partir de la definición de varianza
muestral:
y
i
β
0
β
1
x
i
– – ( ) 0 =
i 1 =
n

y
i
β
0
β
1
x
i
– – ( )x
i
0 =
i 1 =
n

¹
¹
¹
'
¹
¹
¹
y
i
β
0
– β
1
x
i

i 1 =
n

y
i
i 1 =
n

β
0
i 1 =
n

– β
1
x
i
i 1 =
n

– ny nβ
0
– nβ
1
x – 0 = = =
y β
0
= β
1
x + β
0
β
0
y = β
1
x –
y
i
β
0
– β
1
x
i
– ( )x
i
i 1 =
n

x
i
y
i
i 1 =
n

β
0
x
i
i 1 =
n

– β
1
x
i
2
i 1 =
n

– x
i
y
i
i 1 =
n


0
x – β
1
x
i
2
i 1 =
n

– 0 = = =
x
i
y
i
i 1 =
n


0
x β
1
x
i
2
i 1 =
n

+ = β
0
y = β
1
x –
x
i
y
i
i 1 =
n

n y β –
1
x ( )x β
1
x
i
2
i 1 =
n

+ nxy β
1
– nx
2
β
1
x
i
2
i 1 =
n

+ = =
β
1
β
1
x
i
y
i
i 1 =
n

nxy –
x
i
2
i 1 =
n

nx
2

---------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
s
x
2
n 1 – ( ) x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
2nx
2
nx
2
+ –
i 1 =
n

x
i
2
nx
2

i 1 =
n

= = = =
© FUOC • P03/75057/01013 20 Regresión lineal simple
Anexos
Anexo 1
Resolución del sistema de ecuaciones normales:
A partir de la primera ecuación del sistema:
Dividiendo por n: y aislando la :
De la segunda ecuación del sistema:
, pero tenemos en cuenta que:
entonces
Aislando :
podemos dar una expresión equivalente a partir de la definición de varianza
muestral:
y
i
β
0
β
1
x
i
– – ( ) 0 =
i 1 =
n

y
i
β
0
β
1
x
i
– – ( )x
i
0 =
i 1 =
n

¹
¹
¹
'
¹
¹
¹
y
i
β
0
– β
1
x
i

i 1 =
n

y
i
i 1 =
n

β
0
i 1 =
n

– β
1
x
i
i 1 =
n

– ny nβ
0
– nβ
1
x – 0 = = =
y β
0
= β
1
x + β
0
β
0
y = β
1
x –
y
i
β
0
– β
1
x
i
– ( )x
i
i 1 =
n

x
i
y
i
i 1 =
n

β
0
x
i
i 1 =
n

– β
1
x
i
2
i 1 =
n

– x
i
y
i
i 1 =
n


0
x – β
1
x
i
2
i 1 =
n

– 0 = = =
x
i
y
i
i 1 =
n


0
x β
1
x
i
2
i 1 =
n

+ = β
0
y = β
1
x –
x
i
y
i
i 1 =
n

n y β –
1
x ( )x β
1
x
i
2
i 1 =
n

+ nxy β
1
– nx
2
β
1
x
i
2
i 1 =
n

+ = =
β
1
β
1
x
i
y
i
i 1 =
n

nxy –
x
i
2
i 1 =
n

nx
2

---------------------------------
=
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
s
x
2
n 1 – ( ) x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
2nx
2
nx
2
+ –
i 1 =
n

x
i
2
nx
2

i 1 =
n

= = = =
© FUOC • P03/75057/01013 21 Regresión lineal simple
y de la definición de covarianza muestral:
Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-
tros de la recta de regresión de la manera siguiente:
i
Anexo 2
Varianza muestral:
Podemos deducir a partir de la fórmula de su definición:
una expresión equivalente desarrollando el cuadrado del numerador:
De manera que:
Anexo 3
Covarianza muestral:
A partir de la definición de la covarianza:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
xy
n 1 – ( ) x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
i 1 =
n

x y
i
i 1 =
n

– y x
i
i 1 =
n

nxy + – = = =
x
i
y
i
i 1 =
n

nxy – nyx nxy + – x
i
y
i
i 1 =
n

nxy – = =
β
ˆ
1
s
xy
s
x
2
------
= β
0
y = β
1
x –
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
i 1 =
n

2xx
i
x ( )
2
i 1 =
n

+
i 1 =
n

– = = =
x
i
2
i 1 =
n

= 2x x
i
n x ( )
2
+
i 1 =
n

– x
i
2
i 1 =
n

2xnx n x ( )
2
+ – x
i
2
i 1 =
n

. ,
| `
n x ( )
2
– = =
s
x
2
x
i
2
i 1 =
n

. ,
| `
n x ( )
2

n 1 –
---------------------------------------
=
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
© FUOC • P03/75057/01013 21 Regresión lineal simple
y de la definición de covarianza muestral:
Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-
tros de la recta de regresión de la manera siguiente:
i
Anexo 2
Varianza muestral:
Podemos deducir a partir de la fórmula de su definición:
una expresión equivalente desarrollando el cuadrado del numerador:
De manera que:
Anexo 3
Covarianza muestral:
A partir de la definición de la covarianza:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
s
xy
n 1 – ( ) x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
i 1 =
n

x y
i
i 1 =
n

– y x
i
i 1 =
n

nxy + – = = =
x
i
y
i
i 1 =
n

nxy – nyx nxy + – x
i
y
i
i 1 =
n

nxy – = =
β
ˆ
1
s
xy
s
x
2
------
= β
0
y = β
1
x –
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
=
x
i
x – ( )
2
i 1 =
n

x
i
2
2x
i
x x
2
+ – ( )
i 1 =
n

x
i
2
i 1 =
n

2xx
i
x ( )
2
i 1 =
n

+
i 1 =
n

– = = =
x
i
2
i 1 =
n

= 2x x
i
n x ( )
2
+
i 1 =
n

– x
i
2
i 1 =
n

2xnx n x ( )
2
+ – x
i
2
i 1 =
n

. ,
| `
n x ( )
2
– = =
s
x
2
x
i
2
i 1 =
n

. ,
| `
n x ( )
2

n 1 –
---------------------------------------
=
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
© FUOC • P03/75057/01013 22 Regresión lineal simple
si desarrollamos el producto del sumatorio del numerador:
De manera que:
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
(
i 1 =
n

x
i
y – xy
i
xy) + – x
i
y
i
i 1 =
n

x
i
y
i 1 =
n

– xy
i
i 1 =
n

xy
i 1 =
n

+ – = =
x
i
y
i
i 1 =
n

y x
i
i 1 =
n

– x y
i
i 1 =
n

xyn + – x
i
y
i
i 1 =
n

. ,
| `
nxy – = =
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
·
© FUOC • P03/75057/01013 22 Regresión lineal simple
si desarrollamos el producto del sumatorio del numerador:
De manera que:
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
y
i
(
i 1 =
n

x
i
y – xy
i
xy) + – x
i
y
i
i 1 =
n

x
i
y
i 1 =
n

– xy
i
i 1 =
n

xy
i 1 =
n

+ – = =
x
i
y
i
i 1 =
n

y x
i
i 1 =
n

– x y
i
i 1 =
n

xyn + – x
i
y
i
i 1 =
n

. ,
| `
nxy – = =
s
xy
x
i
y
i
i 1 =
n

. ,
| `
nxy –
n 1 –
---------------------------------------
=
·
© FUOC • P03/75057/01013 23 Regresión lineal simple
La calidad del ajuste
1. Introducción
La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo.
2. El coeficiente de determinación, R
2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
Buscaremos una expresión que nos permita calcular el coeficiente de determi-
nación. Veremos que la varianza de las observaciones se puede descomponer en
dos términos: la varianza que queda explicada por el modelo de regresión lineal
y una varianza debida a los residuos.
A partir de la definición de residuos (e
i
) de la regresión como la diferencia entre
los valores observados (y
i
) y los valores estimados ( ) por la recta de regresión:
e
i
· y
i
− ,
podemos escribir:
y
i
· + e
i
.
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
La medida más importante de la bondad del ajuste es el coeficiente de
determinación R
2
. Este coeficiente nos indica el grado de ajuste de la
recta de regresión a los valores de la muestra, y se define como la pro-
porción de varianza explicada por la recta de regresión, es decir:
Notación
La varianza explicada por la
recta de regresión es la varian-
za de los valores estimados .
La varianza total de los datos es
la varianza de los valores obser-
vados y
i
.
y
ˆ
i
R
2 Varianza explicada por la recta de regresión
Varianza total de los datos
-------------------------------------------------------------------------------------------------------------------------
=
y
ˆ
i
Notación
Llamaremos indistintamente
valores estimados o valores pre-
dichos ( ) a los obtenidos me-
diante la recta de regresión.
y
ˆ
i y
ˆ
i
y
ˆ
i
© FUOC • P03/75057/01013 23 Regresión lineal simple
La calidad del ajuste
1. Introducción
La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo.
2. El coeficiente de determinación, R
2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
Buscaremos una expresión que nos permita calcular el coeficiente de determi-
nación. Veremos que la varianza de las observaciones se puede descomponer en
dos términos: la varianza que queda explicada por el modelo de regresión lineal
y una varianza debida a los residuos.
A partir de la definición de residuos (e
i
) de la regresión como la diferencia entre
los valores observados (y
i
) y los valores estimados ( ) por la recta de regresión:
e
i
· y
i
− ,
podemos escribir:
y
i
· + e
i
.
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
La medida más importante de la bondad del ajuste es el coeficiente de
determinación R
2
. Este coeficiente nos indica el grado de ajuste de la
recta de regresión a los valores de la muestra, y se define como la pro-
porción de varianza explicada por la recta de regresión, es decir:
Notación
La varianza explicada por la
recta de regresión es la varian-
za de los valores estimados .
La varianza total de los datos es
la varianza de los valores obser-
vados y
i
.
y
ˆ
i
R
2 Varianza explicada por la recta de regresión
Varianza total de los datos
-------------------------------------------------------------------------------------------------------------------------
=
y
ˆ
i
Notación
Llamaremos indistintamente
valores estimados o valores pre-
dichos ( ) a los obtenidos me-
diante la recta de regresión.
y
ˆ
i y
ˆ
i
y
ˆ
i
© FUOC • P03/75057/01013 24 Regresión lineal simple
respecto a la media de las observaciones con las desviaciones con respecto a la
media de los valores estimados.
Representaremos gráficamente las desviaciones con respecto a la media, las ob-
servaciones y los valores estimados con la recta de regresión.
Elevando al cuadrado y sumando todos los valores, se puede demostrar que:
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
Suma de cuadrados totales
Suma de cuadrados de la regresión
Suma de cuadrados de los errores
Así, tenemos que:
SCT · SCR + SCE
y
i
y y
ˆ
i
y – ( ) e
i
+ = –
Observación
La recta de regresión pasa
por ( , ). x y
Esta deducción matemática se
encuentra desarrollada en el anexo 1
de esta sesión.
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
2
i 1 =
n

SCE =
© FUOC • P03/75057/01013 24 Regresión lineal simple
respecto a la media de las observaciones con las desviaciones con respecto a la
media de los valores estimados.
Representaremos gráficamente las desviaciones con respecto a la media, las ob-
servaciones y los valores estimados con la recta de regresión.
Elevando al cuadrado y sumando todos los valores, se puede demostrar que:
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
Suma de cuadrados totales
Suma de cuadrados de la regresión
Suma de cuadrados de los errores
Así, tenemos que:
SCT · SCR + SCE
y
i
y y
ˆ
i
y – ( ) e
i
+ = –
Observación
La recta de regresión pasa
por ( , ). x y
Esta deducción matemática se
encuentra desarrollada en el anexo 1
de esta sesión.
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
2
i 1 =
n

SCE =
© FUOC • P03/75057/01013 25 Regresión lineal simple
Podemos interpretar esta última expresión en el sentido de que la varianza total
observada (SCT) en la variable Y se descompone en dos términos: la varianza
explicada por el modelo de regresión lineal (SCR) más la varianza que no que-
da explicada por el modelo, es decir, la varianza de los residuos (SCE).
Observando estas expresiones, es fácil apreciar las características de este coefi-
ciente. Siempre será: , de manera que:
• R
2
· 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en-
cuentran sobre la recta de regresión. En este caso los residuos son cero y la
suma de sus cuadrados también y, por tanto, SCR · SCT.
• R
2
· 0 denota la inexistencia de relación entre las variables X e Y. En este caso
la suma de residuos es máxima y tenemos que SCE · SCT.
• Puesto que R
2
nos explica la proporción de variabilidad de los datos que que-
da explicada por el modelo de regresión, cuanto más cercano a la unidad es-
té, mejor es el ajuste.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
A partir de la recta de regresión:
· –96,1121 + 0,979009x,
Entonces podemos escribir la definición del coeficiente de determina-
ción de esta manera:
o también,
.
Individuos (y) 1 2 3 4 5 6 7 8 9 10
Altura (x
i
) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
R
2
SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
= =
R
2
1
SCE
SCT
-----------
1
e
i
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
– = – =
0 R
2
1 ≤ ≤
Observación
Un coeficiente de determina-
ción diferente de cero no signi-
fica que haya relación lineal
entre las variables. Por ejem-
plo, R
2
· 0,5 sólo nos dice que
el 50% de la varianza de las
observaciones queda explica-
do por el modelo lineal.
y
ˆ
© FUOC • P03/75057/01013 25 Regresión lineal simple
Podemos interpretar esta última expresión en el sentido de que la varianza total
observada (SCT) en la variable Y se descompone en dos términos: la varianza
explicada por el modelo de regresión lineal (SCR) más la varianza que no que-
da explicada por el modelo, es decir, la varianza de los residuos (SCE).
Observando estas expresiones, es fácil apreciar las características de este coefi-
ciente. Siempre será: , de manera que:
• R
2
· 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en-
cuentran sobre la recta de regresión. En este caso los residuos son cero y la
suma de sus cuadrados también y, por tanto, SCR · SCT.
• R
2
· 0 denota la inexistencia de relación entre las variables X e Y. En este caso
la suma de residuos es máxima y tenemos que SCE · SCT.
• Puesto que R
2
nos explica la proporción de variabilidad de los datos que que-
da explicada por el modelo de regresión, cuanto más cercano a la unidad es-
té, mejor es el ajuste.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
A partir de la recta de regresión:
· –96,1121 + 0,979009x,
Entonces podemos escribir la definición del coeficiente de determina-
ción de esta manera:
o también,
.
Individuos (y) 1 2 3 4 5 6 7 8 9 10
Altura (x
i
) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
R
2
SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
= =
R
2
1
SCE
SCT
-----------
1
e
i
2
i 1 =
n

y
i
y – ( )
2
i 1 =
n

----------------------------
– = – =
0 R
2
1 ≤ ≤
Observación
Un coeficiente de determina-
ción diferente de cero no signi-
fica que haya relación lineal
entre las variables. Por ejem-
plo, R
2
· 0,5 sólo nos dice que
el 50% de la varianza de las
observaciones queda explica-
do por el modelo lineal.
y
ˆ
© FUOC • P03/75057/01013 26 Regresión lineal simple
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR · 456,61
SCT · 812,90
Por tanto, tenemos un coeficiente de determinación:
R
2
· 456,61 / 812,90 · 0,5617
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los
residuos:
SCE · 356,29
tenemos para el coeficiente de determinación:
R
2
· 1 – ( 356,29 / 812,90 ) · 1 – 0,4383 · 0,5617
Evidentemente, coinciden los resultados.
Hemos obtenido un coeficiente de determinación R
2
· 0,5617 que nos informa de que el
modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.
3. El coeficiente de correlación muestral, r
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 619 812,90 456,61 356,29
Se suele decir que X e Y tienen una relación positiva si los valores
grandes de X están aparejados con valores grandes de Y y valores pe-
queños de X, con valores pequeños de Y. De manera análoga, se dice
que X e Y tienen una relación negativa si los valores grandes de X es-
tán aparejados con los valores pequeños de Y y los pequeños de X, con
grandes de Y.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 26 Regresión lineal simple
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR · 456,61
SCT · 812,90
Por tanto, tenemos un coeficiente de determinación:
R
2
· 456,61 / 812,90 · 0,5617
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los
residuos:
SCE · 356,29
tenemos para el coeficiente de determinación:
R
2
· 1 – ( 356,29 / 812,90 ) · 1 – 0,4383 · 0,5617
Evidentemente, coinciden los resultados.
Hemos obtenido un coeficiente de determinación R
2
· 0,5617 que nos informa de que el
modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.
3. El coeficiente de correlación muestral, r
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 619 812,90 456,61 356,29
Se suele decir que X e Y tienen una relación positiva si los valores
grandes de X están aparejados con valores grandes de Y y valores pe-
queños de X, con valores pequeños de Y. De manera análoga, se dice
que X e Y tienen una relación negativa si los valores grandes de X es-
tán aparejados con los valores pequeños de Y y los pequeños de X, con
grandes de Y.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 27 Regresión lineal simple
Ahora queremos medir estas relaciones de forma numérica. La covarianza mues-
tral entre dos variables X e Y:
W
nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y.
• Si tenemos una relación positiva, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el primer y tercer cuadrante en que
, de manera que contribuirán de forma positiva a la suma.
• Si tenemos una relación negativa, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el segundo y cuarto cuadrante, en los
que , de manera que contribuirán de forma negativa a la
suma.
• Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la
covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
de forma aproximada las cantidades positivas y negativas del sumatorio.
La covarianza presenta el gran inconveniente de depender de las unidades de
las variables que estudiamos.
El coeficiente de correlación se caracteriza por , de manera que:
• r · 1 o r · −1 cuando haya una asociación lineal exacta entre las variables
(en el primer caso positiva y en el segundo, negativa).
• cuando la relación entre las variables no sea lineal de forma exacta.
• Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué
valor de r podemos decir que la relación entre las variables es fuerte? Una re-
gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 <
| r | < 1, y moderada si tiene otro valor.
Definimos el coeficiente de correlación muestral como:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
Esquema de relaciones
entre X e Y
Observad la figura de los ejemplos
de diagramas de dispersión en el
apartado 3 de la sesión “El modelo
de regresión simple” de este módulo.
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≥
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≤
Unidades del coeficiente
de correlación muestral
Al dividir la covarianza por las
desviaciones típicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.
r
s
xy
s
x
s
y
---------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
y
i
y – ( )
2
i 1 =
n

i 1 =
n

--------------------------------------------------------------
= =
1 – r 1 ≤ ≤
1 – r < 1 <
© FUOC • P03/75057/01013 27 Regresión lineal simple
Ahora queremos medir estas relaciones de forma numérica. La covarianza mues-
tral entre dos variables X e Y:
W
nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y.
• Si tenemos una relación positiva, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el primer y tercer cuadrante en que
, de manera que contribuirán de forma positiva a la suma.
• Si tenemos una relación negativa, entonces la mayoría de los puntos de co-
ordenadas ( , ) estarán en el segundo y cuarto cuadrante, en los
que , de manera que contribuirán de forma negativa a la
suma.
• Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la
covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
de forma aproximada las cantidades positivas y negativas del sumatorio.
La covarianza presenta el gran inconveniente de depender de las unidades de
las variables que estudiamos.
El coeficiente de correlación se caracteriza por , de manera que:
• r · 1 o r · −1 cuando haya una asociación lineal exacta entre las variables
(en el primer caso positiva y en el segundo, negativa).
• cuando la relación entre las variables no sea lineal de forma exacta.
• Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué
valor de r podemos decir que la relación entre las variables es fuerte? Una re-
gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 <
| r | < 1, y moderada si tiene otro valor.
Definimos el coeficiente de correlación muestral como:
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
=
Esquema de relaciones
entre X e Y
Observad la figura de los ejemplos
de diagramas de dispersión en el
apartado 3 de la sesión “El modelo
de regresión simple” de este módulo.
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≥
x
i
x – ( ) y
i
y – ( )
x
i
x – ( ) y
i
y – ( ) 0 ≤
Unidades del coeficiente
de correlación muestral
Al dividir la covarianza por las
desviaciones típicas de X y
de Y, hemos conseguido una
medida adimensional que no
depende de las unidades de
las variables.
r
s
xy
s
x
s
y
---------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
y
i
y – ( )
2
i 1 =
n

i 1 =
n

--------------------------------------------------------------
= =
1 – r 1 ≤ ≤
1 – r < 1 <
© FUOC • P03/75057/01013 28 Regresión lineal simple
Para calcular el coeficiente de correlación muestral, podemos utilizar la misma
tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el
ejemplo de las alturas y los pesos.
Ejemplo de las alturas y los pesos
Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente
de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.
de manera que s
x
· 7,276
de manera que s
y
· 9,504
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r ·
0,749, que nos informa de la existencia de una moderada relación entre estas dos variables,
así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo).
4. Relación entre R
2
y r
Es muy importante tener clara la diferencia entre el coeficiente de correlación
y el coeficiente de determinación:
• R
2
: mide la proporción de variación de la variable dependiente explicada
por la variable independiente.
• r: mide el grado de asociación entre las dos variables.
i x
i
y
i
1 161 63 0,4 –1,1 0,16 1,21 –0,44
2 152 56 9,4 5,9 88,36 34,81 55,46
3 167 77 –5,6 –15,1 31,36 228,01 84,56
4 153 49 8,4 12,9 70,56 166,41 108,36
5 161 72 0,4 –10,1 0,16 102,01 –4,04
6 168 62 –6,6 –0,1 43,56 0,01 0,66
7 167 68 –5,6 –6,1 31,36 37,21 34,16
8 153 48 8,4 13,9 70,56 193,21 116,76
9 159 57 2,4 4,9 5,76 24,01 11,76
10 173 67 –11,6 –5,1 134,56 26,01 59,16
Σ 1.614 619 476,40 812,90 466,40
x x
i
– y y
i
– x x
i
– ( )
2
y y
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
------------------- 52,933 = = =
s
y
2
y
i
y – ( )
2
i 1 =
n

n 1 –
----------------------------
812,90
10 1 –
-------------------
90,322 = = =
r
s
xy
s
x
s
y
---------
51,822
7,276 9,504 ⋅
------------------------------------ 0,749 = = =
© FUOC • P03/75057/01013 28 Regresión lineal simple
Para calcular el coeficiente de correlación muestral, podemos utilizar la misma
tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el
ejemplo de las alturas y los pesos.
Ejemplo de las alturas y los pesos
Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente
de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.
de manera que s
x
· 7,276
de manera que s
y
· 9,504
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r ·
0,749, que nos informa de la existencia de una moderada relación entre estas dos variables,
así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo).
4. Relación entre R
2
y r
Es muy importante tener clara la diferencia entre el coeficiente de correlación
y el coeficiente de determinación:
• R
2
: mide la proporción de variación de la variable dependiente explicada
por la variable independiente.
• r: mide el grado de asociación entre las dos variables.
i x
i
y
i
1 161 63 0,4 –1,1 0,16 1,21 –0,44
2 152 56 9,4 5,9 88,36 34,81 55,46
3 167 77 –5,6 –15,1 31,36 228,01 84,56
4 153 49 8,4 12,9 70,56 166,41 108,36
5 161 72 0,4 –10,1 0,16 102,01 –4,04
6 168 62 –6,6 –0,1 43,56 0,01 0,66
7 167 68 –5,6 –6,1 31,36 37,21 34,16
8 153 48 8,4 13,9 70,56 193,21 116,76
9 159 57 2,4 4,9 5,76 24,01 11,76
10 173 67 –11,6 –5,1 134,56 26,01 59,16
Σ 1.614 619 476,40 812,90 466,40
x x
i
– y y
i
– x x
i
– ( )
2
y y
i
– ( )
2
x x
i
– ( ) y y
i
– ( )
s
xy
x
i
x – ( ) y
i
y – ( )
i 1 =
n

n 1 –
---------------------------------------------
466,40
10 1 –
------------------- 51,822 = = =
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
-----------------------------
476,40
10 1 –
------------------- 52,933 = = =
s
y
2
y
i
y – ( )
2
i 1 =
n

n 1 –
----------------------------
812,90
10 1 –
-------------------
90,322 = = =
r
s
xy
s
x
s
y
---------
51,822
7,276 9,504 ⋅
------------------------------------ 0,749 = = =
© FUOC • P03/75057/01013 29 Regresión lineal simple
No obstante, en la regresión lineal simple tenemos que R
2
· r
2
, como fácilmen-
te podemos comprobar.
Comprobación de que en regresión lineal simple R
2
= r
2
A partir de la ecuación del coeficiente de correlación:
y de la ecuación de la pendiente de la recta de regresión:
tenemos la relación siguiente:
Por otra parte, tenemos el otro parámetro de la recta de regresión: y la ecua-
ción de los valores estimados: . De estas dos expresiones podemos escribir:
Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir
de la definición de varianza muestral, tenemos:
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r · 0,5 era débil. Este valor representará un R
2
· 0,25, es decir, el mo-
delo de regresión sólo nos explica un 25% de la variabilidad total de las obser-
vaciones.
También es importante tener presente que r nos da más información que R
2
. El
signo de r nos informa de si la relación es positiva o negativa. Así pues, con el
valor de r siempre podremos calcular el valor de R
2
, pero al revés siempre nos
quedará indeterminado el valor del signo a menos que conozcamos la pendien-
te de la recta. Por ejemplo, dado un R
2
· 0,81, si sabemos que la pendiente de
la recta de regresión es negativa, entonces podremos afirmar que el coeficiente
de correlación será r · −0,9.
Ejemplo de las alturas y los pesos
Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de
correlación con los resultados de nuestro ejemplo.
Hemos obtenido: R
2
· 0,5617 y r · 0,749.
De manera que r
2
· 0,749
2
· 0,561.
Observación
En la regresión lineal múltiple
ya no tendremos la igualdad
R
2
· r
2
.
r
s
xy
s
x
s
y
--------- =
β
ˆ
1
s
xy
s
x
2
------
=
β
ˆ
1 r
s
y
s
x
---- =
β
ˆ
0 y β
ˆ
1x – =
y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
y
ˆ
i
y – β
ˆ
0 β
ˆ
1x
i
y – + y β
ˆ
1x β
ˆ
1x
i
y – + – β
ˆ
1 x
i
x – ( ) = = =
R
2
y
ˆ
i
y – ( )
2

y
i
y – ( )
2

--------------------------- β
ˆ
1
2
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
r
2 s
y
2
s
x
2
----
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
1
r
2
= = = =
¹ ¹ ¹ ' ¹ ¹ ¹
© FUOC • P03/75057/01013 29 Regresión lineal simple
No obstante, en la regresión lineal simple tenemos que R
2
· r
2
, como fácilmen-
te podemos comprobar.
Comprobación de que en regresión lineal simple R
2
= r
2
A partir de la ecuación del coeficiente de correlación:
y de la ecuación de la pendiente de la recta de regresión:
tenemos la relación siguiente:
Por otra parte, tenemos el otro parámetro de la recta de regresión: y la ecua-
ción de los valores estimados: . De estas dos expresiones podemos escribir:
Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir
de la definición de varianza muestral, tenemos:
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r · 0,5 era débil. Este valor representará un R
2
· 0,25, es decir, el mo-
delo de regresión sólo nos explica un 25% de la variabilidad total de las obser-
vaciones.
También es importante tener presente que r nos da más información que R
2
. El
signo de r nos informa de si la relación es positiva o negativa. Así pues, con el
valor de r siempre podremos calcular el valor de R
2
, pero al revés siempre nos
quedará indeterminado el valor del signo a menos que conozcamos la pendien-
te de la recta. Por ejemplo, dado un R
2
· 0,81, si sabemos que la pendiente de
la recta de regresión es negativa, entonces podremos afirmar que el coeficiente
de correlación será r · −0,9.
Ejemplo de las alturas y los pesos
Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de
correlación con los resultados de nuestro ejemplo.
Hemos obtenido: R
2
· 0,5617 y r · 0,749.
De manera que r
2
· 0,749
2
· 0,561.
Observación
En la regresión lineal múltiple
ya no tendremos la igualdad
R
2
· r
2
.
r
s
xy
s
x
s
y
--------- =
β
ˆ
1
s
xy
s
x
2
------
=
β
ˆ
1 r
s
y
s
x
---- =
β
ˆ
0 y β
ˆ
1x – =
y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
y
ˆ
i
y – β
ˆ
0 β
ˆ
1x
i
y – + y β
ˆ
1x β
ˆ
1x
i
y – + – β
ˆ
1 x
i
x – ( ) = = =
R
2
y
ˆ
i
y – ( )
2

y
i
y – ( )
2

--------------------------- β
ˆ
1
2
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
r
2 s
y
2
s
x
2
----
x
i
x – ( )
2

y
i
y – ( )
2

---------------------------
1
r
2
= = = =
¹ ¹ ¹ ' ¹ ¹ ¹
© FUOC • P03/75057/01013 30 Regresión lineal simple
5. Diagnóstico de la regresión: análisis de los residuos
Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues-
trales, hay que efectuar el análisis de los residuos.
Este análisis, que a continuación comentaremos de forma breve y muy intui-
tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.
El análisis de los residuos consiste en ver la distribución de los residuos. Esto
lo haremos gráficamente representando un diagrama de dispersión de los pun-
tos ( , e
i
), es decir, sobre el eje de las abscisas representamos el valor estimado
y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, e
i
·
· y
i
– . Veamos un ejemplo:
Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la
nube de puntos ( , e
i
) no debe mostrar ningún tipo de estructura.
Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de
Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
ción discutiremos cuatro casos:
Caso (a) Caso (b) Caso (c) Caso (d)
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d)
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
y
ˆ
i
y
ˆ
i
y
ˆ
i
y
ˆ
i
Lectura complementaria
Encontraréis el ejemplo
de Anscombe en el artículo
siguiente:
T.W. Anscombe (1973).
“Graphs in Statistical
Analysis”. The American
Statistician (núm. 27,
pág. 17-21).
© FUOC • P03/75057/01013 30 Regresión lineal simple
5. Diagnóstico de la regresión: análisis de los residuos
Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues-
trales, hay que efectuar el análisis de los residuos.
Este análisis, que a continuación comentaremos de forma breve y muy intui-
tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.
El análisis de los residuos consiste en ver la distribución de los residuos. Esto
lo haremos gráficamente representando un diagrama de dispersión de los pun-
tos ( , e
i
), es decir, sobre el eje de las abscisas representamos el valor estimado
y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, e
i
·
· y
i
– . Veamos un ejemplo:
Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la
nube de puntos ( , e
i
) no debe mostrar ningún tipo de estructura.
Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de
Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
ción discutiremos cuatro casos:
Caso (a) Caso (b) Caso (c) Caso (d)
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d)
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
y
ˆ
i
y
ˆ
i
y
ˆ
i
y
ˆ
i
Lectura complementaria
Encontraréis el ejemplo
de Anscombe en el artículo
siguiente:
T.W. Anscombe (1973).
“Graphs in Statistical
Analysis”. The American
Statistician (núm. 27,
pág. 17-21).
© FUOC • P03/75057/01013 31 Regresión lineal simple
Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión
en el ejemplo de Anscombe.
Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma
recta:

· 3 + 0,5x
El coeficiente de correlación es el mismo para las cuatro con valor r · 0,82.
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
nemos la representación de los siguientes diagramas de residuos:
y
ˆ
© FUOC • P03/75057/01013 31 Regresión lineal simple
Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión
en el ejemplo de Anscombe.
Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma
recta:

· 3 + 0,5x
El coeficiente de correlación es el mismo para las cuatro con valor r · 0,82.
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
nemos la representación de los siguientes diagramas de residuos:
y
ˆ
© FUOC • P03/75057/01013 32 Regresión lineal simple
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se
observa un comportamiento curvilíneo que nos hace pensar que un ajuste li-
neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi-
dente en el diagrama de residuos.
Si consideramos la muestra (c), en el diagrama de dispersión podemos observar
la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo
erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-
mos una recta de regresión diferente:

· 4,01 + 0,345x.
y un coeficiente de correlación r · 1. Podemos observar todos los puntos sobre
la recta de regresión.
El diagrama de los residuos también nos sugiere un buen modelo de regresión
para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos.
Finalmente, en la muestra (d) la pendiente está determinada por un único va-
lor. Tampoco es un modelo demasiado fiable.
Ejemplo de las alturas y los pesos
Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe-
sos. A partir de los datos de la tabla ya vista:
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
y
ˆ
Influencia de un valor
atípico
En la muestra (c) hemos elimi-
nado el valor atípico y hemos
representado de nuevo
el diagrama de dispersión
y la recta de regresión 1 y el
diagrama de residuos 2.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 32 Regresión lineal simple
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se
observa un comportamiento curvilíneo que nos hace pensar que un ajuste li-
neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi-
dente en el diagrama de residuos.
Si consideramos la muestra (c), en el diagrama de dispersión podemos observar
la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo
erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-
mos una recta de regresión diferente:

· 4,01 + 0,345x.
y un coeficiente de correlación r · 1. Podemos observar todos los puntos sobre
la recta de regresión.
El diagrama de los residuos también nos sugiere un buen modelo de regresión
para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos.
Finalmente, en la muestra (d) la pendiente está determinada por un único va-
lor. Tampoco es un modelo demasiado fiable.
Ejemplo de las alturas y los pesos
Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe-
sos. A partir de los datos de la tabla ya vista:
i x
i
y
i
e
i
1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23
2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91
3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50
4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87
5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
y
ˆ
Influencia de un valor
atípico
En la muestra (c) hemos elimi-
nado el valor atípico y hemos
representado de nuevo
el diagrama de dispersión
y la recta de regresión 1 y el
diagrama de residuos 2.
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 33 Regresión lineal simple
es fácil representar el diagrama de residuos:
No podemos observar ningún tipo de estructura en la representación; por tanto, pode-
mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la
relación entre las dos variables.
6. Resumen
En esta segunda sesión hemos introducido una medida numérica de la bondad
del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene
con el coeficiente de determinación R
2
. Se ha discutido la interpretación de los
valores que puede tomar. A continuación hemos visto el coeficiente de correla-
ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos
comprobado que en la regresión lineal simple R
2
y r coinciden. Finalmente, he-
mos comentado la importancia de analizar los residuos para hacer un diagnós-
tico del modelo lineal obtenido.
i x
i
y
i
e
i
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 61,9 812,90 456,61 356,29
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 33 Regresión lineal simple
es fácil representar el diagrama de residuos:
No podemos observar ningún tipo de estructura en la representación; por tanto, pode-
mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la
relación entre las dos variables.
6. Resumen
En esta segunda sesión hemos introducido una medida numérica de la bondad
del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene
con el coeficiente de determinación R
2
. Se ha discutido la interpretación de los
valores que puede tomar. A continuación hemos visto el coeficiente de correla-
ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos
comprobado que en la regresión lineal simple R
2
y r coinciden. Finalmente, he-
mos comentado la importancia de analizar los residuos para hacer un diagnós-
tico del modelo lineal obtenido.
i x
i
y
i
e
i
6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47
7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38
8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22
9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50
10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14
Σ 61,9 812,90 456,61 356,29
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
i
ˆ
y – y
i
ˆ
y – ( )
2
e
i
2
© FUOC • P03/75057/01013 34 Regresión lineal simple
Ejercicios
1.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,88 + 3,95x.
A partir de toda esta información, calculad el coeficiente de determinación y
el coeficiente de correlación.
2.
El departamento de personal de una empresa informática dedicada a la introduc-
ción de datos ha llavado a cabo un programa de formación inicial del personal.
La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian-
tes que siguieron el programa y el número de semanas que hace que lo siguen:
Gastos en publicidad
(× × 1.000 €)
Ventas
(× × 100.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Número de semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 =
y
ˆ
© FUOC • P03/75057/01013 34 Regresión lineal simple
Ejercicios
1.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,88 + 3,95x.
A partir de toda esta información, calculad el coeficiente de determinación y
el coeficiente de correlación.
2.
El departamento de personal de una empresa informática dedicada a la introduc-
ción de datos ha llavado a cabo un programa de formación inicial del personal.
La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian-
tes que siguieron el programa y el número de semanas que hace que lo siguen:
Gastos en publicidad
(× × 1.000 €)
Ventas
(× × 100.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Número de semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 =
y
ˆ
© FUOC • P03/75057/01013 35 Regresión lineal simple
La recta de regresión calculada a partir de estos datos es:

· 1,659 + 25,318x
a) Calculad el coeficiente de determinación.
b) Haced un análisis de los residuos y comentadlo.
Solucionario
1.
Calculamos el coeficiente de determinación a partir de la expresión:
El enunciado del problema nos proporciona estos datos, ya que:
• La suma de los cuadrados de la regresión es:
• Y la suma de los cuadrados totales es:
De manera que:
Resultado que podemos interpretar como que el modelo de regresión lineal
explica el 54,58% de la variabilidad de las ventas.
A partir de este valor podemos calcular el coeficiente de correlación teniendo
en cuenta que:
R
2
· r
2
De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente
de determinación con el mismo signo que la pendiente de la recta de regresión.
La recta de regresión es:

· 308,8 + 3,95x. La pendiente es positiva, de manera
que tenemos una relación positiva entre los gastos en publicidad y ventas.
Cuanto más se invierte en publicidad, más se vende.
Así pues, el coeficiente de correlación es:
Número de semanas
Ganancia de velocidad
(p.p.m.)
9 234
3 72
4 110
y
ˆ
R
2 SCR
SCT
-----------
=
SCR y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = =
SCT y
i
y – ( )
2
i 1 =
10

43.590,0 = =
R
2 SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
10

y
i
y – ( )
2
i 1 =
10

----------------------------
23.793,66
43.590,0
----------------------------
0,5458 = = = =
y
ˆ
r + R
2
+ 0,5458 0,7388 = = =
© FUOC • P03/75057/01013 35 Regresión lineal simple
La recta de regresión calculada a partir de estos datos es:

· 1,659 + 25,318x
a) Calculad el coeficiente de determinación.
b) Haced un análisis de los residuos y comentadlo.
Solucionario
1.
Calculamos el coeficiente de determinación a partir de la expresión:
El enunciado del problema nos proporciona estos datos, ya que:
• La suma de los cuadrados de la regresión es:
• Y la suma de los cuadrados totales es:
De manera que:
Resultado que podemos interpretar como que el modelo de regresión lineal
explica el 54,58% de la variabilidad de las ventas.
A partir de este valor podemos calcular el coeficiente de correlación teniendo
en cuenta que:
R
2
· r
2
De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente
de determinación con el mismo signo que la pendiente de la recta de regresión.
La recta de regresión es:

· 308,8 + 3,95x. La pendiente es positiva, de manera
que tenemos una relación positiva entre los gastos en publicidad y ventas.
Cuanto más se invierte en publicidad, más se vende.
Así pues, el coeficiente de correlación es:
Número de semanas
Ganancia de velocidad
(p.p.m.)
9 234
3 72
4 110
y
ˆ
R
2 SCR
SCT
-----------
=
SCR y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = =
SCT y
i
y – ( )
2
i 1 =
10

43.590,0 = =
R
2 SCR
SCT
-----------
y
ˆ
i
y – ( )
2
i 1 =
10

y
i
y – ( )
2
i 1 =
10

----------------------------
23.793,66
43.590,0
----------------------------
0,5458 = = = =
y
ˆ
r + R
2
+ 0,5458 0,7388 = = =
© FUOC • P03/75057/01013 36 Regresión lineal simple
2.
a) Lo primero que haremos será construir la tabla de cálculos:
SCR · 28.204,05 SCT · 28.663,50
R
2
· 28.204,05 / 28.663,50 · 0,9920
El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.
Tenemos bondad en el ajuste.
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-
ma de residuos siguiente:
i x
i
y
i

1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11
2 5 119 128,25 –9,25 85,56 0,00 0,00
3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16
4 8 195 204,20 66,75 4.455,56 75,95 5.768,86
5 6 162 153,57 33,75 1.139,06 25,32 640,95
6 9 234 229,52 105,75 11.183,06 101,27 10.255,82
7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11
8 4 110 102,93 –18,25 333,06 –25,32 641,05
Σ 1.026 28.663,50 28.204,05
i x
i
y
i

1 3 87 77,61 9,39
2 5 119 128,25 –9,25
3 2 47 52,30 –5,30
4 8 195 204,20 –9,20
5 6 162 153,57 8,43
6 9 234 229,52 4,48
7 3 72 77,61 –5,61
8 4 110 102,93 7,07
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
ˆ
i
y – ( ) y
ˆ
i
y – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– =
© FUOC • P03/75057/01013 36 Regresión lineal simple
2.
a) Lo primero que haremos será construir la tabla de cálculos:
SCR · 28.204,05 SCT · 28.663,50
R
2
· 28.204,05 / 28.663,50 · 0,9920
El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.
Tenemos bondad en el ajuste.
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-
ma de residuos siguiente:
i x
i
y
i

1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11
2 5 119 128,25 –9,25 85,56 0,00 0,00
3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16
4 8 195 204,20 66,75 4.455,56 75,95 5.768,86
5 6 162 153,57 33,75 1.139,06 25,32 640,95
6 9 234 229,52 105,75 11.183,06 101,27 10.255,82
7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11
8 4 110 102,93 –18,25 333,06 –25,32 641,05
Σ 1.026 28.663,50 28.204,05
i x
i
y
i

1 3 87 77,61 9,39
2 5 119 128,25 –9,25
3 2 47 52,30 –5,30
4 8 195 204,20 –9,20
5 6 162 153,57 8,43
6 9 234 229,52 4,48
7 3 72 77,61 –5,61
8 4 110 102,93 7,07
y
ˆ
i
y
i
y – y
i
y – ( )
2
y
ˆ
i
y – ( ) y
ˆ
i
y – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– =
© FUOC • P03/75057/01013 37 Regresión lineal simple
No observamos ningún tipo de forma determinada en los puntos de esta gráfica.
Este resultado, junto con el elevado coeficiente de determinación, nos hace
llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro-
blema.
© FUOC • P03/75057/01013 37 Regresión lineal simple
No observamos ningún tipo de forma determinada en los puntos de esta gráfica.
Este resultado, junto con el elevado coeficiente de determinación, nos hace
llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro-
blema.
© FUOC • P03/75057/01013 38 Regresión lineal simple
Anexos
Anexo 1
Descomposición de la suma de cuadrados total
A continuación veremos que la suma de cuadrados total de las observaciones
(SCT) se puede expresar de la manera siguiente:
SCT · SCR + SCE
donde:
• SCR es la suma de cuadrados de la regresión.
• SCE es la suma de cuadrados de los residuos.
A partir de la definición de residuos de la regresión como la diferencia entre
los valores observados y los valores estimados por la recta de regresión:
e
i
· y
i

Podemos escribir:
y
i
· + e
i
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Elevando al cuadrado y sumando todos los valores:
0 0
Por tanto, es suficiente con ver que y
y
ˆ
i
y
ˆ
i
y
i
y – y
ˆ
i
y – ( ) e
i
+ =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( ) e
i
+ [ ]
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

2 y
ˆ
i
y – ( )e
i
i 1 =
n

e
i
2
i 1 =
n

+ + = =
2 y
ˆ
i
y – ( )e
i
i 1 =
n

y
ˆ
i
e
i
i 1 =
n

ye
i
i 1 =
n

– y
ˆ
i
e
i
i 1 =
n

y e
i
i 1 =
n

– 0 0 + 0 = = = =
y
ˆ
i
e
i
i 1 =
n

0 = e
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 38 Regresión lineal simple
Anexos
Anexo 1
Descomposición de la suma de cuadrados total
A continuación veremos que la suma de cuadrados total de las observaciones
(SCT) se puede expresar de la manera siguiente:
SCT · SCR + SCE
donde:
• SCR es la suma de cuadrados de la regresión.
• SCE es la suma de cuadrados de los residuos.
A partir de la definición de residuos de la regresión como la diferencia entre
los valores observados y los valores estimados por la recta de regresión:
e
i
· y
i

Podemos escribir:
y
i
· + e
i
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones y
i
, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Elevando al cuadrado y sumando todos los valores:
0 0
Por tanto, es suficiente con ver que y
y
ˆ
i
y
ˆ
i
y
i
y – y
ˆ
i
y – ( ) e
i
+ =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( ) e
i
+ [ ]
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

2 y
ˆ
i
y – ( )e
i
i 1 =
n

e
i
2
i 1 =
n

+ + = =
2 y
ˆ
i
y – ( )e
i
i 1 =
n

y
ˆ
i
e
i
i 1 =
n

ye
i
i 1 =
n

– y
ˆ
i
e
i
i 1 =
n

y e
i
i 1 =
n

– 0 0 + 0 = = = =
y
ˆ
i
e
i
i 1 =
n

0 = e
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 39 Regresión lineal simple
Observamos que a partir de las ecuaciones normales:
Y, por tanto:
Hemos demostrado así que:
Si denominamos:
Suma de Cuadrados Totales.
Suma de Cuadrados de la Regresión.
Suma de Cuadrados de los Errores.
Tenemos que: SCT · SCR + SCE.
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
i 1 =
n

y
i
y
ˆ
i
– ( )
i 1 =
n

e
i
i 1 =
n

= = =
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )x
i
i 1 =
n

e
i
x
i
i 1 =
n

= =
y
ˆ
i
e
i
i 1 =
n

β
ˆ
0 β
ˆ
1x
i
– ( )e
i
i 1 =
n

β
ˆ
0 e
i
i 1 =
n

β
ˆ
1 e
i
x
i
i 1 =
n

+ 0 = = =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
i 1 =
n

SCE =
© FUOC • P03/75057/01013 39 Regresión lineal simple
Observamos que a partir de las ecuaciones normales:
Y, por tanto:
Hemos demostrado así que:
Si denominamos:
Suma de Cuadrados Totales.
Suma de Cuadrados de la Regresión.
Suma de Cuadrados de los Errores.
Tenemos que: SCT · SCR + SCE.
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
i 1 =
n

y
i
y
ˆ
i
– ( )
i 1 =
n

e
i
i 1 =
n

= = =
0 y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )x
i
i 1 =
n

e
i
x
i
i 1 =
n

= =
y
ˆ
i
e
i
i 1 =
n

β
ˆ
0 β
ˆ
1x
i
– ( )e
i
i 1 =
n

β
ˆ
0 e
i
i 1 =
n

β
ˆ
1 e
i
x
i
i 1 =
n

+ 0 = = =
y
i
y – ( )
2
i 1 =
n

y
ˆ
i
y – ( )
2
i 1 =
n

e
i
2
i 1 =
n

+ =
y
i
y – ( )
2
i 1 =
n

SCT =
y
ˆ
i
y – ( )
2
i 1 =
n

SCR =
e
i
i 1 =
n

SCE =
© FUOC • P03/75057/01013 40 Regresión lineal simple
Inferencia en la regresión
1. Introducción
En otras sesiones nos hemos preocupado de estudiar la relación lineal entre
dos variables X e Y a partir de los valores observados en una muestra. Si en el
diagrama de dispersión observábamos una relación lineal, entonces calculába-
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.
Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-
servaciones proviene de una población. Nos preguntamos si esta relación li-
neal se puede extender de alguna manera a toda la población.
2. El modelo de regresión en la población
Modelo de regresión lineal
Es muy importante tener presente que, para un mismo valor de la variable X,
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada
valor de X no hay un único valor de Y, sino una distribución de frecuencias
de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de
otros factores difícilmente cuantificables o simplemente desconocidos. La in-
fluencia de este conjunto de factores es la que determina que la relación entre
X e Y sea estadística y no determinista. Todos estos factores son los responsa-
bles de los errores o residuos.
Dada una muestra de observaciones (x
i
, y
i
), y · 1, ... , n de individuos de una
población, ya sabemos encontrar la recta de regresión lineal .
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor
observado y el valor estimado , para una observación y
i
, podemos es-
cribir: , es decir:
Podemos hacer lo mismo con varias muestras de esta misma población.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
El peso depende de la
altura y de otros factores
En el ejemplo de la relación
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genéticos,
la actividad física, la alimenta-
ción, etc., que hacen que
una persona de una determi-
nada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
e
i
y
i
y
ˆ
i
– =
y
i
y
ˆ
i
e
i
+ =
y
i
β
ˆ
0 β
ˆ
1x e
i
+ + =
© FUOC • P03/75057/01013 40 Regresión lineal simple
Inferencia en la regresión
1. Introducción
En otras sesiones nos hemos preocupado de estudiar la relación lineal entre
dos variables X e Y a partir de los valores observados en una muestra. Si en el
diagrama de dispersión observábamos una relación lineal, entonces calculába-
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.
Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-
servaciones proviene de una población. Nos preguntamos si esta relación li-
neal se puede extender de alguna manera a toda la población.
2. El modelo de regresión en la población
Modelo de regresión lineal
Es muy importante tener presente que, para un mismo valor de la variable X,
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada
valor de X no hay un único valor de Y, sino una distribución de frecuencias
de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de
otros factores difícilmente cuantificables o simplemente desconocidos. La in-
fluencia de este conjunto de factores es la que determina que la relación entre
X e Y sea estadística y no determinista. Todos estos factores son los responsa-
bles de los errores o residuos.
Dada una muestra de observaciones (x
i
, y
i
), y · 1, ... , n de individuos de una
población, ya sabemos encontrar la recta de regresión lineal .
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor
observado y el valor estimado , para una observación y
i
, podemos es-
cribir: , es decir:
Podemos hacer lo mismo con varias muestras de esta misma población.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
El peso depende de la
altura y de otros factores
En el ejemplo de la relación
entre el peso y la altura de las
personas, es evidente que
existen muchos factores, como
pueden ser aspectos genéticos,
la actividad física, la alimenta-
ción, etc., que hacen que
una persona de una determi-
nada altura tenga un peso u
otro. Para una altura fija, de por
ejemplo 170 cm, no todas las
personas tienen el mismo peso.
y
ˆ
β
ˆ
0 β
ˆ
1x + =
e
i
y
i
y
ˆ
i
– =
y
i
y
ˆ
i
e
i
+ =
y
i
β
ˆ
0 β
ˆ
1x e
i
+ + =
© FUOC • P03/75057/01013 41 Regresión lineal simple
La recta de regresión correspondiente es: = –96,112 + 0,979x.
La recta de regresión correspondiente es: = –82,614 + 1,029x.
La recta de regresión correspondiente es: = –98,582 + 0,94x.
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
: –96,112; –82,614; –98,528
: 0,979; 1,029; 0,945.
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Ahora el objetivo es dar un modelo para todos los individuos de la población.
Éste vendrá dado por una expresión análoga a las encontradas por las muestras.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística.
Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen según una distribución normal de media cero y
varianza .
2) Los errores son independientes.
Muestra j = 1
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9 i = = 10
Altura ( x
ij
) 161 152 167 153 161 168 167 153 159 173
Peso ( y
ij
) 63 56 77 49 72 62 68 48 57 67
Muestra j = 2
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8
Altura (x
ij
) 161 152 167 153 161 168 167 153
Peso (y
ij
) 63 56 77 49 72 62 68 48
Muestra j = 3
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9
Altura (x
ij
) 161 152 167 153 161 168 167 153 159
Peso (y
ij
) 63 56 77 49 72 62 68 48 57
Lllamamos modelo de regresión lineal para la población a:
y
ˆ
y
ˆ
y
ˆ
β
ˆ
0
β
ˆ
1
Notación
No ponemos los “sombreros”
sobre los parámetros para indi-
car que ahora se trata de la
recta de regresión para la po-
blación.
y
i
β
0
β
1
x e
i
+ + =
σ
2
Distribución de los errores
en la realidad
La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varían menos su
peso que las personas que
miden 185 cm. De todos mo-
dos, aceptaremos la suposición
de que siempre son iguales.
© FUOC • P03/75057/01013 41 Regresión lineal simple
La recta de regresión correspondiente es: = –96,112 + 0,979x.
La recta de regresión correspondiente es: = –82,614 + 1,029x.
La recta de regresión correspondiente es: = –98,582 + 0,94x.
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
: –96,112; –82,614; –98,528
: 0,979; 1,029; 0,945.
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Ahora el objetivo es dar un modelo para todos los individuos de la población.
Éste vendrá dado por una expresión análoga a las encontradas por las muestras.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística.
Antes de continuar, tenemos que hacer dos suposiciones muy importantes:
1) Los errores se distribuyen según una distribución normal de media cero y
varianza .
2) Los errores son independientes.
Muestra j = 1
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9 i = = 10
Altura ( x
ij
) 161 152 167 153 161 168 167 153 159 173
Peso ( y
ij
) 63 56 77 49 72 62 68 48 57 67
Muestra j = 2
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8
Altura (x
ij
) 161 152 167 153 161 168 167 153
Peso (y
ij
) 63 56 77 49 72 62 68 48
Muestra j = 3
Individuos i = = 1 i = = 2 i = = 3 i = = 4 i = = 5 i = = 6 i = = 7 i = = 8 i = = 9
Altura (x
ij
) 161 152 167 153 161 168 167 153 159
Peso (y
ij
) 63 56 77 49 72 62 68 48 57
Lllamamos modelo de regresión lineal para la población a:
y
ˆ
y
ˆ
y
ˆ
β
ˆ
0
β
ˆ
1
Notación
No ponemos los “sombreros”
sobre los parámetros para indi-
car que ahora se trata de la
recta de regresión para la po-
blación.
y
i
β
0
β
1
x e
i
+ + =
σ
2
Distribución de los errores
en la realidad
La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo,
las personas que miden cerca
de 160 cm varían menos su
peso que las personas que
miden 185 cm. De todos mo-
dos, aceptaremos la suposición
de que siempre son iguales.
© FUOC • P03/75057/01013 42 Regresión lineal simple
Con estas suposiciones tenemos que:
1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va-
riable Y. Y podemos calcular la media o la esperanza matemática de cada una de
estas distribuciones:
2) También podemos calcular su varianza:
Cada distribución de valores de Y tiene la misma varianza σ
2
, que es la varian-
za de los residuos.
En el gráfico vemos la recta de regresión lineal para la población.
Es importante tener presente que para tener bien determinado el modelo de
regresión para la población, debemos conocer tres parámetros: β
0
, β
1
y σ
2
.
Estos parámetros desconocidos se tienen que estimar a partir de una muestra
de la población.
Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la
recta se estiman por el método de los mínimos cuadrados. Este método determi-
na aquellos valores de los parámetros que hacen mínima la suma de los cuadra-
dos de los residuos:
;
µ
x
E Y x ( ) E β
0
β
1
x e + + ( ) β
0
β
1
x E e ( ) + + β
0
β
1
x + = = = =
Var Y x ( ) Var β
0
β
1
x e + + ( ) Var β
0
β
1
x + ( ) Var e ( ) + 0 σ
2
+ σ
2
= = = =
Distribución de las medias
El primer resultado nos dice
que estas medias se encuen-
tran situadas sobre una recta.
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= =
© FUOC • P03/75057/01013 42 Regresión lineal simple
Con estas suposiciones tenemos que:
1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va-
riable Y. Y podemos calcular la media o la esperanza matemática de cada una de
estas distribuciones:
2) También podemos calcular su varianza:
Cada distribución de valores de Y tiene la misma varianza σ
2
, que es la varian-
za de los residuos.
En el gráfico vemos la recta de regresión lineal para la población.
Es importante tener presente que para tener bien determinado el modelo de
regresión para la población, debemos conocer tres parámetros: β
0
, β
1
y σ
2
.
Estos parámetros desconocidos se tienen que estimar a partir de una muestra
de la población.
Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la
recta se estiman por el método de los mínimos cuadrados. Este método determi-
na aquellos valores de los parámetros que hacen mínima la suma de los cuadra-
dos de los residuos:
;
µ
x
E Y x ( ) E β
0
β
1
x e + + ( ) β
0
β
1
x E e ( ) + + β
0
β
1
x + = = = =
Var Y x ( ) Var β
0
β
1
x e + + ( ) Var β
0
β
1
x + ( ) Var e ( ) + 0 σ
2
+ σ
2
= = = =
Distribución de las medias
El primer resultado nos dice
que estas medias se encuen-
tran situadas sobre una recta.
β
ˆ
0 y β
ˆ
1x – = β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

---------------------------------------------
= =
© FUOC • P03/75057/01013 43 Regresión lineal simple
De manera que y son los valores estimados (o “estimadores”) de los pa-
rámetros y de la población. Y la recta que mejor se ajusta a los datos es:
Todavía nos falta estimar la varianza de los errores aleatorios, σ
2
. Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Si consideramos los residuos de la regresión como estimaciones de los valores de
los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza
de los residuos:
Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1.
Esto se debe a que estimamos la media de Y para un valor dado de X con una
fórmula que contiene dos parámetros estimados a partir de los datos de la mues-
tra ( y ). Diremos que “hemos perdido dos grados de libertad”.
Ejemplo de las alturas y los pesos
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
La recta de regresión correspondiente es:
· −96,112 + 0,979x
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (x) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
i x
i
y
i

1 161 63 61,51 –0,4 0,16 1,49 2,225
2 152 56 52,70 –9,4 88,36 3,30 10,908
3 167 77 67,38 5,6 31,36 9,62 92,498
4 153 49 53,68 –8,4 70,56 –4,68 21,868
5 161 72 61,51 –0,4 0,16 10,49 110,075
6 168 62 68,36 6,6 43,56 –6,36 40,468
7 167 68 67,38 5,6 31,36 0,62 0,381
8 153 48 53,68 –8,4 70,56 –5,68 32,220
β
ˆ
0 β
ˆ
1
β
0
β
1
Valor medio
Debemos interpretar:
como la estimación del valor
medio de la distribución Y para
un valor fijo X = x
i
.
y
ˆ
i
β
0
ˆ
β
1
ˆ
x
i
+ = y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
Terminología
Habitualmente, s
2
se denomi-
na varianza residual.
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
2
i 1 =
n

=
β
ˆ
0 β
ˆ
1
Pérdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la división por (n – 1) en la fór-
mula de la varianza muestral:
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
----------------------------
=
y
ˆ
En la sesión “El modelo de regresión
simple” se deduce la recta
de regresión correspondiente
a este ejemplo.
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
© FUOC • P03/75057/01013 43 Regresión lineal simple
De manera que y son los valores estimados (o “estimadores”) de los pa-
rámetros y de la población. Y la recta que mejor se ajusta a los datos es:
Todavía nos falta estimar la varianza de los errores aleatorios, σ
2
. Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Si consideramos los residuos de la regresión como estimaciones de los valores de
los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza
de los residuos:
Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1.
Esto se debe a que estimamos la media de Y para un valor dado de X con una
fórmula que contiene dos parámetros estimados a partir de los datos de la mues-
tra ( y ). Diremos que “hemos perdido dos grados de libertad”.
Ejemplo de las alturas y los pesos
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
La recta de regresión correspondiente es:
· −96,112 + 0,979x
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (x) 161 152 167 153 161 168 167 153 159 173
Peso (y
i
) 63 56 77 49 72 62 68 48 57 67
i x
i
y
i

1 161 63 61,51 –0,4 0,16 1,49 2,225
2 152 56 52,70 –9,4 88,36 3,30 10,908
3 167 77 67,38 5,6 31,36 9,62 92,498
4 153 49 53,68 –8,4 70,56 –4,68 21,868
5 161 72 61,51 –0,4 0,16 10,49 110,075
6 168 62 68,36 6,6 43,56 –6,36 40,468
7 167 68 67,38 5,6 31,36 0,62 0,381
8 153 48 53,68 –8,4 70,56 –5,68 32,220
β
ˆ
0 β
ˆ
1
β
0
β
1
Valor medio
Debemos interpretar:
como la estimación del valor
medio de la distribución Y para
un valor fijo X = x
i
.
y
ˆ
i
β
0
ˆ
β
1
ˆ
x
i
+ = y
ˆ
i
β
ˆ
0 β
ˆ
1x
i
+ =
Terminología
Habitualmente, s
2
se denomi-
na varianza residual.
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 – β
ˆ
1x
i
– ( )
2
i 1 =
n

=
β
ˆ
0 β
ˆ
1
Pérdida de grados de
libertad
El razonamiento es el mismo
que el que hacemos al justificar
la división por (n – 1) en la fór-
mula de la varianza muestral:
Lo hacemos porque hemos
perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
s
x
2
x
i
x – ( )
2
i 1 =
n

n 1 –
----------------------------
=
y
ˆ
En la sesión “El modelo de regresión
simple” se deduce la recta
de regresión correspondiente
a este ejemplo.
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
© FUOC • P03/75057/01013 44 Regresión lineal simple
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 · 8, obtenemos
la varianza de los residuos:
3. Distribución probabilística de la pendiente ( )
La ordenada en el origen nos informa del valor medio de la variable Y para
un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente.
Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar
intervalos de confianza), será necesario conocer la distribución de probabili-
dad de .
Del modelo de regresión lineal tenemos que es una combinación lineal de
las observaciones y
i
; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), enton-
ces también tendrá una distribución normal. Tendremos bien determinada
esta distribución cuando conozcamos la esperanza y la varianza.
A partir de la expresión de podemos encontrar el valor esperado y la varianza.
• Valor esperado de :
La pendiente estimada de la recta está distribuida según una distribución
normal con una media igual al valor de este parámetro para la población.
Aunque este valor es desconocido, este resultado nos será muy útil para te-
ner información de la población haciendo inferencia estadística. Esto lo ve-
remos un poco más adelante en esta sesión.
• Varianza de :
i x
i
y
i

9 159 57 59,55 –2,4 5,76 –2,55 6,504
10 173 67 73,26 11,6 134,56 –6,26 39,143
Σ
1.6
14
619 476,4 356,290
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
----------------------
44,536 = = =
β
ˆ
1
β
0
β
ˆ
1
β
ˆ
1
β
ˆ
1
β
ˆ
1 Los desarrollos matemáticos se
muestran en el anexo de esta sesión.
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
2
σ
2
x
i
x – ( )
2

--------------------------
=
© FUOC • P03/75057/01013 44 Regresión lineal simple
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 · 8, obtenemos
la varianza de los residuos:
3. Distribución probabilística de la pendiente ( )
La ordenada en el origen nos informa del valor medio de la variable Y para
un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente.
Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar
intervalos de confianza), será necesario conocer la distribución de probabili-
dad de .
Del modelo de regresión lineal tenemos que es una combinación lineal de
las observaciones y
i
; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), enton-
ces también tendrá una distribución normal. Tendremos bien determinada
esta distribución cuando conozcamos la esperanza y la varianza.
A partir de la expresión de podemos encontrar el valor esperado y la varianza.
• Valor esperado de :
La pendiente estimada de la recta está distribuida según una distribución
normal con una media igual al valor de este parámetro para la población.
Aunque este valor es desconocido, este resultado nos será muy útil para te-
ner información de la población haciendo inferencia estadística. Esto lo ve-
remos un poco más adelante en esta sesión.
• Varianza de :
i x
i
y
i

9 159 57 59,55 –2,4 5,76 –2,55 6,504
10 173 67 73,26 11,6 134,56 –6,26 39,143
Σ
1.6
14
619 476,4 356,290
y
ˆ
i
x
i
x – x
i
x – ( )
2
e
i
y
i
y
ˆ
i
– = e
i
2
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
----------------------
44,536 = = =
β
ˆ
1
β
0
β
ˆ
1
β
ˆ
1
β
ˆ
1
β
ˆ
1 Los desarrollos matemáticos se
muestran en el anexo de esta sesión.
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
2
σ
2
x
i
x – ( )
2

--------------------------
=
© FUOC • P03/75057/01013 45 Regresión lineal simple
A continuación veremos que necesitaremos la información de la muestra, ya
que σ
2
es un valor desconocido que tendremos que estimar.
4. El intervalo de confianza para la pendiente
Acabamos de ver que las suposiciones del modelo de regresión lineal simple im-
plican que el parámetro es una variable aleatoria distribuida normalmente
con:
– Media:
– Varianza:
Dado que esta varianza σ
2
es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Definimos el error estándar de la pendiente como:
Dado que sigue una distribución normal con varianza desconocida (ya que
no se conoce σ
2
), entonces la variable tipificada:
tiene una distribución t de Student con n – 2 grados de libertad.
Este intervalo está centrado en la estimación puntual del parámetro, es decir,
en , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico t
α/2, n − 2
) y de la
variabilidad del estimador (mediante ).
Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)%
por la pendiente β
1
de la recta de regresión poblacional viene dado por:
ya que:
β
ˆ
1
β
1
σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2

--------------------------
=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 β
ˆ
– 1x
i
– ( )
2
i 1 =
n

=
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
=
β
ˆ
1
β
ˆ
1 β
1

s
β
ˆ
1
-----------------
Intervalo de confianza
por la pendiente con un nivel
significativo α.
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
P t
α 2 n 2 – , ⁄

β
ˆ
1 β
1

s
β
ˆ
1
----------------- t
α 2 n 2 – , ⁄
≤ ≤
. ,

| `
1 α – =
β
ˆ
1
β
ˆ
1 s
β
ˆ
1
© FUOC • P03/75057/01013 45 Regresión lineal simple
A continuación veremos que necesitaremos la información de la muestra, ya
que σ
2
es un valor desconocido que tendremos que estimar.
4. El intervalo de confianza para la pendiente
Acabamos de ver que las suposiciones del modelo de regresión lineal simple im-
plican que el parámetro es una variable aleatoria distribuida normalmente
con:
– Media:
– Varianza:
Dado que esta varianza σ
2
es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Definimos el error estándar de la pendiente como:
Dado que sigue una distribución normal con varianza desconocida (ya que
no se conoce σ
2
), entonces la variable tipificada:
tiene una distribución t de Student con n – 2 grados de libertad.
Este intervalo está centrado en la estimación puntual del parámetro, es decir,
en , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico t
α/2, n − 2
) y de la
variabilidad del estimador (mediante ).
Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)%
por la pendiente β
1
de la recta de regresión poblacional viene dado por:
ya que:
β
ˆ
1
β
1
σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2

--------------------------
=
s
2 1
n 2 –
------------ y
i
β
ˆ
0 β
ˆ
– 1x
i
– ( )
2
i 1 =
n

=
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
=
β
ˆ
1
β
ˆ
1 β
1

s
β
ˆ
1
-----------------
Intervalo de confianza
por la pendiente con un nivel
significativo α.
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
P t
α 2 n 2 – , ⁄

β
ˆ
1 β
1

s
β
ˆ
1
----------------- t
α 2 n 2 – , ⁄
≤ ≤
. ,

| `
1 α – =
β
ˆ
1
β
ˆ
1 s
β
ˆ
1
© FUOC • P03/75057/01013 46 Regresión lineal simple
Ejemplo de las alturas y los pesos
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: · –96,112 + 0,979x, de manera
que · 0,979.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α · 0,05 y mi-
rando la tabla de la t de Student tenemos un valor crítico de
Para calcular el intervalo de confianza: , antes
tenemos que calcular:
donde:
Antes ya hemos calculado la varianza de los residuos:
De manera que:
Por tanto, el error estándar de la pendiente será:
Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
5. El contraste de hipótesis sobre la pendiente
Observemos que si en el modelo de regresión lineal la pendiente es cero, en-
tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable explicativa del modelo.
En este apartado haremos un contraste de hipótesis sobre la pendiente de la
recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Como en todos los contrastes de hipótesis, daremos los pasos siguientes:
1) Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H
0
: β
1
· 0, es decir, la variable X no es explicativa.
• Hipótesis alternativa: H
1
: β
1
≠ 0, es decir, la variable X es explicativa.
y
ˆ
β
ˆ
1
t
α 2; n 2 – ⁄
t
0,025;8
2,3060. = =
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
---------------------- 44,536 = = =
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
44,536
476,4
-------------------
0,093 = = =
s
β
ˆ
1
0,093 0,306 = =
© FUOC • P03/75057/01013 46 Regresión lineal simple
Ejemplo de las alturas y los pesos
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: · –96,112 + 0,979x, de manera
que · 0,979.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α · 0,05 y mi-
rando la tabla de la t de Student tenemos un valor crítico de
Para calcular el intervalo de confianza: , antes
tenemos que calcular:
donde:
Antes ya hemos calculado la varianza de los residuos:
De manera que:
Por tanto, el error estándar de la pendiente será:
Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
5. El contraste de hipótesis sobre la pendiente
Observemos que si en el modelo de regresión lineal la pendiente es cero, en-
tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable explicativa del modelo.
En este apartado haremos un contraste de hipótesis sobre la pendiente de la
recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Como en todos los contrastes de hipótesis, daremos los pasos siguientes:
1) Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H
0
: β
1
· 0, es decir, la variable X no es explicativa.
• Hipótesis alternativa: H
1
: β
1
≠ 0, es decir, la variable X es explicativa.
y
ˆ
β
ˆ
1
t
α 2; n 2 – ⁄
t
0,025;8
2,3060. = =
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
– β
1
β
ˆ
1
t
α 2 n 2 – , ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

=
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

356,290
10 2 –
---------------------- 44,536 = = =
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

----------------------------
44,536
476,4
-------------------
0,093 = = =
s
β
ˆ
1
0,093 0,306 = =
© FUOC • P03/75057/01013 47 Regresión lineal simple
No rechazar la hipótesis nula significa que no se puede considerar el paráme-
tro β
1
significativamente diferente de cero. Es decir, la variable X no tiene in-
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las
dos variables.
2) Fijamos un nivel significativo α.
3) Bajo el supuesto de la hipótesis nula cierta (β
1
· 0) tenemos el estadístico
de contraste:
que corresponde a una observación de una distribución t de Student con n − 2
grados de libertad.
4) Finalmente, podemos actuar de dos maneras:
a) A partir del p-valor. Este valor es: p · 2P(t
n–2
> |t|).
• Si p ≤ α se rechaza la hipótesis nula H
0
.
• Si p > α no se rechaza la hipótesis nula H
0
.
b) A partir de los valores críticos tt
α/2, n–2
, de manera que:
• Si |t| > t
α/2, n–2
, se rechaza la hipótesis nula H
0
; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ t
α/2, n–2
, no se rechaza la hipótesis nula H
0
; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Ejemplo de las alturas y los pesos
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n – 2 · 10 – 2 · 8 grados de libertad.
3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-
gemos un nivel significativo de α · 0,05:
a) A partir del p-valor: P(|t| > 3,202) · 2P(t > 3,202) · 2 · 0,0063 · 0,0126 < 0,05; por tanto,
rechazamos la hipótesis nula.
b) A partir del valor crítico que es t
0,025;8
· 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al-
tura es explicativa del peso de las personas con un 95% de confianza.
Interpretación geométrica
No rechazar H
0
significa que la
recta estimada tiene una pen-
diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
t
β
ˆ
1
s
β
ˆ
1
------
=
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno más alejado si la hipótesis
nula es cierta.
t
β
ˆ
1
s
β
ˆ
1
-------
3,202 = =
© FUOC • P03/75057/01013 47 Regresión lineal simple
No rechazar la hipótesis nula significa que no se puede considerar el paráme-
tro β
1
significativamente diferente de cero. Es decir, la variable X no tiene in-
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las
dos variables.
2) Fijamos un nivel significativo α.
3) Bajo el supuesto de la hipótesis nula cierta (β
1
· 0) tenemos el estadístico
de contraste:
que corresponde a una observación de una distribución t de Student con n − 2
grados de libertad.
4) Finalmente, podemos actuar de dos maneras:
a) A partir del p-valor. Este valor es: p · 2P(t
n–2
> |t|).
• Si p ≤ α se rechaza la hipótesis nula H
0
.
• Si p > α no se rechaza la hipótesis nula H
0
.
b) A partir de los valores críticos tt
α/2, n–2
, de manera que:
• Si |t| > t
α/2, n–2
, se rechaza la hipótesis nula H
0
; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ t
α/2, n–2
, no se rechaza la hipótesis nula H
0
; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Ejemplo de las alturas y los pesos
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n – 2 · 10 – 2 · 8 grados de libertad.
3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-
gemos un nivel significativo de α · 0,05:
a) A partir del p-valor: P(|t| > 3,202) · 2P(t > 3,202) · 2 · 0,0063 · 0,0126 < 0,05; por tanto,
rechazamos la hipótesis nula.
b) A partir del valor crítico que es t
0,025;8
· 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al-
tura es explicativa del peso de las personas con un 95% de confianza.
Interpretación geométrica
No rechazar H
0
significa que la
recta estimada tiene una pen-
diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
t
β
ˆ
1
s
β
ˆ
1
------
=
Recordemos que...
... el p-valor es la probabilidad
del resultado observado o de
uno más alejado si la hipótesis
nula es cierta.
t
β
ˆ
1
s
β
ˆ
1
-------
3,202 = =
© FUOC • P03/75057/01013 48 Regresión lineal simple
6. Resumen
En esta sesión dedicada a la regresión lineal simple hemos considerado que
nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de
una población y que las utilizamos para extraer algunas conclusiones del com-
portamiento de las variables sobre la población. Hemos establecido el modelo
de regresión lineal con sus hipótesis básicas más importantes y hemos visto
cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la
muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha-
cer un contraste de hipótesis para decidir si la variable X nos explica realmente
el comportamiento de la variable Y.
© FUOC • P03/75057/01013 48 Regresión lineal simple
6. Resumen
En esta sesión dedicada a la regresión lineal simple hemos considerado que
nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de
una población y que las utilizamos para extraer algunas conclusiones del com-
portamiento de las variables sobre la población. Hemos establecido el modelo
de regresión lineal con sus hipótesis básicas más importantes y hemos visto
cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la
muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha-
cer un contraste de hipótesis para decidir si la variable X nos explica realmente
el comportamiento de la variable Y.
© FUOC • P03/75057/01013 49 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
La recta de regresión calculada a partir de estos datos es:
· 1,659 + 25,318x
i
a) Calculad un intervalo de confianza del 95% para la pendiente de la recta
de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α · 0,05, para
saber si la variable “número de semanas” es explicativa de la variable “ganan-
cia de velocidad”.
2.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes:
Número de
semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Gastos en publicidad
(x 1.000 €)
Ventas
(x 1.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
y
ˆ
i
© FUOC • P03/75057/01013 49 Regresión lineal simple
Ejercicios
1.
El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
La recta de regresión calculada a partir de estos datos es:
· 1,659 + 25,318x
i
a) Calculad un intervalo de confianza del 95% para la pendiente de la recta
de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α · 0,05, para
saber si la variable “número de semanas” es explicativa de la variable “ganan-
cia de velocidad”.
2.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes:
Número de
semanas
Ganancia de velocidad
(p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Gastos en publicidad
(x 1.000 €)
Ventas
(x 1.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
y
ˆ
i
© FUOC • P03/75057/01013 50 Regresión lineal simple
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,8 + 3,95 x.
A partir de toda esta información, calculad un intervalo de confianza del 95%
para la pendiente.
Solucionario
1.
a) Intervalo de confianza:
Queremos un intervalo de confianza del 95%, por tanto, α · 0,05 y obser-
vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor
crítico de t
α/2;n–2
· · t
0,025;6
· 2,4469.
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
El intervalo de confianza viene dado por:
Y ya estamos en condiciones de calcular cada uno de estos términos:
i x
i
y
i
1 3 87 –2 4 77,61 9,39 88,116
2 5 119 0 0 128,25 –9,25 85,544
3 2 47 –3 9 52,30 –5,30 28,037
4 8 195 3 9 204,20 –9,20 84,695
5 6 162 1 1 153,57 8,43 71,115
6 9 234 4 16 229,52 4,48 20,061
7 3 72 –2 4 77,61 –5,61 31,506
8 4 110 –1 1 102,93 7,07 49,971
Σ 40 1.026 35 44 459,045
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = y
i
y
ˆ
i
– ( )
2
i 1 =
10

19.796,34 =
y
ˆ
x
i
x – x
i
x – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– = e
i
2
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

---------------------------
76,507
44,0
-------------------
1,739 = = =
© FUOC • P03/75057/01013 50 Regresión lineal simple
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión:

· 308,8 + 3,95 x.
A partir de toda esta información, calculad un intervalo de confianza del 95%
para la pendiente.
Solucionario
1.
a) Intervalo de confianza:
Queremos un intervalo de confianza del 95%, por tanto, α · 0,05 y obser-
vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor
crítico de t
α/2;n–2
· · t
0,025;6
· 2,4469.
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
El intervalo de confianza viene dado por:
Y ya estamos en condiciones de calcular cada uno de estos términos:
i x
i
y
i
1 3 87 –2 4 77,61 9,39 88,116
2 5 119 0 0 128,25 –9,25 85,544
3 2 47 –3 9 52,30 –5,30 28,037
4 8 195 3 9 204,20 –9,20 84,695
5 6 162 1 1 153,57 8,43 71,115
6 9 234 4 16 229,52 4,48 20,061
7 3 72 –2 4 77,61 –5,61 31,506
8 4 110 –1 1 102,93 7,07 49,971
Σ 40 1.026 35 44 459,045
x
i
i 1 =
10

347 = y
i
i 1 =
10

4.460 = x
i
x – ( ) y
i
y – ( )
i 1 =
10

6.018 =
x
i
x – ( )
2
i 1 =
10

1.522,1 = y
i
y – ( )
2
i 1 =
10

43.590,0 =
y
ˆ
i
y – ( )
2
i 1 =
10

23.793,66 = y
i
y
ˆ
i
– ( )
2
i 1 =
10

19.796,34 =
y
ˆ
x
i
x – x
i
x – ( )
2
y
ˆ
i
e
i
y
i
y
ˆ
i
– = e
i
2
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

---------------------------
76,507
44,0
-------------------
1,739 = = =
© FUOC • P03/75057/01013 51 Regresión lineal simple
donde .
Por tanto, .
Y el intervalo de confianza es:
[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]
Es decir:
[22,092; 28,545]
b) Contraste de hipótesis para α · 0,05:
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n − 2 · 6 grados de libertad.
3) Conclusión: puesto que para α · 0,05 tenemos un valor crítico t
0,025;6
·
2,4469 menor que el estadístico de contraste t · 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”.
2.
El intervalo de confianza viene dado por:
Necesitamos calcular el error estándar de la pendiente y encontrar los valores
críticos.
1) Error estándar de la pendiente:
Primero calculamos:
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

459,045
10 2 –
----------------------
76,507 = = =
s
β
ˆ
1
1,739 1,319 = =
t
β
ˆ
1
s
β
ˆ
1
------
19,200 = =
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

19.796,34
10 2 –
---------------------------
2.474,54 = = =
© FUOC • P03/75057/01013 51 Regresión lineal simple
donde .
Por tanto, .
Y el intervalo de confianza es:
[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]
Es decir:
[22,092; 28,545]
b) Contraste de hipótesis para α · 0,05:
1) Establecemos las hipótesis nula y alternativa:
Hipótesis nula: H
0
: β
1
· 0
Hipótesis alternativa: H
1
: β
1
≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n − 2 · 6 grados de libertad.
3) Conclusión: puesto que para α · 0,05 tenemos un valor crítico t
0,025;6
·
2,4469 menor que el estadístico de contraste t · 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”.
2.
El intervalo de confianza viene dado por:
Necesitamos calcular el error estándar de la pendiente y encontrar los valores
críticos.
1) Error estándar de la pendiente:
Primero calculamos:
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

459,045
10 2 –
----------------------
76,507 = = =
s
β
ˆ
1
1,739 1,319 = =
t
β
ˆ
1
s
β
ˆ
1
------
19,200 = =
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
– β
1
β
ˆ
1 t
α 2, n 2 – ⁄
s
β
ˆ
1
+ ≤ ≤ [ ]
s
2 1
n 2 –
------------ y
i
y
ˆ
i
– ( )
2
i 1 =
n

19.796,34
10 2 –
---------------------------
2.474,54 = = =
© FUOC • P03/75057/01013 52 Regresión lineal simple
de manera que:
Por tanto, el error estándar de la pendiente vale:
2) Un intervalo de confianza del 95% con n · 10, tenenemos unos valores crí-
ticos:
t
0,025;8
· ±2,3060.
3) Por tanto, el intervalo de confianza es:
[3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
fianza del 95%.
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
2.474,54
1.522,1
------------------------
1,626 = = =
s
β
ˆ
1
1,626 1,275 = =
© FUOC • P03/75057/01013 52 Regresión lineal simple
de manera que:
Por tanto, el error estándar de la pendiente vale:
2) Un intervalo de confianza del 95% con n · 10, tenenemos unos valores crí-
ticos:
t
0,025;8
· ±2,3060.
3) Por tanto, el intervalo de confianza es:
[3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con-
fianza del 95%.
s
β
ˆ
1
2 s
2
x
i
x – ( )
2

--------------------------
2.474,54
1.522,1
------------------------
1,626 = = =
s
β
ˆ
1
1,626 1,275 = =
© FUOC • P03/75057/01013 53 Regresión lineal simple
Anexos
Anexo 1
a) Valor esperado de :
Manipulando un poco la expresión que tenemos para :
Si hacemos: , podemos escribir:
Si ahora calculamos el valor esperado:
Vemos que: y que
Para calcular el término , utilizaremos la igualdad siguiente:
Ya que:
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
j
x – ( )
2
j 1 =
n

---------------------------------------------
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------y
i
i 1 =
n

= = =
w
i
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------
= β
ˆ
1 w
i
y
i
i 1 =
n

=
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) · kE(X).
E β
ˆ
1 ( ) E w
i
y
i
i 1 =
n

. ,
| `
E w
i
y
i
( )
i 1 =
n

w
i
E y
i
( )
i 1 =
n

= = = =
w
i
β
0
β
1
x
i
+ ( )
i 1 =
n

w
i
β
0
β
1
w
i
x
i
+
i 1 =
n

= = =
w
i
β
0
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ β
0
w
i
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ = =
w
i
i 1 =
n

0 = w
i
x
i
i 1 =
n

1 =
Observación
Puesto que:
es fácil ver que:
x
1
n
--- x
i
i 1 =
n

=
x
i
x – ( )
i 1 =
n

0 =
w
i
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

1
x
i
x – ( )
2
i 1 =
n

------------------------------- x
i
x – ( )
i 1 =
n

0 = = =
w
i
x
i
i 1 =
n

w
i
x
i
x – ( )
i 1 =
n

w
i
x
i
i 1 =
n

w
i
x
i 1 =
n

– w
i
x
i
i 1 =
n

x w
i
i 1 =
n

– w
i
x
i
i 1 =
n

= = =
w
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 53 Regresión lineal simple
Anexos
Anexo 1
a) Valor esperado de :
Manipulando un poco la expresión que tenemos para :
Si hacemos: , podemos escribir:
Si ahora calculamos el valor esperado:
Vemos que: y que
Para calcular el término , utilizaremos la igualdad siguiente:
Ya que:
β
ˆ
1
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
β
ˆ
1
s
xy
s
x
2
------
x
i
x – ( ) y
i
y – ( )
i 1 =
n

x
j
x – ( )
2
j 1 =
n

---------------------------------------------
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------y
i
i 1 =
n

= = =
w
i
x
i
x – ( )
x
j
x – ( )
2
j 1 =
n

-----------------------------
= β
ˆ
1 w
i
y
i
i 1 =
n

=
Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una variable
es:
E(kX) · kE(X).
E β
ˆ
1 ( ) E w
i
y
i
i 1 =
n

. ,
| `
E w
i
y
i
( )
i 1 =
n

w
i
E y
i
( )
i 1 =
n

= = = =
w
i
β
0
β
1
x
i
+ ( )
i 1 =
n

w
i
β
0
β
1
w
i
x
i
+
i 1 =
n

= = =
w
i
β
0
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ β
0
w
i
i 1 =
n

β
1
w
i
x
i
i 1 =
n

+ = =
w
i
i 1 =
n

0 = w
i
x
i
i 1 =
n

1 =
Observación
Puesto que:
es fácil ver que:
x
1
n
--- x
i
i 1 =
n

=
x
i
x – ( )
i 1 =
n

0 =
w
i
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

1
x
i
x – ( )
2
i 1 =
n

------------------------------- x
i
x – ( )
i 1 =
n

0 = = =
w
i
x
i
i 1 =
n

w
i
x
i
x – ( )
i 1 =
n

w
i
x
i
i 1 =
n

w
i
x
i 1 =
n

– w
i
x
i
i 1 =
n

x w
i
i 1 =
n

– w
i
x
i
i 1 =
n

= = =
w
i
i 1 =
n

0 =
© FUOC • P03/75057/01013 54 Regresión lineal simple
De manera que:
Así pues:
Y, finalmente, tenemos que: .
b) Varianza de :

Tenemos que la varianza de es:
w
i
x
i
x – ( )
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

----------------------------- x
i
x – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

x
i
x – ( )
2
i 1 =
n

-----------------------------
1 = = =
w
i
x
i
i 1 =
n

1 =
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
Var β
ˆ
1 ( ) Var w
i
y
i
i 1 =
n

. ,
| `
Var w
i
y
i
( )
i 1 =
n

w
i
2
Var y
i
( )
i 1 =
n

= = = = =
Propiedad de la varianza
Var(kX) · k
2
Var (X).
σ
2
w
i
2
i 1 =
n

σ
2 x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

. ,



| `
2
σ
2 1
x
i
x – ( )
2
i 1 =
n

----------------------------- = = =
β
ˆ
1 σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2
i 1 =
n

-----------------------------
=
© FUOC • P03/75057/01013 54 Regresión lineal simple
De manera que:
Así pues:
Y, finalmente, tenemos que: .
b) Varianza de :

Tenemos que la varianza de es:
w
i
x
i
x – ( )
i 1 =
n

x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

----------------------------- x
i
x – ( )
i 1 =
n

x
i
x – ( )
2
i 1 =
n

x
i
x – ( )
2
i 1 =
n

-----------------------------
1 = = =
w
i
x
i
i 1 =
n

1 =
E β
ˆ
1 ( ) β
1
=
β
ˆ
1
σ
β
ˆ
1
Var β
ˆ
1 ( ) Var w
i
y
i
i 1 =
n

. ,
| `
Var w
i
y
i
( )
i 1 =
n

w
i
2
Var y
i
( )
i 1 =
n

= = = = =
Propiedad de la varianza
Var(kX) · k
2
Var (X).
σ
2
w
i
2
i 1 =
n

σ
2 x
i
x – ( )
x
i
x – ( )
2
i 1 =
n

-----------------------------
i 1 =
n

. ,



| `
2
σ
2 1
x
i
x – ( )
2
i 1 =
n

----------------------------- = = =
β
ˆ
1 σ
β
ˆ
1
2 σ
2
x
i
x – ( )
2
i 1 =
n

-----------------------------
=

© FUOC • P03/75057/01013

Regresión lineal simple

Índice

Sesión 1 El modelo de regresión simple .............................................................. 1. Introducción ............................................................................................ 2. Relaciones entre dos variables ................................................................. 3. Diagramas de dispersión y curvas de regresión ....................................... 4. Recta de regresión .................................................................................... 4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 5 5 5 6 8 8

5. Interpretación de los parámetros de la recta de regresión....................... 10 6. Construcción de la tabla para determinar los parámetros ...................... 10 7. Interpolación y extrapolación ................................................................. 12 8. Modelos de regresión no lineales ............................................................ 13 9. Resumen................................................................................................... 14 Ejercicios ....................................................................................................... 16 Anexos .......................................................................................................... 20 Sesión 2 La calidad del ajuste ................................................................................ 23 1. Introducción ............................................................................................ 23 2. El coeficiente de determinación, R2......................................................... 23 3. El coeficiente de correlación muestral, r.................................................. 26 4. Relación entre R2 y r ................................................................................ 28 5. Diagnóstico de la regresión: análisis de los residuos ............................... 30 6. Resumen................................................................................................... 33 Ejercicios ....................................................................................................... 34 Anexos .......................................................................................................... 38 Sesión 3 Inferencia en la regresión ..................................................................... 40 1. Introducción ............................................................................................ 40 2. El modelo de regresión en la población .................................................. 40 ˆ 3. Distribución probabilística de la pendiente ( β 1 ) .................................... 44 4. El intervalo de confianza para la pendiente ............................................ 45 5. El contraste de hipótesis sobre la pendiente ........................................... 46 6. Resumen................................................................................................... 48 Ejercicios ....................................................................................................... 49 Anexos .......................................................................................................... 53

© FUOC • P03/75057/01013

5

Regresión lineal simple

El modelo de regresión simple

1. Introducción Después de estudiar cómo hay que organizar, representar gráficamente y analizar un conjunto de datos a partir de algunos parámetros, nos proponemos estudiar las relaciones entre variables. Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas de un conjunto de personas por separado. Ahora el objetivo es determinar si existe alguna relación entre estas variables. Queremos construir modelos que describan la relación entre las variables con el propósito, principalmente, de predecir los valores de una variable a partir de los valores de la otra. Lo haremos con el modelo de regresión lineal simple.

Origen de los modelos de regresión Estos modelos fueron utilizados por Laplace y Gauss en sus trabajos de astronomía y física desarrollados durante el siglo XVIII, pero el nombre de modelos de regresión tiene su origen en los trabajos de Galton en biología de finales del siglo XIX. La expresión de Galton: “regression towards mediocrity” dio nombre a la regresión.

2. Relaciones entre dos variables El modelo de regresión lineal simple nos permite construir un modelo para explicar la relación entre dos variables.

El objetivo es explicar el comportamiento de una variable Y, que denominaremos variable explicada (o dependiente o endógena), a partir de otra variable X, que llamaremos variable explicativa (o independiente o exógena).

Ejemplo de relación entre dos variables Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces podríamos escoger la segunda como variable explicada Y y la primera como variable explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos: cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio. Es importante observar que también podríamos escoger las variables a la inversa, es decir, los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y. Cuanto más dinero gastemos en ocio, más ingresos tendremos.

No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable explicada. Como veremos más adelante, dependerá en gran medida de las características de los datos que tengamos. Las relaciones entre dos variables pueden ser de dos tipos: 1) Funcionales (o deterministas): cuando hay una fórmula matemática que permite calcular los valores de una de las variables a partir de los valores que toma la otra.

Ejemplo de relación funcional Podemos conocer el área de un cuadrado a partir de la longitud de su lado.

Ejemplo de diagramas de dispersión El diagrama de dispersión puede presentar formas diversas: . la actividad física. Diagramas de dispersión y curvas de regresión A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra de individuos. etc. Esta representación es el llamado diagrama de dispersión. la alimentación. el primer paso en un análisis de regresión es representar estos datos sobre unos ejes coordenados x-y. y eso sabemos que no es cierto. ya que esto significaría que todas las personas que tienen la misma altura tendrían el mismo peso. Ejemplo de relación estadística Sabemos que hay una relación entre la altura y el peso de las personas: en general. Nos puede ayudar mucho en la búsqueda de un modelo que describa la relación entre las dos variables. como pueden ser factores genéticos. Todos estos factores y otros que no conocemos hacen que la relación entre estas dos variables sea estadística y no funcional. 3. Terminología El diagrama de dispersión también se conoce como nube de puntos. que hacen que una persona de una determinada altura tenga un peso u otro.© FUOC • P03/75057/01013 6 Regresión lineal simple 2) Estadísticas (o estocásticas): cuando no existe una expresión matemática que las relacione de forma exacta. Pero no existe ninguna fórmula matemática que nos dé una en función de la otra. El diagrama de dispersión se obtiene representando cada observación (xi. yi) como un punto en el plano cartesiano XY. cuanta más altura. En la relación entre el peso y la altura es evidente que existen muchos factores. más peso.

En el caso (e) podemos ver un tipo de dependencia lineal con pendiente negativa. ya que a medida que el valor de X aumenta. tal como se ve en la tabla siguiente: Individuo X altura (cm) Y peso (kg) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 Definición y ejemplo de valor atípico Por valor atípico entendemos un valor muy diferente de los otros y que muy posiblemente es erróneo. pero sí que es posible asegurar la existencia de una fuerte relación entre las dos variables. etc. En el caso (d) no tenemos ningún tipo de relación entre las variables. con pendiente negativa.© FUOC • P03/75057/01013 7 Regresión lineal simple En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. Los puntos no están sobre una línea recta. . Por ejemplo. los puntos se encuentran absolutamente dispersos.. La nube de puntos no presenta una forma “tubular” bien determinada. de manera que tenemos una relación funcional entre las dos variables dada por la ecuación de la recta. en el que la pendiente es positiva. En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos variables. Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso. Cuando tenemos un valor atípico. de manera que podemos pensar en una fuerte relación lineal. El diagrama de dispersión también nos puede ayudar a encontrar algún valor atípico entre los datos de la muestra que pueda tener su origen en una mala observación o en el hecho de ser una observación correspondiente a un individuo excepcional dentro de la muestra. que nos indica que a medida que X aumenta. vemos que no se trata de una relación lineal (la nube de puntos tiene forma de parábola). la Y es cada vez menor y lo contrario en el segundo caso. una persona de 150 cm de altura y 150 kg de peso. ya que los puntos no se sitúan sobre una curva. el individuo 2 tiene 152 cm de altura y 56 kg de peso. el valor de Y disminuye. En estos dos casos los puntos se ajustan perfectamente sobre la recta. En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene una forma bien determinada. En el primer caso. No será una relación funcional. De todos modos. pero se acercan bastante. debemos controlar las influencias que pueda tener en el análisis. pero no tan fuerte como la anterior. En el diagrama de dispersión saldrá como un punto solitario alejado de los otros. En el caso (f) observamos una relación lineal con pendiente positiva.

El método de los mínimos cuadrados consiste en buscar los valores de los parámetros a y b de manera que la suma de los cuadrados de los residuos sea mínima. es decir: yi – (a + bxi) Por cada recta que consideremos. utilizaremos el método de los mínimos cuadrados. Recta de regresión Una vez que hemos hecho el diagrama de dispersión y después de observar una posible relación lineal entre las dos variables. Esta recta es la recta de regresión por mínimos cuadrados. yi) el error o residuo como la distancia vertical entre el punto (xi. nos proponemos encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. tendremos una colección diferente de residuos. . Para determinar una recta de regresión. 4. De esta manera la ecuación de la recta viene dada por: y = a + bx A partir de la fórmula anterior definimos para cada observación (xi. Estimación de los parámetros: método de los mínimos cuadrados Una recta queda bien determinada si el valor de su pendiente (b) y de su ordenada en el origen (a) son conocidos. yi) y la recta.1. Esta recta se denomina recta de regresión.© FUOC • P03/75057/01013 8 Regresión lineal simple 4. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto a la suma de los cuadrados.

la recta de regresión lineal por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados de los residuos. Es muy importante obsevar que. de todas las rectas. n–1 ∑ ( xi – x ) n 2 Notación Hemos hecho un cambio en la notación para distinguir de manera clara entre una recta cualquiera: y = a + bx y la recta de regresión por mínimos cuadrados: ˆ ˆ ˆ y = β0 + β1 x obtenida al determinar a y b. n–1 ∑ ( xi – x ) ( yi – y ) • i=1 2 s x = ---------------------------. efectivamente. en las que: n • i=1 s xy = -------------------------------------------. la recta de regresión la escribiremos de la manera siguiente: ˆ ˆ ˆ y = β0 + β1 x . A partir de ahora.= i-------------------------------------------.es la varianza muestral de las observaciones xi. estos valores de los parámetros hacen mínima la suma de los cuadrados de los residuos.© FUOC • P03/75057/01013 9 Regresión lineal simple Siendo la suma de los cuadrados la expresión: n 2 Terminología La suma de los cuadrados de los residuos también se denomina suma de los errores cuadráticos.. habría que probar que. .. i=1 ∑ ( y i – a – bxi ) para encontrar los valores de a y b. yi).. y las igualamos a cero.y a = y – bx n 2 2 sx ( xi – x ) ∑ i=1 ∑ ( xi – x ) ( yi – y ) n En rigor. sólo hay que determinar las derivadas parciales con respecto a los parámetros a y b: 2 ∂  ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )  ∂ a  i∑1 i=1 = n n 2 ∂  ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )x i  ∂ b  i∑1 i=1 = n n La resolución de este sistema de ecuaciones se encuentra en el anexo 1 de esta sesión.. conocido como sistema de ecuaciones normales:          i=1 ∑ ( y i – a – bxi ) n n = 0 i=1 ∑ ( y i – a – bxi )xi = 0 Las soluciones de este sistema de ecuaciones son: s xy =1 b = -----.es la covarianza muestral de las observaciones (xi. Así obtenemos el sistema de ecuaciones siguiente.

es decir: ˆ ei = yi – yi ˆ donde y i es el valor estimado para la recta de regresión. Interpretación de los parámetros de la recta de regresión Una vez determinada la recta de regresión.© FUOC • P03/75057/01013 10 Regresión lineal simple ˆ ˆ donde los parámetros de la recta β 0 y β 1 vienen dados por: ˆ ˆ β0 = y – β1 x y s xy ˆ β 1 = -----2 sx De ahora en adelante. ˆ • Interpretación de la pendiente de la recta. Para determinar la recta de regresión. Para que sea posible. es muy importante interpretar los parámetros de la ecuación en el contexto del fenómeno que se estudia. calculamos la covarianza muestral sxy. se tengan suficientes observaciones cercanas al valor x = 0. la recta de regresión. en el diagrama de dispersión habíamos observado que. Pendiente en el ejemplo de los pesos y las alturas En el ejemplo de los pesos y las alturas. a los residuos calculados con la recta de regresión los llamaremos ei . realmente sea posible que X tome el valor x = 0. 6. ˆ • Interpretación de la ordenada en el origen. el valor de la ordenada en el origen no tendrá sentido. Construcción de la tabla para determinar los parámetros Veamos ahora cómo debemos determinar. en la práctica. ya que correspondería al peso que tendrían las personas de altura nula. 5. en general. Este parámetro nos informa de cómo están relacionadas las dos variables en el sentido de que nos indica en qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían los valores de la X en una unidad. No siempre tiene una interpretación práctica. . es preciso que: 1. ˆ β 0 en el ejemplo de los pesos y las alturas En el ejemplo de los pesos y las alturas. Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas. aumenta el peso de las personas a medida que aumenta su altura. β 1 Este parámetro representa la estimación del incremento que experimenta la variable Y cuando X aumenta en una unidad. β 0 : Este parámetro representa la estimación del valor de Y cuando X es igual a cero: ˆ ˆ ˆ ˆ y = β0 + β1 0 = β0 . Ejemplo de las alturas y los pesos Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas. 2. la varianza 2 muestral s x y las medias x y y .

979009 2 52.6 y – yi –1.9 –15.979009x Podemos representar la recta de regresión en el diagrama de dispersión: ∑ ( xi – x ) ( yi – y ) Interpretamos los parámetros obtenidos: • Ordenada en el origen: evidentemente.1 12.4 –5.4 y y = -. .1 5.16 466.9 –5.= -----------------.1 13.4 0.6 8.9 – 0.56 0. no tiene sentido pensar que el peso de una persona de altura cero es –96.∑ y i = 61.4 –11.9 n n i=1 i=1 476.40 =1 Covarianza muestral: s xy = i-------------------------------------------.979009 ⋅ 161.04 0.56 108.56 31.36 31.1 ( x – xi ) 2 ( x – xi ) ( y – yi ) –0.36 70.16 43.= -----------------. i 1 2 3 4 5 6 7 8 9 10 Σ xi 161 152 167 153 161 168 167 153 159 173 1614 yi 63 56 77 49 72 62 68 48 57 67 619 n n x – xi 0.40 0.∑ x i = 161.= 52.46 84.40 2 =1 Varianza muestral: s x = i---------------------------.4 2.36 –4.1 –6.44 55.9 –10.76 59.= -----------------.822 n–1 10 – 1 Los parámetros son: s xy 51.933 n–1 10 – 1 ∑ ( xi – x ) n n 2 466.16 88.6 –5.1121 kg.933 sx ˆ ˆ β 0 = y – β 1 x = 61.4 –6.76 11.56 476.36 70.56 5.© FUOC • P03/75057/01013 11 Regresión lineal simple Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de regresión.16 116.= 51. Ya hemos comentado antes que muchas veces no tiene sentido la interpretación de este parámetro.76 134.1 –0.822 ˆ β 1 = -----.4 9.4 = – 96.66 34.1121 Tenemos la recta de regresión siguiente: ˆ y = – 96.6 8.= 0.9 4.1121 + 0.40 1 1 Medias muestrales: x = -.

Interpolación y extrapolación Uno de los objetivos más importantes de la regresión es la aplicación del modelo para el pronóstico del valor de la variable dependiente (Y) para un valor de la variable independiente (X) no observado en la muestra. . de manera que no hemos tenido ninguna información del comportamiento de la variable Y para valores de X de fuera del rango de la muestra. Las características biológicas del bebé. Entonces tenemos que ir con mucho cuidado: 1) Hemos determinado el modelo con la información contenida en la muestra. Deberíamos efectuar un análisis de regresión a partir de una muestra de bebés.979009x para un valor de X de 160 cm.979009. tenemos un valor estimado para la Y de 60. Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es el riesgo de la extrapolación.979009 ⋅ 160 = 60. muy diferentes de las que presentan las personas adultas.© FUOC • P03/75057/01013 12 Regresión lineal simple • Pendiente: tenemos una pendiente de 0. El modelo nos dará un resultado numérico que. Sentido de la extrapolación No tiene ningún sentido utilizar el modelo de regresión para calcular el peso de personas de diez centímetros o tres metros de altura.1121 + 0.53 Extrapolación fuera de rango Si queremos saber el peso de un bebé que sólo mide cuarenta centímetros. 2) Es posible que no tenga sentido la extrapolación que queremos hacer.60 m. Ejemplo de las alturas y los pesos En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el peso de una persona de altura 1. cuando queremos conocer el valor que presentará la variable Y para un determinado valor de X que se encuentre fuera del intervalo de valores que toma la muestra. Un valor positivo que nos informa de que el peso aumenta con la altura a razón de 0.53 kg: ˆ y = – 96. harán que la relación entre el peso y la altura sea diferente. en todo caso. no podremos utilizar la recta de regresión obtenida.1121 + 0. A partir de nuestra recta de regresión: ˆ y = – 96.979 kg por cada centímetro. hay que interpretar. 7. debemos preguntarnos por lo que estamos haciendo. Antes de utilizar el modelo de regresión. Es decir.

transformamos las variables de manera que el problema se convierta en lineal. k > 0 donde k y a son valores constantes.7621 . en el caso exponencial es un poco más difícil. Curva en un modelo exponencial En el modelo lineal hemos ajustado la nube de puntos a una recta de ecuación: y = a + bx En el modelo exponencial queremos ajustar a los puntos una curva de ecuación: y = kax con a > 0 y k > 0 El modelo exponencial es del tipo: y = kax con a > 0. si representamos el diagrama de dispersión de los puntos (xi. etc. entre los cuales destaca el exponencial. linealizamos el problema. Ejemplo de la propagación de un virus informático La tabla registra el número de días que han transcurrido desde que se ha detectado un nuevo virus informático y el número de ordenadores infectados en un país.500 2.800 1.525.© FUOC • P03/75057/01013 13 Regresión lineal simple 8. Ejemplos de relaciones exponenciales Las relaciones entre la variable tiempo (X) y otras variables (Y) como la población.6521 8.. Así.570 375.000 Transformación de Y ln yi 5.577. ln yi) y la nube de puntos presenta una estructura lineal. Si en la ecuación y = kax tomamos logaritmos ln y = ln(kax). Así. es decir.5413 7. el número de ordenadores infectados por un virus en los primeros días de contaminación.5271 9. los precios de algunos productos.6989 10. Modelos de regresión no lineales Aparte de los modelos lineales.7215 10.105 5. puesto que en el caso lineal es muy fácil ver si puede haber una relación lineal entre las variables a partir del diagrama de dispersión. podemos pensar que entre las variables X e Y hay una relación exponencial.640 2. son exponenciales.8368 14.9780 12. Para tratarlo. obtenemos.320 58.3132 7.300 45. por aplicación de las propiedades de los logaritmos: ln y = ln k + x ln a Propiedades de los logaritmos ln ab = ln a + ln b ln ax = x ln a Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y.2379 14. se pueden establecer otros.050 16. Número de días xi 1 2 4 5 8 10 11 14 16 20 Número de ordenadores infectados yi 255 1.

482x ˆ ˆ Obtenemos: ln y = 5. A continuación se ha comentado la construcción de un diagrama de dispersión como paso inicial a la hora de bus- .84 + 0. Estudiaremos si se trata de una relación exponencial. ˆ ˆ ˆ Si calculamos la recta de regresión de ln y sobre x: ln y = β 0 + β 1 x 5. si queremos estimar el número de ordenadores infectados al cabo de doce días. Resumen En esta primera sesión hemos introducido los conceptos de relaciones funcionales y estadísticas. haremos lo siguiente: ˆ Para x = 12: ln y = 5. es decir. por tanto.482x .624 ˆ Y tomando exponenciales. al cabo de doce días el número estimado de ordenadores infectados ha sido de 111. así como el de variables dependientes (o explicadas) y el de variables independientes (o explicativas).748 unidades. y = e De manera que. Podemos observar que entre las variables X y ln Y existe una relación lineal.8195 Por tanto. entre las variables originales X e Y habrá una relación exponencial.624) = 111. 9.747. Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dispersión correspondiente.84 + 0.482 ⋅ 12 = 11.84 + 0. podemos aislar y : ˆ y = exp(11.© FUOC • P03/75057/01013 14 Regresión lineal simple El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de algún tipo de relación entre las variables que no es lineal.

hemos comentado una relación no lineal tan importante como la relación exponencial y la manera en que podemos transformarla en una lineal. Finalmente. También hemos visto cómo debemos utilizar la recta de regresión para hacer interpolaciones. . Si el diagrama nos muestra una estructura lineal. Lo hacemos mediante el método de los mínimos cuadrados.© FUOC • P03/75057/01013 15 Regresión lineal simple car algún tipo de relación entre dos variables. Hemos puesto de manifesto la importancia de interpretar correctamente los parámetros de la recta. entonces buscamos la línea recta que mejor se ajusta a nuestras observaciones.

p. Interpretad los parámetros obtenidos.700 .567 . i=1 ∑ xi 15 2 = 3. ¿Creéis que es razonable suponer que existe una relación lineal entre el número de semanas y la ganancia de velocidad? b) Buscad la recta de regresión.m. un poco más caro que los anteriores. i=1 ∑ yi 15 = 1.) obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 9 3 4 Ganancia de velocidad (p.) 87 119 47 195 162 234 72 110 a) Representad el diagrama de dispersión. b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un centro con diecisiete comerciales? . de manera que la labor de los técnicos de los grandes centros comerciales es muy importante a la hora de presentar este producto al cliente.p. c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace siete semanas que va a clase? 2. Con el objetivo de saber si el “número de técnicos comerciales presentes en una tienda” (X) puede tener alguna incidencia en el “número de aparatos vendidos durante una semana” (Y). Ha salido al mercado un nuevo modelo de grabadora de DVD.© FUOC • P03/75057/01013 16 Regresión lineal simple Ejercicios 1. i=1 ∑ xi yi 15 = 28. La tabla siguiente indica el progreso en pulsaciones por minuto (p. El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal.m. se observaron quince centros comerciales con los resultados que se muestran a continuación: i=1 ∑ xi 15 = 215 .300 a) Buscad la recta de regresión. pero con unas prestaciones muy superiores.

= 128. tiene sentido buscar la recta de regresión. de manera que cuantas más semanas pasan.75 –105.206 1 y = -.25 1.250 8 ni = 1 44. mayor es la ganancia de velocidad.= 5. Diagrama de dispersión: El diagrama de dispersión nos muestra que la relación entre las dos variables es lineal con pendiente positiva.25 81.00 2 i=1 Varianza muestral: s x = ---------------------------.∑ y i = -------------.75 56.026 x – xi 2 0 3 –3 –1 –4 2 1 y – yi 41.25 9.25 –66.= 6.© FUOC • P03/75057/01013 17 Regresión lineal simple Solucionario 1.114.00 n 40 1 Medias muestrales: x = -.= --------------.∑ x i = -----.5 18.5 0 243.114.286 n–1 7 n ∑ ( xi – x ) n 2 1.00 =1 Covarianza muestral: s xy = i-------------------------------------------.00 2 ( x – xi ) ( y – y i) 82.25 ( x – xi ) 4 0 9 9 1 16 4 1 44.0 y 8 ni = 1 n 1.25 18. Por tanto.= ----------------------.= 159.75 423 112.25 33.75 200.75 –33. A partir de la tabla de cálculos siguiente: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 40 yi 87 119 47 195 162 234 72 110 1.143 n–1 7 ∑ ( xi – x )( yi – y ) .

659 + 25. ya que correspondería a la ganancia de velocidad por cero semanas de clases.659 + 25. aproximadamente una ganancia de 179 pulsaciones por minuto. no tiene sentido pensar que sin hacer clases se tiene una ganacia de velocidad de 1.= 14.= 113.m. así como la varianza muestral de X. A partir de los datos que nos da el enunciado: n 215 1 • Medias muestrales: x = -. podemos calcular la ganancia de velocidad a partir de la recta de regresión. Para una persona que hace siete semanas que va a clase.p.= 25. 2.318 y 2 6. considerando x = 7: ˆ y = 1.= ---------------------. antes tenemos que encontrar las medias y covarianzas muestrales de las variables X e Y.885 Es decir.p.659 p.© FUOC • P03/75057/01013 18 Regresión lineal simple Ya podemos calcular los coeficientes de la recta de regresión: s xy 159.m.318x En este caso la ordenada en el origen no tiene ninguna interpretación con sentido. La pendiente de la recta sí que nos da una información útil: por cada semana de clase se tiene una ganancia de velocidad de aproximadamente 25 p.318 ⋅ 5 = 1.318 ⋅ 7 = 178.333 15 ni = 1 . a) Para encontrar la recta de regresión.333 15 ni = 1 n 1.∑ x i = --------. Evidentemente.∑ y i = -------------.286 sx ˆ ˆ β 0 = y – β 1 x = 128.250 – 25.659 La recta de regresión obtenida es: ˆ ˆ ˆ y = β 0 + β 1 x = 1.700 1 y = -.143 ˆ β 1 = -----.

= 8.= 34.829 + 8.= ---------------------.  n x 2 – nx 2  i∑1 i  = 2 s x = ----------------------------------n–1 De manera que:  n x 2 – nx 2 2  i∑1 i  3.667 n–1 14 • Covarianza muestral: También ahora utilizaremos una nueva expresión para calcular la covarianza muestral: La deducción de esta fórmula se muestra en el anexo 3 de esta sesión.939 Por tanto.333 -------------------------------------.104 2 34.= 280.© FUOC • P03/75057/01013 19 Regresión lineal simple • Varianza muestral: Para calcular la varianza muestral a partir de los datos del enunciado. s xy De manera que:  n x y  – nxy  i∑1 i i = = -------------------------------------n–1 s xy  n x y  – nxy  i∑1 i i = 28.829 La recta de regresión obtenida es: ˆ ˆ ˆ y = β 0 + β 1 x = – 2 .333 ⋅ 113.952 = n–1 14 Los parámetros de la recta de regresión son: s xy 280. podemos estimar las ventas de aparatos de DVD mediante la recta de regresión obtenida: ˆ ˆ ˆ y = β 0 + β 1 x = – 2 .333 = – 2 .567 – 15 ⋅ 14.667 sx ˆ ˆ β 0 = y – β 1 x = 113. utilizaremos la expresión equivalente: La deducción de esta fórmula se muestra en el anexo 2 de esta sesión.300 – 15 ⋅ 14.= ---------------------------------------------------------------------------------.104 ⋅ 14.104 ⋅ 17 = 134.829 + 8.952 ˆ β 1 = -----.333 = 2 s x = ----------------------------------. en un centro con diecisiete comerciales se habrán vendido aproximadamente unos 135 aparatos.104x b) Para un centro con diecisiete comerciales. .333 – 8.= ----------------------------------------------------.

© FUOC • P03/75057/01013 20 Regresión lineal simple Anexos Anexo 1 Resolución del sistema de ecuaciones normales:        i=1 n i=1 ∑ ( yi – β 0 – β1 xi ) = 0 n ∑ ( y i – β 0 – β 1 xi )xi = 0 A partir de la primera ecuación del sistema: n n n n i=1 ∑ yi – β0 – β1 xi = i=1 ∑ yi – ∑ β0 – ∑ β1 xi i=1 i=1 = ny – nβ 0 – nβ 1 x = 0 Dividiendo por n: y = β 0 + β 1 x y aislando la β 0 : β 0 = y – β 1 x De la segunda ecuación del sistema: n n n n n n i=1 ∑ ( y i – β0 – β1 xi )xi = i=1 ∑ x i yi – ∑ β0 xi – ∑ β 1 xi i=1 i=1 2 = i=1 ∑ x i y i – nβ0 x – β1 ∑ xi i=1 2 = 0 i=1 ∑ n x i y i = nβ 0 x + β 1 ∑ x i . pero tenemos en cuenta que: β 0 = y – β 1 x i=1 n 2 entonces i=1 ∑ x i yi n = n ( y – β 1 x )x + β 1 ∑ x i = nxy – β 1 nx + β 1 ∑ x i i=1 i=1 n 2 2 n 2 Aislando β 1 : =1 β 1 = i--------------------------------n 2 2 ∑ xi – nx i=1 ∑ x i y i – nxy n podemos dar una expresión equivalente a partir de la definición de varianza muestral: n 2 2 i=1 s x = ---------------------------n–1 ∑ ( xi – x ) sx ( n – 1 ) = 2 i=1 ∑ ( xi – x ) n 2 = i=1 ∑ ( xi n 2 – 2x i x + x ) = 2 i=1 ∑ xi n 2 – 2nx + nx = 2 2 i=1 ∑ xi n 2 – nx 2 .

podemos expresar los parámetros de la recta de regresión de la manera siguiente: s xy ˆ β 1 = -----2 sx Anexo 2 Varianza muestral: Podemos deducir a partir de la fórmula de su definición: n i β 0 = y – β1 x 2 sx i=1 = ---------------------------n–1 ∑ ( xi – x ) 2 una expresión equivalente desarrollando el cuadrado del numerador: n n n n n i=1 ∑ ( xi – x ) n 2 2 = i=1 ∑ ( xi 2 – 2x i x + x ) = 2 i=1 ∑ xi 2 – i=1 ∑ 2xx i + ∑ ( x ) i=1 n 2 = = i=1 ∑ x i – 2x ∑ x i + n ( x ) = i=1 n 2 i=1 ∑ n 2 2 2 2 x i – 2xnx + n ( x ) =  ∑ x i  – n ( x )   i=1 De manera que:  n x 2 – n ( x ) 2  i∑1 i  = 2 s x = -------------------------------------n–1 Anexo 3 Covarianza muestral: A partir de la definición de la covarianza: =1 s xy = i-------------------------------------------n–1 ∑ ( xi – x ) ( yi – y ) n .© FUOC • P03/75057/01013 21 Regresión lineal simple y de la definición de covarianza muestral: n =1 s xy = i-------------------------------------------n–1 n n n n ∑ ( xi – x ) ( yi – y ) s xy ( n – 1 ) = i=1 ∑ ( xi – x ) ( y i – y ) = ∑ xi y i – x ∑ yi – y ∑ x i + nxy = i=1 i=1 n i=1 = i=1 ∑ xi y i – nxy – nyx + nxy n = i=1 ∑ xi y i – nxy Teniendo en cuenta la varianza y la covarianza.

© FUOC • P03/75057/01013 22 Regresión lineal simple si desarrollamos el producto del sumatorio del numerador: n n n n n n i=1 ∑ ( xi – x )( yi – y ) = = n i=1 ∑ ( xi y i – xi y – xy i + xy ) n n = i=1 ∑ xi y i – ∑ xi y – ∑ xyi + ∑ xy i=1 i=1 i=1 = i=1 ∑ xi y i – y ∑ x i – x ∑ y i + xyn i=1 i=1 =  ∑ x i y i – nxy   i=1 n De manera que: s xy  n x y  – nxy  i∑1 i i = = -------------------------------------n–1 .

R2 Queremos evaluar en qué grado el modelo de regresión lineal que hemos encontrado a partir de un conjunto de observaciones explica las variaciones que se producen en la variable dependiente de éstas. Si ahora restamos a los dos miembros de esta igualdad la media de las observaciones yi. y se define como la proporción de varianza explicada por la recta de regresión. Mirando si en el diagrama de dispersión los puntos experimentales quedan muy cerca de la recta de regresión obtenida. La medida más importante de la bondad del ajuste es el coeficiente de determinación R2. podemos tener una idea de si la recta se ajusta o no a los datos. 2. Ahora nos preguntamos si este ajuste es lo bastante bueno.© FUOC • P03/75057/01013 23 Regresión lineal simple La calidad del ajuste 1. . es decir: Varianza explicada por la recta de regresión 2 R = -----------------------------------------------------------------------------------------------------------------------Varianza total de los datos Notación La varianza explicada por la recta de regresión es la varianˆ za de los valores estimados y i . Este coeficiente nos indica el grado de ajuste de la recta de regresión a los valores de la muestra. podemos escribir: ˆ yi = y i + ei. A partir de la definición de residuos (ei) de la regresión como la diferencia entre ˆ los valores observados (yi) y los valores estimados ( y i ) por la recta de regresión: ˆ e i = yi − y i . Veremos que la varianza de las observaciones se puede descomponer en dos términos: la varianza que queda explicada por el modelo de regresión lineal y una varianza debida a los residuos. Introducción La recta de regresión por mínimos cuadrados minimiza la suma de los cuadrados de los residuos. pero nos hace falta un valor numérico que nos ayude a precisarlo. El coeficiente de determinación. obtenemos una expresión que nos relaciona las desviaciones con Notación Llamaremos indistintamente valores estimados o valores preˆ dichos ( y i ) a los obtenidos mediante la recta de regresión. La varianza total de los datos es la varianza de los valores observados yi. Buscaremos una expresión que nos permita calcular el coeficiente de determinación.

ˆ yi – y = ( y i – y ) + ei Representaremos gráficamente las desviaciones con respecto a la media. podemos escribir de una manera más compacta esta expresión: n i=1 n ∑ ( yi – y ) ˆ ∑ ( yi – y ) n 2 = SCT Suma de cuadrados totales 2 = SCR Suma de cuadrados de la regresión i=1 i=1 ∑ ei 2 = SCE Suma de cuadrados de los errores Así. las observaciones y los valores estimados con la recta de regresión. Observación La recta de regresión pasa por ( x . se puede demostrar que: Esta deducción matemática se encuentra desarrollada en el anexo 1 de esta sesión. Elevando al cuadrado y sumando todos los valores.© FUOC • P03/75057/01013 24 Regresión lineal simple respecto a la media de las observaciones con las desviaciones con respecto a la media de los valores estimados. y ). tenemos que: SCT = SCR + SCE . i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ ( yi – y ) n 2 + i=1 ∑ ei n 2 Dando nombres a estas cantidades.

. de manera que: • R2 = 1 cuando el ajuste es perfecto. por tanto.979009x. • R2 = 0 denota la inexistencia de relación entre las variables X e Y. Entonces podemos escribir la definición del coeficiente de determinación de esta manera: SCR 2 =1 R = ---------. Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso. el individuo 2 tiene 152 cm de altura y 56 kg de peso. SCR = SCT. • Puesto que R2 nos explica la proporción de variabilidad de los datos que queda explicada por el modelo de regresión.© FUOC • P03/75057/01013 25 Regresión lineal simple Podemos interpretar esta última expresión en el sentido de que la varianza total observada (SCT) en la variable Y se descompone en dos términos: la varianza explicada por el modelo de regresión lineal (SCR) más la varianza que no queda explicada por el modelo. Por ejemplo.= 1 – ---------------------------.1121 + 0. mejor es el ajuste. etc. es fácil apreciar las características de este coeficiente. R2 = 0. n SCT 2 ∑ ( yi – y ) 2 i=1 ∑ ei 2 Observando estas expresiones.5 sólo nos dice que el 50% de la varianza de las observaciones queda explicado por el modelo lineal.= i---------------------------n SCT 2 ∑ ( yi – y ) i=1 ˆ ∑ ( yi – y ) n 2 o también. es decir. n SCE i=1 R = 1 – ----------. . es decir. la varianza de los residuos (SCE). Siempre será: 0 ≤ R ≤ 1 . En este caso la suma de residuos es máxima y tenemos que SCE = SCT. cuanto más cercano a la unidad esté. cuando todos los puntos se encuentran sobre la recta de regresión. A partir de la recta de regresión: ˆ y = –96. En este caso los residuos son cero y la suma de sus cuadrados también y. Individuos (y) Altura Peso (xi) (yi) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 2 Observación Un coeficiente de determinación diferente de cero no significa que haya relación lineal entre las variables.

26 ei 2 2.49 –6.29 / 812.81 228.70 67.68 10.22 –0.10 0.23 10.75 30. De manera análoga. xi 161 152 167 153 161 168 167 153 159 173 yi 63 56 77 49 72 62 68 48 57 67 619 ˆ yi 61.21 34.22 6.41 102.36 ˆ ( yi – y ) 0.20 5. Es muy conveniente. El coeficiente de correlación muestral. con grandes de Y.87 110. en concreto.© FUOC • P03/75057/01013 26 Regresión lineal simple podemos calcular los valores estimados y los residuos.21 193.36 0. Se suele decir que X e Y tienen una relación positiva si los valores grandes de X están aparejados con valores grandes de Y y valores pequeños de X.29 128.10 6.62 –4.48 –8.10 –12.38 53. disponer de los datos y los cálculos en forma de tabla.10 ( yi – y ) 1.90 ) = 1 – 0.63 5.38 32.30 9.90 5.10 –13.21 24.61 / 812.63 0.5617 que nos informa de que el modelo de regresión lineal sólo nos explica el 56. tenemos un coeficiente de determinación: R2 = 456.97 456.26 yi – y 1.15 84. construiremos una tabla de cálculos del coeficiente de determinación: i 1 2 3 4 5 6 7 8 9 10 Σ Tenemos que: SCR = 456.5617 Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obtenidas antes por el coeficiente de determinación.06 67.07 40.50 21.90 15.39 6. r A partir del diagrama de dispersión podemos ver si hay algún tipo de relación entre dos variables X e Y. . por comodidad.55 73.38 53.47 0.06 67.61 3.90 Por tanto.39 –9.51 52.01 812.68 –2.01 0.50 39.4383 = 0. A partir de la suma de los cuadrados de los residuos: SCE = 356.46 5.01 37.61 SCT = 812.69 30. con valores pequeños de Y.36 67.15 41.55 –6.90 2 ˆ yi – y –0.49 3.10 –5. coinciden los resultados.90 10. Hemos obtenido un coeficiente de determinación R2 = 0.17% de la varianza de las observaciones.68 59.68 61.35 11.01 166.22 –2.90 –4.91 92.29 tenemos para el coeficiente de determinación: R2 = 1 – ( 356.90 = 0.5617 Evidentemente.51 68.48 –8.52 2 ei 1.62 –5. se dice que X e Y tienen una relación negativa si los valores grandes de X están aparejados con los valores pequeños de Y y los pequeños de X.01 26.14 356.

Esquema de relaciones entre X e Y Definimos el coeficiente de correlación muestral como: n ∑ ( xi – x )( yi – y ) s xy i=1 r = -------. fuerte si 0. ( y i – y ) ) estarán en el segundo y cuarto cuadrante. entonces la mayoría de los puntos de coordenadas ( ( x i – x ) .8 < | r | < 1. en los que ( x i – x ) ( y i – y ) ≤ 0 . • Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué valor de r podemos decir que la relación entre las variables es fuerte? Una regla razonable es decir que la relación es débil si 0 < | r | < 0. de manera que contribuirán de forma positiva a la suma. La covarianza presenta el gran inconveniente de depender de las unidades de las variables que estudiamos. • Si. de manera que contribuirán de forma negativa a la suma. . la covarianza será una cantidad pequeña al encontrarse todos los puntos aproximadamente igual repartidos por los cuatro cuadrantes. entonces la mayoría de los puntos de coordenadas ( ( x i – x ). Observad la figura de los ejemplos de diagramas de dispersión en el apartado 3 de la sesión “El modelo de regresión simple” de este módulo. y moderada si tiene otro valor.W = n–1 n nos puede servir para medir estas relaciones positivas y negativas entre las variables X e Y. hemos conseguido una medida adimensional que no depende de las unidades de las variables. La covarianza muestral entre dos variables X e Y: s xy ∑ ( xi – x )( yi – y ) i=1 -------------------------------------------. • Si tenemos una relación positiva. Unidades del coeficiente de correlación muestral Al dividir la covarianza por las desviaciones típicas de X y de Y.5. • – 1 < r < 1 cuando la relación entre las variables no sea lineal de forma exacta. • Si tenemos una relación negativa. negativa). cosa que compensa de forma aproximada las cantidades positivas y negativas del sumatorio.© FUOC • P03/75057/01013 27 Regresión lineal simple Ahora queremos medir estas relaciones de forma numérica. de manera que: • r = 1 o r = −1 cuando haya una asociación lineal exacta entre las variables (en el primer caso positiva y en el segundo. ( y i – y ) ) estarán en el primer y tercer cuadrante en que ( x i – x ) ( y i – y ) ≥ 0 . por el contrario.= -------------------------------------------------------------n n s x sy 2 2 ( xi – x ) ∑ ( y i – y ) ∑ i=1 i=1 El coeficiente de correlación se caracteriza por – 1 ≤ r ≤ 1 . no existe ningún tipo de relación positiva o negativa.

822 n–1 10 – 1 n ∑ ( xi – x ) ( yi – y ) n 476.36 31. • r: mide el grado de asociación entre las dos variables. Relación entre R2 y r Es muy importante tener clara la diferencia entre el coeficiente de correlación y el coeficiente de determinación: • R2: mide la proporción de variación de la variable dependiente explicada por la variable independiente.21 34.4 0.1 13.16 466.40 0.36 70.6 8.36 70.76 134.9 –15.1 12.01 37.4 –6.© FUOC • P03/75057/01013 28 Regresión lineal simple Para calcular el coeficiente de correlación muestral. el peso también lo hace (ya que es positivo).04 0.56 0.1 –6. así como de que. Antes tendremos que calcular la covarianza y las varianzas muestrales.66 34. 4.1 –0.749 sx s y 7. .822 r = -------.90 =1 s = i---------------------------.36 –4.4 –5.9 –5.504 El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r = 0.1 5.46 84.16 88.90 466.4 9.9 4.= 52.01 26.21 193. i 1 2 3 4 5 6 7 8 9 10 Σ xi 161 152 167 153 161 168 167 153 159 173 1.276 n–1 10 – 1 n ∑ ( xi – x ) 2 812.933 de manera que sx = 7. Buscaremos el coeficiente de correlación.40 2 =1 s x = i---------------------------. a medida que la altura crece.16 43.56 31.40 =1 s xy = i-------------------------------------------.41 102.749.56 476.4 –11.= 0.16 116.81 228.6 8.6 y – yi –1.= -----------------.40 1.= 51.6 –5.9 –10.1 ( x – xi ) 2 (y – yi ) 2 ( x – xi ) ( y – yi ) –0.322 de manera que sy = 9. Lo ilustraremos con el ejemplo de las alturas y los pesos.56 108.56 5.01 812. podemos utilizar la misma tabla de cálculos que para obtener la recta de regresión.= 90.276 ⋅ 9.01 0.= -----------------.614 yi 63 56 77 49 72 62 68 48 57 67 619 x – xi 0.76 11.= -----------------.504 n–1 10 – 1 2 y ∑ ( yi – y ) 2 s xy 51.21 24. Ejemplo de las alturas y los pesos Consideremos de nuevo el ejemplo de los pesos y las alturas.= ----------------------------------.4 2.44 55. que nos informa de la existencia de una moderada relación entre estas dos variables.01 166.76 59.

es decir.ˆ 2 ∑ ( x i – x )2 r 2 R = -------------------------. si sabemos que la pendiente de la recta de regresión es negativa.561.5617 y r = 0.5 era débil. el modelo de regresión sólo nos explica un 25% de la variabilidad total de las observaciones.        1 . pero al revés siempre nos quedará indeterminado el valor del signo a menos que conozcamos la pendiente de la recta.749.= β 1 --------------------------. y a partir de la definición de varianza muestral. 2 ˆ ∑ ( yi – y ) .81. De manera que r2 = 0. Hemos obtenido: R2 = 0.= 2 2 ∑ ( yi – y ) ∑ ( yi – y ) 2 = r 2 Esta relación nos ayuda a comprender por qué antes considerábamos que un valor de r = 0. dado un R2 = 0. tenemos: 2 sy ∑ ( xi – x ) ---. Así pues.7492 = 0.9. El signo de r nos informa de si la relación es positiva o negativa. Comprobación de que en regresión lineal simple R2 = r2 A partir de la ecuación del coeficiente de correlación: s xy r = -------sx s y y de la ecuación de la pendiente de la recta de regresión: s xy ˆ β 1 = -----2 sx tenemos la relación siguiente: sy ˆ β 1 = r ---sx ˆ ˆ Por otra parte. Este valor representará un R2 = 0. De estas dos expresiones podemos escribir: ˆ ˆ ción de los valores estimados: y i = β 0 1 i ˆ ˆ ˆ ˆ ˆ ˆ yi – y = β0 + β1 xi – y = y – β1 x + β 1 xi – y = β1 ( xi – x ) Aplicando todas estas relaciones a la ecuación del coeficiente de determinación. Ejemplo de las alturas y los pesos Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de correlación con los resultados de nuestro ejemplo.25.© FUOC • P03/75057/01013 29 Regresión lineal simple No obstante. con el valor de r siempre podremos calcular el valor de R2. como fácilmente podemos comprobar. Por ejemplo. tenemos el otro parámetro de la recta de regresión: β 0 = y – β 1 x y la ecuaˆ + β x . entonces podremos afirmar que el coeficiente de correlación será r = −0.--------------------------2 2 s x ∑ ( yi – y ) 2 Observación En la regresión lineal múltiple ya no tendremos la igualdad R2 = r2. También es importante tener presente que r nos da más información que R2. en la regresión lineal simple tenemos que R2 = r2.

Esto lo haremos gráficamente representando un diagrama de dispersión de los punˆ tos ( y i .26 10. The American Statistician (núm.47 7. entonces la ˆ nube de puntos ( y i . Caso (a) X(a) 10 8 13 9 11 14 6 4 12 7 5 Y(a) 8. sobre el eje de las abscisas representamos el valor estimado i ˆ y i y sobre el eje de ordenadas.15 6.26 8.58 5.89 . Anscombe (1973).14 8. nos servirá para hacer un diagnóstico de nuestro modelo de regresión.46 6.73 Caso (d) X(d) 8 8 8 8 8 8 8 19 8 8 8 Y(d) 6.33 9.84 4.11 7.10 6.10 9.W. Este análisis.84 6.74 8.14 8. pág.13 7. Veamos un ejemplo: i Si el modelo lineal obtenido se ajusta bien a los datos muestrales.50 5.74 7.77 9. es decir. El análisis de los residuos consiste en ver la distribución de los residuos.58 8. 17-21). Diagnóstico de la regresión: análisis de los residuos Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos muestrales.95 7.91 6. A partir de las tablas de datos que se muestran a continuación discutiremos cuatro casos: Lectura complementaria Encontraréis el ejemplo de Anscombe en el artículo siguiente: T.96 7.71 8. es decir.56 7.© FUOC • P03/75057/01013 30 Regresión lineal simple 5.13 3. que a continuación comentaremos de forma breve y muy intuitiva.24 4.39 8. 27.82 5.84 8. e ) no debe mostrar ningún tipo de estructura.81 8. el valor correspondiente del residuo.04 6.77 12.42 5.81 8. “Graphs in Statistical Analysis”. i Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de Anscombe (1973).74 Caso (c) X(c) 10 8 13 9 11 14 6 4 12 7 5 Y(c) 7.04 5.76 7.26 4.25 12.68 Caso (b) X(b) 10 8 13 9 11 14 6 4 12 7 5 Y(b) 9. ei = ˆ = y – y i . e ). hay que efectuar el análisis de los residuos.08 5.

© FUOC • P03/75057/01013 31 Regresión lineal simple Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión en el ejemplo de Anscombe. tenemos la representación de los siguientes diagramas de residuos: . Si ahora hacemos el estudio de los residuos tal como hemos indicado antes. en los cuatro casos obtenemos la misma recta: ˆ y = 3 + 0.82. Si hacemos la regresión de Y sobre X.5x El coeficiente de correlación es el mismo para las cuatro con valor r = 0.

Podemos observar todos los puntos sobre la recta de regresión.30 9.68 61.69 30. A continuación representamos el diagrama de dispersión y el diagrama de residuos.01 2 ˆ yi – y –0.06 67.01 166. El diagrama de los residuos también nos sugiere un buen modelo de regresión para la muestra resultante de eliminar el valor atípico.68 10.81 228.23 10.15 2 ei 1.07 84.48 –8. Esto se manifiesta de forma mucho más evidente en el diagrama de residuos. A partir de los datos de la tabla ya vista: i 1 2 3 4 5 xi 161 152 167 153 161 yi 63 56 77 49 72 ˆ yi 61.74) que nos ha hecho ajustar un modelo erróneo al resto de las observaciones.51 52.01 + 0.91 92.21 34.15 .90 10. Ejemplo de las alturas y los pesos Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pesos.39 –9.345x.20 5. sólo la primera no presenta ningún tipo de estructura sobre la nube de puntos.63 0. Si consideramos la muestra (c). entonces obtenemos una recta de regresión diferente: ˆ y = 4.22 –0. ya que si lo eliminamos.41 102.10 –5.87 110. Tampoco es un modelo demasiado fiable. 12. de manera que sólo tendría sentido la regresión hecha sobre la muestra (a).50 21. en el diagrama de dispersión podemos observar la presencia del valor atípico (13.49 3.90 15. y un coeficiente de correlación r = 1. Influencia de un valor atípico En la muestra (c) hemos eliminado el valor atípico y hemos representado de nuevo el diagrama de dispersión y la recta de regresión 1 y el diagrama de residuos 2.10 ( yi – y ) 1.© FUOC • P03/75057/01013 32 Regresión lineal simple Podemos observar que de las cuatro.38 53. Finalmente.10 –12.51 yi – y 1. En éste se observa un comportamiento curvilíneo que nos hace pensar que un ajuste lineal no sería el más conveniente.62 –4.70 67. Consideremos a continuación el caso (b) del diagrama de dispersión.39 ˆ ( yi – y ) 0. en la muestra (d) la pendiente está determinada por un único valor.49 ei 2 2.

36 0.35 11.68 –2. por tanto. Esta medida se obtiene con el coeficiente de determinación R2. podemos concluir que el modelo de regresión obtenido es un buen modelo para explicar la relación entre las dos variables.9 ˆ yi 68.26 yi – y 0.97 456.29 37.10 6.48 –8. A continuación hemos visto el coeficiente de correlación muestral.90 5.50 39.55 73.© FUOC • P03/75057/01013 33 Regresión lineal simple i 6 7 8 9 10 Σ xi 168 167 153 159 173 yi 62 68 48 57 67 61.14 356.38 32.01 812.90 –4. r.52 128. Se ha discutido la interpretación de los valores que puede tomar.62 –5.38 53.01 26.68 59.36 67.47 0.10 ( yi – y ) 0. hemos comentado la importancia de analizar los residuos para hacer un diagnóstico del modelo lineal obtenido.55 –6.36 2 ˆ ( yi – y ) ei –6. que nos mide el grado de asociación entre dos variables. Hemos comprobado que en la regresión lineal simple R2 y r coinciden.75 30.01 2 ˆ yi – y 6. 6.63 5.90 es fácil representar el diagrama de residuos: No podemos observar ningún tipo de estructura en la representación.06 67.21 193.10 –13.46 5.22 6.26 ei 2 41. Resumen En esta segunda sesión hemos introducido una medida numérica de la bondad del ajuste de la recta de regresión en las observaciones.61 40.22 –2. . Finalmente.21 24.

La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 Ganancia de velocidad (p. Una tienda de ordenadores llevó a cabo un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas.) 87 119 47 195 162 .590.793.95x.000 €) × 380 410 390 370 475 450 500 390 575 520 Con estos datos se han obtenido las cantidades siguientes: 10 10 10 i=1 ∑ xi = 347 i=1 ∑ yi = 4.460 i=1 ∑ ( xi – x )( yi – y ) = 6.88 + 3. El departamento de personal de una empresa informática dedicada a la introducción de datos ha llavado a cabo un programa de formación inicial del personal.p.000 €) × 40 25 20 22 31 52 40 20 55 42 Ventas (× 100.522.0 i=1 ˆ ∑ ( yi – y ) 10 2 = 23. A partir de toda esta información.1 2 i=1 ∑ ( yi – y ) 10 2 = 43. Se obtuvieron los datos siguientes: Gastos en publicidad (× 1.m.018 i=1 ∑ 10 ( x i – x ) = 1. calculad el coeficiente de determinación y el coeficiente de correlación.66 ˆ Y la recta de regresión: y = 308.© FUOC • P03/75057/01013 34 Regresión lineal simple Ejercicios 1. 2.

793.p.58% de la variabilidad de las ventas. A partir de este valor podemos calcular el coeficiente de correlación teniendo en cuenta que: R2 = r2 De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente de determinación con el mismo signo que la pendiente de la recta de regresión.8 + 3. Solucionario 1.= --------------------------.0 SCT 2 ∑ ( yi – y ) i=1 ˆ ∑ ( yi – y ) 2 Resultado que podemos interpretar como que el modelo de regresión lineal explica el 54.0 23.318x a) Calculad el coeficiente de determinación.= 0.5458 10 43. La pendiente es positiva.5458 = 0.= i---------------------------.590.m. Cuanto más se invierte en publicidad.66 SCR 2 =1 De manera que: R = ---------.793. más se vende. ya que: • La suma de los cuadrados de la regresión es: SCR = 10 i=1 ˆ ∑ ( yi – y ) 10 2 = 23.95x.© FUOC • P03/75057/01013 35 Regresión lineal simple Número de semanas 9 3 4 Ganancia de velocidad (p. de manera que tenemos una relación positiva entre los gastos en publicidad y ventas.7388 2 .) 234 72 110 La recta de regresión calculada a partir de estos datos es: ˆ y = 1.659 + 25.590. Así pues. el coeficiente de correlación es: r = + R = + 0. Calculamos el coeficiente de determinación a partir de la expresión: SCR 2 R = ---------SCT El enunciado del problema nos proporciona estos datos. b) Haced un análisis de los residuos y comentadlo. ˆ La recta de regresión es: y = 308.66 • Y la suma de los cuadrados totales es: SCT = i=1 10 ∑ ( yi – y ) 2 = 43.

30 –9.139.96 75.455.25 –81.20 153.16 5.© FUOC • P03/75057/01013 36 Regresión lineal simple 2.61 7.25 66.768.564.07 2 Si representamos el valor del residuo frente al valor ajustado.52 77.57 229.61 128.95 25.11 641.601.52 77.25 –18. Tenemos bondad en el ajuste.20 153.05 SCR = 28.64 –25.06 28.663.11 0.86 640. b) Para hacer el análisis de los residuos.56 85.50 2.61 102.30 204.75 –56.00 5.663. en primer lugar calcularemos los residuos y después haremos la representación gráfica.20 8.183.75 33.64 0.61 128.204. i 1 2 3 4 5 6 7 8 xi 3 5 2 8 6 9 3 4 yi 87 119 47 195 162 234 72 110 ˆ yi 77.06 3.25 –9.27 –50.663.39 –9.026 ˆ yi 77.05 / 28.701.05 SCT = 28. tenemos el diagrama de residuos siguiente: .25 (yi – y ) 2 ˆ ( yi – y ) –50.564.06 11.57 229.56 6.93 ˆ ei = y i – y i 9.50 R = 28.93 yi – y –41.255.56 4.204.43 4.25 –5.164.20% de la varianza de la muestra.06 333.56 1.25 52.95 10.30 204.32 ˆ ( yi – y ) 2 1.48 –5.82 2.204.61 102.05 28. a) Lo primero que haremos será construir la tabla de cálculos: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 yi 87 119 47 195 162 234 72 110 1.25 52.32 101.769.9920 El modelo de regresión lineal explica el 99.00 –75.75 105.50 = 0.

nos hace llegar a la conclusión de que el modelo lineal es adecuado para tratar este problema. . Este resultado.© FUOC • P03/75057/01013 37 Regresión lineal simple No observamos ningún tipo de forma determinada en los puntos de esta gráfica. junto con el elevado coeficiente de determinación.

las observaciones y los valores estimados: ˆ yi – y = ( yi – y ) + ei Elevando al cuadrado y sumando todos los valores: i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ [ ( yi – y ) + ei ] n 2 = i=1 ˆ ∑ ( yi – y ) n 2 ˆ + 2 ∑ ( y i – y )e i + i=1 n i=1 ∑ ei n 2 ˆ 2 ∑ ( y i – y )e i = i=1 n i=1 ∑ n ˆ yi ei – i=1 ∑ n yei = i=1 ∑ n ˆ yi ei – y ∑ ei = 0 + 0 = 0 i=1 n 0 0 Por tanto. obtenemos una expresión que nos relaciona las desviaciones con respecto a la media.© FUOC • P03/75057/01013 38 Regresión lineal simple Anexos Anexo 1 Descomposición de la suma de cuadrados total A continuación veremos que la suma de cuadrados total de las observaciones (SCT) se puede expresar de la manera siguiente: SCT = SCR + SCE donde: • SCR es la suma de cuadrados de la regresión. es suficiente con ver que i=1 ∑ n ˆ yi ei = 0 y i=1 ∑ ei n = 0 . A partir de la definición de residuos de la regresión como la diferencia entre los valores observados y los valores estimados por la recta de regresión: ˆ e i = yi − y i Podemos escribir: ˆ yi = y i + e i Y si ahora restamos a los dos miembros de esta igualdad la media de las observaciones yi. • SCE es la suma de cuadrados de los residuos.

por tanto: ˆ ∑ yi ei n = i=1 i=1 ∑ ( β0 – β1 xi )e i n ˆ ˆ ˆ ˆ = β0 ∑ ei + β1 ∑ ei xi = 0 i=1 i=1 n n Hemos demostrado así que: i=1 ∑ ( yi – y ) n 2 = i=1 ˆ ∑ ( yi – y ) n 2 + i=1 ∑ ei n 2 Si denominamos: n i=1 n ∑ ( yi – y ) ˆ ∑ ( yi – y ) n 2 = SCT Suma de Cuadrados Totales. . i=1 i=1 ∑ ei = SCE Suma de Cuadrados de los Errores. 2 = SCR Suma de Cuadrados de la Regresión.© FUOC • P03/75057/01013 39 Regresión lineal simple Observamos que a partir de las ecuaciones normales: n n n 0 = i=1 n ∑ ( yi – β0 – β1 xi ) ˆ ˆ = i=1 ˆ ∑ ( yi – yi ) n = i=1 ∑ ei 0 = i=1 ∑ ˆ ˆ ( y i – β 0 – β 1 x i )x i = i=1 ∑ ei xi Y. Tenemos que: SCT = SCR + SCE.

podemos esi El peso depende de la altura y de otros factores En el ejemplo de la relación entre el peso y la altura de las personas. Es la llamada recta de regresión. es decir. asociado a cada valor de X no hay un único valor de Y. como pueden ser aspectos genéticos. El modelo de regresión en la población Modelo de regresión lineal Es muy importante tener presente que.. . y = 1. yi). ya sabemos encontrar la recta de regresión lineal y = β 0 + β 1 x . ˆ cribir: y i = y i + e i .. Nos preguntamos si esta relación lineal se puede extender de alguna manera a toda la población. Esto se debe al hecho de que Y no sólo depende de X. sino una distribución de frecuencias de Y. la alimentación. se pueden observar diferentes valores de la variable Y. Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor ˆ observado y el valor estimado e i = y i – y i .. no todas las personas tienen el mismo peso. la actividad física. para un mismo valor de la variable X. La influencia de este conjunto de factores es la que determina que la relación entre X e Y sea estadística y no determinista. es evidente que existen muchos factores. . que hacen que una persona de una determinada altura tenga un peso u otro. entonces calculábamos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de los cuadrados de los residuos fuese mínima. es decir: ˆ ˆ yi = β0 + β1 x + ei Podemos hacer lo mismo con varias muestras de esta misma población. etc. Para una altura fija. Todos estos factores son los responsables de los errores o residuos.© FUOC • P03/75057/01013 40 Regresión lineal simple Inferencia en la regresión 1. Dada una muestra de observaciones (xi. Introducción En otras sesiones nos hemos preocupado de estudiar la relación lineal entre dos variables X e Y a partir de los valores observados en una muestra. de por ejemplo 170 cm. Ejemplo de las alturas y los pesos Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alumnos de la UOC y las rectas de regresión correspondientes: . 2. sino también de otros factores difícilmente cuantificables o simplemente desconocidos. Si en el diagrama de dispersión observábamos una relación lineal. n de individuos de una ˆ ˆ ˆ población. para una observación y . Ahora cambiaremos el punto de vista y pensaremos que esta muestra de observaciones proviene de una población.

iremos obteniendo coeficientes parecidos a éstos. 2) Los errores son independientes.614 + 1.582 + 0.614. Observamos que los valores obtenidos para cada coeficiente son relativamente similares: ˆ β 0 : –96.112. Notación No ponemos los “sombreros” sobre los parámetros para indicar que ahora se trata de la recta de regresión para la población. Lllamamos modelo de regresión lineal para la población a: yi = β0 + β1 x + ei Para encontrar este modelo para la población. Muestra j = 3 Individuos Altura (xij) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 i=9 159 57 Peso (yij) ˆ La recta de regresión correspondiente es: y = –98. de manera que deberemos estimarla a partir de los resultados calculados para una muestra.945. –82.029x. . tenemos que hacer dos suposiciones muy importantes: 1) Los errores se distribuyen según una distribución normal de media cero y varianza σ .979. Esto es prácticamente imposible.528 ˆ β 1 : 0.112 + 0. Ahora el objetivo es dar un modelo para todos los individuos de la población. deberíamos estudiar a todos los individuos que la componen. –98. Éste vendrá dado por una expresión análoga a las encontradas por las muestras. aceptaremos la suposición de que siempre son iguales. Muestra j = 2 Individuos Altura (xij) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 Peso (yij) ˆ La recta de regresión correspondiente es: y = –82. De todos modos.94x.© FUOC • P03/75057/01013 41 Regresión lineal simple Muestra j = 1 Individuos Altura ( xij ) Peso ( yij ) i=1 161 63 i=2 152 56 i=3 167 77 i=4 153 49 i=5 161 72 i=6 168 62 i=7 167 68 i=8 153 48 i=9 159 57 i = 10 173 67 ˆ La recta de regresión correspondiente es: y = –96. Por ejemplo. deberemos hacer inferencia estadística. 2 Distribución de los errores en la realidad La distribución de los errores es diferente para diferentes valores de X.029.979x. Podemos pensar que si recogemos más muestras de la misma población. Es decir. Antes de continuar. 1. 0. las personas que miden cerca de 160 cm varían menos su peso que las personas que miden 185 cm.

debemos conocer tres parámetros: β0. β 1 = -----. los parámetros de la recta se estiman por el método de los mínimos cuadrados. Distribución de las medias El primer resultado nos dice que estas medias se encuentran situadas sobre una recta. Como se ve en la sesión “El modelo de regresión simple”. En el gráfico vemos la recta de regresión lineal para la población. Este método determina aquellos valores de los parámetros que hacen mínima la suma de los cuadrados de los residuos: n s xy ˆ ˆ ˆ i=1 β 0 = y – β 1 x . Es importante tener presente que para tener bien determinado el modelo de regresión para la población. Y podemos calcular la media o la esperanza matemática de cada una de estas distribuciones: µ x = E (Y x ) = E ( β 0 + β1 x + e ) = β0 + β1 x + E ( e ) = β 0 + β1 x 2) También podemos calcular su varianza: Var ( Y x ) = Var ( β 0 + β 1 x + e ) = Var ( β 0 + β 1 x ) + Var ( e ) = 0 + σ = σ 2 2 Cada distribución de valores de Y tiene la misma varianza σ2. que es la varianza de los residuos.© FUOC • P03/75057/01013 42 Regresión lineal simple Con estas suposiciones tenemos que: 1) Por cada valor fijo x de X obtenemos una distribución de valores y de la variable Y. β1 y σ2. Estos parámetros desconocidos se tienen que estimar a partir de una muestra de la población.= -------------------------------------------n 2 2 sx ∑ ( xi – x ) i=1 ∑ ( xi – x )( yi – y ) .

entonces podemos estimar su varianza a partir de la varianza de los residuos: Valor medio Debemos interpretar: ˆ ˆ ˆ y i = β 0+ β 1 x i como la estimación del valor medio de la distribución Y para un valor fijo X = xi.4 ( xi – x ) 0.220 .68 ei 2 En la sesión “El modelo de regresión simple” se deduce la recta de regresión correspondiente a este ejemplo.38 53.468 0.30 9. 2 1 ˆ 2 s = -----------. ∑ ( xi – x ) i=1 n 2 La recta de regresión correspondiente es: ˆ y = −96.4 –0.∑ ( y i – β 0 – β 1 x i ) n – 2i = 1 2 n n Terminología Habitualmente.62 –5.6 –8. Hemos dividido la suma de las desviaciones al cuadrado por n − 2.868 110.49 –6.36 70. Esto se debe a que estimamos la media de Y para un valor dado de X con una fórmula que contiene dos parámetros estimados a partir de los datos de la muesˆ ˆ tra ( β y β ). Diremos que “hemos perdido dos grados de libertad”.381 32.4 –9.498 21.36 0.© FUOC • P03/75057/01013 43 Regresión lineal simple ˆ ˆ De manera que β 0 y β 1 son los valores estimados (o “estimadores”) de los parámetros β 0 y β 1 de la población.51 68.56 0. i 1 2 3 4 5 6 7 8 xi 161 152 167 153 161 168 167 153 yi 63 56 77 49 72 62 68 48 ˆ yi 61. σ2.112 + 0.51 52.6 5.225 10.16 43.38 53.4 5.6 –8.62 –4.49 3.979x Para hacer los cálculos más cómodos.68 xi – x –0. Y la recta que mejor se ajusta a los datos es: ˆ ˆ ˆ yi = β0 + β1 xi Todavía nos falta estimar la varianza de los errores aleatorios. 0 1 Pérdida de grados de libertad El razonamiento es el mismo que el que hacemos al justificar la división por (n – 1) en la fórmula de la varianza muestral: Ejemplo de las alturas y los pesos Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez personas: Individuos (i) Altura Peso (yi) (x) 1 161 63 2 152 56 3 167 77 4 153 49 5 161 72 6 168 62 7 167 68 8 153 48 9 159 57 10 173 67 2 x s = --------------------------n–1 Lo hacemos porque hemos perdido un grado de libertad al estimar la media a partir de los datos de la muestra.68 61.70 67. no por n − 1.4 6. Si consideramos los residuos de la regresión como estimaciones de los valores de los errores aleatorios. 2. es aconsejable construir la tabla de cálculos por la varianza de los residuos que se muestra a continuación.36 70.56 31.56 2 ˆ ei = y i – y i 1. s2 se denomina varianza residual.68 10.908 92.075 40.36 31.∑ ( y i – y i ) n – 2i = 1 2 1 ˆ ˆ s = -----------.16 88. Este término refleja la variación aleatoria en torno a la auténtica recta de regresión.36 67.

6 14 yi 57 67 619 ˆ yi 59. Sumando todos los datos y dividiendo por el número de observaciones menos 2. por 10 – 2 = 8.56 476. ˆ • Varianza de β 1 : σ 2 σ β = -------------------------ˆ 2 1 ( xi – x ) ∑ 2 . ˆ A partir de la expresión de β 1 podemos encontrar el valor esperado y la varianza.290 2 1 ˆ 2 s = -----------.26 xi – x –2. 1 ˆ Del modelo de regresión lineal tenemos que β 1 es una combinación lineal de las observaciones yi.4 11. Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar intervalos de confianza).290 134.= 44.55 –6. es decir.55 73. entonˆ ces β también tendrá una distribución normal.4 La octava columna contiene los cuadrados de los residuos.143 356. No siempre tiene interpretación realista en el contexto del problema: por este motivo. ˆ • Valor esperado de β 1 : Los desarrollos matemáticos se muestran en el anexo de esta sesión.∑ ( y i – y i ) = ---------------------. será necesario conocer la distribución de probabiliˆ dad de β .26 ei 2 6. Aunque este valor es desconocido. Tendremos bien determinada 1 esta distribución cuando conozcamos la esperanza y la varianza. Distribución probabilística de la pendiente ( β 1 ) La ordenada en el origen β 0 nos informa del valor medio de la variable Y para un valor de X igual a cero. Esto lo veremos un poco más adelante en esta sesión.504 39. ˆ E ( β1 ) = β1 La pendiente estimada de la recta está distribuida según una distribución normal con una media igual al valor de este parámetro para la población.© FUOC • P03/75057/01013 44 Regresión lineal simple i 9 10 Σ xi 159 173 1.6 ( xi – x ) 5. este resultado nos será muy útil para tener información de la población haciendo inferencia estadística. obtenemos la varianza de los residuos: 356.536 10 – 2 n–2 i=1 n ˆ 3.76 2 ˆ ei = y i – y i –2. y si éstas tienen una distribución normal y son independientes (tal como hemos supuesto al establecer el modelo de regresión). únicamente consideraremos hacer inferencia estadística sobre la pendiente.

El intervalo de confianza para la pendiente Acabamos de ver que las suposiciones del modelo de regresión lineal simple imˆ plican que el parámetro β es una variable aleatoria distribuida normalmente 1 con: – Media: β 1 σ 2 – Varianza: σ β = -------------------------ˆ 2 1 ∑ ( xi – x ) Dado que esta varianza σ2 es desconocida. es decir.≤ t α ⁄ 2. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2. α (mediante el valor crítico tα/2. y la cantidad en la que se alarga a cada lado de la estimación depende 1 del nivel deseado de confianza. tenemos que un intervalo de confianza de 100 (1 − α)% por la pendiente β1 de la recta de regresión poblacional viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2. 1 ˆ β1 . ya que σ2 es un valor desconocido que tendremos que estimar. n – 2 = 1 – α sβ ˆ   1 Este intervalo está centrado en la estimación puntual del parámetro. ya que: ˆ   β1 – β1 P  –t α ⁄ 2.© FUOC • P03/75057/01013 45 Regresión lineal simple A continuación veremos que necesitaremos la información de la muestra.∑ ( y i – β 0 – ˆ 1 x i ) β n – 2i = 1 n 2 Definimos el error estándar de la pendiente como: s 2 s β = -------------------------ˆ 2 1 ( xi – x ) ∑ ˆ Dado que β 1 sigue una distribución normal con varianza desconocida (ya que no se conoce σ2). Con todo esto. entonces la variable tipificada: ˆ β1 – β1 ---------------sβ ˆ 1 2 tiene una distribución t de Student con n – 2 grados de libertad. n – 2 s β ] ˆ ˆ 1 1 Intervalo de confianza por la pendiente con un nivel significativo α. n – 2 ≤ ---------------. n − 2 ) y de la ˆ variabilidad del estimador β (mediante s ). ˆ en β . deberemos estimarla a partir de la varianza muestral que ya hemos calculado anteriormente: 2 2 1 ˆ s = -----------. 4.

n – 2 = t 0. Finalmente tenemos [0. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2. Por tanto.274. 536 10 – 2 De manera que: s 44. es decir. En este caso diremos que X no es una variable explicativa del modelo. el error estándar de la pendiente será: s β = ˆ 1 Y el intervalo de confianza es: [0.093 2 476.979 – 2.290 = ---------------------.684]. ˆ ˆ Para calcular el intervalo de confianza: [ β 1 – t α ⁄ 2.8 = 2.979x. • Hipótesis alternativa: H1: β1 ≠ 0. antes ˆ ˆ 1 1 tenemos que calcular: sβ ˆ donde: 2 1 s = --------------------------2 ( xi – x ) ∑ 2 2 1 s = -----------n–2 i=1 ˆ ∑ ( yi – yi ) n 2 Antes ya hemos calculado la varianza de los residuos: 2 1 s = -----------n–2 i=1 ˆ ∑ ( y i – yi ) n 2 356. Así pues. n – 2 s β ].306.= 44 . es decir.3060.05 y mirando la tabla de la t de Student tenemos un valor crítico de t α ⁄ 2 .979 + 2. la variable X es explicativa. La recta de regresión correspondiente era: y = –96. 0.4 ( xi – x ) ∑ 0.025. El contraste de hipótesis sobre la pendiente Observemos que si en el modelo de regresión lineal la pendiente es cero.306].3060 · 0. tenemos un 95% de probabilidad de que la pendiente de la recta de regresión para la población se encuentre en este intervalo. de manera ˆ que β 1 = 0.979. α = 0. daremos los pasos siguientes: 1) Establecemos las hipótesis nula y alternativa: • Hipótesis nula: H0: β1 = 0.© FUOC • P03/75057/01013 46 Regresión lineal simple Ejemplo de las alturas y los pesos Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez ˆ personas.3060 · 0.093 = 0. Como en todos los contrastes de hipótesis. Calcularemos un intervalo de confianza del 95% para la pendiente.306 2 sβ ˆ 2 1 Por tanto.536 = --------------------------.= ------------------. entonces la variable X no tiene ningún efecto sobre la variable Y. la variable X no es explicativa.= 0. . En este apartado haremos un contraste de hipótesis sobre la pendiente de la recta de regresión para saber si podemos afirmar o no que éste es igual a cero. 5.112 + 0. 1.

3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si escogemos un nivel significativo de α = 0. queremos contrastar la hipótesis nula de que la variable X no es explicativa de la variable Y. por tanto. es decir.. se rechaza la hipótesis nula H0.202 > 2. 1) Establecemos las hipótesis nula y alternativa: Hipótesis nula: Hipótesis alternativa: H0: β1 = 0 H1: β1 ≠ 0 Recordemos que. no se rechaza la hipótesis nula H0. llegamos a la misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable altura es explicativa del peso de las personas con un 95% de confianza.05. dado que 3.= 3.8 = 2. podemos actuar de dos maneras: a) A partir del p-valor. 1 que corresponde a una observación de una distribución t de Student con n − 2 grados de libertad.3060. . . 2) Fijamos un nivel significativo α.. • Si p > α no se rechaza la hipótesis nula H0. Ejemplo de las alturas y los pesos Continuando con el ejemplo de las alturas y los pesos. 3) Bajo el supuesto de la hipótesis nula cierta (β1 = 0) tenemos el estadístico de contraste: ˆ β1 t = -----sβ ˆ Interpretación geométrica No rechazar H0 significa que la recta estimada tiene una pendiente nula y. la variable X no tiene influencia sobre la variable Y y. • Si |t| ≤ tα/2.202) = 2P(t > 3. n–2. 4) Finalmente. por tanto.0063 = 0.0126 < 0. que la pendiente de la recta de regresión es cero.202) = 2 · 0. Este valor es: p = 2P(tn–2 > |t|). Es decir. no existe una relación lineal entre las dos variables. el p-valor es la probabilidad del resultado observado o de uno más alejado si la hipótesis nula es cierta.. de manera que: • Si |t| > tα/2.05: a) A partir del p-valor: P(|t| > 3. no hay una relación lineal entre X e Y.© FUOC • P03/75057/01013 47 Regresión lineal simple No rechazar la hipótesis nula significa que no se puede considerar el parámetro β1 significativamente diferente de cero. rechazamos la hipótesis nula. por tanto. por tanto..025. para cualquier valor de X la variable Y toma un mismo valor. ˆ β1 2) Calculamos el estadístico de contraste: t = -----.202 sβ ˆ 1 Sigue una distribución t de Student con n – 2 = 10 – 2 = 8 grados de libertad. n–2. n–2. hay una relación lineal entre las variables X e Y.306. Decimos que la variable X es no explicativa. • Si p ≤ α se rechaza la hipótesis nula H0. por tanto. b) A partir de los valores críticos ±tα/2. b) A partir del valor crítico que es t0.

cómo calcular un intervalo de confianza y cómo hacer un contraste de hipótesis para decidir si la variable X nos explica realmente el comportamiento de la variable Y. Resumen En esta sesión dedicada a la regresión lineal simple hemos considerado que nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de una población y que las utilizamos para extraer algunas conclusiones del comportamiento de las variables sobre la población.© FUOC • P03/75057/01013 48 Regresión lineal simple 6. Hemos establecido el modelo de regresión lineal con sus hipótesis básicas más importantes y hemos visto cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la muestra y. . en particular.

m.© FUOC • P03/75057/01013 49 Regresión lineal simple Ejercicios 1.000 €) 40 25 20 22 31 52 40 20 55 42 Ventas (x 1. para saber si la variable “número de semanas” es explicativa de la variable “ganancia de velocidad”. b) Haced un contraste de hipótesis con un nivel de significación α = 0. Una tienda de ordenadores llevó a cabo un estudio para determinar la relación entre los gastos de publicidad semanal y las ventas. El departamento de personal de una empresa informática dedicada a la introducción de datos ha llevado a cabo un programa de formación inicial del personal.318xi a) Calculad un intervalo de confianza del 95% para la pendiente de la recta de regresión.p.000 €) 380 410 390 370 475 450 500 390 575 520 . Se obtuvieron los datos siguientes: Gastos en publicidad (x 1. La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudiantes que siguieron el programa y el número de semanas que hace que lo siguen: Número de semanas 3 5 2 8 6 9 3 4 Ganancia de velocidad (p.) 87 119 47 195 162 234 72 110 La recta de regresión calculada a partir de estos datos es: ˆ y i = 1. 2.05.659 + 25.

0 ( xi – x ) ∑ 2 .20 153. n – 2 s β ] ˆ ˆ 1 1 Y ya estamos en condiciones de calcular cada uno de estos términos: s 76.= -----------------. tenemos un valor crítico de tα/2.48 –5.05 y observando la tabla de la t de Student para 6 grados de libertad.796.793.95 x.25 –5.506 49. α = 0.34 ˆ Y la recta de regresión: y = 308. por tanto.30 –9. Como siempre.= 1.590.522.6 = 2.1 2 = 43.045 El intervalo de confianza viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2.739 ˆ 2 1 44.n–2 = = t0.0 i=1 i=1 ˆ ∑ ( yi – y ) 2 = 23.695 71.061 31. Solucionario 1.018 i=1 10 ∑ ( x i – x ) = 1.66 i=1 ˆ ∑ ( yi – yi ) 2 = 19.57 229. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2.460 i=1 10 ∑ ( xi – x )( yi – y ) ∑ ( yi – y ) 10 2 = 6.61 128.025.115 20.8 + 3.39 –9.20 8.037 84.© FUOC • P03/75057/01013 50 Regresión lineal simple Con estos datos se han obtenido las cantidades siguientes: 10 10 10 i=1 10 ∑ x i = 347 i=1 ∑ y i = 4.116 85.971 459.93 ˆ ei = y i – y i 9.30 204.07 ei 2 88. lo primero que haremos es una tabla de cálculos adecuada con lo que nos piden en este problema: i 1 2 3 4 5 6 7 8 Σ xi 3 5 2 8 6 9 3 4 40 yi 87 119 47 195 162 234 72 110 1.4469.25 52.026 xi – x –2 0 –3 3 1 4 –2 –1 35 ( xi – x ) 4 0 9 9 1 16 4 1 44 2 ˆ yi 77. A partir de toda esta información. calculad un intervalo de confianza del 95% para la pendiente.61 102.61 7. a) Intervalo de confianza: Queremos un intervalo de confianza del 95%.43 4.52 77.507 2 s β = -------------------------.544 28.

54 10 – 2 n – 2i = 1 .319 . El intervalo de confianza viene dado por: ˆ ˆ [ β 1 – t α ⁄ 2.319] Es decir: [22.4469 · 1.05 tenemos un valor crítico t0.200. de manera que la pendiente es diferente de cero y la variable “número de semanas” es explicativa de la “ganancia de velocidad”.4469 menor que el estadístico de contraste t = 19.507.318 – 2.= 2. n – 2 s β ] ˆ ˆ 1 1 Necesitamos calcular el error estándar de la pendiente y encontrar los valores críticos.© FUOC • P03/75057/01013 51 Regresión lineal simple n 459.319.025. 28. 2. 25.= 19.05: 1) Establecemos las hipótesis nula y alternativa: Hipótesis nula: Hipótesis alternativa: H0: β1 = 0 H1: β1 ≠ 0 2) Calculamos el estadístico de contraste: ˆ β1 t = -----. 10 – 2 n – 2i = 1 Por tanto. 1) Error estándar de la pendiente: Primero calculamos: n 19. n – 2 s β ≤ β 1 ≤ β 1 + t α ⁄ 2.092.∑ ( y i – y i ) = ---------------------. entonces rechazamos la hipótesis nula.6 = 2. s β = ˆ 1 1.34 2 1 ˆ 2 s = -----------.4469 · 1.= 76.045 2 1 ˆ 2 donde s = -----------. 3) Conclusión: puesto que para α = 0.796.474.318 + 2.739 = 1.545] b) Contraste de hipótesis para α = 0. Y el intervalo de confianza es: [25.200 sβ ˆ 1 Sigue una distribución t de Student con n − 2 = 6 grados de libertad.∑ ( y i – y i ) = --------------------------.

= ----------------------. tenenemos unos valores críticos: t0.275 2) Un intervalo de confianza del 95% con n = 10.953 + 2.3060 · 1. el error estándar de la pendiente vale: s β = ˆ 1 2 1.522.54 2 s β = -------------------------. 3.3060.275] Es decir: [1.025.3060 · 1.© FUOC • P03/75057/01013 52 Regresión lineal simple de manera que: s 2.626 ˆ 2 1 1.= 1.626 = 1. este resultado nos indica que el gasto en publicidad es explicativo de las ventas con una confianza del 95%. por tanto. 3) Por tanto.474. el intervalo de confianza es: [3.8 = ±2. . 6.1 ∑ ( xi – x ) Por tanto.275.953 − 2.013.894] Este intervalo de confianza no contiene el valor cero.

= i=1 ∑ wi ( β0 + β1 xi ) n n = i=1 ∑ wi β0 + β1 wi xi n n n = = i=1 ∑ wi β0 + ∑ β1 wi xi i=1 n n = β 0 ∑ wi + β 1 ∑ w i xi i=1 i=1 Vemos que: i=1 ∑ wi n n = 0 y que i=1 ∑ wi xi = 1 Observación Puesto que: n ( xi – x ) 1 ∑ w i = ∑ ---------------------------.© FUOC • P03/75057/01013 53 Regresión lineal simple Anexos Anexo 1 ˆ a) Valor esperado de β 1 : ˆ E ( β1 ) = β1 ˆ Manipulando un poco la expresión que tenemos para β 1 : n s xy =1 ˆ β 1 = -----.= i-------------------------------------------.y i n 2 i=1 ∑ (xj – x ) j=1 n ( xi – x ) ( xi – x ) ˆ Si hacemos: w i = ---------------------------.= ------------------------------.∑ ( xi – x ) = 0 n n 2 2 i=1 i=1 ∑ ( xi – x ) ∑ ( xi – x ) i = 1 i=1 n i=1 n x = 1 ∑ xi -n i=1 n es fácil ver que: Para calcular el término n i=1 n n n n n ∑ w i x i . utilizaremos la igualdad siguiente: i=1 ∑ ( xi – x ) n = 0 i=1 ∑ wi ( xi – x ) n = i=1 ∑ w i xi – ∑ wi x i=1 = i=1 ∑ w i x i – x ∑ wi i=1 = i=1 ∑ wi xi Ya que: i=1 ∑ wi = 0 ..= n 2 2 sx ∑ ( xj – x ) j=1 ∑ ( xi – x ) ( yi – y ) ∑ ---------------------------. podemos escribir: β 1 = n 2 ∑ ( xj – x ) j=1 i=1 ∑ wi yi n Si ahora calculamos el valor esperado: ˆ E ( β 1 ) = E  ∑ w i y i =   i=1 n n n i=1 ∑ E ( wi yi ) = i=1 ∑ wi E ( yi ) = Propiedad de la linealidad La propiedad de la linealidad de la esperanza de una variable es: E(kX) = kE(X).

finalmente.= 1 n n 2 2 i=1 i=1 ( xi – x ) ( xi – x ) ∑ ∑ i=1 i=1 n n ∑ ( xi – x ) n 2 Así pues: i=1 ∑ wi xi n = 1 ˆ Y.  2  n ( xi – x )  2 2 2 2 1 = σ ∑ w i = σ  ∑ ---------------------------. = σ ---------------------------n n i = 1 2 2 i=1 ∑ ( xi – x )  ∑ ( xi – x )  n i=1 i=1 σ 2 ˆ Tenemos que la varianza de β 1 es: σβ = ---------------------------ˆ n 1 2 ( xi – x ) ∑ i=1 2 . tenemos que: E ( β 1 ) = β 1.© FUOC • P03/75057/01013 54 Regresión lineal simple De manera que: (xi – x ) i=1 ∑ w i ( xi – x ) = ∑ ---------------------------. ˆ b) Varianza de β 1 : ˆ σ β = Var ( β 1 ) = Var  ∑ w i y i = ˆ 1   i=1 n i=1 ∑ n Var ( w i y i ) = i=1 ∑ w i Var ( y i ) n 2 = Propiedad de la varianza Var(kX) = k2Var (X).( xi – x ) = ---------------------------.

Sign up to vote on this title
UsefulNot useful