Está en la página 1de 13

Tema 5

Análisis de regresión

Índice
1. El problema del ajuste y la regresión 1

2. El método de los mı́nimos cuadrados 4

3. Calidad del ajuste: coeficiente de determinación R2 6

4. Propiedades de los estimadores de mı́nimos cuadrados 8

5. Pruebas de hipótesis sobre los parámetros de regresión 9

6. Intervalo de confianza de la respuesta media 11

7. Intervalo de predicción 11

8. Algunas ecuaciones de ajuste no lineales 12

1. El problema del ajuste y la regresión


En las ciencias aplicadas, el término modelo se refiere a una descripción matemática de un determinado
fenómeno. Ası́ hablamos de construir o diseñar un modelo cuando a partir de conocimientos previos
basados en observaciones o medidas y de determinadas hipótesis avaladas por la experiencia que consi-
deramos plausibles, definimos variables y establecemos relaciones entre ellas en forma de ecuaciones, que
podemos validar experimentalmente, y usarlas para calcular valores de esas variables.
El análisis de regresión es una técnica estadı́stica para el modelado y la investigación de la relación entre
dos o más variables.

El término regresión fue introducido por Francis Galton1 en su libro Natural inheritance
(1889) y fue confirmada por su amigo Karl Pearson2 . Su trabajo se centró en la descripcón
de los rasgos fı́sicos de los descendientes (variable A) a partir de los de sus padres (variable
B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos fami-
liares, se llegó a la conclusión de que los padres muy altos tenı́an una tendencia a tener hijos
que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar

1 Sir Francis Galton, Duddeston 16 de febrero de 1822 - Haslemere 17 de enero de 1911.


2 Karl Pearson, Londres 27 de marzo de 1857 – Londres 27 de abril de 1936.

1
Tema 5. Análisis de regresión 2

a la media. Galton generalizó esta tendencia bajo la ”ley de la regresión universal”: Cada
peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado
menor. (http://es.wikipedia.org/wiki/Regresión– (estadı́stica)).

Para introducirnos en el tema vamos a considerar el ejemplo que sigue.


En los metales, la resistencia eléctrica R es una función de la temperatura t. Supongamos que la temper-
atura puede ser fijada a voluntad mediante el empleo de un termostato lo bastante preciso como para que
podamos admitir que una vez estabilizada, su valor permanece fijo no estando sometida a fluctuaciones ni
errores de medida. Tal suposición no es rigurosamente cierta, porque para saber que la temperatura se ha
estabilizado, necesitamos medirla con un sensor que forma parte del termostato, y que como todo aparato
de medida, está sujeto a multitud de pequeñas influencias que dan como resultado el que dicha medida
esté sujeta a error. No obstante, consideraremos este error despreciable y admitiremos como hemos dicho,
que la temperatura puede ser fijada a voluntad. Esta suposición, crucial en la teorı́a que sigue, se justifica
porque en la construcción de modelos, usualmente deseamos mantener el control sobre ciertas variables,
en este caso la temperatura, e investigar como varı́an otras variables, es decir la respuesta que presentan,
en este caso la resistencia. Ası́ es costumbre, en el ámbito del análisis de regresión hablar de variables de
control o variables de predicción (algunas veces también llamadas variables de regresión) y de variables
de respuesta. En el ejemplo que estamos desarrollando, la variable de predicción serı́a la temperatura, y
la variable de respuesta la resistencia eléctrica.
Fijada pues una temperatura, procedemos a efectuar varias medidas de la resistencia teniendo en cuenta
que están sometidas a error, de modo que cada vez que midamos obtendremos diferentes resultados. Los
errores son debidos a una diversidad de causas que tomadas individualmente, ejercen poca influencia
sobre el resultado de la medida, pero su número, usualmente desconocido, lo imprevisible de su aparición
y la cuantı́a de su influencia, que es imposible prever, (aunque en conjunto no sea demasiado grande si el
experimento está bien controlado) hacen que la magnitud que estamos midiendo pueda ser considerara
como una variable aleatoria. Algunas fuentes de error que podrı́an presentarse son: variaciones en la
presión atmosférica y la humedad ambiente, interferencias producidas por aparatos eléctricos próximos,
vibraciones en los soportes de los aparatos debidas a vehı́culos que circulen cerca, corrientes de aire,
fluctuaciones en la tensión de alimentación de los aparatos y otras muchas que podrı́amos imaginar,
ası́ como otras que ni siquiera sabemos que existen.
De este modo, para cada temperatura, tenemos una población formada por las infinitas medidas de
resistencia que podrı́an hipotéticamente efectuarse. Las medidas que realmente hacemos en el laboratorio
constituyen una muestra aleatoria de la misma. En estas circunstancias, si llamamos µR|t al valor esperado
de la variable aleatoria R, donde el subı́ndice R|t indica que se trata de la media de R para un valor fijo
de t, podemos escribir
R|t = µR|t + ε (1)
donde ε es una variable aleatoria. Al valor esperado µR|t se le llama verdadero valor de la resistencia R
a la temperatura t, y es inasequible porque se trata de un parámetro de la población constituida por las
infinitas medidas de R. No obstante, puede estimarse mediante la media muestral, y eso es precisamente
lo que hacemos cuando al medir repetidamente una magnitud, tomamos como valor de la misma a la
media aritmética de las medidas, es decir, lo que tomamos como valor de una magnitud no es mas que
una estimación puntual del parámetro que hemos llamado verdadero valor de esa magnitud.
A la variable aleatoria ε, diferencia entre la resistencia y su verdadero valor, se le llama error, y tal como
ha sido definido, es inmediato comprobar que su media es cero y que su varianza coincide con la de R.
Hasta ahora hemos considerado fijo el valor de la temperatura, pero si usando nuestro termostato, fijamos
la temperatura a un nuevo valor, tendremos una nueva variable aleatoria R. La hipótesis de que las
resistencias a distintas temperaturas son variables aleatorias independientes, parece plausible, ya que
fijada la nueva temperatura, los resultados de cualquier medida no pueden verse influidos por los resultados
Tema 5. Análisis de regresión 3

de las medidas hechos a la temperatura anterior. Además, si empleamos (como parece razonable) el mismo
instrumento, las variabilidades en las medidas de los diferentes valores de la resistencia, que vienen dadas
por las varianzas de las variables aleatorias R, deben ser las mismas. Ambos supuestos, independencia e
igualdad de varianzas, ocupan un lugar central en el análisis de regresión.
Puesto que al cambiar de temperatura, cambiamos de variable aleatoria R, la media µR|t ha de ser una
función de t, cuya gráfica se llama curva de regresión de R frente a t. Ahora bien, ya que pretendemos
diseñar un modelo de la dependencia de la resistencia con la temperatura en los metales, podemos
postular, basándonos en evidencias fı́sicas, que tal curva es una recta, lo que nos lleva a proponer la
siguiente ecuación de la curva de regresión

µR|t = β0 + β1 t (2)

en la que β0 y β1 son parámetros a determinar. Desde luego que no siempre la relación entre las magnitudes
va a ser lineal. Dependiendo del conocimiento previo que tengamos del fenómeno, pueden proponerse otras
curvas de regresión, pero en cualquier caso, y esta es de nuevo una condición esencial en los desarrollos que
siguen, las ecuaciones de las curvas de regresión han de ser lineales en los parámetros. En caso contrario
entrarı́amos en el análisis de regresión no lineal, que no será objeto de estudio en este Tema.
Usando (1) y (2) podemos escribir nuestro modelo de regresión para la relación entre la resistencia y la
temperatura:
R|t = β0 + β1 t + ε. (3)
Es importante señalar que β0 y β1 son parámetros poblacionales y por lo tanto sus valores son inalcan-
zables, puesto que para calcularlos, necesitarı́amos disponer de los infinitos valores de la variable R para
cada uno de los infinitos valores de la variable t. Como hemos comentado al hablar de µR|t , sólo podemos
aspirar a obtener estimaciones de esos parámetros, y ese es uno de los objetivos del análisis de regresión.
En la práctica, lo usual es que se disponga de una sola medida de resistencia para cada valor prefijado
de la temperatura, de modo que si fijamos n temperaturas, obtenemos un conjunto de pares de valores

(ti , Ri ) i = 1, 2, . . . , n (4)

que representan, en un sistema de coordenadas cartesianas, un conjunto de puntos mas o menos disperso
que suele llamarse nube de puntos y también diagrama de dispersión. La observación de tal diagrama,
puede sugerir la forma de la curva de regresión, y en muchos casos, a falta de otra información, es el único
argumento en el que podemos apoyarnos para proponer la forma de esa curva.
Al sustituir (4) en (3), logramos un sistema de n ecuaciones con las dos incógnitas β0 y β1

R1 = β0 + β1 t1
R2 = β0 + β1 t2
(5)
...............
Rn = β0 + β1 tn

obsérvese que hemos eliminado los términos de error de (3), ya que cuando obtenemos las medidas (4),
desconocemos los errores de las mismas. El sistema (5) es sobredeterminado y en general es incompatible.
Podemos calcular unos números que sustituidos en el lugar de las incógnitas verifiquen lo mejor posible
las ecuaciones de este modo: dado que los εi son los errores de las medidas, vamos a imponer la condición
de que la suma de los cuadrados de los mismos sea mı́nima. Este criterio, llamado de mı́nimos cuadrados
proporciona estimaciones b0 y b1 de los parámetros β0 y β1 que dependen (como todas las estimaciones)
de la muestra (4) que estemos considerando. Con los valores calculados, proponemos la ecuación

R = b0 + b1 t
Tema 5. Análisis de regresión 4

llamada ecuación de ajuste, que constituye una realización, construida en base a los datos (4) disponibles,
de nuestro modelo de la resistencia frente a la temperatura. Su gráfica se llama recta de ajuste debido a
que es (para la muestra de medidas dada) la que mejor se adapta (o ajusta) en el sentido de los mı́nimos
cuadrados, a la nube de puntos.
Quedan por determinar ciertas cuestiones, relativas a la calidad del ajuste, a los intervalos de confianza
de las estimaciones, y otras inferencias que iremos desarrollando a lo largo de este Tema.
Hasta aquı́ hemos establecido las ideas básicas del análisis de regresión. A continuación vamos a resumirlas
y a fijar la nomenclatura que usaremos en lo sucesivo.

El análisis de regresión es una técnica estadı́stica para el diseño de modelos que involucran relaciones en
forma de ecuaciones entre variables. En este tema nos limitaremos al caso de que haya una sola relación,
lineal en los parámetros, entre dos variables. Hablamos entonces de análisis de regresión lineal simple,
y está basado en los siguientes supuestos:

Supuesto 1.− Hay una sola variable de predicción (o de regresión o de control), no aleatoria
y una sola variable de respuesta aleatoria.
Supuesto 2.− Los valores de la variable de respuesta medidos para distintos valores de la
variable de predicción proceden de poblaciones independientes y todas con la misma
varianza.
Supuesto 3.− La relación entre los valores esperados de la variable de respuesta y los de la
variable de predicción, es lineal en los parámetros.

A continuación introducimos la siguiente nomenclatura

Modelo de regresión : Y |x = β0 + β1 x + ε,
Ecuación de regresión : µY |x = β0 + β1 x,
Ecuación de regresión estimada : ŷ = βˆ0 + βˆ1 x,
Ecuación de regresión ajustada : y = b0 + b1 x,

donde

x : variable de predicción (no aleatoria),


Y : variable de respuesta (aleatoria),
µY |x : valor medio de Y para un valor fijo de x,
β0 , β1 : parámetros de la ecuación de regresión (constantes desconocidas),
ε : error (variable aleatoria),
βˆ0 , βˆ1 : estimadores de β0 y β1 ,
ŷ : estimador de µY |x ,
y : valor numérico (en una muestra dada) de la variable de respuesta Y,
b0 , b1 : valores numéricos (para una muestra dada) de los estimadores βˆ0 y βˆ1 .

2. El método de los mı́nimos cuadrados


Habiendo fijado n valores x1 , x2 , . . . , xn de la variable de predicción, llamemos Yi i = 1, 2, . . . , n a la
variable de respuesta para cada uno de esos valores. Podemos considerar que
© ª
Y1 , Y2 , . . . , Yn (6)
Tema 5. Análisis de regresión 5

es una muestra aleatoria de la variable de respuesta.

Al sustituir µY |x por cada una de las Yi y x por las xi en la ecuación de regresión, obtenemos el sistema
Y1 = β0 + β1 x1
Y2 = β0 + β1 x2
...............
Yn = β0 + β1 xn
Tomando por incógnitas a β0 y β1 este sistema resulta ser sobredeterminado y en general incompatible,
pero podemos buscar algo que se aproxime a una solución, calculando β̂0 y β̂1 (que dependerán de la
muestra aleatoria (6) siendo por lo tanto estadı́sticos), con la condición de que al ser sustituidos en lugar
de β0 y β1 minimizen la suma de los cuadrados de los errores.
n
X n
X ¡ ¢2
L= ε2i = Yi − β0 − β1 xi ,
i=1 i=1

es decir, que hagan lo más pequeña posible la suma de los cuadrados de las diferencias entre los primeros y
los segundos miembros de las ecuaciones. La condición necesaria para ello es la anulación de las derivadas
parciales µ ¶ Xn

 ∂L ¡ ¢

 = −2 Yi − β̂0 − β̂1 xi = 0,
 ∂β0 (β̂ ,β̂ )
0 1 i=1
µ ¶ n
(7)

 ∂L X ¡ ¢

 = −2 Yi − β̂0 − β̂1 xi xi = 0,
 ∂β
1 (β̂0 ,β̂1 ) i=1

lo que constituye un sistema de ecuaciones lineales en β̂0 y β̂1 llamadas ecuaciones normales. Al
desarrollar los sumatorios y reordenar los términos de forma conveniente, las ecuaciones normales pueden
escribirse ası́  n
X n
X



 n β̂0 + β̂1 xi = Yi ,

i=1 i=1
 n
X n
X n
X

 2

 β̂0 xi + β̂1 xi = xi Yi .
i=1 i=1 i=1

Calculamos β̂0 en función de β̂1 , despejando en la primera ecuación


n n
1X 1X
β̂0 = Yi − β̂1 xi = Y − β̂1 x,
n i=1 n i=1

y a continuación calculamos β̂1 usando la regla de Cramer


¯ Xn ¯
¯ ¯
¯ n Y ¯
¯ i ¯
¯ i=1 ¯ Ã n !Ã n !
¯X ¯
¯ n Xn
¯ Xn X X 1X
n
¯ xi x Y
i i¯ ¯ n x Y
i i − x i Yi xi Yi − x Y
¯ n i=1
i=1 i=1 i=1 i=1 i=1
β̂1 = ¯ n ¯ = Ã n !2 = n .
¯ X ¯ Xn X 1X 2
¯ n x ¯ 2 x − x 2
¯ i¯ n xi − xi n i=1 i
¯ i=1 ¯
¯X ¯ i=1 i=1
¯ n Xn
¯
¯
¯ x i x2i ¯¯
i=1 i=1

Ahora introducimos la notación


Xn n
X
¡ ¢¡ ¢ ¡ ¢2
Sxy = xi − x Yi − Y y Sxx = xi − x
i=1 i=1
Tema 5. Análisis de regresión 6

que nos permite escribir


n n n n n
1 X¡ ¢¡ ¢ 1X 1X 1X 1¡ ¢ 1X
xi − x Yi − Y xi Yi − x Yi − Y xi + nxY xi Yi − x Y
Sxy n i=1 n i=1 n i=1 n i=1 n n i=1
= n = n n = n ,
Sxx 1 X¡ ¢2 1X 2 1X 1 ¡ 2¢ 1X 2
xi − x xi − 2x xi + nx x − x2
n i=1 n i=1 n i=1 n n i=1 i

con lo cual
Sxy Sxy
β̂0 = Y − x y β̂1 = . (8)
Sxx Sxx
Puede demostrarse que la solución (β̂0 , β̂1 ) de las ecuaciones normales que hemos obtenido, hace que la
suma de los cuadrados de los errores L tome efectivamente el menor valor posible.

Los estadı́sticos β̂0 y β̂1 , pueden usarse como estimadores de los parámetros β0 y β1 . De hecho, reunen
cualidades para ello, algunas de las cuales se analizarán más tarde. El procedimiento empleado para
obtener estos estimadores, se llama método de los mı́nimos cuadrados, y su uso no está restringido
al análisis de regresión, constituyendo uno de los métodos usuales para el diseño de estimadores.

Con ayuda de los estimadores β̂0 y β̂1 podemos construir un estimador ŷ de la respuesta media µY |x de
este modo
ŷ = β̂0 + β̂1 x.
Esta igualdad es la ecuación de regresión estimada. Es inmediato comprobar que E(ŷ) = µY |x .

3. Calidad del ajuste: coeficiente de determinación R2


La variabilidad de los valores Yi i = 1, 2, . . . , n de la variable de respuesta se puede medir mediante las
n
1X
desviaciones de éstos, Yi − Y con respecto a su media Y = Yi .
n i=1
La igualdad evidente Yi −Y = (Yi − ŷi )+(ŷi −Y ), pone de manifiesto que dichas desviaciones se componen
de dos términos: el primero, Yi − ŷi se debe a la aleatoriedad implı́cita en los datos, ya que de no existir
ésta, es decir, si las Yi no fueran variables aleatorias, sino que cada una de ellas dependiera exclusivamente
del correspondiente xi , el término de error aleatorio serı́a ε = 0, y por lo tanto, el modelo de regresión
quedarı́a ası́
Y = β0 + β1 x,
de donde se deduce que ad Yi = β0 + β1 xi , (i = 1, 2, . . . , n) y por lo tanto Y = β0 + β1 x.
Si en este supuesto de ausencia de aleatoriedad en la variable de respuesta, calculamos β̂1 y β̂0 , tenemos
n
X n
X n
X
¡ ¢¡ ¢ ¡ ¢¡ ¢ ¡ ¢2
xi − x Yi − Y xi − x β0 + β1 xi − β0 − β1 x β1 xi − x
Sxy i=1 i=1 i=1
β̂1 = = = = = β1 ,
Sxx Sxx Sxx Sxx
β̂0 = Y − β̂1 x = β0 + β1 x − β1 x = β0 .

Es decir, si la variable de respuesta careciera de error aleatorio, o en otras palabras, si la variable de


respuesta no fuera una variable aleatoria, tendrı́amos β̂0 = β0 y β̂1 = β1 , con lo cual, Y = ŷ y en
consecuencia Yi = ŷi (i = 1, 2, . . . , n), anulándose ası́ el primero de los dos sumandos Yi − ŷi en que
hemos descompuesto la desviación .
El segundo ŷi − Y es imputable a la regresión. En efecto, si no hubiera dependencia de la variable de res-
puesta con respecto a la variable de regresión, y por lo tanto los valores de la primera fueran meramente
Tema 5. Análisis de regresión 7

fluctuaciones aleatorias alrededor de un valor medio, sin que importe el valor de x, podrı́amos comprobar
que E(ŷi − Y ) = 0. Para ello, observemos que la independencia de Y con respecto a x implica β1 = 0,
con lo cual

Y = β0 + ε, y entonces Yi = β0 + εi i = 1, 2, . . . , n, ası́ que Y = β0 + ε.

Ahora podemos escribir


¡ ¢
E(ŷ − Y ) = E β̂0 + β̂1 xi − β0 − ε = β0 + β1 xi − β0 − E(ε) = 0,

ya que E(ε) = E(ε) = 0 y β1 = 0.


Pero las desviaciones individuales de cada valor Yi de la variable de respuesta con respecto a la media Y ,
no es suficientemente informativa. Para obtener una magnitud que englobe la variabilidad conjunta de
todos los valores de dicha variable, consideramos la suma de los cuadrados de las desviaciones:
n
X ¡ ¢2
Syy = Yi − Y .
i=1

Esta suma presenta una caracterı́stica interesante, y es que se puede descomponer en suma de otras dos
sumas de cuadrados. Para ello, escribimos
n
X n
X n
X n n
¡ ¢2 ¡ ¢2 ¡ ¢2 X ¡ ¢2 X ¡ ¢¡ ¢
Syy = Yi − Y = Yi − ŷi + ŷi − Y = Yi − ŷi + ŷi − Y + 2 Yi − ŷi ŷi − Y .
i=1 i=1 i=1 i=1 i=1

Usando el estimador del coeficiente β̂0 de la recta de regresión dado en (8), podemos escribir
(
Yi − ŷi = (Yi − Y ) − β̂1 (xi − x)
ŷi = Y − β̂1 x + β̂1 xi y por lo tanto (9)
ŷi − Y = β̂1 (xi − x)

ası́ pues
n
X n h i
¡ ¢¡ ¢ X
Yi − ŷi ŷi − Y = (Yi − Y ) − β̂1 (xi − x) β̂1 (xi − x) =
i=1 i=1
Xn Xn µ ¶2
¡ ¢¡ ¢ ¡ ¢2 Sxy Sxy
= β̂1 xi − x Yi − Y − β̂12 xi − x = Sxy − Sxx = 0
i=1 i=1
Sxx Sxx

donde hemos sustituido β̂1 por su valor dado en (8). Si ahora introducimos la notación
n
X n
X
¡ ¢2 ¡ ¢2
SSR = ŷi − Y y SSE = Yi − ŷi
i=1 i=1

obtendremos la siguiente descomposición de la suma de cuadrados

Syy = SSR + SSE. (10)

Al dividir los dos miembros de esta igualdad entre Syy y reordenar adecuadamente los términos, podemos
definir el coeficiente R2
SSR SSE
R2 = =1−
Syy Syy
que recibe el nombre de coeficiente de determinación. Las tres sumas de cuadrados de (10) son no
negativas, de lo que se deduce que 0 6 R2 6 1. Ahora bien, como hemos visto antes, SSR mide la parte de
la variabilidad de la variable de respuesta imputable a la regresión, mientras que Syy mide la variabilidad
Tema 5. Análisis de regresión 8

total. Su cociente, el coeficiente de determinación, es por lo tanto la fracción de la variabilidad total,


atribuible a la regresión. Por consiguiente, un valor alto de R2 implica una manifiesta influencia de la
regresión, es decir de la dependencia de Y con x en los valores medidos u observados de la variable de
respuesta. Contrariamente, un valor pequeño de R2 evidencia una fuerte influencia de la componente de
error aleatorio en los valores de Y observados o medidos. Véanse las figuras 1 y 2.

En todo lo anterior hemos supuesto que el modelo lineal es el correcto, y que la falta de ajuste se debe
a los errores en la variable de respuesta. Pero puede ocurrir que dicha falta de ajuste se deba a que el
modelo lineal es inapropiado, y no a los errores. En la figura 3 puede verse que el bajo valor del coeficiente
de determinación del modelo lineal es debido a que éste no es adecuado, pero no a los errores, ya que
el modelo cuadrático presenta un buen ajuste, La razonablemente buena adaptación de los puntos a la
parábola indican que los errores en la variable de respuesta son pequeños.

Figura 1: La variable de respuesta Y depende linealmente de la variable de regresión x, pero los errores
que afectan a Y son tan grandes que dan como resultado un pobre ajuste. Por ello el coeficiente de
determinación R2 es pequeño.

4. Propiedades de los estimadores de mı́nimos cuadrados


Teorema 4.1 Los estadı́sticos β̂0 y β̂1 son estimadores insesgados de los parámetros β0 y β1 respectiva-
mente, y sus varianzas son
µ ¶
2 1 x2 σ2
V ar(β̂0 ) = σ + y V ar(β̂1 ) = .
n Sxx Sxx

Para obtener inferencias acerca de los parámetros β0 y β1 , necesitamos un estimador de la varianza σ 2


que aparece en las expresiones de los valores esperados y las varianzas del teorema 4.1. Tal estimador
viene dado en el próximo teorema
Tema 5. Análisis de regresión 9

Figura 2: Como en la figura 1, la variable de respuesta Y depende linealmente de la variable de regresión


x, pero ahora los errores que afectan a Y son relativamente pequeños, lo que implica un buen ajuste. Por
ello el coeficiente de determinación R2 es grande.

2
y = 0.9159 x - 1.8081 x + 1.192
2
R = 0.9715
regresión polinomial

y = 0.4817 x + 0.3333
2
R = 0.3517
regresión lineal

Figura 3: El modelo lineal presenta un pobre ajuste, pero no debido a los errores en la variable de
respuesta, sino a que el modelo adecuado no es lineal sino cuadrático.

SSE
Teorema 4.2 El estadı́stico σ̂ 2 = es un estimador insesgado del parámetro σ 2 .
n−2

5. Pruebas de hipótesis sobre los parámetros de regresión


Para diseñar pruebas de hipótesis acerca de los parámetros de regresión β0 y β1 , necesitamos añadir un
supuesto más a los ya enunciados en la página 3

Supuesto 4.− La variable de respuesta tiene distribución normal.


Tema 5. Análisis de regresión 10

Cuando la variable de respuesta es una magnitud fı́sica, este supuesto va a verificarse siempre, ya que
entonces la igualdad Y = µY |x + ε puede interpretarse en el sentido de que toda medida es la suma del
verdadero valor de la magnitud y de un término de error. Gauss3 investigó la distribución de probabilidad
de los errores de las medidas y redescubrió la distribución normal, que De Moivre4 habı́a descubierto antes.
Precisamente ası́ es como empezó a tomar importancia en la Ciencia esta distribución.

Puede demostrarse que los estimadores β̂0 y β̂1 de los coeficientes de regresión, son combinaciones lineales
de las variables aleatorias Yi . Este hecho se enuncia en el siguiente teorema.

Teorema 5.1 Los estimadores β̂0 y β̂1 de los parámetros β0 y β1 verifican


n 
X xi − x 
β̂1 = ci Yi donde ci = 

i=1
Sxx 
n
i = 1, 2, . . . , n.
X 1 

β̂0 = di Yi donde 

d i = − x ci 
i=1
n

es decir, son combinaciones lineales de las variables aleatorias Yi .

Ejercicio: Compruebe las siguientes igualdades:


n
X n
X
ci = 0, di = 1.
i=1 i=1

A partir del Supuesto 4, admitimos que las Yi (i = 1, 2, . . . , n) se distribuyen normalmente con medias
µY |xi y varianza común σ 2 . Se deduce de ahı́ que β̂1 es normal, ya que según el teorema 5.1 es combinación
lineal de variables aleatorias con esa misma distribución. Su media y su varianza vienen dadas en el
teorema 4.1. Podemos entonces escribir
µ ¶
σ
β̂1 ∼ N β1 , √ .
Sxx

A partir de aquı́ puede demostrarse que el estadı́stico

β̂1 − β1
T = √
σ̂/ Sxx

tiene distribución t de Student con n − 2 grados de libertad.

Estamos ahora en condiciones de plantear una prueba de hipótesis sobre el parámetro β1 . Sea β10 un
número que vamos a usar como valor de prueba en el contraste de hipótesis:
(
H0 : β1 = β10 ,
H1 : β1 6= β10 .

Entonces, bajo H0 se verifica, según acabamos de ver

β̂1 − β10
T = √ ∼ tn−2 ,
σ̂/ Sxx

luego la región crı́tica a un nivel de significación α viene dada por |T | > tα/2,n−2 .

3 Johann Carl Friedrich Gauss, Brunswick 30 de abril de 1777, Göttingen 23 de febrero de 1855.
4 Abraham de Moivre. Vitry-le-Francois (Francia), 26 de mayo de 1667, Londres, 27 de noviembre de 1754.
Tema 5. Análisis de regresión 11

De un modo completamente análogo al expuesto, puede diseñarse una prueba de hipótesis para el
parámetro β0 . Para ello, observemos que por las mismas razones que β̂1 , bajo el Supuesto 4, el estadı́stico
β̂0 tiene distribución normal cuya media y varianza vienen dadas en el teorema 4.1, ası́
 s 
2
1 x
β̂0 ∼ N β0 , σ + .
n Sxx

Como antes, puede demostrarse a partir de aquı́ que el estadı́stico

β̂ − β0
T = s0 ,
1 x2
σ̂ +
n Sxx

tiene distribución t de Student con n − 2 grados de libertad.


Ahora podemos plantear el contraste de hipótesis
(
H0 : β0 = β00 ,
H1 : β0 6= β00 .

Entonces, bajo H0 , se verifica


β̂ − β00
T = s0 ∼ tn−2 ,
1 x2
σ̂ +
n Sxx
y como antes, la región crı́tica viene dada por |T | > tα/2,n−2 .

Un caso particularmente interesante de estos contrastes de hipótesis, se da cuando β10 = 0. Tenemos


entonces (
H0 : β1 = 0,
(11)
H1 : β1 6= 0.
Si H0 fuera cierta, tendrı́amos µY |x = β0 , lo que implica que no rechazar dicha hipótesis puede interpre-
tarse de dos maneras:

La relación entre la variable de respuesta Y y la variable de regresión x es efectivamente lineal, con


lo cual la recta de regresión es horizontal o casi horizontal, de modo que x tiene poca importancia
para explicar la variación de Y , y el mejor estimador de Y es Y sea cual sea el valor de x.

O bien, la relación subyacente entre x e Y no es lineal como hasta ahora venı́amos suponiendo.

En cualquier caso, si la conclusión de la prueba es rechazar la hipótesis nula, diremos que la regresión es
significativa. En caso contrario diremos que no es significativa la regresión.

6. Intervalo de confianza de la respuesta media


Para la respuesta media µY |x podemos diseñar un intervalo de confianza, partiendo de su estimador
ŷ = β̂0 + β̂1 x. Conviene recordar que según el teorema 5.1, los estadı́sticos β̂0 y βˆ1 son combinaciones
lineales de las variables aleatorias Yi , que de acuerdo con el Supuesto 4 son normales, luego ŷ, que también
es combinación lineal de variables normales (x no es una variable aleatoria), también tiene distribución
normal. Su media es

E(ŷ) = E(β̂0 + β̂1 x) = E(β̂0 ) + E(β̂1 ) x = β0 + β1 x = µY |x ,


Tema 5. Análisis de regresión 12

y su varianza µ¶
1 1
V ar(ŷ) = σ 2
+ (x − x)2 ,
n Sxx
às !
1 (x − x)2
de modo que podemos concluir que ŷ ∼ N µY |x , σ + . A partir de aquı́ puede de-
n Sxx
mostrarse que un intervalo de confianza del 100(1 − α) % para el parámetro µY |x es:
 s s 
 ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2 
+ , ŷ + tα/2,n−2 σ̂ +
n Sxx n Sxx

7. Intervalo de predicción
Consideremos un valor cualquiera x de la variable de control (no necesariamente igual a uno de los xi en
los que nos venimos basando para construir el modelo de regresión, aunque eventualmente puede coincidir
con alguno de ellos). Sea Y la variable de respuesta para ese valor x. Vamos a diseñar un intervalo que
tenga una probabilidad 1 − α de contener un valor y de la variable de respuesta Y . Es de destacar que
este intervalo, aunque formalmente análogo a un intervalo de confianza, es sin embargo conceptualmente
distinto. En efecto, un intervalo de confianza es un intervalo, cuyos extremos son variables aleatorias, y
que tiene una probabilidad 1 − α de contener a un parámetro de la población. El intervalo diseñado en
la sección anterior para la respuesta media es un intervalo de confianza, ya que dicha respuesta es un
parámetro poblacional. Por el contrario, el intervalo que vamos a diseñar, es un intervalo (cuyos extremos
serán también variables aleatorias) que tiene una probabilidad 1 − α de contener no un parámetro, sino
un valor y de la variable de respuesta (que no es un parámetro de la población) correspondiente a un
valor x de la variable de regresión. En algunos textos, se alude a y como un valor futuro de la variable
Y , y por esa razón, se nombra a este intervalo como intervalo de predicción.
 s s 
 ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2 
1+ + , ŷ + tα/2,n−2 σ̂ 1+ +
n Sxx n Sxx

8. Algunas ecuaciones de ajuste no lineales


Una condición fundamental en el análisis de regresión lineal es que las ecuaciones de ajuste empleadas
sean lineales en los coeficientes de regresión. El que también sean lineales en la variable de regresión,
como hemos considerado hasta ahora, no es imprescindible. En efecto, una ecuación como y = a + bt2
que no es lineal en t, puede linealizarse considerando la nueva variable x = t2 , sin que sea necesario para
ello modificar los coeficientes a y b.
En general, una ecuación no lineal en t de la forma f (y) = a + bg(t) puede tratarse como si fuera lineal
considerando como variable de respuesta Y = f (y) y como variable de regresión x = g(t), con lo cual le
podemos aplicar toda la teorı́a del análisis de regresión lineal estudiada. Obsérvese que ello es debido a
que la ecuación original y la transformada son lineales en los coeficientes.
Pero hay ecuaciones que aun no siendo lineales en los parámetros ni en la variable de regresión, pueden
linealizarse mediante transformaciones sencillas. En el cuadro que sigue se exponen algunas de ellas que
se linealizan tomando logaritmos o inversas.
Tema 5. Análisis de regresión 13

Ecuación Ecuación Ecuación de regresión


Variables Coeficientes
original linealizada estimada

y = aebt ln y = ln a + bt Y = ln y, x=t a = eβ̂0 , b = β̂1

y = atb ln y = ln a + b ln t Y = ln y, x = ln t a = eβ̂0 , b = β̂1

y = eat+b ln y = at + b Y = ln y, x=t a = β̂0 , b = β̂1

y = 10at+b log y = at + b ŷ = β̂0 + β̂1 x Y = log y, x=t a = β̂0 , b = β̂1


1 1 1
y= = at + b Y = , x=t a = β̂0 , b = β̂1
at + b y y
t 1 1 1 1
y= =a+b Y = , x= a = β̂0 , b = β̂1
at + b y t y t

También podría gustarte