Analisis de Regresion

Tema 5
Análisis de regresión
Índice
1. El problema del ajuste y la regresión 1
2. El método de los mı́nimos cuadrados 4
3. Calidad del ajuste: coeficiente de determinación R2 6
4. Propiedades de los estimadores de mı́nimos cuadrados 8
5. Pruebas de hipótesis sobre los parámetros de regresión 9
6. Intervalo de confianza de la respuesta media 11
7. Intervalo de predicción 11
8. Algunas ecuaciones de ajuste no lineales 12
1. El problema del ajuste y la regresión

En las ciencias aplicadas, el término modelo se refiere a una descripción matemática de un determinado
fenómeno. Ası́ hablamos de construir o diseñar un modelo cuando a partir de conocimientos previos
basados en observaciones o medidas y de determinadas hipótesis avaladas por la experiencia que consi-
deramos plausibles, definimos variables y establecemos relaciones entre ellas en forma de ecuaciones, que
podemos validar experimentalmente, y usarlas para calcular valores de esas variables.
El análisis de regresión es una técnica estadı́stica para el modelado y la investigación de la relación entre
dos o más variables.
El término regresión fue introducido por Francis Galton1 en su libro Natural inheritance
(1889) y fue confirmada por su amigo Karl Pearson2 . Su trabajo se centró en la descripcón
de los rasgos fı́sicos de los descendientes (variable A) a partir de los de sus padres (variable
B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos fami-
liares, se llegó a la conclusión de que los padres muy altos tenı́an una tendencia a tener hijos
que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar
1 Sir Francis Galton, Duddeston 16 de febrero de 1822 - Haslemere 17 de enero de 1911.

2 Karl Pearson, Londres 27 de marzo de 1857 – Londres 27 de abril de 1936.
1
Tema 5. Análisis de regresión 2
a la media. Galton generalizó esta tendencia bajo la ”ley de la regresión universal”: Cada
peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado
menor. (http://es.wikipedia.org/wiki/Regresión– (estadı́stica)).
Para introducirnos en el tema vamos a considerar el ejemplo que sigue.

En los metales, la resistencia eléctrica R es una función de la temperatura t. Supongamos que la temper-
atura puede ser fijada a voluntad mediante el empleo de un termostato lo bastante preciso como para que
podamos admitir que una vez estabilizada, su valor permanece fijo no estando sometida a fluctuaciones ni
errores de medida. Tal suposición no es rigurosamente cierta, porque para saber que la temperatura se ha
estabilizado, necesitamos medirla con un sensor que forma parte del termostato, y que como todo aparato
de medida, está sujeto a multitud de pequeñas influencias que dan como resultado el que dicha medida
esté sujeta a error. No obstante, consideraremos este error despreciable y admitiremos como hemos dicho,
que la temperatura puede ser fijada a voluntad. Esta suposición, crucial en la teorı́a que sigue, se justifica
porque en la construcción de modelos, usualmente deseamos mantener el control sobre ciertas variables,
en este caso la temperatura, e investigar como varı́an otras variables, es decir la respuesta que presentan,
en este caso la resistencia. Ası́ es costumbre, en el ámbito del análisis de regresión hablar de variables de
control o variables de predicción (algunas veces también llamadas variables de regresión) y de variables
de respuesta. En el ejemplo que estamos desarrollando, la variable de predicción serı́a la temperatura, y
la variable de respuesta la resistencia eléctrica.
Fijada pues una temperatura, procedemos a efectuar varias medidas de la resistencia teniendo en cuenta
que están sometidas a error, de modo que cada vez que midamos obtendremos diferentes resultados. Los
errores son debidos a una diversidad de causas que tomadas individualmente, ejercen poca influencia
sobre el resultado de la medida, pero su número, usualmente desconocido, lo imprevisible de su aparición
y la cuantı́a de su influencia, que es imposible prever, (aunque en conjunto no sea demasiado grande si el
experimento está bien controlado) hacen que la magnitud que estamos midiendo pueda ser considerara
como una variable aleatoria. Algunas fuentes de error que podrı́an presentarse son: variaciones en la
presión atmosférica y la humedad ambiente, interferencias producidas por aparatos eléctricos próximos,
vibraciones en los soportes de los aparatos debidas a vehı́culos que circulen cerca, corrientes de aire,
fluctuaciones en la tensión de alimentación de los aparatos y otras muchas que podrı́amos imaginar,
ası́ como otras que ni siquiera sabemos que existen.
De este modo, para cada temperatura, tenemos una población formada por las infinitas medidas de
resistencia que podrı́an hipotéticamente efectuarse. Las medidas que realmente hacemos en el laboratorio
constituyen una muestra aleatoria de la misma. En estas circunstancias, si llamamos µR|t al valor esperado
de la variable aleatoria R, donde el subı́ndice R|t indica que se trata de la media de R para un valor fijo
de t, podemos escribir
R|t = µR|t + ε (1)
donde ε es una variable aleatoria. Al valor esperado µR|t se le llama verdadero valor de la resistencia R
a la temperatura t, y es inasequible porque se trata de un parámetro de la población constituida por las
infinitas medidas de R. No obstante, puede estimarse mediante la media muestral, y eso es precisamente
lo que hacemos cuando al medir repetidamente una magnitud, tomamos como valor de la misma a la
media aritmética de las medidas, es decir, lo que tomamos como valor de una magnitud no es mas que
una estimación puntual del parámetro que hemos llamado verdadero valor de esa magnitud.
A la variable aleatoria ε, diferencia entre la resistencia y su verdadero valor, se le llama error, y tal como
ha sido definido, es inmediato comprobar que su media es cero y que su varianza coincide con la de R.
Hasta ahora hemos considerado fijo el valor de la temperatura, pero si usando nuestro termostato, fijamos
la temperatura a un nuevo valor, tendremos una nueva variable aleatoria R. La hipótesis de que las
resistencias a distintas temperaturas son variables aleatorias independientes, parece plausible, ya que
fijada la nueva temperatura, los resultados de cualquier medida no pueden verse influidos por los resultados
de las medidas hechos a la temperatura anterior. Además, si empleamos (como parece razonable) el mismo
instrumento, las variabilidades en las medidas de los diferentes valores de la resistencia, que vienen dadas
por las varianzas de las variables aleatorias R, deben ser las mismas. Ambos supuestos, independencia e
igualdad de varianzas, ocupan un lugar central en el análisis de regresión.
Puesto que al cambiar de temperatura, cambiamos de variable aleatoria R, la media µR|t ha de ser una
función de t, cuya gráfica se llama curva de regresión de R frente a t. Ahora bien, ya que pretendemos
diseñar un modelo de la dependencia de la resistencia con la temperatura en los metales, podemos
postular, basándonos en evidencias fı́sicas, que tal curva es una recta, lo que nos lleva a proponer la
siguiente ecuación de la curva de regresión
µR|t = β0 + β1 t (2)
en la que β0 y β1 son parámetros a determinar. Desde luego que no siempre la relación entre las magnitudes
va a ser lineal. Dependiendo del conocimiento previo que tengamos del fenómeno, pueden proponerse otras
curvas de regresión, pero en cualquier caso, y esta es de nuevo una condición esencial en los desarrollos que
siguen, las ecuaciones de las curvas de regresión han de ser lineales en los parámetros. En caso contrario
entrarı́amos en el análisis de regresión no lineal, que no será objeto de estudio en este Tema.
Usando (1) y (2) podemos escribir nuestro modelo de regresión para la relación entre la resistencia y la
temperatura:
R|t = β0 + β1 t + ε. (3)
Es importante señalar que β0 y β1 son parámetros poblacionales y por lo tanto sus valores son inalcan-
zables, puesto que para calcularlos, necesitarı́amos disponer de los infinitos valores de la variable R para
cada uno de los infinitos valores de la variable t. Como hemos comentado al hablar de µR|t , sólo podemos
aspirar a obtener estimaciones de esos parámetros, y ese es uno de los objetivos del análisis de regresión.
En la práctica, lo usual es que se disponga de una sola medida de resistencia para cada valor prefijado
de la temperatura, de modo que si fijamos n temperaturas, obtenemos un conjunto de pares de valores
(ti , Ri ) i = 1, 2, . . . , n (4)
que representan, en un sistema de coordenadas cartesianas, un conjunto de puntos mas o menos disperso
que suele llamarse nube de puntos y también diagrama de dispersión. La observación de tal diagrama,
puede sugerir la forma de la curva de regresión, y en muchos casos, a falta de otra información, es el único
argumento en el que podemos apoyarnos para proponer la forma de esa curva.
Al sustituir (4) en (3), logramos un sistema de n ecuaciones con las dos incógnitas β0 y β1
R1 = β0 + β1 t1
R2 = β0 + β1 t2
(5)
...............
Rn = β0 + β1 tn
obsérvese que hemos eliminado los términos de error de (3), ya que cuando obtenemos las medidas (4),
desconocemos los errores de las mismas. El sistema (5) es sobredeterminado y en general es incompatible.
Podemos calcular unos números que sustituidos en el lugar de las incógnitas verifiquen lo mejor posible
las ecuaciones de este modo: dado que los εi son los errores de las medidas, vamos a imponer la condición
de que la suma de los cuadrados de los mismos sea mı́nima. Este criterio, llamado de mı́nimos cuadrados
proporciona estimaciones b0 y b1 de los parámetros β0 y β1 que dependen (como todas las estimaciones)
de la muestra (4) que estemos considerando. Con los valores calculados, proponemos la ecuación
R = b0 + b1 t
llamada ecuación de ajuste, que constituye una realización, construida en base a los datos (4) disponibles,
de nuestro modelo de la resistencia frente a la temperatura. Su gráfica se llama recta de ajuste debido a
que es (para la muestra de medidas dada) la que mejor se adapta (o ajusta) en el sentido de los mı́nimos
cuadrados, a la nube de puntos.
Quedan por determinar ciertas cuestiones, relativas a la calidad del ajuste, a los intervalos de confianza
de las estimaciones, y otras inferencias que iremos desarrollando a lo largo de este Tema.
Hasta aquı́ hemos establecido las ideas básicas del análisis de regresión. A continuación vamos a resumirlas
y a fijar la nomenclatura que usaremos en lo sucesivo.
El análisis de regresión es una técnica estadı́stica para el diseño de modelos que involucran relaciones en
forma de ecuaciones entre variables. En este tema nos limitaremos al caso de que haya una sola relación,
lineal en los parámetros, entre dos variables. Hablamos entonces de análisis de regresión lineal simple,
y está basado en los siguientes supuestos:
Supuesto 1.− Hay una sola variable de predicción (o de regresión o de control), no aleatoria
y una sola variable de respuesta aleatoria.
Supuesto 2.− Los valores de la variable de respuesta medidos para distintos valores de la
variable de predicción proceden de poblaciones independientes y todas con la misma
varianza.
Supuesto 3.− La relación entre los valores esperados de la variable de respuesta y los de la
variable de predicción, es lineal en los parámetros.
A continuación introducimos la siguiente nomenclatura
Modelo de regresión : Y |x = β0 + β1 x + ε,
Ecuación de regresión : µY |x = β0 + β1 x,
Ecuación de regresión estimada : ŷ = βˆ0 + βˆ1 x,
Ecuación de regresión ajustada : y = b0 + b1 x,
donde
x : variable de predicción (no aleatoria),

Y : variable de respuesta (aleatoria),
µY |x : valor medio de Y para un valor fijo de x,
β0 , β1 : parámetros de la ecuación de regresión (constantes desconocidas),
ε : error (variable aleatoria),
βˆ0 , βˆ1 : estimadores de β0 y β1 ,
ŷ : estimador de µY |x ,
y : valor numérico (en una muestra dada) de la variable de respuesta Y,
b0 , b1 : valores numéricos (para una muestra dada) de los estimadores βˆ0 y βˆ1 .
2. El método de los mı́nimos cuadrados

Habiendo fijado n valores x1 , x2 , . . . , xn de la variable de predicción, llamemos Yi i = 1, 2, . . . , n a la
variable de respuesta para cada uno de esos valores. Podemos considerar que
© ª
Y1 , Y2 , . . . , Yn (6)
es una muestra aleatoria de la variable de respuesta.
Al sustituir µY |x por cada una de las Yi y x por las xi en la ecuación de regresión, obtenemos el sistema
Y1 = β0 + β1 x1
Y2 = β0 + β1 x2
...............
Yn = β0 + β1 xn
Tomando por incógnitas a β0 y β1 este sistema resulta ser sobredeterminado y en general incompatible,
pero podemos buscar algo que se aproxime a una solución, calculando β̂0 y β̂1 (que dependerán de la
muestra aleatoria (6) siendo por lo tanto estadı́sticos), con la condición de que al ser sustituidos en lugar
de β0 y β1 minimizen la suma de los cuadrados de los errores.
n
X n
X ¡ ¢2
L= ε2i = Yi − β0 − β1 xi ,
i=1 i=1
es decir, que hagan lo más pequeña posible la suma de los cuadrados de las diferencias entre los primeros y
los segundos miembros de las ecuaciones. La condición necesaria para ello es la anulación de las derivadas
parciales µ ¶ Xn

 ∂L ¡ ¢

 = −2 Yi − β̂0 − β̂1 xi = 0,
 ∂β0 (β̂ ,β̂ )
0 1 i=1
µ ¶ n
(7)

 ∂L X ¡ ¢

 = −2 Yi − β̂0 − β̂1 xi xi = 0,
 ∂β
1 (β̂0 ,β̂1 ) i=1
lo que constituye un sistema de ecuaciones lineales en β̂0 y β̂1 llamadas ecuaciones normales. Al
desarrollar los sumatorios y reordenar los términos de forma conveniente, las ecuaciones normales pueden
escribirse ası́  n
X n
X



 n β̂0 + β̂1 xi = Yi ,

i=1 i=1
 n
X n
X n
X

 2

 β̂0 xi + β̂1 xi = xi Yi .
i=1 i=1 i=1
Calculamos β̂0 en función de β̂1 , despejando en la primera ecuación

n n
1X 1X
β̂0 = Yi − β̂1 xi = Y − β̂1 x,
n i=1 n i=1
y a continuación calculamos β̂1 usando la regla de Cramer

¯ Xn ¯
¯ ¯
¯ n Y ¯
¯ i ¯
¯ i=1 ¯ Ã n !Ã n !
¯X ¯
¯ n Xn
¯ Xn X X 1X
n
¯ xi x Y
i i¯ ¯ n x Y
i i − x i Yi xi Yi − x Y
¯ n i=1
i=1 i=1 i=1 i=1 i=1
β̂1 = ¯ n ¯ = Ã n !2 = n .
¯ X ¯ Xn X 1X 2
¯ n x ¯ 2 x − x 2
¯ i¯ n xi − xi n i=1 i
¯ i=1 ¯
¯X ¯ i=1 i=1
¯ n Xn
¯
¯
¯ x i x2i ¯¯
i=1 i=1
Ahora introducimos la notación

Xn n
X
¡ ¢¡ ¢ ¡ ¢2
Sxy = xi − x Yi − Y y Sxx = xi − x
i=1 i=1
que nos permite escribir

n n n n n
1 X¡ ¢¡ ¢ 1X 1X 1X 1¡ ¢ 1X
xi − x Yi − Y xi Yi − x Yi − Y xi + nxY xi Yi − x Y
Sxy n i=1 n i=1 n i=1 n i=1 n n i=1
= n = n n = n ,
Sxx 1 X¡ ¢2 1X 2 1X 1 ¡ 2¢ 1X 2
xi − x xi − 2x xi + nx x − x2
n i=1 n i=1 n i=1 n n i=1 i
con lo cual
Sxy Sxy
β̂0 = Y − x y β̂1 = . (8)
Sxx Sxx
Puede demostrarse que la solución (β̂0 , β̂1 ) de las ecuaciones normales que hemos obtenido, hace que la
suma de los cuadrados de los errores L tome efectivamente el menor valor posible.
Los estadı́sticos β̂0 y β̂1 , pueden usarse como estimadores de los parámetros β0 y β1 . De hecho, reunen
cualidades para ello, algunas de las cuales se analizarán más tarde. El procedimiento empleado para
obtener estos estimadores, se llama método de los mı́nimos cuadrados, y su uso no está restringido
al análisis de regresión, constituyendo uno de los métodos usuales para el diseño de estimadores.
Con ayuda de los estimadores β̂0 y β̂1 podemos construir un estimador ŷ de la respuesta media µY |x de
este modo
ŷ = β̂0 + β̂1 x.
Esta igualdad es la ecuación de regresión estimada. Es inmediato comprobar que E(ŷ) = µY |x .
3. Calidad del ajuste: coeficiente de determinación R2

La variabilidad de los valores Yi i = 1, 2, . . . , n de la variable de respuesta se puede medir mediante las
n
1X
desviaciones de éstos, Yi − Y con respecto a su media Y = Yi .
n i=1
La igualdad evidente Yi −Y = (Yi − ŷi )+(ŷi −Y ), pone de manifiesto que dichas desviaciones se componen
de dos términos: el primero, Yi − ŷi se debe a la aleatoriedad implı́cita en los datos, ya que de no existir
ésta, es decir, si las Yi no fueran variables aleatorias, sino que cada una de ellas dependiera exclusivamente
del correspondiente xi , el término de error aleatorio serı́a ε = 0, y por lo tanto, el modelo de regresión
quedarı́a ası́
Y = β0 + β1 x,
de donde se deduce que ad Yi = β0 + β1 xi , (i = 1, 2, . . . , n) y por lo tanto Y = β0 + β1 x.
Si en este supuesto de ausencia de aleatoriedad en la variable de respuesta, calculamos β̂1 y β̂0 , tenemos
n
X n
X n
X
¡ ¢¡ ¢ ¡ ¢¡ ¢ ¡ ¢2
xi − x Yi − Y xi − x β0 + β1 xi − β0 − β1 x β1 xi − x
Sxy i=1 i=1 i=1
β̂1 = = = = = β1 ,
Sxx Sxx Sxx Sxx
β̂0 = Y − β̂1 x = β0 + β1 x − β1 x = β0 .
Es decir, si la variable de respuesta careciera de error aleatorio, o en otras palabras, si la variable de

respuesta no fuera una variable aleatoria, tendrı́amos β̂0 = β0 y β̂1 = β1 , con lo cual, Y = ŷ y en
consecuencia Yi = ŷi (i = 1, 2, . . . , n), anulándose ası́ el primero de los dos sumandos Yi − ŷi en que
hemos descompuesto la desviación .
El segundo ŷi − Y es imputable a la regresión. En efecto, si no hubiera dependencia de la variable de res-
puesta con respecto a la variable de regresión, y por lo tanto los valores de la primera fueran meramente
fluctuaciones aleatorias alrededor de un valor medio, sin que importe el valor de x, podrı́amos comprobar
que E(ŷi − Y ) = 0. Para ello, observemos que la independencia de Y con respecto a x implica β1 = 0,
con lo cual
Y = β0 + ε, y entonces Yi = β0 + εi i = 1, 2, . . . , n, ası́ que Y = β0 + ε.
Ahora podemos escribir

¡ ¢
E(ŷ − Y ) = E β̂0 + β̂1 xi − β0 − ε = β0 + β1 xi − β0 − E(ε) = 0,
ya que E(ε) = E(ε) = 0 y β1 = 0.

Pero las desviaciones individuales de cada valor Yi de la variable de respuesta con respecto a la media Y ,
no es suficientemente informativa. Para obtener una magnitud que englobe la variabilidad conjunta de
todos los valores de dicha variable, consideramos la suma de los cuadrados de las desviaciones:
n
X ¡ ¢2
Syy = Yi − Y .
i=1
Esta suma presenta una caracterı́stica interesante, y es que se puede descomponer en suma de otras dos
sumas de cuadrados. Para ello, escribimos
n
X n
X n
X n n
¡ ¢2 ¡ ¢2 ¡ ¢2 X ¡ ¢2 X ¡ ¢¡ ¢
Syy = Yi − Y = Yi − ŷi + ŷi − Y = Yi − ŷi + ŷi − Y + 2 Yi − ŷi ŷi − Y .
i=1 i=1 i=1 i=1 i=1
Usando el estimador del coeficiente β̂0 de la recta de regresión dado en (8), podemos escribir
(
Yi − ŷi = (Yi − Y ) − β̂1 (xi − x)
ŷi = Y − β̂1 x + β̂1 xi y por lo tanto (9)
ŷi − Y = β̂1 (xi − x)
ası́ pues
n
X n h i
¡ ¢¡ ¢ X
Yi − ŷi ŷi − Y = (Yi − Y ) − β̂1 (xi − x) β̂1 (xi − x) =
i=1 i=1
Xn Xn µ ¶2
¡ ¢¡ ¢ ¡ ¢2 Sxy Sxy
= β̂1 xi − x Yi − Y − β̂12 xi − x = Sxy − Sxx = 0
i=1 i=1
Sxx Sxx
donde hemos sustituido β̂1 por su valor dado en (8). Si ahora introducimos la notación
n
X n
X
¡ ¢2 ¡ ¢2
SSR = ŷi − Y y SSE = Yi − ŷi
i=1 i=1
obtendremos la siguiente descomposición de la suma de cuadrados
Syy = SSR + SSE. (10)
Al dividir los dos miembros de esta igualdad entre Syy y reordenar adecuadamente los términos, podemos
definir el coeficiente R2
SSR SSE
R2 = =1−
Syy Syy
que recibe el nombre de coeficiente de determinación. Las tres sumas de cuadrados de (10) son no
negativas, de lo que se deduce que 0 6 R2 6 1. Ahora bien, como hemos visto antes, SSR mide la parte de
la variabilidad de la variable de respuesta imputable a la regresión, mientras que Syy mide la variabilidad
total. Su cociente, el coeficiente de determinación, es por lo tanto la fracción de la variabilidad total,

atribuible a la regresión. Por consiguiente, un valor alto de R2 implica una manifiesta influencia de la
regresión, es decir de la dependencia de Y con x en los valores medidos u observados de la variable de
respuesta. Contrariamente, un valor pequeño de R2 evidencia una fuerte influencia de la componente de
error aleatorio en los valores de Y observados o medidos. Véanse las figuras 1 y 2.
En todo lo anterior hemos supuesto que el modelo lineal es el correcto, y que la falta de ajuste se debe
a los errores en la variable de respuesta. Pero puede ocurrir que dicha falta de ajuste se deba a que el
modelo lineal es inapropiado, y no a los errores. En la figura 3 puede verse que el bajo valor del coeficiente
de determinación del modelo lineal es debido a que éste no es adecuado, pero no a los errores, ya que
el modelo cuadrático presenta un buen ajuste, La razonablemente buena adaptación de los puntos a la
parábola indican que los errores en la variable de respuesta son pequeños.
Figura 1: La variable de respuesta Y depende linealmente de la variable de regresión x, pero los errores
que afectan a Y son tan grandes que dan como resultado un pobre ajuste. Por ello el coeficiente de
determinación R2 es pequeño.
4. Propiedades de los estimadores de mı́nimos cuadrados

Teorema 4.1 Los estadı́sticos β̂0 y β̂1 son estimadores insesgados de los parámetros β0 y β1 respectiva-
mente, y sus varianzas son
µ ¶
2 1 x2 σ2
V ar(β̂0 ) = σ + y V ar(β̂1 ) = .
n Sxx Sxx
Para obtener inferencias acerca de los parámetros β0 y β1 , necesitamos un estimador de la varianza σ 2

que aparece en las expresiones de los valores esperados y las varianzas del teorema 4.1. Tal estimador
viene dado en el próximo teorema
Figura 2: Como en la figura 1, la variable de respuesta Y depende linealmente de la variable de regresión

x, pero ahora los errores que afectan a Y son relativamente pequeños, lo que implica un buen ajuste. Por
ello el coeficiente de determinación R2 es grande.
2
y = 0.9159 x - 1.8081 x + 1.192
2
R = 0.9715
regresión polinomial
y = 0.4817 x + 0.3333
2
R = 0.3517
regresión lineal
Figura 3: El modelo lineal presenta un pobre ajuste, pero no debido a los errores en la variable de
respuesta, sino a que el modelo adecuado no es lineal sino cuadrático.
SSE
Teorema 4.2 El estadı́stico σ̂ 2 = es un estimador insesgado del parámetro σ 2 .
n−2
5. Pruebas de hipótesis sobre los parámetros de regresión

Para diseñar pruebas de hipótesis acerca de los parámetros de regresión β0 y β1 , necesitamos añadir un
supuesto más a los ya enunciados en la página 3
Supuesto 4.− La variable de respuesta tiene distribución normal.

Cuando la variable de respuesta es una magnitud fı́sica, este supuesto va a verificarse siempre, ya que
entonces la igualdad Y = µY |x + ε puede interpretarse en el sentido de que toda medida es la suma del
verdadero valor de la magnitud y de un término de error. Gauss3 investigó la distribución de probabilidad
de los errores de las medidas y redescubrió la distribución normal, que De Moivre4 habı́a descubierto antes.
Precisamente ası́ es como empezó a tomar importancia en la Ciencia esta distribución.
Puede demostrarse que los estimadores β̂0 y β̂1 de los coeficientes de regresión, son combinaciones lineales
de las variables aleatorias Yi . Este hecho se enuncia en el siguiente teorema.
Teorema 5.1 Los estimadores β̂0 y β̂1 de los parámetros β0 y β1 verifican

n 
X xi − x 
β̂1 = ci Yi donde ci = 

i=1
Sxx 
n
i = 1, 2, . . . , n.
X 1 

β̂0 = di Yi donde 

d i = − x ci 
i=1
n
es decir, son combinaciones lineales de las variables aleatorias Yi .
Ejercicio: Compruebe las siguientes igualdades:

n
X n
X
ci = 0, di = 1.
i=1 i=1
A partir del Supuesto 4, admitimos que las Yi (i = 1, 2, . . . , n) se distribuyen normalmente con medias
µY |xi y varianza común σ 2 . Se deduce de ahı́ que β̂1 es normal, ya que según el teorema 5.1 es combinación
lineal de variables aleatorias con esa misma distribución. Su media y su varianza vienen dadas en el
teorema 4.1. Podemos entonces escribir
µ ¶
σ
β̂1 ∼ N β1 , √ .
Sxx
A partir de aquı́ puede demostrarse que el estadı́stico
β̂1 − β1
T = √
σ̂/ Sxx
tiene distribución t de Student con n − 2 grados de libertad.
Estamos ahora en condiciones de plantear una prueba de hipótesis sobre el parámetro β1 . Sea β10 un
número que vamos a usar como valor de prueba en el contraste de hipótesis:
(
H0 : β1 = β10 ,
H1 : β1 6= β10 .
Entonces, bajo H0 se verifica, según acabamos de ver
β̂1 − β10
T = √ ∼ tn−2 ,
σ̂/ Sxx
luego la región crı́tica a un nivel de significación α viene dada por |T | > tα/2,n−2 .
3 Johann Carl Friedrich Gauss, Brunswick 30 de abril de 1777, Göttingen 23 de febrero de 1855.
4 Abraham de Moivre. Vitry-le-Francois (Francia), 26 de mayo de 1667, Londres, 27 de noviembre de 1754.
De un modo completamente análogo al expuesto, puede diseñarse una prueba de hipótesis para el
parámetro β0 . Para ello, observemos que por las mismas razones que β̂1 , bajo el Supuesto 4, el estadı́stico
β̂0 tiene distribución normal cuya media y varianza vienen dadas en el teorema 4.1, ası́
 s 
2
1 x
β̂0 ∼ N β0 , σ + .
n Sxx
Como antes, puede demostrarse a partir de aquı́ que el estadı́stico
β̂ − β0
T = s0 ,
1 x2
σ̂ +
n Sxx
tiene distribución t de Student con n − 2 grados de libertad.

Ahora podemos plantear el contraste de hipótesis
(
H0 : β0 = β00 ,
H1 : β0 6= β00 .
Entonces, bajo H0 , se verifica

β̂ − β00
T = s0 ∼ tn−2 ,
1 x2
σ̂ +
n Sxx
y como antes, la región crı́tica viene dada por |T | > tα/2,n−2 .
Un caso particularmente interesante de estos contrastes de hipótesis, se da cuando β10 = 0. Tenemos

entonces (
H0 : β1 = 0,
(11)
H1 : β1 6= 0.
Si H0 fuera cierta, tendrı́amos µY |x = β0 , lo que implica que no rechazar dicha hipótesis puede interpre-
tarse de dos maneras:
La relación entre la variable de respuesta Y y la variable de regresión x es efectivamente lineal, con

lo cual la recta de regresión es horizontal o casi horizontal, de modo que x tiene poca importancia
para explicar la variación de Y , y el mejor estimador de Y es Y sea cual sea el valor de x.
O bien, la relación subyacente entre x e Y no es lineal como hasta ahora venı́amos suponiendo.
En cualquier caso, si la conclusión de la prueba es rechazar la hipótesis nula, diremos que la regresión es
significativa. En caso contrario diremos que no es significativa la regresión.
6. Intervalo de confianza de la respuesta media

Para la respuesta media µY |x podemos diseñar un intervalo de confianza, partiendo de su estimador
ŷ = β̂0 + β̂1 x. Conviene recordar que según el teorema 5.1, los estadı́sticos β̂0 y βˆ1 son combinaciones
lineales de las variables aleatorias Yi , que de acuerdo con el Supuesto 4 son normales, luego ŷ, que también
es combinación lineal de variables normales (x no es una variable aleatoria), también tiene distribución
normal. Su media es
E(ŷ) = E(β̂0 + β̂1 x) = E(β̂0 ) + E(β̂1 ) x = β0 + β1 x = µY |x ,

y su varianza µ¶
1 1
V ar(ŷ) = σ 2
+ (x − x)2 ,
n Sxx
Ã s !
1 (x − x)2
de modo que podemos concluir que ŷ ∼ N µY |x , σ + . A partir de aquı́ puede de-
n Sxx
mostrarse que un intervalo de confianza del 100(1 − α) % para el parámetro µY |x es:
 s s 
 ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2 
+ , ŷ + tα/2,n−2 σ̂ +
n Sxx n Sxx
7. Intervalo de predicción
Consideremos un valor cualquiera x de la variable de control (no necesariamente igual a uno de los xi en
los que nos venimos basando para construir el modelo de regresión, aunque eventualmente puede coincidir
con alguno de ellos). Sea Y la variable de respuesta para ese valor x. Vamos a diseñar un intervalo que
tenga una probabilidad 1 − α de contener un valor y de la variable de respuesta Y . Es de destacar que
este intervalo, aunque formalmente análogo a un intervalo de confianza, es sin embargo conceptualmente
distinto. En efecto, un intervalo de confianza es un intervalo, cuyos extremos son variables aleatorias, y
que tiene una probabilidad 1 − α de contener a un parámetro de la población. El intervalo diseñado en
la sección anterior para la respuesta media es un intervalo de confianza, ya que dicha respuesta es un
parámetro poblacional. Por el contrario, el intervalo que vamos a diseñar, es un intervalo (cuyos extremos
serán también variables aleatorias) que tiene una probabilidad 1 − α de contener no un parámetro, sino
un valor y de la variable de respuesta (que no es un parámetro de la población) correspondiente a un
valor x de la variable de regresión. En algunos textos, se alude a y como un valor futuro de la variable
Y , y por esa razón, se nombra a este intervalo como intervalo de predicción.
 s s 
 ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2 
1+ + , ŷ + tα/2,n−2 σ̂ 1+ +
n Sxx n Sxx
8. Algunas ecuaciones de ajuste no lineales

Una condición fundamental en el análisis de regresión lineal es que las ecuaciones de ajuste empleadas
sean lineales en los coeficientes de regresión. El que también sean lineales en la variable de regresión,
como hemos considerado hasta ahora, no es imprescindible. En efecto, una ecuación como y = a + bt2
que no es lineal en t, puede linealizarse considerando la nueva variable x = t2 , sin que sea necesario para
ello modificar los coeficientes a y b.
En general, una ecuación no lineal en t de la forma f (y) = a + bg(t) puede tratarse como si fuera lineal
considerando como variable de respuesta Y = f (y) y como variable de regresión x = g(t), con lo cual le
podemos aplicar toda la teorı́a del análisis de regresión lineal estudiada. Obsérvese que ello es debido a
que la ecuación original y la transformada son lineales en los coeficientes.
Pero hay ecuaciones que aun no siendo lineales en los parámetros ni en la variable de regresión, pueden
linealizarse mediante transformaciones sencillas. En el cuadro que sigue se exponen algunas de ellas que
se linealizan tomando logaritmos o inversas.
Ecuación Ecuación Ecuación de regresión

Variables Coeficientes
original linealizada estimada
y = aebt ln y = ln a + bt Y = ln y, x=t a = eβ̂0 , b = β̂1
y = atb ln y = ln a + b ln t Y = ln y, x = ln t a = eβ̂0 , b = β̂1
y = eat+b ln y = at + b Y = ln y, x=t a = β̂0 , b = β̂1
y = 10at+b log y = at + b ŷ = β̂0 + β̂1 x Y = log y, x=t a = β̂0 , b = β̂1

1 1 1
y= = at + b Y = , x=t a = β̂0 , b = β̂1
at + b y y
t 1 1 1 1
y= =a+b Y = , x= a = β̂0 , b = β̂1
at + b y t y t

Analisis de Regresion

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Regresion

Cargado por

Copyright:

Formatos disponibles

Tema 5

2. El método de los mı́nimos cuadrados 4

3. Calidad del ajuste: coeficiente de determinación R2 6

4. Propiedades de los estimadores de mı́nimos cuadrados 8

5. Pruebas de hipótesis sobre los parámetros de regresión 9

6. Intervalo de confianza de la respuesta media 11

8. Algunas ecuaciones de ajuste no lineales 12

1. El problema del ajuste y la regresión

1 Sir Francis Galton, Duddeston 16 de febrero de 1822 - Haslemere 17 de enero de 1911.

Para introducirnos en el tema vamos a considerar el ejemplo que sigue.

A continuación introducimos la siguiente nomenclatura

x : variable de predicción (no aleatoria),

2. El método de los mı́nimos cuadrados

es una muestra aleatoria de la variable de respuesta.

Calculamos β̂0 en función de β̂1 , despejando en la primera ecuación

y a continuación calculamos β̂1 usando la regla de Cramer

Ahora introducimos la notación

que nos permite escribir

3. Calidad del ajuste: coeficiente de determinación R2

Es decir, si la variable de respuesta careciera de error aleatorio, o en otras palabras, si la variable de

Y = β0 + ε, y entonces Yi = β0 + εi i = 1, 2, . . . , n, ası́ que Y = β0 + ε.

Ahora podemos escribir

ya que E(ε) = E(ε) = 0 y β1 = 0.

obtendremos la siguiente descomposición de la suma de cuadrados

Syy = SSR + SSE. (10)

total. Su cociente, el coeficiente de determinación, es por lo tanto la fracción de la variabilidad total,

4. Propiedades de los estimadores de mı́nimos cuadrados

Para obtener inferencias acerca de los parámetros β0 y β1 , necesitamos un estimador de la varianza σ 2

Figura 2: Como en la figura 1, la variable de respuesta Y depende linealmente de la variable de regresión

5. Pruebas de hipótesis sobre los parámetros de regresión

Supuesto 4.− La variable de respuesta tiene distribución normal.

Teorema 5.1 Los estimadores β̂0 y β̂1 de los parámetros β0 y β1 verifican

es decir, son combinaciones lineales de las variables aleatorias Yi .

Ejercicio: Compruebe las siguientes igualdades:

A partir de aquı́ puede demostrarse que el estadı́stico

tiene distribución t de Student con n − 2 grados de libertad.

Entonces, bajo H0 se verifica, según acabamos de ver

Como antes, puede demostrarse a partir de aquı́ que el estadı́stico

tiene distribución t de Student con n − 2 grados de libertad.

Entonces, bajo H0 , se verifica

Un caso particularmente interesante de estos contrastes de hipótesis, se da cuando β10 = 0. Tenemos

La relación entre la variable de respuesta Y y la variable de regresión x es efectivamente lineal, con

6. Intervalo de confianza de la respuesta media

E(ŷ) = E(β̂0 + β̂1 x) = E(β̂0 ) + E(β̂1 ) x = β0 + β1 x = µY |x ,

8. Algunas ecuaciones de ajuste no lineales

Ecuación Ecuación Ecuación de regresión

y = aebt ln y = ln a + bt Y = ln y, x=t a = eβ̂0 , b = β̂1

y = atb ln y = ln a + b ln t Y = ln y, x = ln t a = eβ̂0 , b = β̂1

y = eat+b ln y = at + b Y = ln y, x=t a = β̂0 , b = β̂1

y = 10at+b log y = at + b ŷ = β̂0 + β̂1 x Y = log y, x=t a = β̂0 , b = β̂1

También podría gustarte