Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de regresión
Índice
1. El problema del ajuste y la regresión 1
7. Intervalo de predicción 11
El término regresión fue introducido por Francis Galton1 en su libro Natural inheritance
(1889) y fue confirmada por su amigo Karl Pearson2 . Su trabajo se centró en la descripcón
de los rasgos fı́sicos de los descendientes (variable A) a partir de los de sus padres (variable
B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos fami-
liares, se llegó a la conclusión de que los padres muy altos tenı́an una tendencia a tener hijos
que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar
1
Tema 5. Análisis de regresión 2
a la media. Galton generalizó esta tendencia bajo la ”ley de la regresión universal”: Cada
peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado
menor. (http://es.wikipedia.org/wiki/Regresión– (estadı́stica)).
de las medidas hechos a la temperatura anterior. Además, si empleamos (como parece razonable) el mismo
instrumento, las variabilidades en las medidas de los diferentes valores de la resistencia, que vienen dadas
por las varianzas de las variables aleatorias R, deben ser las mismas. Ambos supuestos, independencia e
igualdad de varianzas, ocupan un lugar central en el análisis de regresión.
Puesto que al cambiar de temperatura, cambiamos de variable aleatoria R, la media µR|t ha de ser una
función de t, cuya gráfica se llama curva de regresión de R frente a t. Ahora bien, ya que pretendemos
diseñar un modelo de la dependencia de la resistencia con la temperatura en los metales, podemos
postular, basándonos en evidencias fı́sicas, que tal curva es una recta, lo que nos lleva a proponer la
siguiente ecuación de la curva de regresión
µR|t = β0 + β1 t (2)
en la que β0 y β1 son parámetros a determinar. Desde luego que no siempre la relación entre las magnitudes
va a ser lineal. Dependiendo del conocimiento previo que tengamos del fenómeno, pueden proponerse otras
curvas de regresión, pero en cualquier caso, y esta es de nuevo una condición esencial en los desarrollos que
siguen, las ecuaciones de las curvas de regresión han de ser lineales en los parámetros. En caso contrario
entrarı́amos en el análisis de regresión no lineal, que no será objeto de estudio en este Tema.
Usando (1) y (2) podemos escribir nuestro modelo de regresión para la relación entre la resistencia y la
temperatura:
R|t = β0 + β1 t + ε. (3)
Es importante señalar que β0 y β1 son parámetros poblacionales y por lo tanto sus valores son inalcan-
zables, puesto que para calcularlos, necesitarı́amos disponer de los infinitos valores de la variable R para
cada uno de los infinitos valores de la variable t. Como hemos comentado al hablar de µR|t , sólo podemos
aspirar a obtener estimaciones de esos parámetros, y ese es uno de los objetivos del análisis de regresión.
En la práctica, lo usual es que se disponga de una sola medida de resistencia para cada valor prefijado
de la temperatura, de modo que si fijamos n temperaturas, obtenemos un conjunto de pares de valores
(ti , Ri ) i = 1, 2, . . . , n (4)
que representan, en un sistema de coordenadas cartesianas, un conjunto de puntos mas o menos disperso
que suele llamarse nube de puntos y también diagrama de dispersión. La observación de tal diagrama,
puede sugerir la forma de la curva de regresión, y en muchos casos, a falta de otra información, es el único
argumento en el que podemos apoyarnos para proponer la forma de esa curva.
Al sustituir (4) en (3), logramos un sistema de n ecuaciones con las dos incógnitas β0 y β1
R1 = β0 + β1 t1
R2 = β0 + β1 t2
(5)
...............
Rn = β0 + β1 tn
obsérvese que hemos eliminado los términos de error de (3), ya que cuando obtenemos las medidas (4),
desconocemos los errores de las mismas. El sistema (5) es sobredeterminado y en general es incompatible.
Podemos calcular unos números que sustituidos en el lugar de las incógnitas verifiquen lo mejor posible
las ecuaciones de este modo: dado que los εi son los errores de las medidas, vamos a imponer la condición
de que la suma de los cuadrados de los mismos sea mı́nima. Este criterio, llamado de mı́nimos cuadrados
proporciona estimaciones b0 y b1 de los parámetros β0 y β1 que dependen (como todas las estimaciones)
de la muestra (4) que estemos considerando. Con los valores calculados, proponemos la ecuación
R = b0 + b1 t
Tema 5. Análisis de regresión 4
llamada ecuación de ajuste, que constituye una realización, construida en base a los datos (4) disponibles,
de nuestro modelo de la resistencia frente a la temperatura. Su gráfica se llama recta de ajuste debido a
que es (para la muestra de medidas dada) la que mejor se adapta (o ajusta) en el sentido de los mı́nimos
cuadrados, a la nube de puntos.
Quedan por determinar ciertas cuestiones, relativas a la calidad del ajuste, a los intervalos de confianza
de las estimaciones, y otras inferencias que iremos desarrollando a lo largo de este Tema.
Hasta aquı́ hemos establecido las ideas básicas del análisis de regresión. A continuación vamos a resumirlas
y a fijar la nomenclatura que usaremos en lo sucesivo.
El análisis de regresión es una técnica estadı́stica para el diseño de modelos que involucran relaciones en
forma de ecuaciones entre variables. En este tema nos limitaremos al caso de que haya una sola relación,
lineal en los parámetros, entre dos variables. Hablamos entonces de análisis de regresión lineal simple,
y está basado en los siguientes supuestos:
Supuesto 1.− Hay una sola variable de predicción (o de regresión o de control), no aleatoria
y una sola variable de respuesta aleatoria.
Supuesto 2.− Los valores de la variable de respuesta medidos para distintos valores de la
variable de predicción proceden de poblaciones independientes y todas con la misma
varianza.
Supuesto 3.− La relación entre los valores esperados de la variable de respuesta y los de la
variable de predicción, es lineal en los parámetros.
Modelo de regresión : Y |x = β0 + β1 x + ε,
Ecuación de regresión : µY |x = β0 + β1 x,
Ecuación de regresión estimada : ŷ = βˆ0 + βˆ1 x,
Ecuación de regresión ajustada : y = b0 + b1 x,
donde
Al sustituir µY |x por cada una de las Yi y x por las xi en la ecuación de regresión, obtenemos el sistema
Y1 = β0 + β1 x1
Y2 = β0 + β1 x2
...............
Yn = β0 + β1 xn
Tomando por incógnitas a β0 y β1 este sistema resulta ser sobredeterminado y en general incompatible,
pero podemos buscar algo que se aproxime a una solución, calculando β̂0 y β̂1 (que dependerán de la
muestra aleatoria (6) siendo por lo tanto estadı́sticos), con la condición de que al ser sustituidos en lugar
de β0 y β1 minimizen la suma de los cuadrados de los errores.
n
X n
X ¡ ¢2
L= ε2i = Yi − β0 − β1 xi ,
i=1 i=1
es decir, que hagan lo más pequeña posible la suma de los cuadrados de las diferencias entre los primeros y
los segundos miembros de las ecuaciones. La condición necesaria para ello es la anulación de las derivadas
parciales µ ¶ Xn
∂L ¡ ¢
= −2 Yi − β̂0 − β̂1 xi = 0,
∂β0 (β̂ ,β̂ )
0 1 i=1
µ ¶ n
(7)
∂L X ¡ ¢
= −2 Yi − β̂0 − β̂1 xi xi = 0,
∂β
1 (β̂0 ,β̂1 ) i=1
lo que constituye un sistema de ecuaciones lineales en β̂0 y β̂1 llamadas ecuaciones normales. Al
desarrollar los sumatorios y reordenar los términos de forma conveniente, las ecuaciones normales pueden
escribirse ası́ n
X n
X
n β̂0 + β̂1 xi = Yi ,
i=1 i=1
n
X n
X n
X
2
β̂0 xi + β̂1 xi = xi Yi .
i=1 i=1 i=1
con lo cual
Sxy Sxy
β̂0 = Y − x y β̂1 = . (8)
Sxx Sxx
Puede demostrarse que la solución (β̂0 , β̂1 ) de las ecuaciones normales que hemos obtenido, hace que la
suma de los cuadrados de los errores L tome efectivamente el menor valor posible.
Los estadı́sticos β̂0 y β̂1 , pueden usarse como estimadores de los parámetros β0 y β1 . De hecho, reunen
cualidades para ello, algunas de las cuales se analizarán más tarde. El procedimiento empleado para
obtener estos estimadores, se llama método de los mı́nimos cuadrados, y su uso no está restringido
al análisis de regresión, constituyendo uno de los métodos usuales para el diseño de estimadores.
Con ayuda de los estimadores β̂0 y β̂1 podemos construir un estimador ŷ de la respuesta media µY |x de
este modo
ŷ = β̂0 + β̂1 x.
Esta igualdad es la ecuación de regresión estimada. Es inmediato comprobar que E(ŷ) = µY |x .
fluctuaciones aleatorias alrededor de un valor medio, sin que importe el valor de x, podrı́amos comprobar
que E(ŷi − Y ) = 0. Para ello, observemos que la independencia de Y con respecto a x implica β1 = 0,
con lo cual
Esta suma presenta una caracterı́stica interesante, y es que se puede descomponer en suma de otras dos
sumas de cuadrados. Para ello, escribimos
n
X n
X n
X n n
¡ ¢2 ¡ ¢2 ¡ ¢2 X ¡ ¢2 X ¡ ¢¡ ¢
Syy = Yi − Y = Yi − ŷi + ŷi − Y = Yi − ŷi + ŷi − Y + 2 Yi − ŷi ŷi − Y .
i=1 i=1 i=1 i=1 i=1
Usando el estimador del coeficiente β̂0 de la recta de regresión dado en (8), podemos escribir
(
Yi − ŷi = (Yi − Y ) − β̂1 (xi − x)
ŷi = Y − β̂1 x + β̂1 xi y por lo tanto (9)
ŷi − Y = β̂1 (xi − x)
ası́ pues
n
X n h i
¡ ¢¡ ¢ X
Yi − ŷi ŷi − Y = (Yi − Y ) − β̂1 (xi − x) β̂1 (xi − x) =
i=1 i=1
Xn Xn µ ¶2
¡ ¢¡ ¢ ¡ ¢2 Sxy Sxy
= β̂1 xi − x Yi − Y − β̂12 xi − x = Sxy − Sxx = 0
i=1 i=1
Sxx Sxx
donde hemos sustituido β̂1 por su valor dado en (8). Si ahora introducimos la notación
n
X n
X
¡ ¢2 ¡ ¢2
SSR = ŷi − Y y SSE = Yi − ŷi
i=1 i=1
Al dividir los dos miembros de esta igualdad entre Syy y reordenar adecuadamente los términos, podemos
definir el coeficiente R2
SSR SSE
R2 = =1−
Syy Syy
que recibe el nombre de coeficiente de determinación. Las tres sumas de cuadrados de (10) son no
negativas, de lo que se deduce que 0 6 R2 6 1. Ahora bien, como hemos visto antes, SSR mide la parte de
la variabilidad de la variable de respuesta imputable a la regresión, mientras que Syy mide la variabilidad
Tema 5. Análisis de regresión 8
En todo lo anterior hemos supuesto que el modelo lineal es el correcto, y que la falta de ajuste se debe
a los errores en la variable de respuesta. Pero puede ocurrir que dicha falta de ajuste se deba a que el
modelo lineal es inapropiado, y no a los errores. En la figura 3 puede verse que el bajo valor del coeficiente
de determinación del modelo lineal es debido a que éste no es adecuado, pero no a los errores, ya que
el modelo cuadrático presenta un buen ajuste, La razonablemente buena adaptación de los puntos a la
parábola indican que los errores en la variable de respuesta son pequeños.
Figura 1: La variable de respuesta Y depende linealmente de la variable de regresión x, pero los errores
que afectan a Y son tan grandes que dan como resultado un pobre ajuste. Por ello el coeficiente de
determinación R2 es pequeño.
2
y = 0.9159 x - 1.8081 x + 1.192
2
R = 0.9715
regresión polinomial
y = 0.4817 x + 0.3333
2
R = 0.3517
regresión lineal
Figura 3: El modelo lineal presenta un pobre ajuste, pero no debido a los errores en la variable de
respuesta, sino a que el modelo adecuado no es lineal sino cuadrático.
SSE
Teorema 4.2 El estadı́stico σ̂ 2 = es un estimador insesgado del parámetro σ 2 .
n−2
Cuando la variable de respuesta es una magnitud fı́sica, este supuesto va a verificarse siempre, ya que
entonces la igualdad Y = µY |x + ε puede interpretarse en el sentido de que toda medida es la suma del
verdadero valor de la magnitud y de un término de error. Gauss3 investigó la distribución de probabilidad
de los errores de las medidas y redescubrió la distribución normal, que De Moivre4 habı́a descubierto antes.
Precisamente ası́ es como empezó a tomar importancia en la Ciencia esta distribución.
Puede demostrarse que los estimadores β̂0 y β̂1 de los coeficientes de regresión, son combinaciones lineales
de las variables aleatorias Yi . Este hecho se enuncia en el siguiente teorema.
A partir del Supuesto 4, admitimos que las Yi (i = 1, 2, . . . , n) se distribuyen normalmente con medias
µY |xi y varianza común σ 2 . Se deduce de ahı́ que β̂1 es normal, ya que según el teorema 5.1 es combinación
lineal de variables aleatorias con esa misma distribución. Su media y su varianza vienen dadas en el
teorema 4.1. Podemos entonces escribir
µ ¶
σ
β̂1 ∼ N β1 , √ .
Sxx
β̂1 − β1
T = √
σ̂/ Sxx
Estamos ahora en condiciones de plantear una prueba de hipótesis sobre el parámetro β1 . Sea β10 un
número que vamos a usar como valor de prueba en el contraste de hipótesis:
(
H0 : β1 = β10 ,
H1 : β1 6= β10 .
β̂1 − β10
T = √ ∼ tn−2 ,
σ̂/ Sxx
luego la región crı́tica a un nivel de significación α viene dada por |T | > tα/2,n−2 .
3 Johann Carl Friedrich Gauss, Brunswick 30 de abril de 1777, Göttingen 23 de febrero de 1855.
4 Abraham de Moivre. Vitry-le-Francois (Francia), 26 de mayo de 1667, Londres, 27 de noviembre de 1754.
Tema 5. Análisis de regresión 11
De un modo completamente análogo al expuesto, puede diseñarse una prueba de hipótesis para el
parámetro β0 . Para ello, observemos que por las mismas razones que β̂1 , bajo el Supuesto 4, el estadı́stico
β̂0 tiene distribución normal cuya media y varianza vienen dadas en el teorema 4.1, ası́
s
2
1 x
β̂0 ∼ N β0 , σ + .
n Sxx
β̂ − β0
T = s0 ,
1 x2
σ̂ +
n Sxx
O bien, la relación subyacente entre x e Y no es lineal como hasta ahora venı́amos suponiendo.
En cualquier caso, si la conclusión de la prueba es rechazar la hipótesis nula, diremos que la regresión es
significativa. En caso contrario diremos que no es significativa la regresión.
y su varianza µ¶
1 1
V ar(ŷ) = σ 2
+ (x − x)2 ,
n Sxx
às !
1 (x − x)2
de modo que podemos concluir que ŷ ∼ N µY |x , σ + . A partir de aquı́ puede de-
n Sxx
mostrarse que un intervalo de confianza del 100(1 − α) % para el parámetro µY |x es:
s s
ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2
+ , ŷ + tα/2,n−2 σ̂ +
n Sxx n Sxx
7. Intervalo de predicción
Consideremos un valor cualquiera x de la variable de control (no necesariamente igual a uno de los xi en
los que nos venimos basando para construir el modelo de regresión, aunque eventualmente puede coincidir
con alguno de ellos). Sea Y la variable de respuesta para ese valor x. Vamos a diseñar un intervalo que
tenga una probabilidad 1 − α de contener un valor y de la variable de respuesta Y . Es de destacar que
este intervalo, aunque formalmente análogo a un intervalo de confianza, es sin embargo conceptualmente
distinto. En efecto, un intervalo de confianza es un intervalo, cuyos extremos son variables aleatorias, y
que tiene una probabilidad 1 − α de contener a un parámetro de la población. El intervalo diseñado en
la sección anterior para la respuesta media es un intervalo de confianza, ya que dicha respuesta es un
parámetro poblacional. Por el contrario, el intervalo que vamos a diseñar, es un intervalo (cuyos extremos
serán también variables aleatorias) que tiene una probabilidad 1 − α de contener no un parámetro, sino
un valor y de la variable de respuesta (que no es un parámetro de la población) correspondiente a un
valor x de la variable de regresión. En algunos textos, se alude a y como un valor futuro de la variable
Y , y por esa razón, se nombra a este intervalo como intervalo de predicción.
s s
ŷ − tα/2,n−2 σ̂ 1 (x − x)2 1 (x − x)2
1+ + , ŷ + tα/2,n−2 σ̂ 1+ +
n Sxx n Sxx