Notas Del DR Arturo Erdely

REGRESIÓN LINEAL SIMPLE
Dr. Arturo Erdely Ruiz

04 de septiembre de 2009
Resumen
Con apoyo en diversos libros en la materia que se enumeran al final de este trabajo, se
desarrolla una exposición sobre la Unidad 3. “REGRESIÓN LINEAL SIMPLE”, de la
asignatura Estadı́stica II en la Licenciatura en Actuarı́a de la Facultad de Estudios Superiores
Acatlán de la UNAM. Esto supone conocimientos previos sobre las asignaturas de Probabilidad
I y II, Estadı́stica I y lo correspondiente a las dos primeras unidades de Estadı́stica II, par-
ticularmente respecto a variables aleatorias y sus transformaciones, ası́ como los principios y
métodos básicos de inferencia estadı́stica.
1. Regresión y el caso lineal simple

Según la etimologı́a latina del español,1 la palabra regresión viene de rĕ = “hacia atrás” y grădĭor
= “ir, caminar”, es decir “acción de ir hacia atrás”. Fue Francis Galton quien, en trabajos publica-
dos en 1886 y 1889, introdujo el concepto de regresión en la disciplina estadı́stica, junto con el de
correlación, ver Kotz et al. (2006). Galton (1886) encontró que, a pesar de la tendencia de padres
altos a tener hijos altos, y de padres de baja estatura a tener hijos de baja estatura, la estatura
promedio de hijos de padres altos tiende a ser menor que la estatura promedio de sus padres, y que
la estatura promedio de hijos de padres bajos tiende a ser mayor que la estatura promedio de sus
padres, esto es, que la estatura promedio de unos y otros tiende a “regresar” hacia la estatura prome-
dio de la población total. Sin embargo, de acuerdo a Gujarati (1997) el concepto ha evolucionado y
la interpretación moderna de la regresión es bastante diferente:
El análisis de regresión trata del estudio de la dependencia de la variable dependiente,

en una o más variables explicativas, con el objetivo de estimar y/o predecir la media
o valor promedio poblacional de la primera, en términos de los valores conocidos o fijos
(en muestras repetidas) de las últimas.
En este trabajo se considera el caso de una sola variable explicativa para una variable aleatoria
dependiente Y . Dado un vector aleatorio (X, Y ) con función de distribución conjunta H, es posible
obtener a partir de esta última la función de distribución de Y condicional en el evento {X = x}, esto
es FY | X (y | x) = P(Y ≤ y | X = x). Para cada x en el rango de la variable aleatoria X denotemos
Yx a la variable aleatoria con función de distribución FY | X (y | x). En caso de que exista la esperanza
1
Segura Munguı́a, S. (2003) Nuevo diccionario etimológico Latı́n-Español y de las voces derivadas, Universidad de
Deusto (Bilbao).
1
de Yx , a la función µ(x) := E(Yx ) = E(Y | X = x) se le conoce como función o curva de regresión.
Pero normalmente H es desconocida, y por tanto es necesario hacer algunos supuestos sobre Yx y/o
estimar FY | X (y | x), o al menos µ(x), con base en observaciones de las variables aleatorias Yx , dado
un número finito de valores de x.
Definición 1. Sea Yg(w) una variable aleatoria con segundo momento finito, con esperanza
E(Yg(w) ) = α + βg(w) y varianza V(Yg(w) ) = σ 2 , donde w ∈ D, siendo D algún subconjunto
de los números reales R, y g una función de D en R. Sea D0 un subconjunto finito de D. A la
colección (finita) de variables aleatorias {Yg(w) : w ∈ D0 } se le denomina modelo de regresión
lineal simple.
La palabra lineal en la definición anterior se refiere a la relación de la esperanza respecto a los
parámetros α y β, y no respecto a la forma funcional de g. Por simplicidad, definimos x := g(w) y por
tanto E(Yx ) = α + βx y V(Yx ) = σ 2 . Sean x1 , . . . , xn los elementos de la imagen directa g(D0 ). Para
i = 1, . . . , n definimos las variables aleatorias εi := Yi − α − βxi , donde se escribe Yi en vez de Yxi
sin lugar a confusión. Entonces E(εi ) = 0 y V(εi ) = σ 2 . Lo anterior permite una forma equivalente
de definir un modelo de regresión lineal simple, congruente con la Definición 1 anterior:
Yi = α + βxi + εi , i = 1, . . . , n ,
E(εi ) = 0 , V(εi ) = σ 2 , (1)
en donde los parámetros α, β y σ 2 son desconocidos, y los valores xi conocidos. Es importante

destacar, como lo hacen Mood et al. (1974), que Y1 , . . . , Yn no es una muestra aleatoria de tamaño
n de una variable aleatoria Y, se trata de n muestras aleatorias de tamaño 1, una por cada una de
las n variables aleatorias no necesariamente independientes, y distintas, al menos, en cuanto a sus
esperanzas E(Yi ) = α + βxi , aunque con varianza común V(Yi ) = σ 2 .
2. Modelo clásico de regresión lineal simple

En esta sección solamente se agrega a (1) el supuesto de que Cov(εi , εj ) = 0 para todo i 6= j ,
lo cual implica a su vez que Cov(Yi , Yj ) = 0 (y que no implica necesariamente independencia). Esto
permite obtener estimadores puntuales para α y β, que resultan ser óptimos en el sentido de lo
siguiente:
Definición 2. Si un estimador θb = ψ(Y1 , . . . , Yn ) de un parámetro desconocido θ es lineal, insesgado
y de varianza mı́nima, esto es, respectivamente:
n
X
a) θb = di Yi para ciertas constantes conocidas di ,
i=1
b) E( θb ) = θ ,
c) para cualquier otro estimador lineal insesgado de θ, digamos θb∗ , se cumple: V( θb ) ≤ V(θb∗ ) ,
se dice entonces que θb es el mejor estimador lineal insesgado (MELI) para θ.
En Mood et al. (1974), Lehmann y Casella (1998) o en Casella y Berger (2002), se puede consultar
los detalles de la demostración del siguiente:
2
Teorema 1. Los siguientes estimadores son los MELIs para α y β en (1) bajo el supuesto de que
Cov(εi , εj ) = 0 para todo i 6= j :
Pn
(Y − Y )(xi − x)
β =
b P1 n i
i=
2
, b = Y − βb x ,
α
(x
i=1 i − x)
1
Pn 1
Pn
en donde Y := n i=1 Yi , x := n i=1 xi .
Recordando la diferencia entre estimador y estimación (el primero es variable aleatoria, el segundo
es un valor observado del primero, y por tanto un número real), dadas las observaciones y1 , . . . , yn
de las variables aleatorias Y1 , . . . , Yn en (1), a las estimaciones:
Pn
= 1 (yi − y)(xi − x)
iP
b = n 2
, a = y − bx , (2)
i = 1 (xi − x)
se les conoce como estimaciones por mı́nimos cuadrados ordinarios (MCO) de α y β ya

que la función cuadrática
n
X
h(α, β) := ( yi − α − βxi ) 2 (3)
i=1
se minimiza justamente en (α, β) = (a, b), lo cual es sencillo de verificar mediante técnicas estándar
de cálculo de varias variables, ver por ejemplo Calero (1998). Se podrı́an proponer otras funciones
para minimizar diferencias entre los valores yi y α + βxi (diferencias absolutas, por ejemplo) pero la
ventaja que ya se tiene con la estimación por MCO es que el Teorema 1 demuestra que los estimadores
correspondientes son los MELIs y por tanto no habrá propuesta que los supere en este sentido.
Como serı́a de esperarse, para σ 2 = V(Yi ) no se tiene un MELI ya que su estimación involucra
a los momentos de segundo orden de las variables aleatorias Yi , lo cual no es posible lograr con un
estimador lineal. Sin embargo, es factible obtener, cuando menos, un estimador insesgado para σ 2
definiendo las variables aleatorias ei := Yi − α
b − βx
b i , respecto a las cuales se puede verificar que
E( ei ) = (n − 2)σ 2 , ver Calero (1998), y por lo tanto, para n ≥ 3, se tiene que un estimador
P 2
insesgado es:
n n
2
1 X 2 1 X b i )2 .
σ :=
b e = ( Yi − α
b − βx (4)
n − 2 i=1 i n − 2 i=1
3. Modelo clásico bajo Normalidad

Mientras no se haga algún supuesto sobre la distribución de probabilidad de las variables aleatorias
εi en (1), no es posible obtener estimadores de máxima verosimilitud, ni construir pruebas de hipótesis
o intervalos de confianza para los parámetros.2 Con el supuesto de la sección anterior, Cov(εi , εj ) = 0
para todo i 6= j , sólo es posible abordar el problema de estimación puntual, encontrando estimadores
2
Estrictamente hablando, antes de imponer una distribución de probabilidad, se podrı́a analizar el comportamiento
asintótico de los estimadores obtenidos en el Teorema 1 y en (4) por medio de teoremas de Estadı́stica Asintótica en
donde se obtienen versiones del Teorema Central del Lı́mite para variables aleatorias independientes no idénticamente
distribuı́das, como por ejemplo el Teorema de Lindeberg-Feller, ası́ como teoremas relacionados con estadı́sticos U,
pero son técnicas que requieren conocimientos que usualmente no se adquieren en una licenciatura en Actuarı́a. Véanse
las referencias de Serfling (1980), van der Vaart (1998) y DasGupta (2008).
3
α
b, β,b y σb2 , con optimalidad únicamente para los dos primeros, y restringiéndose a la clase de los
estimadores lineales insesgados.
Para el resto de la presente exposición, agregaremos a (1) el supuesto de que las variables aleatorias
ε1 , . . . , εn son iid (independientes e idénticamente distribuı́das) Normal (0, σ 2 ). ¿Por qué se escoge
esta distribución de probabilidad y no otra? Esencialmente porque bajo Normalidad los estimadores
de máxima verosimilitud para α y β coinciden con los MELIs obtenidos en la sección anterior, y más
aún, los estimadores obtenidos en el Teorema 1 y en (4) resultan ser (ahora sı́, los tres) óptimos y
sobre una clase más amplia: la de los estimadores insesgados en general (sin la restricción de
que sean lineales).
Como consecuencia inmediata del supuesto de Normalidad se tiene ahora que las variables aleato-
rias Y1 , . . . , Yn son independientes, mas no idénticamente distribuı́das. Especı́ficamente se tiene ahora
que Yi ∼ Normal (α + βxi , σ 2 ), i = 1, . . . , n , con función de densidad de probabilidad:
1 2
fYi (yi | α + βxi , σ 2 ) = √ exp − yi − (α + βxi ) /(2σ 2 ) .

(5)
2πσ 2
3.1. Inferencia sobre los parámetros

Recuérdese que una familia de funciones de densidad de probabilidades f (y | θ), en donde
θ = (θ1 , . . . , θk ), es una familia exponencial si puede expresarse en la forma
k
X
f (y | θ) = h(y)c (θ) exp wj (θ)tj (y) , (6)
j =1
en donde las funciones h : R → R+ ∪ {0} y tj : R → R sólo dependen de y (no pueden depender de

θ), y donde las funciones c : Rk → R+ ∪ {0} y wj : Rk → R sólo dependen de θ (no pueden depender
de y), ver Casella y Berger (2002). Es inmediato verificar que (5) es una familia exponencial con
k = 3, θ = (α, β, σ 2 ), y con
(α + βxi )2

1 2 1
h(yi ) = √ , c (α, β, σ ) = √ exp − ,
2π σ2 2σ 2
α
w1 (α, β, σ 2 ) = 2 , t1 (yi ) = yi ,
σ
β
w2 (α, β, σ 2 ) = 2 , t2 (yi ) = xi yi ,
σ
1
w3 (α, β, σ 2 ) = − 2 , t3 (yi ) = yi2 . (7)
2σ
Lo anterior tiene especial relevancia en cuanto a que al modelo de regresión lineal simple, bajo los
supuestos de esta sección, le son aplicables resultados para familias exponenciales en general. Por
ejemplo, de acuerdo a Cox y Hinkley (1974) y Mood et al. (1974) se tiene el siguiente:
Teorema 2. Sean Y1 , . . . , Yn variables aleatorias independientes con funcionesPk de densidad

fYi (y | θi , ν), pertenecientes a la misma familia exponencial h(y)c (η, ν) exp j = 1 wj (η, ν)tj (y) ,
4
pero con parámetro distinto θi , en donde este último es función lineal de η . Entonces el vector de
estimadores X n n
X
T = t1 (Yi ) , . . . , tk (Yi )
i=1 i=1
es conjuntamente completo y suficiente minimal para (η, ν).

Los conceptos de estadı́stico completo y estadı́stico suficiente minimal pueden repasarse en Mood
et al. (1974), Cox y Hinkley (1974) o Casella y Berger (2002). De manera informal y concisa, el que
un estadı́stico sea suficiente minimal implica que representa la mayor “reducción” o “simplificación”
posible de la información contenida en (Y1 , . . . , Yn ) pero sin perder información valiosa para la
estimación de los parámetros involucrados. El concepto de completez es más difı́cil de poner en pocas
palabras, quizás lo más sencillo que se puede decir es que un estadı́stico es completo si y sólo si el único
estimador insesgado de 0 que es función de dicho estadı́stico es idénticamente 0 con probabilidad 1.
El Teorema 2 es aplicable a (5) ya que en este caso θi = α + βxi es función lineal de η = (α, β) , y
además ν = σ 2 , por lo que, utilizando (7), se tiene que el vector de estimadores
X n Xn n
X
2
T1 , T2 , T3 = Yi , xi Y i , Yi (8)
i=1 i=1 i=1
es completo y suficiente minimal para (α, β, σ 2 ) en el modelo de regresión lineal simple bajo Norma-
lidad. Esto será útil para determinar la optimalidad de estimadores puntuales insesgados en lo que
sigue:
Estimación puntual
La independencia de las variables aleatorias Yi permite expresar la función de densidad conjunta
del vector aleatorio (Y1 , . . . , Yn ) como el producto de las densidades individuales (5), esto es
n
Y
2
fY1 ···Yn (y1 , . . . , yn | α, β, σ ) = fYi (yi | α, β, σ 2 ) ,
i=1
n
Y 1
exp − (yi − (α + βxi ))2 /(2σ 2 ) ,

= √
i=1 2πσ 2
( n
X . )
1
= exp − (yi − α − βxi )2 (2σ 2 ) . (9)
(2πσ 2 )n/2 i=1
La expresión (9) permite calcular los estimadores de máxima verosimilitud (EMV) para α, β y σ 2 :
dadas las observaciones y1 , . . . , yn correspondientes a las variables aleatorias Y1 , . . . , Yn , los valores
que maximizan la función de log-verosimilitud
log L(α, β, σ 2 | y1 , . . . , yn ) = log fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) ,

n
n n 1 X
= − log 2π − log σ 2 − 2 (yi − α − βxi )2 , (10)
2 2 2σ i = 1
coinciden, para α y β, con los MELIs que se obtuvieron en el Teorema 1, y en el caso de σ 2 resulta ser
el que se obtuvo en (4) pero multiplicado por n−2
n
, detalles en Calero (1998). El EMV para σ 2 tiene
5
sesgo (caracterı́stica frecuente en este tipo de estimadores), ası́ que multiplicándolo por el recı́proco
del factor anterior se vuelve insesgado. En este caso particular, los EMVs para α, β, y el de σ 2 (en
versión insesgada), resultan ser óptimos en el sentido de lo siguiente:
Definición 3. Si un estimador θb = ψ(Y1 , . . . , Yn ) de un parámetro desconocido θ es insesgado y de

varianza mı́nima para todo valor de θ (es decir, cumple incisos b y c de la Definición 2) se dice que
es un estimador insesgado de varianza uniformemente mı́nima (EIVUM).
En general, cualquier función uno a uno (inyectiva) de un estadı́stico suficiente es también un
estadı́stico suficiente. Combinaremos esta propiedad con la siguiente generalización del Teorema de
Lehmann-Scheffé, que a su vez utiliza el Teorema de Rao-Blackwell, véanse Cox y Hinkley (1974) y
Mood et al. (1974) :
Teorema 3. Bajo los supuestos del Teorema 2, si ϕ : Rk → Rk es función uno a uno (inyectiva) y
W = ϕ(T) es un vector de estimadores insesgados para (η, ν) entonces W es un vector de EIVUMs
para (η, ν).
Nótese primero que los MELIs del Teorema 1 son transformación lineal de (T1 , T2 ) en (8), esto es

d3 −d2 T1 α
b
= , (11)
−d2 d1 T2 βb
en donde
1 1
d1 := Pn 2
d2 := d1 x d3 := d1 x 2 + (12)
i = 1 (xi − x) n
1
Como la transformación (11) es invertible y (4) puede reexpresarse de la forma σb2 = n−2 T3 +
ξ(T1 , T2 ) , tenemos entonces que existe una función inyectiva que transforma (8) en los estimadores
(b b σb2 ) obtenidos en el Teorema 1 y en (4), que a su vez son estimadores insesgados de (α, β, σ 2 ),
α, β,
ası́ que por el Teorema 3 se concluye que (b b σb2 ) son EIVUMs para los parámetros del modelo de
α, β,
regresión lineal simple bajo Normalidad.
Estrictamente hablando, con lo anterior se cumple el objetivo de tener a los mejores estimadores
puntuales posibles, pero hay algo más que decir, ahora en cuanto a la dependencia entre dichos
estimadores, que será útil más adelante en estimación por intervalos y pruebas de hipótesis. Para
analizar dicha dependencia es necesario, y afortunadamente posible, identificar la distribución de
probabilidad conjunta del vector aleatorio (b b σb2 ), véase Mood et al. (1974). Para ello, primero se
α, β,
hace el cambio de variables
b−α
α βb − β (n − 2)σb2
θb1 := , θb2 := , θb3 := , (13)
σ σ σ2
y luego se calcula la función generadora de momentos conjunta del vector aleatorio (θb1 , θb2 , θb3 ) por

medio de mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) . La combinación lineal z1 θb1 + z3 θb2 + z3 θb3
es, en última instancia, una transformación de las variables aleatorias Yi que de forma genérica
denotaremos ζ(Y1 , . . . , Yn ), y como se tiene la función de densidad conjunta de (Y1 , . . . , Yn ) dada en
(9), el cálculo de mθb1 θb2 θb3 se realiza como sigue:
6

mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) ,

= E ζ(Y1 , . . . , Yn ) ,
Z ∞ Z ∞
= ··· ζ(y1 , . . . , yn )fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) dy1 · · · dyn ,
−∞ −∞
.. .. .. ..
= . . . .
2 2 −(n−2)/2

= exp{d3 z1 + 2(−d2 )z1 z2 + d1 z2 } (1 − 2z3 ) , siempre que z3 < 1/2 ,
= mθb1 θb2 (z1 , z2 )mθb3 (z3 ) . (14)
En el resultado anterior hay que reconocer lo siguiente: primero, que la factorización resultante impli-
ca la independencia del vector aleatorio (θb1 , θb2 ) y la variable aleatoria θb3 ; segundo, que mθb1 θb2 (z1 , z2 )
corresponde a la función generadora de momentos conjunta de una distribución Normal Bivaria-
da y mθb3 (z3 ) corresponde a la función generadora de momentos univariada de una distribución de
probabilidad Ji-cuadrada con n − 2 grados de libertad:

0 d3 −d2
(θ1 , θ2 ) ∼ N2
b b , , θb3 ∼ χ2n−2 . (15)
0 −d2 d1
Nótese que la matriz de varianza-covarianza de (θb1 , θb2 ) es la matriz correspondiente a la transfor-

mación lineal (11). El resultado anterior en combinación con (13) nos permite establecer el siguiente:
Teorema 4. Para los EIVUM (b b σb2 ) del modelo de regresión lineal simple bajo Normalidad, se
α, β,
cumple:
a) El vector de estimadores (b b y el estimador σb2 son independientes.

α, β)

b ∼ N2 α 2 d 3 −d 2
b) (b
α , β) ,σ .
β −d2 d1
(n − 2)σb2
c) ∼ χ2n−2 .
σ2
Estimación por intervalos

Utilizaremos el Teorema 4 para obtener estadı́sticos pivotales apropiados para la construcción de
intervalos de confianza para cada uno de los parámetros del modelo de regresión lineal simple bajo
Normalidad. En el modelo particular que nos ocupa, un estadı́stico pivotal es una variable aleato-
ria Q que es función de (Y1 , . . . , Yn , α, β, σ 2 ) pero cuya distribución de probabilidad no depende
de (α, β, σ 2 ). Un ejemplo inmediato es el inciso c del Teorema 4: denotemos por Q0 a dicho es-
tadı́stico pivotal. Como Q0 sólo incluye de manera explı́cita al parámetro desconocido σ 2 , esto lo
hace candidato a ser utilizado para construir un intervalo de confianza para dicho parámetro. Dado
un valor 0 < γ < 1, recordemos que un intervalo de confianza al 100γ % se construye encontran-
do, primero, cuantiles q1 < q2 tales que P (q1 < Q0 < q2 ) = γ; luego, se reexpresa la desigualdad
7
q1 < Q0 < q2 en una equivalente pero de la forma τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) de modo que
P [ τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) ] = γ. Aunque normalmente hay una infinidad de pares de
valores (q1 , q2 ) que cumplen con la condición requerida, lo usual es “repartir” la probabilidad γ sobre
un intervalo centrado en la mediana de la distribución de probabilidad del estadı́stico pivotal, esto
es: Z 1 Z q2
2 γ
fQ0 (u) du = = fQ0 (u) du . (16)
q1 2 1
2
1−γ 1+γ
En el caso particular de Q0 , q1 y q2 representarı́an entonces los cuantiles 2
y 2
de una distribu-
ción Ji-cuadrada con n − 2 grados de libertad. Luego
(n − 2)σb2 (n − 2)σb2 (n − 2)σb2
q1 < < q2 ⇔ < σ2 < ,
σ2 q2 q1
con lo que se obtiene:

2 (n − 2)σb2 (n − 2)σb2
Intervalo de confianza al 100γ % para σ : Iσ2 (γ) = , . (17)
q2 q1
Del inciso b del Teorema √ 4 se desprende que el estimador α b ∼ Normal (α, σ 2 d3 ), por lo que
la variable aleatoria (bα − α)/ σ 2 d3 ∼ Normal (0, 1), y por lo tanto dicha variable aleatoria es un
estadı́stico pivotal. Sin embargo, tal cual no es útil para construir un intervalo de confianza para un
solo parámetro desconocido al tener en su definición dos parámetros desconocidos, α y σ 2 . Como ya
se cuenta con un intervalo de confianza para σ 2 , si hubiese forma de “deshacerse” de él al definir el
estadı́stico pivotal y que sólo permanezca α como parámetro desconocido, se estarı́a en condiciones
de construir un intervalo de confianza para este último parámetro. Un forma de “deshacerse” de σ 2 es
sustituirlo por elqestimador σb2 , pero entonces la distribución de probabilidad del estadı́stico pivotal
Q1 := (b α − α)/ σb2 d3 ya no será Normal (0, 1); sin embargo, podemos hacer uso de un conocido
resultado de transformaciones de variables aleatorias: Si p Z ∼ Normal (0, 1), U ∼ Ji-cuadrada con k
grados de libertad, Z y U independientes, entonces Z/ U/k ∼ t-Student con k grados de libertad.
Por lo tanto, utilizando los tres inicisos del Teorema 4:
√
αb−α α − α)/ σ 2 d3
(b Normal (0, 1)
Q1 = q = q ≡ p 2 ≡ t-Student n−2 . (18)
2 2
σ /σ 2 χ n−2 /(n − 2)
σ d3
b b
Para construir un intervalo de confianza al 100γ % para α se requieren cuantiles q1 < q2 tales que
P (q1 < Q1 < q2 ) = γ. Nuevamente lo usual es repartir la probabilidad γ en un intervalo centrado en
la mediana, que en el caso de la distribución t-Student es cero, y como además su función de densidad
es simétrica respecto a cero, basta tomar como q2 = q > 0 al cuantil (1 + γ)/2 de la distribución
t-Student con n − 2 grados de libertad (tn−2 ), y por simetrı́a q1 = −q. Luego
q q
b−α
α
−q < q <q ⇔ α b − q σb2 d3 < α < α b + q σb2 d3
σb2 d3
con lo que se obtiene:
q q
Intervalo de confianza al 100γ % para α : Iα (γ) = b−q
α σb2 d3 , α
b+q σb2 d3 . (19)
8
Para β el procedimiento es totalmente análogo al de α, y se obtiene:
q q
b b2 b b2
Intervalo de confianza al 100γ % para β : Iβ (γ) = β − q σ d1 , β + q σ d1 . (20)
Pruebas de hipótesis
De acuerdo a Casella y Berger (2002), en el caso del modelo de regresión lineal simple, usualmente
se tiene mayor interés en β que en α, ya que este último representa la esperanza de Yx cuando x = 0,
y dependiendo del problema, con frecuencia x = 0 no es un valor “razonable” o “realista” de la
variable explicativa. En contraste, β representa la razón de cambio de E(Yx ) como función de x,
válida sobre todo el rango de valores “razonables” para x, por lo que centraremos nuestra atención
en β, pero en el entendido de que técnicamente es posible hacer lo análogo respecto a α.3
En términos de pruebas de hipótesis, interesa en particular analizar la posibilidad de que β = 0
ya que si las observaciones muestrales no proporcionan información que permita rechazar contunden-
temente esta posibilidad, se pondrı́a en duda que x sea efectivamente una variable explicativa, que
es la esencia del modelo de regresión lineal simple. Construiremos entonces una prueba de hipótesis
para el contraste:
H0 : β = 0 versus H1 : β 6= 0 . (21)
Como consecuencia del inciso b del Teorema 4, y de un argumento análogo al utilizado en (18),
se tiene que, bajo la hipótesis H0 : β = 0, la variable aleatoria
βb H0
V := q ∼ tn−2 (t-Student con n − 2 grados de libertad) , (22)
σb2 d1
por lo que resulta adecuada como estadı́stico de prueba para el contraste (21), conocido también como
del tipo de prueba de dos colas. Para una prueba de tamaño δ se requiere de una regla de decisión
que rechace incorrectamente H0 con probabilidad δ, situación conocida como error tipo I. Aunque
0 < δ < 1, normalmente se utilizan valores “pequeños” para δ, tı́picamente 0.05 o 0.01. Tomando
en cuenta la simetrı́a de la distribución de probabilidad de (22), para una prueba de dos colas se
“reparte” la probabilidad δ por partes iguales en las colas de la distribución, y en caso de que el
valor observado del estadı́stico de prueba corresponda a una de las dos colas, se toma entonces la
decisión de rechazar H0 , ya que existe una probabilidad (pequeña) δ de que esto suceda bajo H0 .
En concreto, se calcula el valor q > 0 tal que
1 − δ = P ( −q < V < q ) , lo que equivale a que P ( | tn−2 | > q ) = δ , (23)

3
En particular, interesarı́a que hubiese evidencia muestral que permitiese rechazar la hipótesis nula H0 : α = 0
versus la alternativa H1 : α 6= 0, y si no fuese el caso de rechazar H0 , para decidir aceptar α = 0 habrı́a primero que
hacer un análisis del error tipo II, y en caso de decidirse por α = 0, el modelo Yx = α + βxi + ε tendrı́a que modificarse
a la versión más simplificada Yx = βxi + ε, regresión lineal simple a través del origen, y repetir un análisis similar al
que se ha hecho hasta el momento en este trabajo, ya que al haber un parámetro menos que estimar, se modifican
algunos de los estimadores y sus propiedades estadı́sticas, ver Gujarati (1997).
9
Es decir, en este caso q es el cuantil 1 − 2δ de la distribución t-Student con n − 2 grados de libertad.
Luego entonces la regla de decisión para (21) queda como sigue:
Rechazar H0 : β = 0 si |v| > q, (24)
en donde v es el valor observado del estadı́stico V de (22). Recuérdese que el tamaño de prueba δ
lo establece el usuario de la misma. En ocasiones, en vez de fijar un valor δ, se prefiere conocer el
valor-p (en idioma inglés: p-value) que corresponde a una muestra observada, esto es, determinar el
mı́nimo valor δ bajo el cual se rechazarı́a H0 de acuerdo a la regla de decisión (24), y con base en
ello decidir rechazar H0 en la medida que el valor-p resulte aceptablemente pequeño.4
La regla de decisión para H0 : α = 0 versus H1 : α 6= 0 es totalmente q análoga: Rechazar H0
si | u | > q , en donde u es el valor observado del estadı́stico U := α b/ σb2 d3 . También de forma
análoga, haciendo uso del iniciso c del Teorema 4, se pueden construir pruebas de hipótesis para σ 2 ,
por ejemplo del tipo H0 : σ 2 > s0 versus H1 : σ 2 ≤ s0 , que en este caso involucrarı́a a la distribución
Ji-cuadrada con n − 2 grados de libertad.5
3.2. Respuesta media y predicción

Hasta el momento se han aplicado técnicas generales de inferencia estadı́stica a los parámetros
desconocidos del modelo (α, β, σ 2 ), pero no hay que olvidar que la esencia del modelo de regresión
lineal simple radica en poder estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente (o de respuesta) Yx en términos de valores conocidos o fijos (en muestras repetidas) de
la variable explicativa x. Salvo en los casos particulares en los que los parámetros en sı́ mismos son
el principal motivo de la inferencia, por la interpretación que pudieran tener respecto a aquello a lo
cual se aplica el modelo, en general el asunto de hacer inferencia sobre los parámetros es un paso
intermedio hacia el fin principal de hacer inferencia estadı́stica sobre la variable dependiente o de
respuesta Yx .
Si se escoge un valor x = x0 tendremos entonces que la variable aleatoria Yx0 = α + βx0 + ε
se distribuye Normal (α + βx0 , σ 2 ), en donde a su vez ε ∼ Normal (0, σ 2 ). Respecto al estimador
α
b + βx
b 0 notemos que
E (b
α + βx
b 0 ) = E (b
α) + x0 E (β)
b = α + βx0 = E (Yx ) ,
0 (25)
esto es, que α
b + βx
b 0 es un estimador puntual insesgado para E (Yx ), la respuesta media cuando
0
x = x0 . Más aún, utilizando el inciso b del Teorema 4, y que de una combinación lineal de variables
aleatorias con distribución Normal resulta también una variable aleatoria Normal, la distribución
de probabilidad del estimador α b + βx
b 0 quedará completamente especificada después de calcular su
varianza:
b = σ 2 1 + d1 (x0 − x)2 ,

V(bα + βx
b 0 ) = V(b α) + x20 V(β)
b + 2x0 Cov(b
α, β) (26)
n
4
De hecho, en términos de automatizar los cálculos, lo usual es que el software estadı́stico reporte el p-value, en
vez de pedir al usuario que ingrese el valor δ que desea. Véase, por ejemplo, Ugarte et al. (2008), Crawley (2007),
Dalgaard (2002) y Everitt (2006).
5
Más aún, para construir pruebas de hipótesis en donde H0 sea una hipótesis compuesta (esto es, H0 : θ ∈ Θ0 , en
donde Θ0 tiene más de un elemento), existen criterios para la construcción de pruebas uniformemente más potentes
aprovechando el hecho de que el modelo de regresión lineal simple bajo Normalidad es una familia exponencial, ver
Lehmann (1986).
10
y por lo tanto, el estimador puntual insesgado de la respuesta media E (Yx0 ) se distribuye:

2 1

\ 2
b + βx0 ∼ Normal E (Yx0 ) , σ
E (Yx0 ) := α b + d1 (x0 − x) . (27)
n
Nótese que la varianza de E\ (Yx0 ) alcanza un mı́nimo cuando x0 = x . Nuevamente, mediante un

razonamiento análogo al utilizado en (18) se tiene que
E\
(Yx ) − E (Yx0 )
Q2 := r 0 ∼ tn−2 , (28)
σb2 n1 + d1 (x0 − x)2
por lo que Q2 se puede utilizar como estadı́stico pivotal para construir un intervalo de confianza para
E (Yx0 ) ya que −q < Q2 < q si y sólo si
r r
\ 2
1 2

\ 2
1 2

E (Yx0 ) − q σb + d1 (x0 − x) < E (Yx0 ) < E (Yx0 ) + q σ b + d1 (x0 − x) , (29)
n n
y por lo tanto, si q es el cuantil 1+γ
2
de la distribución t-Student con n − 2 grados de libertad,
entonces un intervalo de confianza 100γ % para la respuesta media E (Yx0 ) cuando x = x0 es
el siguiente:
r r
\ 2
1 2

\ 2
1 2
I E (Yx0 ) (γ) = E (Yx0 ) − q σ
b + d1 (x0 − x) , E (Yx0 ) + q σ b + d1 (x0 − x) . (30)
n n
Si lo que se desea es hacer predicción sobre el valor que puede reportar la variable aleatoria Yx0
dado un nuevo valor x = x0 , es posible construir algo análogo a un intervalo de confianza, conocido
como intervalo de predicción. Partiendo de que Yx0 ∼ Normal (α + βx0 , σ 2 ), si los tres parámetros
fuesen conocidos, entonces
Yx0 − E (Yx0 ) Yx0 − (α + βx0 )
p = √ ∼ Normal (0, 1) , (31)
V(Yx0 ) σ2
y si z es el cuantil 1+γ
2
de la distribución Normal (0, 1) entonces se puede afirmar que

Yx0 − (α + βx0 )
√ √
γ = P −z < √ < z = P α + βx0 − z σ 2 < Yx0 < α + βx0 + z σ 2 , (32)
σ2
y entonces se le llama intervalo de predicción 100γ % para Yx0 al siguiente:
h √ √ i
α + βx0 − z σ 2 , α + βx0 + z σ 2 . (33)
Pero si (α, β, σ 2 ) son desconocidos y se pretende utilizar en su lugar a los estimadores (b b σb2 ),
α, β,
entonces la distribución de probabilidad involucrada para obtener el intervalo de predicción cambia
a t-Student con n − 2 grados de libertad, como veremos a continuación. Como x = x0 es un nuevo
valor (distinto a x1 , . . . , xn ) y los estimadores (b b σb2 ) sólo dependen de (Yx , . . . , Yxn ) entonces la
α, β, 1
2 2
variable aleatoria Yx0 ∼ Normal (α + βx0 , σ ) y el vector aleatorio (b α, β, σ ) son independientes.
b b
11
De (27) ya sabemos que α b + βxb 0 se distribuye Normal con los parámetros que ahı́ se indican, por
lo que la diferencia Yx0 − (b
α + βx
b 0 ) también se distribuye Normal, con media

E Yx0 − (b b 0 ) = E (Yx ) − E (b
α + βx 0
b 0 ) = α + βx0 − (α + βx0 ) = 0 ,
α + βx (34)
y varianza
b 0 ) = σ 2 + σ 2 1 + d1 (x0 − x)2 , (35)

V Yx0 − (b
α + βx
b 0 ) = V(Yx ) + V(b
0 α + βx
b 0 ) + 2Cov(Yx , α
0 b + βx
n
ya que Cov(Yx0 , α
b + βx
b 0 ) = 0 dada la independencia de Yx y (b b σb2 ). Es decir,
α, β,
0

2
1 2
Yx0 − (b b 0 ) ∼ Normal 0 , σ 1 +
α + βx + d1 (x0 − x) . (36)
n
Haremos ahora lo análogo a (31) pero sustituyendo a (α, β) por (b b y a σ 2 por

α, β)

σb2 1 + n1 + d1 (x0 − x)2 :
Yx0 −(b b 0 )−E(Yx −(b

α+βx 0 α+βx
b 0 ))
Y − (b
α + βx
b 0) V(Yx −(b
α+βx0 ))
r x0
b
= q0 ,
σb2 1 + 1
+ d1 (x0 − x)2 σb2 / σ 2
n
Normal (0, 1)
≡ p 2 ≡ tn−2 , (37)
χ n−2 / (n − 2)
en donde la independencia de numerador y denominador está garantizada por la independencia de

σb2 respecto a Yx0 y (b b Si q es el cuantil 1+γ de la distribución t-Student con n − 2 grados de
α, β). 2
libertad, entonces

Yx0 − (b
α + βx
b 0)
γ = P −q < r < q , (38)
2 1 2
σ 1 + n + d1 (x0 − x)
b
de donde se obtiene el intervalo de predicción 100γ % para Yx0 :

r r
b 0 − q σb2 1 + 1 1
α
b + βx + d1 (x0 − x)2 , α b 0 + q σb2 1 +
b + βx + d1 (x0 − x)2 . (39)
n n
Nótese que (30) y (39) sólo difieren en el 1 que aparece en las raı́ces cuadradas de (39).
4. Análisis residual y el coeficiente de determinación

Se han presentado ya los principales resultados de inferencia estadı́stica (estimación puntual y
por intervalo, pruebas de hipótesis, predicción) que son válidos para el modelo de regresión lineal
simple {Yi = α + βxi + εi : i = 1, . . . , n} PERO bajo los supuestos de que ε1 , . . . , εn son variables
aleatorias independientes e idénticamente distribuı́das Normal con esperanza E (εi ) = 0 y
varianza constante V(εi ) = σ 2 , y que los valores dados x1 , . . . , xn corresponden a una variable
12
explicativa. Con mucha frecuencia se cuenta con los datos (x1 , y1 ), . . . , (xn , yn ) mas no con información
que garantice que las observaciones y1 , . . . , yn provienen de variables aleatorias Yi que cumplen los
supuestos anteriores, razón por la cual surge la inquietud de analizar, con base en dichos datos,
posibles violaciones de los supuestos siguientes:
Normalidad.
Independencia.
Varianza constante.
Que x1 , . . . , xn efectivamente corresponden a una variable explicativa (validez del modelo).
Los tres primeros supuestos tienen que ver directa y claramente con las variables aleatorias εi ,
pero indirectamente también el cuarto supuesto, como se verá más adelante. Sabemos que
εi = Yi − (α + βxi ) = Yi − E (Yi ) ∼ Normal (0, σ 2 ) , (40)
pero al ser α y β parámetros desconocidos, no contamos con observaciones de las variables εi para
analizar, debido a que son de la forma yi − (α + βxi ) . En su lugar, de forma natural surge la idea
de analizar los valores observados yi − (a + b xi ) , ver (2), que de hecho corresponden a las variables
aleatorias que a continuación se definen:
Definición 4. A las variables aleatorias e1 , . . . , en definidas
\
ei := Yi − E (Yi ) = Yi − (b
α + βx
b i) , i = 1, . . . , n ,
se les denomina variables aleatorias residuales del modelo clásico del regresión lineal simple. A
las observaciones yi −(a+b xi ) de dichas variables aleatorias residuales se les denominará residuos.6
Nótese que, sin haberlas llamado por su nombre, las variables aleatorias residuales se ocupan
para obtener el estimador insesgado de σ 2 en (4). Bajo el supuesto de Normalidad sabemos que Yi
se distribuye Normal, por el Teorema 4 los estimadores α b y βb también tienen distribución Normal,
y como de combinación lineal de variables aleatorias Normales resulta también una variable aleato-
ria Normal, tenemos entonces que las variables aleatorias residuales ei también tienen distribución
Normal, con esperanza:
E (ei ) = E (Yi ) − E (b
α + βx
b i) = 0 , (41)
y con varianza:
V(ei ) = V(Yi ) + V(b b i ) − 2Cov(Yi , α
α + βx b + βx
b i) ,

2 2 1 2

= σ +σ + d1 (xi − x) − 2 Cov(Yi , α
b) + xi Cov(Yi , β) ,
b
n
.. .. ..
= . . .
1
= σ2 1 − − d1 (xi − x)2 . (42)
n
6
La palabra residuo es un sustantivo, en contraste con residual que es un adjetivo. En idioma inglés, las traduccio-
nes son residue y residual, respectivamente, aunque residue ha caı́do en desuso debido a que en ese idioma también
se acepta utilizar residual como sustantivo. Seber (1977), por ejemplo, cuando define las variables aleatorias ei dice
que ellas “are called the residuals”. En libros en idioma español sobre el tema, normalmente se utiliza únicamente la
palabra residuo, sin aclarar si se está haciendo referencia a variables aleatorias o a sus observaciones. Es propuesta
de quien esto escribe hacer tal distinción, como en la Definición 4.
13
Es decir, 1
2 2
ei ∼ Normal 0, σ 1− − d1 (xi − x) , i = 1, . . . , n . (43)
n
Nótese que V(ei ) < σ 2 = V(εi ). Más aún, como E (ei ) = 0 entonces V(ei ) = E (ei2 ), y por lo tanto:
Xn n n
2
X
2 2
X n−1 2
E ei = E (ei ) = σ − d1 (xi − x) = σ 2 (n − 2) , (44)
i=1 i=1 i=1
n
de donde se obtiene (4). Además, para i 6= j :
Cov( ei , ej ) = E( ei ej ) − E (ei )E (ej ) ,

h 1i
= − σ 2 d1 (xi − x)(xj − x) + 6= 0 . (45)
n
En pocas palabras, las variables aleatorias residuales e1 , . . . , en tienen distribución Normal, pero
resulta que no son independientes, no tienen varianza constante y por tanto no son idénticamente
distribuı́das ¡aún cuando ε1 , . . . , εn sı́ cumplan los supuestos! Ante la imposibilidad de tener acceso
a observaciones de las variables aleatorias εi para analizar si se viola normalidad, independencia
y varianza constante, usualmente se pretende que las variables aleatorias residuales ei , que sı́ son
observables, serı́an un buen sustituto, pero si de entrada las ei ya violan algunos de los supuestos
que se desea analizar, pues es, al menos, cuestionable hacerlo de esta manera.
En defensa de la utilización de las variables aleatorias residuales para el análisis de supuestos del
modelo, podrı́a argumentarse, por ejemplo, que el que no tengan varianza constante no es tan grave
porque la variabilidad de acuerdo a (42) se puede considerar Pinsignificante para “valores grandes”
2 n 2
de n ya que (xi − x) es tan solo uno de los n sumandos de j = 1 (xj − x) y por tanto la cantidad
2
d1 (xi − x) puede considerarse “despreciable”. En cuanto a la no independencia, Neter et al. (1996)
comentan lo siguiente:
Los residuales ei no son variables aleatorias independientes [. . . ] Cuando el tamaño de

muestra es grande en comparación con el número de parámetros en el modelo de regresión,
el efecto de la dependencia entre las ei es relativamente poco importante y puede ser
ignorada para la mayorı́a de los propósitos.
Desafortunadamente Neter et al. (1996) no proporcionan en su libro elementos o referencias que den
sustento a tal afirmación, si es que esto realmente fuese posible. De acuerdo a (45), si n es “muy
grande” entonces Cov( ei , ej ) estará “muy cerca” de cero, pero aún Cov( ei , ej ) = 0 ¡NO IMPLICA
INDEPENDENCIA! Aún cuando ei y ej sean variables aleatorias Normales con covarianza igual a
cero, es posible que exista una grado de dependencia relevante. Por ejemplo, considérese una variable
aleatoria Z1 ∼ Normal (0, 1) y defı́nase la variable aleatoria

−1
Z2 := Φ 1 − 2Φ(Z1 ) ,
en donde Φ es la función de distribución (acumulativa) de una variable aleatoria Normal (0, 1).
Entonces Z2 también se distribuye Normal (0, 1) y además Cov(Z1 , Z2 ) = 0 a pesar de que existe
una evidente dependencia, por definición, entre Z1 y Z2 : si Z1 = z entonces Z2 reporta el valor
especı́fico Φ−1 (|1 − 2Φ(z)|) ¡con probabilidad 1! De hecho, se puede demostrar que utilizando una
14
medida de dependencia 7 como la de Schweizer y Wolff (1981), el grado de dependencia en este caso
es de 0.5 en una escala de 0 a 1, lo cual serı́a bastante cuestionable considerar poco importante e
ignorarlo como proponen Neter et al. (1996).
Si aún bajo el supuesto de que las variables aleatorias εi sean independientes, las variables aleato-
rias residuales ei no lo son ni hay claridad respecto a qué tan lejos están de serlo, estrictamente no
se les debiera utilizar en pruebas estadı́sticas basadas en este supuesto, como es el caso de muchas
pruebas para Normalidad, bondad de ajuste en general, heteroscedasticidad (varianza no constante),
etc. Es entonces la falta de independencia entre las variables aleatorias residuales, bajo el supuesto
de que las εi sı́ lo sean, lo que lleva a cuestionar su utilidad para validar supuestos en el modelo de
regresión lineal simple.
Coeficiente de determinación
Este concepto está asociado al interés de analizar la bondad del ajuste o validez del modelo como
tal, de acuerdo a la información de los datos. Dicho de otro modo, analizar si los valores conoci-
dos x1 , . . . , xn tienen una capacidad relevante para “explicar” el comportamiento de las variables
aleatorias de respuesta Y1 , . . . , Yn , bajo el modelo de regresión lineal simple.
Para este fin, se toma como punto de referencia a la media muestral Y (ver definición en Teorema
1) dePlas variables aleatorias Yi . De este modo, Y se ubica en el “centro” de las variables Yi ya
n
que i = 1 (Yi − Y ) = 0, esto es, se tendrán valores de Yi que sean mayores y menores que Y ,
cuyas diferencias, positivas y negativas, tienen suma cero. Si se elimina el efecto del signo en dichas
diferencias, digamos mediante (Yi −Y )2 , se estará midiendo otro aspecto: la dispersión de las variables
Yi respecto a su media muestral.
En el caso particular P ndel modelo2 de regresión lineal simple, denominaremos suma total de
cuadrados (STC) a i = 1 (Yi − Y ) . Se busca analizar la proporción de la variabilidad total (STC)
que puede ser “explicada” por el modelo ajustado E \ (Yi ) = α
b + βxb i , y esto se logra descomponiendo
STC de la siguiente forma:
n
X n
X
2
STC = (Yi − Y ) = \
(Yi − E \
(Yi ) + E (Yi ) − Y )2 ,
i=1 i=1
n
X
(Yi ))2 + (E (Yi ) − Y )2 + 2(Yi − E

= \
(Yi − E \ \ \
(Yi ))(E (Yi ) − Y ) ,
i=1
n
X n
X
= \
(Yi − E (Yi ))2 + \
(E (Yi ) − Y )2 ,
i=1 i=1
Xn n
X
= ei2 + \
(E (Yi ) − Y )2 , (46)
i=1 i=1
donde ni= 1 (Yi − E

P \ \
(Yi ))(E (Yi ) − Y ) = 0, después de algunas manipulaciones algebraicas, ver Calero
Pn \ 2
(1998). i = 1 (E (Yi )−Y ) representa la parte de variabilidad que “logra explicar” el modelo ajustado,
7
Entre las caracterı́sticas que se pide a una medida numérica de asociación κ entre dos variables aleatorias para
ser considerada medida de dependencia, está el que κ = 0 si y sólo si las variables aleatorias son independientes, y
por ello medidas como el coeficiente de correlación lineal de Pearson no son apropiadas para medir dependencia en
general, véase por ejemplo Nelsen (1999), Embrechts et al. (1999) o Erdely (2009).
15
misma
P 2 que denominaremos suma de cuadrados de la regresión (SCR). Como consecuencia,
ei representa la parte de la variabilidad que no logra explicar el modelo. Lo anterior motiva la
siguiente:
Definición 5. El coeficiente de determinación (CD) asociado a un modelo de regresión lineal

simple es la proporción SCR/STC.
P 2
Como STC = ei + SCR entonces necesariamente 0 ≤ CD ≤ 1 y se le da la siguiente inter-
pretación: en la medida en que el valor observado del CD sea más cercano a 1 se dice que el modelo
explica mejor el comportamiento de la variable de respuesta. Con toda intención se evitó la notación
usual R2 que surge porque el valor observado del CD coincide con el cuadrado de la fórmula para la
estimación muestral del coeficiente de correlación lineal de Pearson aplicado a (x1 , y1 ), . . . , (xn , yn ),
para detalles véase Calero (1998), pero conceptualmente no se justifica la relación entre uno y otro,
porque en el caso del modelo de regresión lineal simple los valores x1 , . . . , xn están fijados a priori
(no se consideran observaciones de una variable aleatoria), véase Gujarati (1997).
Sin embargo, el CD es esencialmente una medida descriptiva que no aprovecha el supuesto de
Normalidad
P 2 del modelo de regresión
P lineal simple. Analicemos ahora la proporción relativa de SCR y
2
ei . Valores “grandes” de SCR/ ei darı́an cuenta de un mejor ajuste del modelo, pero habrı́a que
tener algún criterio para decidir cuánto es “grande” en este caso. Afortunadamente esto es posible,
analizando el cociente
(E (Yi ) − Y )2
P \
SCR
F = P 2 = P 2 . (47)
ei /(n − 2) ei /(n − 2)
Primero notemos que
X X X X
ei = (Yi − α
b − βx
b i) = Yi − nb
α − βb xi = 0 ,
en donde
P la última
P igualdad es consecuencia de que α b = Y − βx,b ver Teorema 1, y por lo tanto
α = Yi − βb xi . Luego,
nb
Y = α b + βx
b +e = α b + βx
b
ya que e = n1
P \
ei = 0. Entonces E b i − x) y la suma
(Yi ) − Y = β(x
X X βb 2
SCR = \
(E (Yi ) − Y )2 = βb 2 2
(xi − x) = .
d1
ei2 /(n − 2) = σb2 , ver (4), nos permite reexpresar (47) como
P
Esto último junto con el hecho de que
βb 2
F = = V2 (48)
d1 σb 2
que es el cuadrado del estadı́stico de prueba (22) bajo H0 : β = 0 . Recordemos que β = 0 implica
que el modelo (particularmente los valores x1 , . . . , xn ) no explica el comportamiento de la variable
de respuesta, y de acuerdo a (22) y (24) se rechazarı́a tal hipótesis para valores de |V | que excedan
un umbral q (de acuerdo al tamaño de prueba deseado). Como V 2 = F y V se distribuye t-Student
con n − 2 grados de libertad, es un conocido resultado de probabilidad, ver Mood et al. (1974), que
entonces F tiene distribución de Fisher con 1 y n − 2 grados de libertad. Aquı́ el asunto relevante
16
es la congruencia entre lo que se buscaba medir con (47), en términos de la variabilidad explicada
por el modelo en proporción a la variabilidad no explicada, y la validez o no del modelo al poder
rechazar o no la hipótesis H0 : β = 0, ya sea mediante el estadı́stico V con distribución t-Student o
mediante el estadı́stico F de Fisher. Por lo tanto, en el caso del modelo de regresión lineal simple, la
bondad de ajuste del modelo se mide con base en el resultado de la prueba de hipótesis (21).
5. Ejemplo - resumen
Actualmente, el análisis estadı́stico de datos, aún a un nivel descriptivo, no se concibe ya sin
la ayuda de programas computacionales (software) diseñados para tal fin, ver Chambers (2008),
Dalgaard (2002) o Gentle (2002). Haremos uso del software libre R (www.r-project.org), que se
ha convertido en un estándar internacional en el análisis estadı́stico de datos, para aplicar la teorı́a
descrita en las secciones anteriores y que esto nos permita resumir e ilustrar los principales resultados.
Se incluyen las instrucciones tal cual se ingresan en dicho programa computacional en este tipo
de letra.
Analizaremos datos generados mediante simulación, bajo los supuestos del modelo clásico de
regresión lineal simple bajo Normalidad, para poder comparar las estimaciones versus los valores
teóricos. Esto es, fijaremos primero valores para α, β, σ 2 y x1 , . . . , xn , y luego simularemos con ayuda
de R observaciones yi a partir de las variables aleatorias independientes no idénticamente distribuı́das
Normal (α + βxi , σ 2 ). Lo anterior sólo con fines ilustrativos y de comparación, en el entendido de
que al trabajar con datos reales, por lo general, sólo se cuenta con los datos (xi , yi ), y los verdaderos
valores teóricos de los parámetros no se podrán conocer, sólo estimar.
Paso -1 : Definir los valores α = 2, β = 3, σ 2 = 300, n = 31 y los valores xi : 10, 11, 12, . . . , 40 :
> alfa.t <- 2 ; beta.t <- 3; sigma2.t <- 300 ; n <- 31
> x.i <- seq(from=10,to=40,length=31)
Paso 0: Simular valores εi ∼ iid Normal (0, σ 2 ) y con ellos los valores yi = α + βxi + εi :
> epsilon.i <- rnorm(n,0,sqrt(sigma2.t))
> y.i <- alfa.t + beta.t*x.i + epsilon.i
Paso 1: Es aquı́ donde usualmente comenzarı́a el análisis de los datos (x1 , y1 ), . . . , (xn , yn ). Ajustamos el
modelo clásico de regresión lineal simple bajo Normalidad, utilizando la instrucción lm (linear
model ), y luego se solicita un summary (resumen) del modelo ajustado:
> regresion <- lm(y.i~x.i)

> summary(regresion)
Call:
lm(formula = y.i ~ x.i)
Residuals:
Min 1Q Median 3Q Max
-32.148 -12.850 -3.834 11.347 38.860
17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6356 9.8146 0.982 0.334
x.i 2.7213 0.3696 7.362 4.13e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 18.41 on 29 degrees of freedom

Multiple R-squared: 0.6514, Adjusted R-squared: 0.6394
F-statistic: 54.2 on 1 and 29 DF, p-value: 4.128e-08
Interpretación: Las estimaciones puntuales para α y β, ver (2), son a = 9.6356 y b = 2.7213,
respectivamente. El p-value para H0 : β = 0 es 4.13 × 10−8 , ver (21) y (24), esto es, la
probabilidad de rechazar H0 : β = 0 erróneamente es tan pequeña como 4.13 × 10−8 , y por
tanto decidimos rechazar que β = 0. Nótese que esto coincide con el p-value del F-statistic al
final de la tabla anterior, lo cual era de esperarse en concordancia con lo comentado en la sección
anterior respecto a la equivalencia entre F y V 2 , ver (48), y por lo lo tanto se valida el modelo.
La probabilidad de rechazar erróneamente la hipótesis H0 : α = 0 puede ser hasta de 0.334
y por lo tanto no es recomendable rechazarla, ası́ que la estimación puntual a = 9.6356 no es
confiable. Multiple R-squared: 0.6514 es el valor observado del coeficiente de determinación.
La estimación puntual de σ 2 se obtiene mediante la fórmula (4) y la instrucción:
> sum((residuals(regresion))^2)/(n-2)
[1] 338.8523
Paso 2: Cálculo de intervalos de confianza 95 % para los parámetros del modelo. De acuerdo a las
fórmulas (17), (19) y (20), requerimos los siguientes valores:
> s <- sum((residuals(regresion))^2)/(n-2)
> a <- coefficients(regresion)[1] ; b <- coefficients(regresion)[2]
> d1 <- (sum((x.i-mean(x.i))^2))^(-1) ; d3 <- d1*(mean(x.i)^2) + 1/n
Los intervalos de confianza para α y β se obtienen directamente mediante:
> confint(regresion,level=0.95)
2.5 % 97.5 %
(Intercept) -10.437587 29.708758
x.i 1.965338 3.477337
Y para σ 2 :
> q1 <-qchisq((1-0.95)/2,df=(n-2))
> q2 <-qchisq((1+0.95)/2,df=(n-2))
> (n-2)*s*c(1/q2,1/q1) # Intervalo:
> [1] 214.9218 612.3682
18
Paso 3: Generar una gráfica con los valores (xi , yi ), la recta ajustada y = a + bx, intervalos de confianza
95 % para la respuesta media (se aprecian como bandas de confianza), e intervalos (bandas
también) de predicción 95 %.
> plot(c(0,50),c(-50,200),main="Regresi’on lineal simple",

xlab="Variable explicativa x.i",ylab="Variable de respuesta y.i",type="n")
> points(x.i,y.i) # Graficar las observaciones (x.i,y.i)
> f <- function(x) 1/n + d1*((x-mean(x.i))^2) # factor para calcular bandas
> q <- qt((1+0.95)/2,df=(n-2)) # cuantil de t-Student (n-2 g.l.)
> x <- seq(from=0,to=50,length=1000) # valores de x a graficar
> lines(x,a+b*x,lwd=3) # recta ajustada y = a + bx (l’inea gruesa)
> lines(x,a+b*x-q*sqrt(s*(0+f(x)))) # banda inferior de confianza para E(Yx)
> lines(x,a+b*x+q*sqrt(s*(0+f(x)))) # banda superior de confianza para E(Yx)
> lines(x,a+b*x-q*sqrt(s*(1+f(x)))) # banda inferior de predicci’on para Yx
> lines(x,a+b*x+q*sqrt(s*(1+f(x)))) # banda superior de predicci’on para Yx
Regresión lineal simple

200
150
Variable de respuesta y.i
●●●
●
100
● ●
● ●
●
●●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
50
● ●
● ●
●
0
−50
0 10 20 30 40 50
Variable explicativa x.i
La recta en lı́nea gruesa corresponde a y = a + bx, que son las estimaciones de E (Yx ) para
distintos valores de x. Las dos bandas que están más cerca de la lı́nea recta gruesa corresponden
a los intervalos de confianza 95 % para la respuesta media E(Yx ) para distintos valores de x,
de acuerdo a la fórmula (30). Las dos bandas más distantes de la lı́nea gruesa corresponden a
los intervalos de predicción 95 % para Yx , para distintos valores de x, de acuerdo a la fórmula
(39).
19
Bibliografı́a
Calero, A. (1998) Estadı́stica (Tomo II), IPN (México D.F).
Casella, G., Berger, R.L. (2002) Statistical Inference, Duxbury (Pacific Grove).
Chambers, J.M. (2008) Software for Data Analysis, Springer (Nueva York).
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall/CRC (Boca Ratón).
Crawley, M.J. (2007) The R book, Wiley (Chichester).
Dalgaard, P. (2002) Introductory Statistics with R, Springer (Nueva York).
DasGupta, A. (2008) Asymptotic Theory of Statistics and Probability, Springer (Nueva York).
Embrechts, P., McNeil, A.J., Straumann, D. (1999) Correlation: pitfalls and alternatives. Risk Maga-
zine 5, 69–71.
Erdely, A. (2009) Cópulas y dependencia de variables aleatorias: Una introducción. Miscelánea Mate-
mática 48, 7–28.
Everitt, B.S. (2006) A Handbook of Statistical Analyses Using R, Chapman & Hall/CRC (Boca Ratón).
Galton, F. (1886) Family Likeness in Stature. Proceedings of The Royal Society (Londres) 40, 42–63.
Gentle, J.E. (2002) Elements of Computational Statistics, Springer (Nueva York).
Gujarati, D.N. (1997) Econometrı́a, McGraw-Hill (Bogotá).
Kotz, S., Balakrishnan, N., Read, C.B., Vidakovic, B., Johnson, N.L. (2006) Encyclopedia of Statistical
Sciences, Second edition (16 volúmenes), Wiley (Hoboken).
Lehmann, E.L. (1986) Testing Statistical Hypothesis, Springer (Nueva York).
Lehmann, E.L., Casella, G. (1998) Theory of Point Estimation, Springer (Nueva York).
Mood, A.M., Graybill, F.A., Boes, D.C. (1974) Introduction to the theory of statistics, McGraw-Hill
(Nueva York).
Nelsen, R.B. (1999) An introduction to copulas, Springer (Nueva York).
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996) Applied Linear Statistical Models,
McGraw-Hill (Boston).
Schweizer, B., Wolff, E.F. (1981) On nonparametric measures of dependence for random variables.
Annals of Statistics 9, 879–885.
Seber, G.A.F. (1977) Linear Regression Analysis, Wiley (Nueva York).
Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics, Wiley (Nueva York).
Ugarte, M.D., Militino, A.F., Arnholt, A.T. (2008) Probability and Statistics with R, Chapman &
Hall/CRC (Boca Ratón).
van der Vaart, A.W. (1998) Asymptotic Statistics, Cambridge University Press (Cambridge UK).
20

Notas Del DR Arturo Erdely

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas Del DR Arturo Erdely

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL SIMPLE

Dr. Arturo Erdely Ruiz

1. Regresión y el caso lineal simple

El análisis de regresión trata del estudio de la dependencia de la variable dependiente,

en donde los parámetros α, β y σ 2 son desconocidos, y los valores xi conocidos. Es importante

2. Modelo clásico de regresión lineal simple

se les conoce como estimaciones por mı́nimos cuadrados ordinarios (MCO) de α y β ya

3. Modelo clásico bajo Normalidad

3.1. Inferencia sobre los parámetros

en donde las funciones h : R → R+ ∪ {0} y tj : R → R sólo dependen de y (no pueden depender de

Teorema 2. Sean Y1 , . . . , Yn variables aleatorias independientes con funcionesPk de densidad

es conjuntamente completo y suficiente minimal para (η, ν).

log L(α, β, σ 2 | y1 , . . . , yn ) = log fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) ,

Definición 3. Si un estimador θb = ψ(Y1 , . . . , Yn ) de un parámetro desconocido θ es insesgado y de

Nótese que la matriz de varianza-covarianza de (θb1 , θb2 ) es la matriz correspondiente a la transfor-

a) El vector de estimadores (b b y el estimador σb2 son independientes.

Estimación por intervalos

1 − δ = P ( −q < V < q ) , lo que equivale a que P ( | tn−2 | > q ) = δ , (23)

3.2. Respuesta media y predicción

Nótese que la varianza de E\ (Yx0 ) alcanza un mı́nimo cuando x0 = x . Nuevamente, mediante un

b 0 ) = σ 2 + σ 2 1 + d1 (x0 − x)2 , (35)

Haremos ahora lo análogo a (31) pero sustituyendo a (α, β) por (b b y a σ 2 por

Yx0 −(b b 0 )−E(Yx −(b

en donde la independencia de numerador y denominador está garantizada por la independencia de

de donde se obtiene el intervalo de predicción 100γ % para Yx0 :

4. Análisis residual y el coeficiente de determinación

de donde se obtiene (4). Además, para i 6= j :

Cov( ei , ej ) = E( ei ej ) − E (ei )E (ej ) ,

Los residuales ei no son variables aleatorias independientes [. . . ] Cuando el tamaño de

donde ni= 1 (Yi − E

Definición 5. El coeficiente de determinación (CD) asociado a un modelo de regresión lineal

> regresion <- lm(y.i~x.i)

Residual standard error: 18.41 on 29 degrees of freedom

> plot(c(0,50),c(-50,200),main="Regresi’on lineal simple",

Regresión lineal simple

Variable explicativa x.i

También podría gustarte