Está en la página 1de 20

REGRESIÓN LINEAL SIMPLE

Dr. Arturo Erdely Ruiz


04 de septiembre de 2009

Resumen
Con apoyo en diversos libros en la materia que se enumeran al final de este trabajo, se
desarrolla una exposición sobre la Unidad 3. “REGRESIÓN LINEAL SIMPLE”, de la
asignatura Estadı́stica II en la Licenciatura en Actuarı́a de la Facultad de Estudios Superiores
Acatlán de la UNAM. Esto supone conocimientos previos sobre las asignaturas de Probabilidad
I y II, Estadı́stica I y lo correspondiente a las dos primeras unidades de Estadı́stica II, par-
ticularmente respecto a variables aleatorias y sus transformaciones, ası́ como los principios y
métodos básicos de inferencia estadı́stica.

1. Regresión y el caso lineal simple


Según la etimologı́a latina del español,1 la palabra regresión viene de rĕ = “hacia atrás” y grădĭor
= “ir, caminar”, es decir “acción de ir hacia atrás”. Fue Francis Galton quien, en trabajos publica-
dos en 1886 y 1889, introdujo el concepto de regresión en la disciplina estadı́stica, junto con el de
correlación, ver Kotz et al. (2006). Galton (1886) encontró que, a pesar de la tendencia de padres
altos a tener hijos altos, y de padres de baja estatura a tener hijos de baja estatura, la estatura
promedio de hijos de padres altos tiende a ser menor que la estatura promedio de sus padres, y que
la estatura promedio de hijos de padres bajos tiende a ser mayor que la estatura promedio de sus
padres, esto es, que la estatura promedio de unos y otros tiende a “regresar” hacia la estatura prome-
dio de la población total. Sin embargo, de acuerdo a Gujarati (1997) el concepto ha evolucionado y
la interpretación moderna de la regresión es bastante diferente:

El análisis de regresión trata del estudio de la dependencia de la variable dependiente,


en una o más variables explicativas, con el objetivo de estimar y/o predecir la media
o valor promedio poblacional de la primera, en términos de los valores conocidos o fijos
(en muestras repetidas) de las últimas.

En este trabajo se considera el caso de una sola variable explicativa para una variable aleatoria
dependiente Y . Dado un vector aleatorio (X, Y ) con función de distribución conjunta H, es posible
obtener a partir de esta última la función de distribución de Y condicional en el evento {X = x}, esto
es FY | X (y | x) = P(Y ≤ y | X = x). Para cada x en el rango de la variable aleatoria X denotemos
Yx a la variable aleatoria con función de distribución FY | X (y | x). En caso de que exista la esperanza
1
Segura Munguı́a, S. (2003) Nuevo diccionario etimológico Latı́n-Español y de las voces derivadas, Universidad de
Deusto (Bilbao).

1
de Yx , a la función µ(x) := E(Yx ) = E(Y | X = x) se le conoce como función o curva de regresión.
Pero normalmente H es desconocida, y por tanto es necesario hacer algunos supuestos sobre Yx y/o
estimar FY | X (y | x), o al menos µ(x), con base en observaciones de las variables aleatorias Yx , dado
un número finito de valores de x.
Definición 1. Sea Yg(w) una variable aleatoria con segundo momento finito, con esperanza
E(Yg(w) ) = α + βg(w) y varianza V(Yg(w) ) = σ 2 , donde w ∈ D, siendo D algún subconjunto
de los números reales R, y g una función de D en R. Sea D0 un subconjunto finito de D. A la
colección (finita) de variables aleatorias {Yg(w) : w ∈ D0 } se le denomina modelo de regresión
lineal simple.
La palabra lineal en la definición anterior se refiere a la relación de la esperanza respecto a los
parámetros α y β, y no respecto a la forma funcional de g. Por simplicidad, definimos x := g(w) y por
tanto E(Yx ) = α + βx y V(Yx ) = σ 2 . Sean x1 , . . . , xn los elementos de la imagen directa g(D0 ). Para
i = 1, . . . , n definimos las variables aleatorias εi := Yi − α − βxi , donde se escribe Yi en vez de Yxi
sin lugar a confusión. Entonces E(εi ) = 0 y V(εi ) = σ 2 . Lo anterior permite una forma equivalente
de definir un modelo de regresión lineal simple, congruente con la Definición 1 anterior:

Yi = α + βxi + εi , i = 1, . . . , n ,
E(εi ) = 0 , V(εi ) = σ 2 , (1)

en donde los parámetros α, β y σ 2 son desconocidos, y los valores xi conocidos. Es importante


destacar, como lo hacen Mood et al. (1974), que Y1 , . . . , Yn no es una muestra aleatoria de tamaño
n de una variable aleatoria Y, se trata de n muestras aleatorias de tamaño 1, una por cada una de
las n variables aleatorias no necesariamente independientes, y distintas, al menos, en cuanto a sus
esperanzas E(Yi ) = α + βxi , aunque con varianza común V(Yi ) = σ 2 .

2. Modelo clásico de regresión lineal simple


En esta sección solamente se agrega a (1) el supuesto de que Cov(εi , εj ) = 0 para todo i 6= j ,
lo cual implica a su vez que Cov(Yi , Yj ) = 0 (y que no implica necesariamente independencia). Esto
permite obtener estimadores puntuales para α y β, que resultan ser óptimos en el sentido de lo
siguiente:
Definición 2. Si un estimador θb = ψ(Y1 , . . . , Yn ) de un parámetro desconocido θ es lineal, insesgado
y de varianza mı́nima, esto es, respectivamente:
n
X
a) θb = di Yi para ciertas constantes conocidas di ,
i=1

b) E( θb ) = θ ,

c) para cualquier otro estimador lineal insesgado de θ, digamos θb∗ , se cumple: V( θb ) ≤ V(θb∗ ) ,
se dice entonces que θb es el mejor estimador lineal insesgado (MELI) para θ.
En Mood et al. (1974), Lehmann y Casella (1998) o en Casella y Berger (2002), se puede consultar
los detalles de la demostración del siguiente:

2
Teorema 1. Los siguientes estimadores son los MELIs para α y β en (1) bajo el supuesto de que
Cov(εi , εj ) = 0 para todo i 6= j :
Pn
(Y − Y )(xi − x)
β =
b P1 n i
i=
2
, b = Y − βb x ,
α
(x
i=1 i − x)
1
Pn 1
Pn
en donde Y := n i=1 Yi , x := n i=1 xi .

Recordando la diferencia entre estimador y estimación (el primero es variable aleatoria, el segundo
es un valor observado del primero, y por tanto un número real), dadas las observaciones y1 , . . . , yn
de las variables aleatorias Y1 , . . . , Yn en (1), a las estimaciones:
Pn
= 1 (yi − y)(xi − x)
iP
b = n 2
, a = y − bx , (2)
i = 1 (xi − x)

se les conoce como estimaciones por mı́nimos cuadrados ordinarios (MCO) de α y β ya


que la función cuadrática
n
X
h(α, β) := ( yi − α − βxi ) 2 (3)
i=1

se minimiza justamente en (α, β) = (a, b), lo cual es sencillo de verificar mediante técnicas estándar
de cálculo de varias variables, ver por ejemplo Calero (1998). Se podrı́an proponer otras funciones
para minimizar diferencias entre los valores yi y α + βxi (diferencias absolutas, por ejemplo) pero la
ventaja que ya se tiene con la estimación por MCO es que el Teorema 1 demuestra que los estimadores
correspondientes son los MELIs y por tanto no habrá propuesta que los supere en este sentido.
Como serı́a de esperarse, para σ 2 = V(Yi ) no se tiene un MELI ya que su estimación involucra
a los momentos de segundo orden de las variables aleatorias Yi , lo cual no es posible lograr con un
estimador lineal. Sin embargo, es factible obtener, cuando menos, un estimador insesgado para σ 2
definiendo las variables aleatorias ei := Yi − α
b − βx
b i , respecto a las cuales se puede verificar que
E( ei ) = (n − 2)σ 2 , ver Calero (1998), y por lo tanto, para n ≥ 3, se tiene que un estimador
P 2
insesgado es:
n n
2
1 X 2 1 X b i )2 .
σ :=
b e = ( Yi − α
b − βx (4)
n − 2 i=1 i n − 2 i=1

3. Modelo clásico bajo Normalidad


Mientras no se haga algún supuesto sobre la distribución de probabilidad de las variables aleatorias
εi en (1), no es posible obtener estimadores de máxima verosimilitud, ni construir pruebas de hipótesis
o intervalos de confianza para los parámetros.2 Con el supuesto de la sección anterior, Cov(εi , εj ) = 0
para todo i 6= j , sólo es posible abordar el problema de estimación puntual, encontrando estimadores
2
Estrictamente hablando, antes de imponer una distribución de probabilidad, se podrı́a analizar el comportamiento
asintótico de los estimadores obtenidos en el Teorema 1 y en (4) por medio de teoremas de Estadı́stica Asintótica en
donde se obtienen versiones del Teorema Central del Lı́mite para variables aleatorias independientes no idénticamente
distribuı́das, como por ejemplo el Teorema de Lindeberg-Feller, ası́ como teoremas relacionados con estadı́sticos U,
pero son técnicas que requieren conocimientos que usualmente no se adquieren en una licenciatura en Actuarı́a. Véanse
las referencias de Serfling (1980), van der Vaart (1998) y DasGupta (2008).

3
α
b, β,b y σb2 , con optimalidad únicamente para los dos primeros, y restringiéndose a la clase de los
estimadores lineales insesgados.
Para el resto de la presente exposición, agregaremos a (1) el supuesto de que las variables aleatorias
ε1 , . . . , εn son iid (independientes e idénticamente distribuı́das) Normal (0, σ 2 ). ¿Por qué se escoge
esta distribución de probabilidad y no otra? Esencialmente porque bajo Normalidad los estimadores
de máxima verosimilitud para α y β coinciden con los MELIs obtenidos en la sección anterior, y más
aún, los estimadores obtenidos en el Teorema 1 y en (4) resultan ser (ahora sı́, los tres) óptimos y
sobre una clase más amplia: la de los estimadores insesgados en general (sin la restricción de
que sean lineales).
Como consecuencia inmediata del supuesto de Normalidad se tiene ahora que las variables aleato-
rias Y1 , . . . , Yn son independientes, mas no idénticamente distribuı́das. Especı́ficamente se tiene ahora
que Yi ∼ Normal (α + βxi , σ 2 ), i = 1, . . . , n , con función de densidad de probabilidad:
1 2
fYi (yi | α + βxi , σ 2 ) = √ exp − yi − (α + βxi ) /(2σ 2 ) .

(5)
2πσ 2

3.1. Inferencia sobre los parámetros


Recuérdese que una familia de funciones de densidad de probabilidades f (y | θ), en donde
θ = (θ1 , . . . , θk ), es una familia exponencial si puede expresarse en la forma
k
X 
f (y | θ) = h(y)c (θ) exp wj (θ)tj (y) , (6)
j =1

en donde las funciones h : R → R+ ∪ {0} y tj : R → R sólo dependen de y (no pueden depender de


θ), y donde las funciones c : Rk → R+ ∪ {0} y wj : Rk → R sólo dependen de θ (no pueden depender
de y), ver Casella y Berger (2002). Es inmediato verificar que (5) es una familia exponencial con
k = 3, θ = (α, β, σ 2 ), y con

(α + βxi )2
 
1 2 1
h(yi ) = √ , c (α, β, σ ) = √ exp − ,
2π σ2 2σ 2
α
w1 (α, β, σ 2 ) = 2 , t1 (yi ) = yi ,
σ
β
w2 (α, β, σ 2 ) = 2 , t2 (yi ) = xi yi ,
σ
1
w3 (α, β, σ 2 ) = − 2 , t3 (yi ) = yi2 . (7)

Lo anterior tiene especial relevancia en cuanto a que al modelo de regresión lineal simple, bajo los
supuestos de esta sección, le son aplicables resultados para familias exponenciales en general. Por
ejemplo, de acuerdo a Cox y Hinkley (1974) y Mood et al. (1974) se tiene el siguiente:

Teorema 2. Sean Y1 , . . . , Yn variables aleatorias independientes con funcionesPk de densidad 


fYi (y | θi , ν), pertenecientes a la misma familia exponencial h(y)c (η, ν) exp j = 1 wj (η, ν)tj (y) ,

4
pero con parámetro distinto θi , en donde este último es función lineal de η . Entonces el vector de
estimadores X n n 
X
T = t1 (Yi ) , . . . , tk (Yi )
i=1 i=1

es conjuntamente completo y suficiente minimal para (η, ν).


Los conceptos de estadı́stico completo y estadı́stico suficiente minimal pueden repasarse en Mood
et al. (1974), Cox y Hinkley (1974) o Casella y Berger (2002). De manera informal y concisa, el que
un estadı́stico sea suficiente minimal implica que representa la mayor “reducción” o “simplificación”
posible de la información contenida en (Y1 , . . . , Yn ) pero sin perder información valiosa para la
estimación de los parámetros involucrados. El concepto de completez es más difı́cil de poner en pocas
palabras, quizás lo más sencillo que se puede decir es que un estadı́stico es completo si y sólo si el único
estimador insesgado de 0 que es función de dicho estadı́stico es idénticamente 0 con probabilidad 1.
El Teorema 2 es aplicable a (5) ya que en este caso θi = α + βxi es función lineal de η = (α, β) , y
además ν = σ 2 , por lo que, utilizando (7), se tiene que el vector de estimadores
   X n Xn n
X 
2
T1 , T2 , T3 = Yi , xi Y i , Yi (8)
i=1 i=1 i=1

es completo y suficiente minimal para (α, β, σ 2 ) en el modelo de regresión lineal simple bajo Norma-
lidad. Esto será útil para determinar la optimalidad de estimadores puntuales insesgados en lo que
sigue:

Estimación puntual
La independencia de las variables aleatorias Yi permite expresar la función de densidad conjunta
del vector aleatorio (Y1 , . . . , Yn ) como el producto de las densidades individuales (5), esto es
n
Y
2
fY1 ···Yn (y1 , . . . , yn | α, β, σ ) = fYi (yi | α, β, σ 2 ) ,
i=1
n
Y 1
exp − (yi − (α + βxi ))2 /(2σ 2 ) ,

= √
i=1 2πσ 2
( n
X . )
1
= exp − (yi − α − βxi )2 (2σ 2 ) . (9)
(2πσ 2 )n/2 i=1

La expresión (9) permite calcular los estimadores de máxima verosimilitud (EMV) para α, β y σ 2 :
dadas las observaciones y1 , . . . , yn correspondientes a las variables aleatorias Y1 , . . . , Yn , los valores
que maximizan la función de log-verosimilitud

log L(α, β, σ 2 | y1 , . . . , yn ) = log fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) ,


n
n n 1 X
= − log 2π − log σ 2 − 2 (yi − α − βxi )2 , (10)
2 2 2σ i = 1

coinciden, para α y β, con los MELIs que se obtuvieron en el Teorema 1, y en el caso de σ 2 resulta ser
el que se obtuvo en (4) pero multiplicado por n−2
n
, detalles en Calero (1998). El EMV para σ 2 tiene

5
sesgo (caracterı́stica frecuente en este tipo de estimadores), ası́ que multiplicándolo por el recı́proco
del factor anterior se vuelve insesgado. En este caso particular, los EMVs para α, β, y el de σ 2 (en
versión insesgada), resultan ser óptimos en el sentido de lo siguiente:

Definición 3. Si un estimador θb = ψ(Y1 , . . . , Yn ) de un parámetro desconocido θ es insesgado y de


varianza mı́nima para todo valor de θ (es decir, cumple incisos b y c de la Definición 2) se dice que
es un estimador insesgado de varianza uniformemente mı́nima (EIVUM).
En general, cualquier función uno a uno (inyectiva) de un estadı́stico suficiente es también un
estadı́stico suficiente. Combinaremos esta propiedad con la siguiente generalización del Teorema de
Lehmann-Scheffé, que a su vez utiliza el Teorema de Rao-Blackwell, véanse Cox y Hinkley (1974) y
Mood et al. (1974) :
Teorema 3. Bajo los supuestos del Teorema 2, si ϕ : Rk → Rk es función uno a uno (inyectiva) y
W = ϕ(T) es un vector de estimadores insesgados para (η, ν) entonces W es un vector de EIVUMs
para (η, ν).
Nótese primero que los MELIs del Teorema 1 son transformación lineal de (T1 , T2 ) en (8), esto es
    
d3 −d2 T1 α
b
= , (11)
−d2 d1 T2 βb
en donde

1 1
d1 := Pn 2
d2 := d1 x d3 := d1 x 2 + (12)
i = 1 (xi − x) n

1
Como la transformación (11) es invertible y (4) puede reexpresarse de la forma σb2 = n−2 T3 +
ξ(T1 , T2 ) , tenemos entonces que existe una función inyectiva que transforma (8) en los estimadores
(b b σb2 ) obtenidos en el Teorema 1 y en (4), que a su vez son estimadores insesgados de (α, β, σ 2 ),
α, β,
ası́ que por el Teorema 3 se concluye que (b b σb2 ) son EIVUMs para los parámetros del modelo de
α, β,
regresión lineal simple bajo Normalidad.
Estrictamente hablando, con lo anterior se cumple el objetivo de tener a los mejores estimadores
puntuales posibles, pero hay algo más que decir, ahora en cuanto a la dependencia entre dichos
estimadores, que será útil más adelante en estimación por intervalos y pruebas de hipótesis. Para
analizar dicha dependencia es necesario, y afortunadamente posible, identificar la distribución de
probabilidad conjunta del vector aleatorio (b b σb2 ), véase Mood et al. (1974). Para ello, primero se
α, β,
hace el cambio de variables
b−α
α βb − β (n − 2)σb2
θb1 := , θb2 := , θb3 := , (13)
σ σ σ2
y luego se calcula la función generadora de momentos conjunta del vector aleatorio (θb1 , θb2 , θb3 ) por
 
medio de mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) . La combinación lineal z1 θb1 + z3 θb2 + z3 θb3
es, en última instancia, una transformación de las variables aleatorias Yi que de forma genérica
denotaremos ζ(Y1 , . . . , Yn ), y como se tiene la función de densidad conjunta de (Y1 , . . . , Yn ) dada en
(9), el cálculo de mθb1 θb2 θb3 se realiza como sigue:

6
 
mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) ,
 
= E ζ(Y1 , . . . , Yn ) ,
Z ∞ Z ∞
= ··· ζ(y1 , . . . , yn )fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) dy1 · · · dyn ,
−∞ −∞
.. .. .. ..
= . . . .
2 2 −(n−2)/2
 
= exp{d3 z1 + 2(−d2 )z1 z2 + d1 z2 } (1 − 2z3 ) , siempre que z3 < 1/2 ,
= mθb1 θb2 (z1 , z2 )mθb3 (z3 ) . (14)

En el resultado anterior hay que reconocer lo siguiente: primero, que la factorización resultante impli-
ca la independencia del vector aleatorio (θb1 , θb2 ) y la variable aleatoria θb3 ; segundo, que mθb1 θb2 (z1 , z2 )
corresponde a la función generadora de momentos conjunta de una distribución Normal Bivaria-
da y mθb3 (z3 ) corresponde a la función generadora de momentos univariada de una distribución de
probabilidad Ji-cuadrada con n − 2 grados de libertad:
   
0 d3 −d2
(θ1 , θ2 ) ∼ N2
b b , , θb3 ∼ χ2n−2 . (15)
0 −d2 d1

Nótese que la matriz de varianza-covarianza de (θb1 , θb2 ) es la matriz correspondiente a la transfor-


mación lineal (11). El resultado anterior en combinación con (13) nos permite establecer el siguiente:

Teorema 4. Para los EIVUM (b b σb2 ) del modelo de regresión lineal simple bajo Normalidad, se
α, β,
cumple:

a) El vector de estimadores (b b y el estimador σb2 son independientes.


α, β)
   
b ∼ N2 α 2 d 3 −d 2
b) (b
α , β) ,σ .
β −d2 d1

(n − 2)σb2
c) ∼ χ2n−2 .
σ2

Estimación por intervalos


Utilizaremos el Teorema 4 para obtener estadı́sticos pivotales apropiados para la construcción de
intervalos de confianza para cada uno de los parámetros del modelo de regresión lineal simple bajo
Normalidad. En el modelo particular que nos ocupa, un estadı́stico pivotal es una variable aleato-
ria Q que es función de (Y1 , . . . , Yn , α, β, σ 2 ) pero cuya distribución de probabilidad no depende
de (α, β, σ 2 ). Un ejemplo inmediato es el inciso c del Teorema 4: denotemos por Q0 a dicho es-
tadı́stico pivotal. Como Q0 sólo incluye de manera explı́cita al parámetro desconocido σ 2 , esto lo
hace candidato a ser utilizado para construir un intervalo de confianza para dicho parámetro. Dado
un valor 0 < γ < 1, recordemos que un intervalo de confianza al 100γ % se construye encontran-
do, primero, cuantiles q1 < q2 tales que P (q1 < Q0 < q2 ) = γ; luego, se reexpresa la desigualdad

7
q1 < Q0 < q2 en una equivalente pero de la forma τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) de modo que
P [ τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) ] = γ. Aunque normalmente hay una infinidad de pares de
valores (q1 , q2 ) que cumplen con la condición requerida, lo usual es “repartir” la probabilidad γ sobre
un intervalo centrado en la mediana de la distribución de probabilidad del estadı́stico pivotal, esto
es: Z 1 Z q2
2 γ
fQ0 (u) du = = fQ0 (u) du . (16)
q1 2 1
2
1−γ 1+γ
En el caso particular de Q0 , q1 y q2 representarı́an entonces los cuantiles 2
y 2
de una distribu-
ción Ji-cuadrada con n − 2 grados de libertad. Luego
(n − 2)σb2 (n − 2)σb2 (n − 2)σb2
q1 < < q2 ⇔ < σ2 < ,
σ2 q2 q1
con lo que se obtiene:
 
2 (n − 2)σb2 (n − 2)σb2
Intervalo de confianza al 100γ % para σ : Iσ2 (γ) = , . (17)
q2 q1
Del inciso b del Teorema √ 4 se desprende que el estimador α b ∼ Normal (α, σ 2 d3 ), por lo que
la variable aleatoria (bα − α)/ σ 2 d3 ∼ Normal (0, 1), y por lo tanto dicha variable aleatoria es un
estadı́stico pivotal. Sin embargo, tal cual no es útil para construir un intervalo de confianza para un
solo parámetro desconocido al tener en su definición dos parámetros desconocidos, α y σ 2 . Como ya
se cuenta con un intervalo de confianza para σ 2 , si hubiese forma de “deshacerse” de él al definir el
estadı́stico pivotal y que sólo permanezca α como parámetro desconocido, se estarı́a en condiciones
de construir un intervalo de confianza para este último parámetro. Un forma de “deshacerse” de σ 2 es
sustituirlo por elqestimador σb2 , pero entonces la distribución de probabilidad del estadı́stico pivotal
Q1 := (b α − α)/ σb2 d3 ya no será Normal (0, 1); sin embargo, podemos hacer uso de un conocido
resultado de transformaciones de variables aleatorias: Si p Z ∼ Normal (0, 1), U ∼ Ji-cuadrada con k
grados de libertad, Z y U independientes, entonces Z/ U/k ∼ t-Student con k grados de libertad.
Por lo tanto, utilizando los tres inicisos del Teorema 4:

αb−α α − α)/ σ 2 d3
(b Normal (0, 1)
Q1 = q = q ≡ p 2 ≡ t-Student n−2 . (18)
2 2
σ /σ 2 χ n−2 /(n − 2)
σ d3
b b

Para construir un intervalo de confianza al 100γ % para α se requieren cuantiles q1 < q2 tales que
P (q1 < Q1 < q2 ) = γ. Nuevamente lo usual es repartir la probabilidad γ en un intervalo centrado en
la mediana, que en el caso de la distribución t-Student es cero, y como además su función de densidad
es simétrica respecto a cero, basta tomar como q2 = q > 0 al cuantil (1 + γ)/2 de la distribución
t-Student con n − 2 grados de libertad (tn−2 ), y por simetrı́a q1 = −q. Luego
q q
b−α
α
−q < q <q ⇔ α b − q σb2 d3 < α < α b + q σb2 d3
σb2 d3
con lo que se obtiene:
 q q 
Intervalo de confianza al 100γ % para α : Iα (γ) = b−q
α σb2 d3 , α
b+q σb2 d3 . (19)

8
Para β el procedimiento es totalmente análogo al de α, y se obtiene:
 q q 
b b2 b b2
Intervalo de confianza al 100γ % para β : Iβ (γ) = β − q σ d1 , β + q σ d1 . (20)

Pruebas de hipótesis
De acuerdo a Casella y Berger (2002), en el caso del modelo de regresión lineal simple, usualmente
se tiene mayor interés en β que en α, ya que este último representa la esperanza de Yx cuando x = 0,
y dependiendo del problema, con frecuencia x = 0 no es un valor “razonable” o “realista” de la
variable explicativa. En contraste, β representa la razón de cambio de E(Yx ) como función de x,
válida sobre todo el rango de valores “razonables” para x, por lo que centraremos nuestra atención
en β, pero en el entendido de que técnicamente es posible hacer lo análogo respecto a α.3
En términos de pruebas de hipótesis, interesa en particular analizar la posibilidad de que β = 0
ya que si las observaciones muestrales no proporcionan información que permita rechazar contunden-
temente esta posibilidad, se pondrı́a en duda que x sea efectivamente una variable explicativa, que
es la esencia del modelo de regresión lineal simple. Construiremos entonces una prueba de hipótesis
para el contraste:
H0 : β = 0 versus H1 : β 6= 0 . (21)
Como consecuencia del inciso b del Teorema 4, y de un argumento análogo al utilizado en (18),
se tiene que, bajo la hipótesis H0 : β = 0, la variable aleatoria

βb H0
V := q ∼ tn−2 (t-Student con n − 2 grados de libertad) , (22)
σb2 d1

por lo que resulta adecuada como estadı́stico de prueba para el contraste (21), conocido también como
del tipo de prueba de dos colas. Para una prueba de tamaño δ se requiere de una regla de decisión
que rechace incorrectamente H0 con probabilidad δ, situación conocida como error tipo I. Aunque
0 < δ < 1, normalmente se utilizan valores “pequeños” para δ, tı́picamente 0.05 o 0.01. Tomando
en cuenta la simetrı́a de la distribución de probabilidad de (22), para una prueba de dos colas se
“reparte” la probabilidad δ por partes iguales en las colas de la distribución, y en caso de que el
valor observado del estadı́stico de prueba corresponda a una de las dos colas, se toma entonces la
decisión de rechazar H0 , ya que existe una probabilidad (pequeña) δ de que esto suceda bajo H0 .
En concreto, se calcula el valor q > 0 tal que

1 − δ = P ( −q < V < q ) , lo que equivale a que P ( | tn−2 | > q ) = δ , (23)


3
En particular, interesarı́a que hubiese evidencia muestral que permitiese rechazar la hipótesis nula H0 : α = 0
versus la alternativa H1 : α 6= 0, y si no fuese el caso de rechazar H0 , para decidir aceptar α = 0 habrı́a primero que
hacer un análisis del error tipo II, y en caso de decidirse por α = 0, el modelo Yx = α + βxi + ε tendrı́a que modificarse
a la versión más simplificada Yx = βxi + ε, regresión lineal simple a través del origen, y repetir un análisis similar al
que se ha hecho hasta el momento en este trabajo, ya que al haber un parámetro menos que estimar, se modifican
algunos de los estimadores y sus propiedades estadı́sticas, ver Gujarati (1997).

9
Es decir, en este caso q es el cuantil 1 − 2δ de la distribución t-Student con n − 2 grados de libertad.
Luego entonces la regla de decisión para (21) queda como sigue:
Rechazar H0 : β = 0 si |v| > q, (24)
en donde v es el valor observado del estadı́stico V de (22). Recuérdese que el tamaño de prueba δ
lo establece el usuario de la misma. En ocasiones, en vez de fijar un valor δ, se prefiere conocer el
valor-p (en idioma inglés: p-value) que corresponde a una muestra observada, esto es, determinar el
mı́nimo valor δ bajo el cual se rechazarı́a H0 de acuerdo a la regla de decisión (24), y con base en
ello decidir rechazar H0 en la medida que el valor-p resulte aceptablemente pequeño.4
La regla de decisión para H0 : α = 0 versus H1 : α 6= 0 es totalmente q análoga: Rechazar H0
si | u | > q , en donde u es el valor observado del estadı́stico U := α b/ σb2 d3 . También de forma
análoga, haciendo uso del iniciso c del Teorema 4, se pueden construir pruebas de hipótesis para σ 2 ,
por ejemplo del tipo H0 : σ 2 > s0 versus H1 : σ 2 ≤ s0 , que en este caso involucrarı́a a la distribución
Ji-cuadrada con n − 2 grados de libertad.5

3.2. Respuesta media y predicción


Hasta el momento se han aplicado técnicas generales de inferencia estadı́stica a los parámetros
desconocidos del modelo (α, β, σ 2 ), pero no hay que olvidar que la esencia del modelo de regresión
lineal simple radica en poder estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente (o de respuesta) Yx en términos de valores conocidos o fijos (en muestras repetidas) de
la variable explicativa x. Salvo en los casos particulares en los que los parámetros en sı́ mismos son
el principal motivo de la inferencia, por la interpretación que pudieran tener respecto a aquello a lo
cual se aplica el modelo, en general el asunto de hacer inferencia sobre los parámetros es un paso
intermedio hacia el fin principal de hacer inferencia estadı́stica sobre la variable dependiente o de
respuesta Yx .
Si se escoge un valor x = x0 tendremos entonces que la variable aleatoria Yx0 = α + βx0 + ε
se distribuye Normal (α + βx0 , σ 2 ), en donde a su vez ε ∼ Normal (0, σ 2 ). Respecto al estimador
α
b + βx
b 0 notemos que

E (b
α + βx
b 0 ) = E (b
α) + x0 E (β)
b = α + βx0 = E (Yx ) ,
0 (25)
esto es, que α
b + βx
b 0 es un estimador puntual insesgado para E (Yx ), la respuesta media cuando
0
x = x0 . Más aún, utilizando el inciso b del Teorema 4, y que de una combinación lineal de variables
aleatorias con distribución Normal resulta también una variable aleatoria Normal, la distribución
de probabilidad del estimador α b + βx
b 0 quedará completamente especificada después de calcular su
varianza:
b = σ 2 1 + d1 (x0 − x)2 ,
 
V(bα + βx
b 0 ) = V(b α) + x20 V(β)
b + 2x0 Cov(b
α, β) (26)
n
4
De hecho, en términos de automatizar los cálculos, lo usual es que el software estadı́stico reporte el p-value, en
vez de pedir al usuario que ingrese el valor δ que desea. Véase, por ejemplo, Ugarte et al. (2008), Crawley (2007),
Dalgaard (2002) y Everitt (2006).
5
Más aún, para construir pruebas de hipótesis en donde H0 sea una hipótesis compuesta (esto es, H0 : θ ∈ Θ0 , en
donde Θ0 tiene más de un elemento), existen criterios para la construcción de pruebas uniformemente más potentes
aprovechando el hecho de que el modelo de regresión lineal simple bajo Normalidad es una familia exponencial, ver
Lehmann (1986).

10
y por lo tanto, el estimador puntual insesgado de la respuesta media E (Yx0 ) se distribuye:
 
2 1

\ 2
b + βx0 ∼ Normal E (Yx0 ) , σ
E (Yx0 ) := α b + d1 (x0 − x) . (27)
n

Nótese que la varianza de E\ (Yx0 ) alcanza un mı́nimo cuando x0 = x . Nuevamente, mediante un


razonamiento análogo al utilizado en (18) se tiene que

E\
(Yx ) − E (Yx0 )
Q2 := r  0  ∼ tn−2 , (28)
σb2 n1 + d1 (x0 − x)2

por lo que Q2 se puede utilizar como estadı́stico pivotal para construir un intervalo de confianza para
E (Yx0 ) ya que −q < Q2 < q si y sólo si
r  r 
\ 2
1 2

\ 2
1 2

E (Yx0 ) − q σb + d1 (x0 − x) < E (Yx0 ) < E (Yx0 ) + q σ b + d1 (x0 − x) , (29)
n n
y por lo tanto, si q es el cuantil 1+γ
2
de la distribución t-Student con n − 2 grados de libertad,
entonces un intervalo de confianza 100γ % para la respuesta media E (Yx0 ) cuando x = x0 es
el siguiente:
 r  r   
\ 2
1 2

\ 2
1 2
I E (Yx0 ) (γ) = E (Yx0 ) − q σ
b + d1 (x0 − x) , E (Yx0 ) + q σ b + d1 (x0 − x) . (30)
n n

Si lo que se desea es hacer predicción sobre el valor que puede reportar la variable aleatoria Yx0
dado un nuevo valor x = x0 , es posible construir algo análogo a un intervalo de confianza, conocido
como intervalo de predicción. Partiendo de que Yx0 ∼ Normal (α + βx0 , σ 2 ), si los tres parámetros
fuesen conocidos, entonces
Yx0 − E (Yx0 ) Yx0 − (α + βx0 )
p = √ ∼ Normal (0, 1) , (31)
V(Yx0 ) σ2

y si z es el cuantil 1+γ
2
de la distribución Normal (0, 1) entonces se puede afirmar que

Yx0 − (α + βx0 )
 √ √ 
γ = P −z < √ < z = P α + βx0 − z σ 2 < Yx0 < α + βx0 + z σ 2 , (32)
σ2
y entonces se le llama intervalo de predicción 100γ % para Yx0 al siguiente:
h √ √ i
α + βx0 − z σ 2 , α + βx0 + z σ 2 . (33)

Pero si (α, β, σ 2 ) son desconocidos y se pretende utilizar en su lugar a los estimadores (b b σb2 ),
α, β,
entonces la distribución de probabilidad involucrada para obtener el intervalo de predicción cambia
a t-Student con n − 2 grados de libertad, como veremos a continuación. Como x = x0 es un nuevo
valor (distinto a x1 , . . . , xn ) y los estimadores (b b σb2 ) sólo dependen de (Yx , . . . , Yxn ) entonces la
α, β, 1
2 2
variable aleatoria Yx0 ∼ Normal (α + βx0 , σ ) y el vector aleatorio (b α, β, σ ) son independientes.
b b

11
De (27) ya sabemos que α b + βxb 0 se distribuye Normal con los parámetros que ahı́ se indican, por
lo que la diferencia Yx0 − (b
α + βx
b 0 ) también se distribuye Normal, con media

E Yx0 − (b b 0 ) = E (Yx ) − E (b
α + βx 0
b 0 ) = α + βx0 − (α + βx0 ) = 0 ,
α + βx (34)

y varianza

b 0 ) = σ 2 + σ 2 1 + d1 (x0 − x)2 , (35)


  
V Yx0 − (b
α + βx
b 0 ) = V(Yx ) + V(b
0 α + βx
b 0 ) + 2Cov(Yx , α
0 b + βx
n

ya que Cov(Yx0 , α
b + βx
b 0 ) = 0 dada la independencia de Yx y (b b σb2 ). Es decir,
α, β,
0

 
2
 1 2
Yx0 − (b b 0 ) ∼ Normal 0 , σ 1 +
α + βx + d1 (x0 − x) . (36)
n

Haremos ahora lo análogo a (31) pero sustituyendo a (α, β) por (b b y a σ 2 por


α, β)
 
σb2 1 + n1 + d1 (x0 − x)2 :

Yx0 −(b b 0 )−E(Yx −(b


α+βx 0 α+βx
b 0 ))
Y − (b
α + βx
b 0) V(Yx −(b
α+βx0 ))
r  x0
b
 = q0 ,
σb2 1 + 1
+ d1 (x0 − x)2 σb2 / σ 2
n

Normal (0, 1)
≡ p 2 ≡ tn−2 , (37)
χ n−2 / (n − 2)

en donde la independencia de numerador y denominador está garantizada por la independencia de


σb2 respecto a Yx0 y (b b Si q es el cuantil 1+γ de la distribución t-Student con n − 2 grados de
α, β). 2
libertad, entonces
 
Yx0 − (b
α + βx
b 0)
γ = P −q < r   < q , (38)
2 1 2
σ 1 + n + d1 (x0 − x)
b

de donde se obtiene el intervalo de predicción 100γ % para Yx0 :


 r  r   
b 0 − q σb2 1 + 1  1
α
b + βx + d1 (x0 − x)2 , α b 0 + q σb2 1 +
b + βx + d1 (x0 − x)2 . (39)
n n

Nótese que (30) y (39) sólo difieren en el 1 que aparece en las raı́ces cuadradas de (39).

4. Análisis residual y el coeficiente de determinación


Se han presentado ya los principales resultados de inferencia estadı́stica (estimación puntual y
por intervalo, pruebas de hipótesis, predicción) que son válidos para el modelo de regresión lineal
simple {Yi = α + βxi + εi : i = 1, . . . , n} PERO bajo los supuestos de que ε1 , . . . , εn son variables
aleatorias independientes e idénticamente distribuı́das Normal con esperanza E (εi ) = 0 y
varianza constante V(εi ) = σ 2 , y que los valores dados x1 , . . . , xn corresponden a una variable

12
explicativa. Con mucha frecuencia se cuenta con los datos (x1 , y1 ), . . . , (xn , yn ) mas no con información
que garantice que las observaciones y1 , . . . , yn provienen de variables aleatorias Yi que cumplen los
supuestos anteriores, razón por la cual surge la inquietud de analizar, con base en dichos datos,
posibles violaciones de los supuestos siguientes:
Normalidad.
Independencia.
Varianza constante.
Que x1 , . . . , xn efectivamente corresponden a una variable explicativa (validez del modelo).
Los tres primeros supuestos tienen que ver directa y claramente con las variables aleatorias εi ,
pero indirectamente también el cuarto supuesto, como se verá más adelante. Sabemos que
εi = Yi − (α + βxi ) = Yi − E (Yi ) ∼ Normal (0, σ 2 ) , (40)
pero al ser α y β parámetros desconocidos, no contamos con observaciones de las variables εi para
analizar, debido a que son de la forma yi − (α + βxi ) . En su lugar, de forma natural surge la idea
de analizar los valores observados yi − (a + b xi ) , ver (2), que de hecho corresponden a las variables
aleatorias que a continuación se definen:
Definición 4. A las variables aleatorias e1 , . . . , en definidas
\
ei := Yi − E (Yi ) = Yi − (b
α + βx
b i) , i = 1, . . . , n ,
se les denomina variables aleatorias residuales del modelo clásico del regresión lineal simple. A
las observaciones yi −(a+b xi ) de dichas variables aleatorias residuales se les denominará residuos.6
Nótese que, sin haberlas llamado por su nombre, las variables aleatorias residuales se ocupan
para obtener el estimador insesgado de σ 2 en (4). Bajo el supuesto de Normalidad sabemos que Yi
se distribuye Normal, por el Teorema 4 los estimadores α b y βb también tienen distribución Normal,
y como de combinación lineal de variables aleatorias Normales resulta también una variable aleato-
ria Normal, tenemos entonces que las variables aleatorias residuales ei también tienen distribución
Normal, con esperanza:
E (ei ) = E (Yi ) − E (b
α + βx
b i) = 0 , (41)
y con varianza:
V(ei ) = V(Yi ) + V(b b i ) − 2Cov(Yi , α
α + βx b + βx
b i) ,
 
2 2 1 2
 
= σ +σ + d1 (xi − x) − 2 Cov(Yi , α
b) + xi Cov(Yi , β) ,
b
n
.. .. ..
=  . .  .
1
= σ2 1 − − d1 (xi − x)2 . (42)
n
6
La palabra residuo es un sustantivo, en contraste con residual que es un adjetivo. En idioma inglés, las traduccio-
nes son residue y residual, respectivamente, aunque residue ha caı́do en desuso debido a que en ese idioma también
se acepta utilizar residual como sustantivo. Seber (1977), por ejemplo, cuando define las variables aleatorias ei dice
que ellas “are called the residuals”. En libros en idioma español sobre el tema, normalmente se utiliza únicamente la
palabra residuo, sin aclarar si se está haciendo referencia a variables aleatorias o a sus observaciones. Es propuesta
de quien esto escribe hacer tal distinción, como en la Definición 4.

13
Es decir,   1 
2 2
ei ∼ Normal 0, σ 1− − d1 (xi − x) , i = 1, . . . , n . (43)
n
Nótese que V(ei ) < σ 2 = V(εi ). Más aún, como E (ei ) = 0 entonces V(ei ) = E (ei2 ), y por lo tanto:
Xn  n n  
2
X
2 2
X n−1 2
E ei = E (ei ) = σ − d1 (xi − x) = σ 2 (n − 2) , (44)
i=1 i=1 i=1
n

de donde se obtiene (4). Además, para i 6= j :

Cov( ei , ej ) = E( ei ej ) − E (ei )E (ej ) ,


h 1i
= − σ 2 d1 (xi − x)(xj − x) + 6= 0 . (45)
n
En pocas palabras, las variables aleatorias residuales e1 , . . . , en tienen distribución Normal, pero
resulta que no son independientes, no tienen varianza constante y por tanto no son idénticamente
distribuı́das ¡aún cuando ε1 , . . . , εn sı́ cumplan los supuestos! Ante la imposibilidad de tener acceso
a observaciones de las variables aleatorias εi para analizar si se viola normalidad, independencia
y varianza constante, usualmente se pretende que las variables aleatorias residuales ei , que sı́ son
observables, serı́an un buen sustituto, pero si de entrada las ei ya violan algunos de los supuestos
que se desea analizar, pues es, al menos, cuestionable hacerlo de esta manera.
En defensa de la utilización de las variables aleatorias residuales para el análisis de supuestos del
modelo, podrı́a argumentarse, por ejemplo, que el que no tengan varianza constante no es tan grave
porque la variabilidad de acuerdo a (42) se puede considerar Pinsignificante para “valores grandes”
2 n 2
de n ya que (xi − x) es tan solo uno de los n sumandos de j = 1 (xj − x) y por tanto la cantidad
2
d1 (xi − x) puede considerarse “despreciable”. En cuanto a la no independencia, Neter et al. (1996)
comentan lo siguiente:

Los residuales ei no son variables aleatorias independientes [. . . ] Cuando el tamaño de


muestra es grande en comparación con el número de parámetros en el modelo de regresión,
el efecto de la dependencia entre las ei es relativamente poco importante y puede ser
ignorada para la mayorı́a de los propósitos.

Desafortunadamente Neter et al. (1996) no proporcionan en su libro elementos o referencias que den
sustento a tal afirmación, si es que esto realmente fuese posible. De acuerdo a (45), si n es “muy
grande” entonces Cov( ei , ej ) estará “muy cerca” de cero, pero aún Cov( ei , ej ) = 0 ¡NO IMPLICA
INDEPENDENCIA! Aún cuando ei y ej sean variables aleatorias Normales con covarianza igual a
cero, es posible que exista una grado de dependencia relevante. Por ejemplo, considérese una variable
aleatoria Z1 ∼ Normal (0, 1) y defı́nase la variable aleatoria
 
−1
Z2 := Φ 1 − 2Φ(Z1 ) ,

en donde Φ es la función de distribución (acumulativa) de una variable aleatoria Normal (0, 1).
Entonces Z2 también se distribuye Normal (0, 1) y además Cov(Z1 , Z2 ) = 0 a pesar de que existe
una evidente dependencia, por definición, entre Z1 y Z2 : si Z1 = z entonces Z2 reporta el valor
especı́fico Φ−1 (|1 − 2Φ(z)|) ¡con probabilidad 1! De hecho, se puede demostrar que utilizando una

14
medida de dependencia 7 como la de Schweizer y Wolff (1981), el grado de dependencia en este caso
es de 0.5 en una escala de 0 a 1, lo cual serı́a bastante cuestionable considerar poco importante e
ignorarlo como proponen Neter et al. (1996).
Si aún bajo el supuesto de que las variables aleatorias εi sean independientes, las variables aleato-
rias residuales ei no lo son ni hay claridad respecto a qué tan lejos están de serlo, estrictamente no
se les debiera utilizar en pruebas estadı́sticas basadas en este supuesto, como es el caso de muchas
pruebas para Normalidad, bondad de ajuste en general, heteroscedasticidad (varianza no constante),
etc. Es entonces la falta de independencia entre las variables aleatorias residuales, bajo el supuesto
de que las εi sı́ lo sean, lo que lleva a cuestionar su utilidad para validar supuestos en el modelo de
regresión lineal simple.

Coeficiente de determinación
Este concepto está asociado al interés de analizar la bondad del ajuste o validez del modelo como
tal, de acuerdo a la información de los datos. Dicho de otro modo, analizar si los valores conoci-
dos x1 , . . . , xn tienen una capacidad relevante para “explicar” el comportamiento de las variables
aleatorias de respuesta Y1 , . . . , Yn , bajo el modelo de regresión lineal simple.
Para este fin, se toma como punto de referencia a la media muestral Y (ver definición en Teorema
1) dePlas variables aleatorias Yi . De este modo, Y se ubica en el “centro” de las variables Yi ya
n
que i = 1 (Yi − Y ) = 0, esto es, se tendrán valores de Yi que sean mayores y menores que Y ,
cuyas diferencias, positivas y negativas, tienen suma cero. Si se elimina el efecto del signo en dichas
diferencias, digamos mediante (Yi −Y )2 , se estará midiendo otro aspecto: la dispersión de las variables
Yi respecto a su media muestral.
En el caso particular P ndel modelo2 de regresión lineal simple, denominaremos suma total de
cuadrados (STC) a i = 1 (Yi − Y ) . Se busca analizar la proporción de la variabilidad total (STC)
que puede ser “explicada” por el modelo ajustado E \ (Yi ) = α
b + βxb i , y esto se logra descomponiendo
STC de la siguiente forma:
n
X n
X
2
STC = (Yi − Y ) = \
(Yi − E \
(Yi ) + E (Yi ) − Y )2 ,
i=1 i=1
n
X
(Yi ))2 + (E (Yi ) − Y )2 + 2(Yi − E

= \
(Yi − E \ \ \
(Yi ))(E (Yi ) − Y ) ,
i=1
n
X n
X
= \
(Yi − E (Yi ))2 + \
(E (Yi ) − Y )2 ,
i=1 i=1
Xn n
X
= ei2 + \
(E (Yi ) − Y )2 , (46)
i=1 i=1

donde ni= 1 (Yi − E


P \ \
(Yi ))(E (Yi ) − Y ) = 0, después de algunas manipulaciones algebraicas, ver Calero
Pn \ 2
(1998). i = 1 (E (Yi )−Y ) representa la parte de variabilidad que “logra explicar” el modelo ajustado,
7
Entre las caracterı́sticas que se pide a una medida numérica de asociación κ entre dos variables aleatorias para
ser considerada medida de dependencia, está el que κ = 0 si y sólo si las variables aleatorias son independientes, y
por ello medidas como el coeficiente de correlación lineal de Pearson no son apropiadas para medir dependencia en
general, véase por ejemplo Nelsen (1999), Embrechts et al. (1999) o Erdely (2009).

15
misma
P 2 que denominaremos suma de cuadrados de la regresión (SCR). Como consecuencia,
ei representa la parte de la variabilidad que no logra explicar el modelo. Lo anterior motiva la
siguiente:

Definición 5. El coeficiente de determinación (CD) asociado a un modelo de regresión lineal


simple es la proporción SCR/STC.
P 2
Como STC = ei + SCR entonces necesariamente 0 ≤ CD ≤ 1 y se le da la siguiente inter-
pretación: en la medida en que el valor observado del CD sea más cercano a 1 se dice que el modelo
explica mejor el comportamiento de la variable de respuesta. Con toda intención se evitó la notación
usual R2 que surge porque el valor observado del CD coincide con el cuadrado de la fórmula para la
estimación muestral del coeficiente de correlación lineal de Pearson aplicado a (x1 , y1 ), . . . , (xn , yn ),
para detalles véase Calero (1998), pero conceptualmente no se justifica la relación entre uno y otro,
porque en el caso del modelo de regresión lineal simple los valores x1 , . . . , xn están fijados a priori
(no se consideran observaciones de una variable aleatoria), véase Gujarati (1997).
Sin embargo, el CD es esencialmente una medida descriptiva que no aprovecha el supuesto de
Normalidad
P 2 del modelo de regresión
P lineal simple. Analicemos ahora la proporción relativa de SCR y
2
ei . Valores “grandes” de SCR/ ei darı́an cuenta de un mejor ajuste del modelo, pero habrı́a que
tener algún criterio para decidir cuánto es “grande” en este caso. Afortunadamente esto es posible,
analizando el cociente
(E (Yi ) − Y )2
P \
SCR
F = P 2 = P 2 . (47)
ei /(n − 2) ei /(n − 2)
Primero notemos que
X X X X
ei = (Yi − α
b − βx
b i) = Yi − nb
α − βb xi = 0 ,

en donde
P la última
P igualdad es consecuencia de que α b = Y − βx,b ver Teorema 1, y por lo tanto
α = Yi − βb xi . Luego,
nb
Y = α b + βx
b +e = α b + βx
b

ya que e = n1
P \
ei = 0. Entonces E b i − x) y la suma
(Yi ) − Y = β(x

X X βb 2
SCR = \
(E (Yi ) − Y )2 = βb 2 2
(xi − x) = .
d1

ei2 /(n − 2) = σb2 , ver (4), nos permite reexpresar (47) como
P
Esto último junto con el hecho de que

βb 2
F = = V2 (48)
d1 σb 2

que es el cuadrado del estadı́stico de prueba (22) bajo H0 : β = 0 . Recordemos que β = 0 implica
que el modelo (particularmente los valores x1 , . . . , xn ) no explica el comportamiento de la variable
de respuesta, y de acuerdo a (22) y (24) se rechazarı́a tal hipótesis para valores de |V | que excedan
un umbral q (de acuerdo al tamaño de prueba deseado). Como V 2 = F y V se distribuye t-Student
con n − 2 grados de libertad, es un conocido resultado de probabilidad, ver Mood et al. (1974), que
entonces F tiene distribución de Fisher con 1 y n − 2 grados de libertad. Aquı́ el asunto relevante

16
es la congruencia entre lo que se buscaba medir con (47), en términos de la variabilidad explicada
por el modelo en proporción a la variabilidad no explicada, y la validez o no del modelo al poder
rechazar o no la hipótesis H0 : β = 0, ya sea mediante el estadı́stico V con distribución t-Student o
mediante el estadı́stico F de Fisher. Por lo tanto, en el caso del modelo de regresión lineal simple, la
bondad de ajuste del modelo se mide con base en el resultado de la prueba de hipótesis (21).

5. Ejemplo - resumen
Actualmente, el análisis estadı́stico de datos, aún a un nivel descriptivo, no se concibe ya sin
la ayuda de programas computacionales (software) diseñados para tal fin, ver Chambers (2008),
Dalgaard (2002) o Gentle (2002). Haremos uso del software libre R (www.r-project.org), que se
ha convertido en un estándar internacional en el análisis estadı́stico de datos, para aplicar la teorı́a
descrita en las secciones anteriores y que esto nos permita resumir e ilustrar los principales resultados.
Se incluyen las instrucciones tal cual se ingresan en dicho programa computacional en este tipo
de letra.
Analizaremos datos generados mediante simulación, bajo los supuestos del modelo clásico de
regresión lineal simple bajo Normalidad, para poder comparar las estimaciones versus los valores
teóricos. Esto es, fijaremos primero valores para α, β, σ 2 y x1 , . . . , xn , y luego simularemos con ayuda
de R observaciones yi a partir de las variables aleatorias independientes no idénticamente distribuı́das
Normal (α + βxi , σ 2 ). Lo anterior sólo con fines ilustrativos y de comparación, en el entendido de
que al trabajar con datos reales, por lo general, sólo se cuenta con los datos (xi , yi ), y los verdaderos
valores teóricos de los parámetros no se podrán conocer, sólo estimar.

Paso -1 : Definir los valores α = 2, β = 3, σ 2 = 300, n = 31 y los valores xi : 10, 11, 12, . . . , 40 :
> alfa.t <- 2 ; beta.t <- 3; sigma2.t <- 300 ; n <- 31
> x.i <- seq(from=10,to=40,length=31)

Paso 0: Simular valores εi ∼ iid Normal (0, σ 2 ) y con ellos los valores yi = α + βxi + εi :
> epsilon.i <- rnorm(n,0,sqrt(sigma2.t))
> y.i <- alfa.t + beta.t*x.i + epsilon.i

Paso 1: Es aquı́ donde usualmente comenzarı́a el análisis de los datos (x1 , y1 ), . . . , (xn , yn ). Ajustamos el
modelo clásico de regresión lineal simple bajo Normalidad, utilizando la instrucción lm (linear
model ), y luego se solicita un summary (resumen) del modelo ajustado:

> regresion <- lm(y.i~x.i)


> summary(regresion)

Call:
lm(formula = y.i ~ x.i)

Residuals:
Min 1Q Median 3Q Max
-32.148 -12.850 -3.834 11.347 38.860

17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6356 9.8146 0.982 0.334
x.i 2.7213 0.3696 7.362 4.13e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.41 on 29 degrees of freedom


Multiple R-squared: 0.6514, Adjusted R-squared: 0.6394
F-statistic: 54.2 on 1 and 29 DF, p-value: 4.128e-08

Interpretación: Las estimaciones puntuales para α y β, ver (2), son a = 9.6356 y b = 2.7213,
respectivamente. El p-value para H0 : β = 0 es 4.13 × 10−8 , ver (21) y (24), esto es, la
probabilidad de rechazar H0 : β = 0 erróneamente es tan pequeña como 4.13 × 10−8 , y por
tanto decidimos rechazar que β = 0. Nótese que esto coincide con el p-value del F-statistic al
final de la tabla anterior, lo cual era de esperarse en concordancia con lo comentado en la sección
anterior respecto a la equivalencia entre F y V 2 , ver (48), y por lo lo tanto se valida el modelo.
La probabilidad de rechazar erróneamente la hipótesis H0 : α = 0 puede ser hasta de 0.334
y por lo tanto no es recomendable rechazarla, ası́ que la estimación puntual a = 9.6356 no es
confiable. Multiple R-squared: 0.6514 es el valor observado del coeficiente de determinación.
La estimación puntual de σ 2 se obtiene mediante la fórmula (4) y la instrucción:
> sum((residuals(regresion))^2)/(n-2)
[1] 338.8523

Paso 2: Cálculo de intervalos de confianza 95 % para los parámetros del modelo. De acuerdo a las
fórmulas (17), (19) y (20), requerimos los siguientes valores:
> s <- sum((residuals(regresion))^2)/(n-2)
> a <- coefficients(regresion)[1] ; b <- coefficients(regresion)[2]
> d1 <- (sum((x.i-mean(x.i))^2))^(-1) ; d3 <- d1*(mean(x.i)^2) + 1/n
Los intervalos de confianza para α y β se obtienen directamente mediante:

> confint(regresion,level=0.95)
2.5 % 97.5 %
(Intercept) -10.437587 29.708758
x.i 1.965338 3.477337

Y para σ 2 :
> q1 <-qchisq((1-0.95)/2,df=(n-2))
> q2 <-qchisq((1+0.95)/2,df=(n-2))
> (n-2)*s*c(1/q2,1/q1) # Intervalo:
> [1] 214.9218 612.3682

18
Paso 3: Generar una gráfica con los valores (xi , yi ), la recta ajustada y = a + bx, intervalos de confianza
95 % para la respuesta media (se aprecian como bandas de confianza), e intervalos (bandas
también) de predicción 95 %.

> plot(c(0,50),c(-50,200),main="Regresi’on lineal simple",


xlab="Variable explicativa x.i",ylab="Variable de respuesta y.i",type="n")
> points(x.i,y.i) # Graficar las observaciones (x.i,y.i)
> f <- function(x) 1/n + d1*((x-mean(x.i))^2) # factor para calcular bandas
> q <- qt((1+0.95)/2,df=(n-2)) # cuantil de t-Student (n-2 g.l.)
> x <- seq(from=0,to=50,length=1000) # valores de x a graficar
> lines(x,a+b*x,lwd=3) # recta ajustada y = a + bx (l’inea gruesa)
> lines(x,a+b*x-q*sqrt(s*(0+f(x)))) # banda inferior de confianza para E(Yx)
> lines(x,a+b*x+q*sqrt(s*(0+f(x)))) # banda superior de confianza para E(Yx)
> lines(x,a+b*x-q*sqrt(s*(1+f(x)))) # banda inferior de predicci’on para Yx
> lines(x,a+b*x+q*sqrt(s*(1+f(x)))) # banda superior de predicci’on para Yx

Regresión lineal simple


200
150
Variable de respuesta y.i

●●●

100

● ●
● ●

●●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
50

● ●
● ●

0
−50

0 10 20 30 40 50

Variable explicativa x.i

La recta en lı́nea gruesa corresponde a y = a + bx, que son las estimaciones de E (Yx ) para
distintos valores de x. Las dos bandas que están más cerca de la lı́nea recta gruesa corresponden
a los intervalos de confianza 95 % para la respuesta media E(Yx ) para distintos valores de x,
de acuerdo a la fórmula (30). Las dos bandas más distantes de la lı́nea gruesa corresponden a
los intervalos de predicción 95 % para Yx , para distintos valores de x, de acuerdo a la fórmula
(39).

19
Bibliografı́a
Calero, A. (1998) Estadı́stica (Tomo II), IPN (México D.F).
Casella, G., Berger, R.L. (2002) Statistical Inference, Duxbury (Pacific Grove).
Chambers, J.M. (2008) Software for Data Analysis, Springer (Nueva York).
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall/CRC (Boca Ratón).
Crawley, M.J. (2007) The R book, Wiley (Chichester).
Dalgaard, P. (2002) Introductory Statistics with R, Springer (Nueva York).
DasGupta, A. (2008) Asymptotic Theory of Statistics and Probability, Springer (Nueva York).
Embrechts, P., McNeil, A.J., Straumann, D. (1999) Correlation: pitfalls and alternatives. Risk Maga-
zine 5, 69–71.
Erdely, A. (2009) Cópulas y dependencia de variables aleatorias: Una introducción. Miscelánea Mate-
mática 48, 7–28.
Everitt, B.S. (2006) A Handbook of Statistical Analyses Using R, Chapman & Hall/CRC (Boca Ratón).
Galton, F. (1886) Family Likeness in Stature. Proceedings of The Royal Society (Londres) 40, 42–63.
Gentle, J.E. (2002) Elements of Computational Statistics, Springer (Nueva York).
Gujarati, D.N. (1997) Econometrı́a, McGraw-Hill (Bogotá).
Kotz, S., Balakrishnan, N., Read, C.B., Vidakovic, B., Johnson, N.L. (2006) Encyclopedia of Statistical
Sciences, Second edition (16 volúmenes), Wiley (Hoboken).
Lehmann, E.L. (1986) Testing Statistical Hypothesis, Springer (Nueva York).
Lehmann, E.L., Casella, G. (1998) Theory of Point Estimation, Springer (Nueva York).
Mood, A.M., Graybill, F.A., Boes, D.C. (1974) Introduction to the theory of statistics, McGraw-Hill
(Nueva York).
Nelsen, R.B. (1999) An introduction to copulas, Springer (Nueva York).
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996) Applied Linear Statistical Models,
McGraw-Hill (Boston).
Schweizer, B., Wolff, E.F. (1981) On nonparametric measures of dependence for random variables.
Annals of Statistics 9, 879–885.
Seber, G.A.F. (1977) Linear Regression Analysis, Wiley (Nueva York).
Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics, Wiley (Nueva York).
Ugarte, M.D., Militino, A.F., Arnholt, A.T. (2008) Probability and Statistics with R, Chapman &
Hall/CRC (Boca Ratón).
van der Vaart, A.W. (1998) Asymptotic Statistics, Cambridge University Press (Cambridge UK).

20

También podría gustarte