Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
Con apoyo en diversos libros en la materia que se enumeran al final de este trabajo, se
desarrolla una exposición sobre la Unidad 3. “REGRESIÓN LINEAL SIMPLE”, de la
asignatura Estadı́stica II en la Licenciatura en Actuarı́a de la Facultad de Estudios Superiores
Acatlán de la UNAM. Esto supone conocimientos previos sobre las asignaturas de Probabilidad
I y II, Estadı́stica I y lo correspondiente a las dos primeras unidades de Estadı́stica II, par-
ticularmente respecto a variables aleatorias y sus transformaciones, ası́ como los principios y
métodos básicos de inferencia estadı́stica.
En este trabajo se considera el caso de una sola variable explicativa para una variable aleatoria
dependiente Y . Dado un vector aleatorio (X, Y ) con función de distribución conjunta H, es posible
obtener a partir de esta última la función de distribución de Y condicional en el evento {X = x}, esto
es FY | X (y | x) = P(Y ≤ y | X = x). Para cada x en el rango de la variable aleatoria X denotemos
Yx a la variable aleatoria con función de distribución FY | X (y | x). En caso de que exista la esperanza
1
Segura Munguı́a, S. (2003) Nuevo diccionario etimológico Latı́n-Español y de las voces derivadas, Universidad de
Deusto (Bilbao).
1
de Yx , a la función µ(x) := E(Yx ) = E(Y | X = x) se le conoce como función o curva de regresión.
Pero normalmente H es desconocida, y por tanto es necesario hacer algunos supuestos sobre Yx y/o
estimar FY | X (y | x), o al menos µ(x), con base en observaciones de las variables aleatorias Yx , dado
un número finito de valores de x.
Definición 1. Sea Yg(w) una variable aleatoria con segundo momento finito, con esperanza
E(Yg(w) ) = α + βg(w) y varianza V(Yg(w) ) = σ 2 , donde w ∈ D, siendo D algún subconjunto
de los números reales R, y g una función de D en R. Sea D0 un subconjunto finito de D. A la
colección (finita) de variables aleatorias {Yg(w) : w ∈ D0 } se le denomina modelo de regresión
lineal simple.
La palabra lineal en la definición anterior se refiere a la relación de la esperanza respecto a los
parámetros α y β, y no respecto a la forma funcional de g. Por simplicidad, definimos x := g(w) y por
tanto E(Yx ) = α + βx y V(Yx ) = σ 2 . Sean x1 , . . . , xn los elementos de la imagen directa g(D0 ). Para
i = 1, . . . , n definimos las variables aleatorias εi := Yi − α − βxi , donde se escribe Yi en vez de Yxi
sin lugar a confusión. Entonces E(εi ) = 0 y V(εi ) = σ 2 . Lo anterior permite una forma equivalente
de definir un modelo de regresión lineal simple, congruente con la Definición 1 anterior:
Yi = α + βxi + εi , i = 1, . . . , n ,
E(εi ) = 0 , V(εi ) = σ 2 , (1)
b) E( θb ) = θ ,
c) para cualquier otro estimador lineal insesgado de θ, digamos θb∗ , se cumple: V( θb ) ≤ V(θb∗ ) ,
se dice entonces que θb es el mejor estimador lineal insesgado (MELI) para θ.
En Mood et al. (1974), Lehmann y Casella (1998) o en Casella y Berger (2002), se puede consultar
los detalles de la demostración del siguiente:
2
Teorema 1. Los siguientes estimadores son los MELIs para α y β en (1) bajo el supuesto de que
Cov(εi , εj ) = 0 para todo i 6= j :
Pn
(Y − Y )(xi − x)
β =
b P1 n i
i=
2
, b = Y − βb x ,
α
(x
i=1 i − x)
1
Pn 1
Pn
en donde Y := n i=1 Yi , x := n i=1 xi .
Recordando la diferencia entre estimador y estimación (el primero es variable aleatoria, el segundo
es un valor observado del primero, y por tanto un número real), dadas las observaciones y1 , . . . , yn
de las variables aleatorias Y1 , . . . , Yn en (1), a las estimaciones:
Pn
= 1 (yi − y)(xi − x)
iP
b = n 2
, a = y − bx , (2)
i = 1 (xi − x)
se minimiza justamente en (α, β) = (a, b), lo cual es sencillo de verificar mediante técnicas estándar
de cálculo de varias variables, ver por ejemplo Calero (1998). Se podrı́an proponer otras funciones
para minimizar diferencias entre los valores yi y α + βxi (diferencias absolutas, por ejemplo) pero la
ventaja que ya se tiene con la estimación por MCO es que el Teorema 1 demuestra que los estimadores
correspondientes son los MELIs y por tanto no habrá propuesta que los supere en este sentido.
Como serı́a de esperarse, para σ 2 = V(Yi ) no se tiene un MELI ya que su estimación involucra
a los momentos de segundo orden de las variables aleatorias Yi , lo cual no es posible lograr con un
estimador lineal. Sin embargo, es factible obtener, cuando menos, un estimador insesgado para σ 2
definiendo las variables aleatorias ei := Yi − α
b − βx
b i , respecto a las cuales se puede verificar que
E( ei ) = (n − 2)σ 2 , ver Calero (1998), y por lo tanto, para n ≥ 3, se tiene que un estimador
P 2
insesgado es:
n n
2
1 X 2 1 X b i )2 .
σ :=
b e = ( Yi − α
b − βx (4)
n − 2 i=1 i n − 2 i=1
3
α
b, β,b y σb2 , con optimalidad únicamente para los dos primeros, y restringiéndose a la clase de los
estimadores lineales insesgados.
Para el resto de la presente exposición, agregaremos a (1) el supuesto de que las variables aleatorias
ε1 , . . . , εn son iid (independientes e idénticamente distribuı́das) Normal (0, σ 2 ). ¿Por qué se escoge
esta distribución de probabilidad y no otra? Esencialmente porque bajo Normalidad los estimadores
de máxima verosimilitud para α y β coinciden con los MELIs obtenidos en la sección anterior, y más
aún, los estimadores obtenidos en el Teorema 1 y en (4) resultan ser (ahora sı́, los tres) óptimos y
sobre una clase más amplia: la de los estimadores insesgados en general (sin la restricción de
que sean lineales).
Como consecuencia inmediata del supuesto de Normalidad se tiene ahora que las variables aleato-
rias Y1 , . . . , Yn son independientes, mas no idénticamente distribuı́das. Especı́ficamente se tiene ahora
que Yi ∼ Normal (α + βxi , σ 2 ), i = 1, . . . , n , con función de densidad de probabilidad:
1 2
fYi (yi | α + βxi , σ 2 ) = √ exp − yi − (α + βxi ) /(2σ 2 ) .
(5)
2πσ 2
(α + βxi )2
1 2 1
h(yi ) = √ , c (α, β, σ ) = √ exp − ,
2π σ2 2σ 2
α
w1 (α, β, σ 2 ) = 2 , t1 (yi ) = yi ,
σ
β
w2 (α, β, σ 2 ) = 2 , t2 (yi ) = xi yi ,
σ
1
w3 (α, β, σ 2 ) = − 2 , t3 (yi ) = yi2 . (7)
2σ
Lo anterior tiene especial relevancia en cuanto a que al modelo de regresión lineal simple, bajo los
supuestos de esta sección, le son aplicables resultados para familias exponenciales en general. Por
ejemplo, de acuerdo a Cox y Hinkley (1974) y Mood et al. (1974) se tiene el siguiente:
4
pero con parámetro distinto θi , en donde este último es función lineal de η . Entonces el vector de
estimadores X n n
X
T = t1 (Yi ) , . . . , tk (Yi )
i=1 i=1
es completo y suficiente minimal para (α, β, σ 2 ) en el modelo de regresión lineal simple bajo Norma-
lidad. Esto será útil para determinar la optimalidad de estimadores puntuales insesgados en lo que
sigue:
Estimación puntual
La independencia de las variables aleatorias Yi permite expresar la función de densidad conjunta
del vector aleatorio (Y1 , . . . , Yn ) como el producto de las densidades individuales (5), esto es
n
Y
2
fY1 ···Yn (y1 , . . . , yn | α, β, σ ) = fYi (yi | α, β, σ 2 ) ,
i=1
n
Y 1
exp − (yi − (α + βxi ))2 /(2σ 2 ) ,
= √
i=1 2πσ 2
( n
X . )
1
= exp − (yi − α − βxi )2 (2σ 2 ) . (9)
(2πσ 2 )n/2 i=1
La expresión (9) permite calcular los estimadores de máxima verosimilitud (EMV) para α, β y σ 2 :
dadas las observaciones y1 , . . . , yn correspondientes a las variables aleatorias Y1 , . . . , Yn , los valores
que maximizan la función de log-verosimilitud
coinciden, para α y β, con los MELIs que se obtuvieron en el Teorema 1, y en el caso de σ 2 resulta ser
el que se obtuvo en (4) pero multiplicado por n−2
n
, detalles en Calero (1998). El EMV para σ 2 tiene
5
sesgo (caracterı́stica frecuente en este tipo de estimadores), ası́ que multiplicándolo por el recı́proco
del factor anterior se vuelve insesgado. En este caso particular, los EMVs para α, β, y el de σ 2 (en
versión insesgada), resultan ser óptimos en el sentido de lo siguiente:
1 1
d1 := Pn 2
d2 := d1 x d3 := d1 x 2 + (12)
i = 1 (xi − x) n
1
Como la transformación (11) es invertible y (4) puede reexpresarse de la forma σb2 = n−2 T3 +
ξ(T1 , T2 ) , tenemos entonces que existe una función inyectiva que transforma (8) en los estimadores
(b b σb2 ) obtenidos en el Teorema 1 y en (4), que a su vez son estimadores insesgados de (α, β, σ 2 ),
α, β,
ası́ que por el Teorema 3 se concluye que (b b σb2 ) son EIVUMs para los parámetros del modelo de
α, β,
regresión lineal simple bajo Normalidad.
Estrictamente hablando, con lo anterior se cumple el objetivo de tener a los mejores estimadores
puntuales posibles, pero hay algo más que decir, ahora en cuanto a la dependencia entre dichos
estimadores, que será útil más adelante en estimación por intervalos y pruebas de hipótesis. Para
analizar dicha dependencia es necesario, y afortunadamente posible, identificar la distribución de
probabilidad conjunta del vector aleatorio (b b σb2 ), véase Mood et al. (1974). Para ello, primero se
α, β,
hace el cambio de variables
b−α
α βb − β (n − 2)σb2
θb1 := , θb2 := , θb3 := , (13)
σ σ σ2
y luego se calcula la función generadora de momentos conjunta del vector aleatorio (θb1 , θb2 , θb3 ) por
medio de mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) . La combinación lineal z1 θb1 + z3 θb2 + z3 θb3
es, en última instancia, una transformación de las variables aleatorias Yi que de forma genérica
denotaremos ζ(Y1 , . . . , Yn ), y como se tiene la función de densidad conjunta de (Y1 , . . . , Yn ) dada en
(9), el cálculo de mθb1 θb2 θb3 se realiza como sigue:
6
mθb1 θb2 θb3 (z1 , z2 , z3 ) = E exp(z1 θb1 + z3 θb2 + z3 θb3 ) ,
= E ζ(Y1 , . . . , Yn ) ,
Z ∞ Z ∞
= ··· ζ(y1 , . . . , yn )fY1 ···Yn (y1 , . . . , yn | α, β, σ 2 ) dy1 · · · dyn ,
−∞ −∞
.. .. .. ..
= . . . .
2 2 −(n−2)/2
= exp{d3 z1 + 2(−d2 )z1 z2 + d1 z2 } (1 − 2z3 ) , siempre que z3 < 1/2 ,
= mθb1 θb2 (z1 , z2 )mθb3 (z3 ) . (14)
En el resultado anterior hay que reconocer lo siguiente: primero, que la factorización resultante impli-
ca la independencia del vector aleatorio (θb1 , θb2 ) y la variable aleatoria θb3 ; segundo, que mθb1 θb2 (z1 , z2 )
corresponde a la función generadora de momentos conjunta de una distribución Normal Bivaria-
da y mθb3 (z3 ) corresponde a la función generadora de momentos univariada de una distribución de
probabilidad Ji-cuadrada con n − 2 grados de libertad:
0 d3 −d2
(θ1 , θ2 ) ∼ N2
b b , , θb3 ∼ χ2n−2 . (15)
0 −d2 d1
Teorema 4. Para los EIVUM (b b σb2 ) del modelo de regresión lineal simple bajo Normalidad, se
α, β,
cumple:
(n − 2)σb2
c) ∼ χ2n−2 .
σ2
7
q1 < Q0 < q2 en una equivalente pero de la forma τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) de modo que
P [ τ1 (Y1 , . . . , Yn ) < σ 2 < τ2 (Y1 , . . . , Yn ) ] = γ. Aunque normalmente hay una infinidad de pares de
valores (q1 , q2 ) que cumplen con la condición requerida, lo usual es “repartir” la probabilidad γ sobre
un intervalo centrado en la mediana de la distribución de probabilidad del estadı́stico pivotal, esto
es: Z 1 Z q2
2 γ
fQ0 (u) du = = fQ0 (u) du . (16)
q1 2 1
2
1−γ 1+γ
En el caso particular de Q0 , q1 y q2 representarı́an entonces los cuantiles 2
y 2
de una distribu-
ción Ji-cuadrada con n − 2 grados de libertad. Luego
(n − 2)σb2 (n − 2)σb2 (n − 2)σb2
q1 < < q2 ⇔ < σ2 < ,
σ2 q2 q1
con lo que se obtiene:
2 (n − 2)σb2 (n − 2)σb2
Intervalo de confianza al 100γ % para σ : Iσ2 (γ) = , . (17)
q2 q1
Del inciso b del Teorema √ 4 se desprende que el estimador α b ∼ Normal (α, σ 2 d3 ), por lo que
la variable aleatoria (bα − α)/ σ 2 d3 ∼ Normal (0, 1), y por lo tanto dicha variable aleatoria es un
estadı́stico pivotal. Sin embargo, tal cual no es útil para construir un intervalo de confianza para un
solo parámetro desconocido al tener en su definición dos parámetros desconocidos, α y σ 2 . Como ya
se cuenta con un intervalo de confianza para σ 2 , si hubiese forma de “deshacerse” de él al definir el
estadı́stico pivotal y que sólo permanezca α como parámetro desconocido, se estarı́a en condiciones
de construir un intervalo de confianza para este último parámetro. Un forma de “deshacerse” de σ 2 es
sustituirlo por elqestimador σb2 , pero entonces la distribución de probabilidad del estadı́stico pivotal
Q1 := (b α − α)/ σb2 d3 ya no será Normal (0, 1); sin embargo, podemos hacer uso de un conocido
resultado de transformaciones de variables aleatorias: Si p Z ∼ Normal (0, 1), U ∼ Ji-cuadrada con k
grados de libertad, Z y U independientes, entonces Z/ U/k ∼ t-Student con k grados de libertad.
Por lo tanto, utilizando los tres inicisos del Teorema 4:
√
αb−α α − α)/ σ 2 d3
(b Normal (0, 1)
Q1 = q = q ≡ p 2 ≡ t-Student n−2 . (18)
2 2
σ /σ 2 χ n−2 /(n − 2)
σ d3
b b
Para construir un intervalo de confianza al 100γ % para α se requieren cuantiles q1 < q2 tales que
P (q1 < Q1 < q2 ) = γ. Nuevamente lo usual es repartir la probabilidad γ en un intervalo centrado en
la mediana, que en el caso de la distribución t-Student es cero, y como además su función de densidad
es simétrica respecto a cero, basta tomar como q2 = q > 0 al cuantil (1 + γ)/2 de la distribución
t-Student con n − 2 grados de libertad (tn−2 ), y por simetrı́a q1 = −q. Luego
q q
b−α
α
−q < q <q ⇔ α b − q σb2 d3 < α < α b + q σb2 d3
σb2 d3
con lo que se obtiene:
q q
Intervalo de confianza al 100γ % para α : Iα (γ) = b−q
α σb2 d3 , α
b+q σb2 d3 . (19)
8
Para β el procedimiento es totalmente análogo al de α, y se obtiene:
q q
b b2 b b2
Intervalo de confianza al 100γ % para β : Iβ (γ) = β − q σ d1 , β + q σ d1 . (20)
Pruebas de hipótesis
De acuerdo a Casella y Berger (2002), en el caso del modelo de regresión lineal simple, usualmente
se tiene mayor interés en β que en α, ya que este último representa la esperanza de Yx cuando x = 0,
y dependiendo del problema, con frecuencia x = 0 no es un valor “razonable” o “realista” de la
variable explicativa. En contraste, β representa la razón de cambio de E(Yx ) como función de x,
válida sobre todo el rango de valores “razonables” para x, por lo que centraremos nuestra atención
en β, pero en el entendido de que técnicamente es posible hacer lo análogo respecto a α.3
En términos de pruebas de hipótesis, interesa en particular analizar la posibilidad de que β = 0
ya que si las observaciones muestrales no proporcionan información que permita rechazar contunden-
temente esta posibilidad, se pondrı́a en duda que x sea efectivamente una variable explicativa, que
es la esencia del modelo de regresión lineal simple. Construiremos entonces una prueba de hipótesis
para el contraste:
H0 : β = 0 versus H1 : β 6= 0 . (21)
Como consecuencia del inciso b del Teorema 4, y de un argumento análogo al utilizado en (18),
se tiene que, bajo la hipótesis H0 : β = 0, la variable aleatoria
βb H0
V := q ∼ tn−2 (t-Student con n − 2 grados de libertad) , (22)
σb2 d1
por lo que resulta adecuada como estadı́stico de prueba para el contraste (21), conocido también como
del tipo de prueba de dos colas. Para una prueba de tamaño δ se requiere de una regla de decisión
que rechace incorrectamente H0 con probabilidad δ, situación conocida como error tipo I. Aunque
0 < δ < 1, normalmente se utilizan valores “pequeños” para δ, tı́picamente 0.05 o 0.01. Tomando
en cuenta la simetrı́a de la distribución de probabilidad de (22), para una prueba de dos colas se
“reparte” la probabilidad δ por partes iguales en las colas de la distribución, y en caso de que el
valor observado del estadı́stico de prueba corresponda a una de las dos colas, se toma entonces la
decisión de rechazar H0 , ya que existe una probabilidad (pequeña) δ de que esto suceda bajo H0 .
En concreto, se calcula el valor q > 0 tal que
9
Es decir, en este caso q es el cuantil 1 − 2δ de la distribución t-Student con n − 2 grados de libertad.
Luego entonces la regla de decisión para (21) queda como sigue:
Rechazar H0 : β = 0 si |v| > q, (24)
en donde v es el valor observado del estadı́stico V de (22). Recuérdese que el tamaño de prueba δ
lo establece el usuario de la misma. En ocasiones, en vez de fijar un valor δ, se prefiere conocer el
valor-p (en idioma inglés: p-value) que corresponde a una muestra observada, esto es, determinar el
mı́nimo valor δ bajo el cual se rechazarı́a H0 de acuerdo a la regla de decisión (24), y con base en
ello decidir rechazar H0 en la medida que el valor-p resulte aceptablemente pequeño.4
La regla de decisión para H0 : α = 0 versus H1 : α 6= 0 es totalmente q análoga: Rechazar H0
si | u | > q , en donde u es el valor observado del estadı́stico U := α b/ σb2 d3 . También de forma
análoga, haciendo uso del iniciso c del Teorema 4, se pueden construir pruebas de hipótesis para σ 2 ,
por ejemplo del tipo H0 : σ 2 > s0 versus H1 : σ 2 ≤ s0 , que en este caso involucrarı́a a la distribución
Ji-cuadrada con n − 2 grados de libertad.5
E (b
α + βx
b 0 ) = E (b
α) + x0 E (β)
b = α + βx0 = E (Yx ) ,
0 (25)
esto es, que α
b + βx
b 0 es un estimador puntual insesgado para E (Yx ), la respuesta media cuando
0
x = x0 . Más aún, utilizando el inciso b del Teorema 4, y que de una combinación lineal de variables
aleatorias con distribución Normal resulta también una variable aleatoria Normal, la distribución
de probabilidad del estimador α b + βx
b 0 quedará completamente especificada después de calcular su
varianza:
b = σ 2 1 + d1 (x0 − x)2 ,
V(bα + βx
b 0 ) = V(b α) + x20 V(β)
b + 2x0 Cov(b
α, β) (26)
n
4
De hecho, en términos de automatizar los cálculos, lo usual es que el software estadı́stico reporte el p-value, en
vez de pedir al usuario que ingrese el valor δ que desea. Véase, por ejemplo, Ugarte et al. (2008), Crawley (2007),
Dalgaard (2002) y Everitt (2006).
5
Más aún, para construir pruebas de hipótesis en donde H0 sea una hipótesis compuesta (esto es, H0 : θ ∈ Θ0 , en
donde Θ0 tiene más de un elemento), existen criterios para la construcción de pruebas uniformemente más potentes
aprovechando el hecho de que el modelo de regresión lineal simple bajo Normalidad es una familia exponencial, ver
Lehmann (1986).
10
y por lo tanto, el estimador puntual insesgado de la respuesta media E (Yx0 ) se distribuye:
2 1
\ 2
b + βx0 ∼ Normal E (Yx0 ) , σ
E (Yx0 ) := α b + d1 (x0 − x) . (27)
n
E\
(Yx ) − E (Yx0 )
Q2 := r 0 ∼ tn−2 , (28)
σb2 n1 + d1 (x0 − x)2
por lo que Q2 se puede utilizar como estadı́stico pivotal para construir un intervalo de confianza para
E (Yx0 ) ya que −q < Q2 < q si y sólo si
r r
\ 2
1 2
\ 2
1 2
E (Yx0 ) − q σb + d1 (x0 − x) < E (Yx0 ) < E (Yx0 ) + q σ b + d1 (x0 − x) , (29)
n n
y por lo tanto, si q es el cuantil 1+γ
2
de la distribución t-Student con n − 2 grados de libertad,
entonces un intervalo de confianza 100γ % para la respuesta media E (Yx0 ) cuando x = x0 es
el siguiente:
r r
\ 2
1 2
\ 2
1 2
I E (Yx0 ) (γ) = E (Yx0 ) − q σ
b + d1 (x0 − x) , E (Yx0 ) + q σ b + d1 (x0 − x) . (30)
n n
Si lo que se desea es hacer predicción sobre el valor que puede reportar la variable aleatoria Yx0
dado un nuevo valor x = x0 , es posible construir algo análogo a un intervalo de confianza, conocido
como intervalo de predicción. Partiendo de que Yx0 ∼ Normal (α + βx0 , σ 2 ), si los tres parámetros
fuesen conocidos, entonces
Yx0 − E (Yx0 ) Yx0 − (α + βx0 )
p = √ ∼ Normal (0, 1) , (31)
V(Yx0 ) σ2
y si z es el cuantil 1+γ
2
de la distribución Normal (0, 1) entonces se puede afirmar que
Yx0 − (α + βx0 )
√ √
γ = P −z < √ < z = P α + βx0 − z σ 2 < Yx0 < α + βx0 + z σ 2 , (32)
σ2
y entonces se le llama intervalo de predicción 100γ % para Yx0 al siguiente:
h √ √ i
α + βx0 − z σ 2 , α + βx0 + z σ 2 . (33)
Pero si (α, β, σ 2 ) son desconocidos y se pretende utilizar en su lugar a los estimadores (b b σb2 ),
α, β,
entonces la distribución de probabilidad involucrada para obtener el intervalo de predicción cambia
a t-Student con n − 2 grados de libertad, como veremos a continuación. Como x = x0 es un nuevo
valor (distinto a x1 , . . . , xn ) y los estimadores (b b σb2 ) sólo dependen de (Yx , . . . , Yxn ) entonces la
α, β, 1
2 2
variable aleatoria Yx0 ∼ Normal (α + βx0 , σ ) y el vector aleatorio (b α, β, σ ) son independientes.
b b
11
De (27) ya sabemos que α b + βxb 0 se distribuye Normal con los parámetros que ahı́ se indican, por
lo que la diferencia Yx0 − (b
α + βx
b 0 ) también se distribuye Normal, con media
E Yx0 − (b b 0 ) = E (Yx ) − E (b
α + βx 0
b 0 ) = α + βx0 − (α + βx0 ) = 0 ,
α + βx (34)
y varianza
ya que Cov(Yx0 , α
b + βx
b 0 ) = 0 dada la independencia de Yx y (b b σb2 ). Es decir,
α, β,
0
2
1 2
Yx0 − (b b 0 ) ∼ Normal 0 , σ 1 +
α + βx + d1 (x0 − x) . (36)
n
Normal (0, 1)
≡ p 2 ≡ tn−2 , (37)
χ n−2 / (n − 2)
Nótese que (30) y (39) sólo difieren en el 1 que aparece en las raı́ces cuadradas de (39).
12
explicativa. Con mucha frecuencia se cuenta con los datos (x1 , y1 ), . . . , (xn , yn ) mas no con información
que garantice que las observaciones y1 , . . . , yn provienen de variables aleatorias Yi que cumplen los
supuestos anteriores, razón por la cual surge la inquietud de analizar, con base en dichos datos,
posibles violaciones de los supuestos siguientes:
Normalidad.
Independencia.
Varianza constante.
Que x1 , . . . , xn efectivamente corresponden a una variable explicativa (validez del modelo).
Los tres primeros supuestos tienen que ver directa y claramente con las variables aleatorias εi ,
pero indirectamente también el cuarto supuesto, como se verá más adelante. Sabemos que
εi = Yi − (α + βxi ) = Yi − E (Yi ) ∼ Normal (0, σ 2 ) , (40)
pero al ser α y β parámetros desconocidos, no contamos con observaciones de las variables εi para
analizar, debido a que son de la forma yi − (α + βxi ) . En su lugar, de forma natural surge la idea
de analizar los valores observados yi − (a + b xi ) , ver (2), que de hecho corresponden a las variables
aleatorias que a continuación se definen:
Definición 4. A las variables aleatorias e1 , . . . , en definidas
\
ei := Yi − E (Yi ) = Yi − (b
α + βx
b i) , i = 1, . . . , n ,
se les denomina variables aleatorias residuales del modelo clásico del regresión lineal simple. A
las observaciones yi −(a+b xi ) de dichas variables aleatorias residuales se les denominará residuos.6
Nótese que, sin haberlas llamado por su nombre, las variables aleatorias residuales se ocupan
para obtener el estimador insesgado de σ 2 en (4). Bajo el supuesto de Normalidad sabemos que Yi
se distribuye Normal, por el Teorema 4 los estimadores α b y βb también tienen distribución Normal,
y como de combinación lineal de variables aleatorias Normales resulta también una variable aleato-
ria Normal, tenemos entonces que las variables aleatorias residuales ei también tienen distribución
Normal, con esperanza:
E (ei ) = E (Yi ) − E (b
α + βx
b i) = 0 , (41)
y con varianza:
V(ei ) = V(Yi ) + V(b b i ) − 2Cov(Yi , α
α + βx b + βx
b i) ,
2 2 1 2
= σ +σ + d1 (xi − x) − 2 Cov(Yi , α
b) + xi Cov(Yi , β) ,
b
n
.. .. ..
= . . .
1
= σ2 1 − − d1 (xi − x)2 . (42)
n
6
La palabra residuo es un sustantivo, en contraste con residual que es un adjetivo. En idioma inglés, las traduccio-
nes son residue y residual, respectivamente, aunque residue ha caı́do en desuso debido a que en ese idioma también
se acepta utilizar residual como sustantivo. Seber (1977), por ejemplo, cuando define las variables aleatorias ei dice
que ellas “are called the residuals”. En libros en idioma español sobre el tema, normalmente se utiliza únicamente la
palabra residuo, sin aclarar si se está haciendo referencia a variables aleatorias o a sus observaciones. Es propuesta
de quien esto escribe hacer tal distinción, como en la Definición 4.
13
Es decir, 1
2 2
ei ∼ Normal 0, σ 1− − d1 (xi − x) , i = 1, . . . , n . (43)
n
Nótese que V(ei ) < σ 2 = V(εi ). Más aún, como E (ei ) = 0 entonces V(ei ) = E (ei2 ), y por lo tanto:
Xn n n
2
X
2 2
X n−1 2
E ei = E (ei ) = σ − d1 (xi − x) = σ 2 (n − 2) , (44)
i=1 i=1 i=1
n
Desafortunadamente Neter et al. (1996) no proporcionan en su libro elementos o referencias que den
sustento a tal afirmación, si es que esto realmente fuese posible. De acuerdo a (45), si n es “muy
grande” entonces Cov( ei , ej ) estará “muy cerca” de cero, pero aún Cov( ei , ej ) = 0 ¡NO IMPLICA
INDEPENDENCIA! Aún cuando ei y ej sean variables aleatorias Normales con covarianza igual a
cero, es posible que exista una grado de dependencia relevante. Por ejemplo, considérese una variable
aleatoria Z1 ∼ Normal (0, 1) y defı́nase la variable aleatoria
−1
Z2 := Φ 1 − 2Φ(Z1 ) ,
en donde Φ es la función de distribución (acumulativa) de una variable aleatoria Normal (0, 1).
Entonces Z2 también se distribuye Normal (0, 1) y además Cov(Z1 , Z2 ) = 0 a pesar de que existe
una evidente dependencia, por definición, entre Z1 y Z2 : si Z1 = z entonces Z2 reporta el valor
especı́fico Φ−1 (|1 − 2Φ(z)|) ¡con probabilidad 1! De hecho, se puede demostrar que utilizando una
14
medida de dependencia 7 como la de Schweizer y Wolff (1981), el grado de dependencia en este caso
es de 0.5 en una escala de 0 a 1, lo cual serı́a bastante cuestionable considerar poco importante e
ignorarlo como proponen Neter et al. (1996).
Si aún bajo el supuesto de que las variables aleatorias εi sean independientes, las variables aleato-
rias residuales ei no lo son ni hay claridad respecto a qué tan lejos están de serlo, estrictamente no
se les debiera utilizar en pruebas estadı́sticas basadas en este supuesto, como es el caso de muchas
pruebas para Normalidad, bondad de ajuste en general, heteroscedasticidad (varianza no constante),
etc. Es entonces la falta de independencia entre las variables aleatorias residuales, bajo el supuesto
de que las εi sı́ lo sean, lo que lleva a cuestionar su utilidad para validar supuestos en el modelo de
regresión lineal simple.
Coeficiente de determinación
Este concepto está asociado al interés de analizar la bondad del ajuste o validez del modelo como
tal, de acuerdo a la información de los datos. Dicho de otro modo, analizar si los valores conoci-
dos x1 , . . . , xn tienen una capacidad relevante para “explicar” el comportamiento de las variables
aleatorias de respuesta Y1 , . . . , Yn , bajo el modelo de regresión lineal simple.
Para este fin, se toma como punto de referencia a la media muestral Y (ver definición en Teorema
1) dePlas variables aleatorias Yi . De este modo, Y se ubica en el “centro” de las variables Yi ya
n
que i = 1 (Yi − Y ) = 0, esto es, se tendrán valores de Yi que sean mayores y menores que Y ,
cuyas diferencias, positivas y negativas, tienen suma cero. Si se elimina el efecto del signo en dichas
diferencias, digamos mediante (Yi −Y )2 , se estará midiendo otro aspecto: la dispersión de las variables
Yi respecto a su media muestral.
En el caso particular P ndel modelo2 de regresión lineal simple, denominaremos suma total de
cuadrados (STC) a i = 1 (Yi − Y ) . Se busca analizar la proporción de la variabilidad total (STC)
que puede ser “explicada” por el modelo ajustado E \ (Yi ) = α
b + βxb i , y esto se logra descomponiendo
STC de la siguiente forma:
n
X n
X
2
STC = (Yi − Y ) = \
(Yi − E \
(Yi ) + E (Yi ) − Y )2 ,
i=1 i=1
n
X
(Yi ))2 + (E (Yi ) − Y )2 + 2(Yi − E
= \
(Yi − E \ \ \
(Yi ))(E (Yi ) − Y ) ,
i=1
n
X n
X
= \
(Yi − E (Yi ))2 + \
(E (Yi ) − Y )2 ,
i=1 i=1
Xn n
X
= ei2 + \
(E (Yi ) − Y )2 , (46)
i=1 i=1
15
misma
P 2 que denominaremos suma de cuadrados de la regresión (SCR). Como consecuencia,
ei representa la parte de la variabilidad que no logra explicar el modelo. Lo anterior motiva la
siguiente:
en donde
P la última
P igualdad es consecuencia de que α b = Y − βx,b ver Teorema 1, y por lo tanto
α = Yi − βb xi . Luego,
nb
Y = α b + βx
b +e = α b + βx
b
ya que e = n1
P \
ei = 0. Entonces E b i − x) y la suma
(Yi ) − Y = β(x
X X βb 2
SCR = \
(E (Yi ) − Y )2 = βb 2 2
(xi − x) = .
d1
ei2 /(n − 2) = σb2 , ver (4), nos permite reexpresar (47) como
P
Esto último junto con el hecho de que
βb 2
F = = V2 (48)
d1 σb 2
que es el cuadrado del estadı́stico de prueba (22) bajo H0 : β = 0 . Recordemos que β = 0 implica
que el modelo (particularmente los valores x1 , . . . , xn ) no explica el comportamiento de la variable
de respuesta, y de acuerdo a (22) y (24) se rechazarı́a tal hipótesis para valores de |V | que excedan
un umbral q (de acuerdo al tamaño de prueba deseado). Como V 2 = F y V se distribuye t-Student
con n − 2 grados de libertad, es un conocido resultado de probabilidad, ver Mood et al. (1974), que
entonces F tiene distribución de Fisher con 1 y n − 2 grados de libertad. Aquı́ el asunto relevante
16
es la congruencia entre lo que se buscaba medir con (47), en términos de la variabilidad explicada
por el modelo en proporción a la variabilidad no explicada, y la validez o no del modelo al poder
rechazar o no la hipótesis H0 : β = 0, ya sea mediante el estadı́stico V con distribución t-Student o
mediante el estadı́stico F de Fisher. Por lo tanto, en el caso del modelo de regresión lineal simple, la
bondad de ajuste del modelo se mide con base en el resultado de la prueba de hipótesis (21).
5. Ejemplo - resumen
Actualmente, el análisis estadı́stico de datos, aún a un nivel descriptivo, no se concibe ya sin
la ayuda de programas computacionales (software) diseñados para tal fin, ver Chambers (2008),
Dalgaard (2002) o Gentle (2002). Haremos uso del software libre R (www.r-project.org), que se
ha convertido en un estándar internacional en el análisis estadı́stico de datos, para aplicar la teorı́a
descrita en las secciones anteriores y que esto nos permita resumir e ilustrar los principales resultados.
Se incluyen las instrucciones tal cual se ingresan en dicho programa computacional en este tipo
de letra.
Analizaremos datos generados mediante simulación, bajo los supuestos del modelo clásico de
regresión lineal simple bajo Normalidad, para poder comparar las estimaciones versus los valores
teóricos. Esto es, fijaremos primero valores para α, β, σ 2 y x1 , . . . , xn , y luego simularemos con ayuda
de R observaciones yi a partir de las variables aleatorias independientes no idénticamente distribuı́das
Normal (α + βxi , σ 2 ). Lo anterior sólo con fines ilustrativos y de comparación, en el entendido de
que al trabajar con datos reales, por lo general, sólo se cuenta con los datos (xi , yi ), y los verdaderos
valores teóricos de los parámetros no se podrán conocer, sólo estimar.
Paso -1 : Definir los valores α = 2, β = 3, σ 2 = 300, n = 31 y los valores xi : 10, 11, 12, . . . , 40 :
> alfa.t <- 2 ; beta.t <- 3; sigma2.t <- 300 ; n <- 31
> x.i <- seq(from=10,to=40,length=31)
Paso 0: Simular valores εi ∼ iid Normal (0, σ 2 ) y con ellos los valores yi = α + βxi + εi :
> epsilon.i <- rnorm(n,0,sqrt(sigma2.t))
> y.i <- alfa.t + beta.t*x.i + epsilon.i
Paso 1: Es aquı́ donde usualmente comenzarı́a el análisis de los datos (x1 , y1 ), . . . , (xn , yn ). Ajustamos el
modelo clásico de regresión lineal simple bajo Normalidad, utilizando la instrucción lm (linear
model ), y luego se solicita un summary (resumen) del modelo ajustado:
Call:
lm(formula = y.i ~ x.i)
Residuals:
Min 1Q Median 3Q Max
-32.148 -12.850 -3.834 11.347 38.860
17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6356 9.8146 0.982 0.334
x.i 2.7213 0.3696 7.362 4.13e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Interpretación: Las estimaciones puntuales para α y β, ver (2), son a = 9.6356 y b = 2.7213,
respectivamente. El p-value para H0 : β = 0 es 4.13 × 10−8 , ver (21) y (24), esto es, la
probabilidad de rechazar H0 : β = 0 erróneamente es tan pequeña como 4.13 × 10−8 , y por
tanto decidimos rechazar que β = 0. Nótese que esto coincide con el p-value del F-statistic al
final de la tabla anterior, lo cual era de esperarse en concordancia con lo comentado en la sección
anterior respecto a la equivalencia entre F y V 2 , ver (48), y por lo lo tanto se valida el modelo.
La probabilidad de rechazar erróneamente la hipótesis H0 : α = 0 puede ser hasta de 0.334
y por lo tanto no es recomendable rechazarla, ası́ que la estimación puntual a = 9.6356 no es
confiable. Multiple R-squared: 0.6514 es el valor observado del coeficiente de determinación.
La estimación puntual de σ 2 se obtiene mediante la fórmula (4) y la instrucción:
> sum((residuals(regresion))^2)/(n-2)
[1] 338.8523
Paso 2: Cálculo de intervalos de confianza 95 % para los parámetros del modelo. De acuerdo a las
fórmulas (17), (19) y (20), requerimos los siguientes valores:
> s <- sum((residuals(regresion))^2)/(n-2)
> a <- coefficients(regresion)[1] ; b <- coefficients(regresion)[2]
> d1 <- (sum((x.i-mean(x.i))^2))^(-1) ; d3 <- d1*(mean(x.i)^2) + 1/n
Los intervalos de confianza para α y β se obtienen directamente mediante:
> confint(regresion,level=0.95)
2.5 % 97.5 %
(Intercept) -10.437587 29.708758
x.i 1.965338 3.477337
Y para σ 2 :
> q1 <-qchisq((1-0.95)/2,df=(n-2))
> q2 <-qchisq((1+0.95)/2,df=(n-2))
> (n-2)*s*c(1/q2,1/q1) # Intervalo:
> [1] 214.9218 612.3682
18
Paso 3: Generar una gráfica con los valores (xi , yi ), la recta ajustada y = a + bx, intervalos de confianza
95 % para la respuesta media (se aprecian como bandas de confianza), e intervalos (bandas
también) de predicción 95 %.
●●●
●
100
● ●
● ●
●
●●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
50
● ●
● ●
●
0
−50
0 10 20 30 40 50
La recta en lı́nea gruesa corresponde a y = a + bx, que son las estimaciones de E (Yx ) para
distintos valores de x. Las dos bandas que están más cerca de la lı́nea recta gruesa corresponden
a los intervalos de confianza 95 % para la respuesta media E(Yx ) para distintos valores de x,
de acuerdo a la fórmula (30). Las dos bandas más distantes de la lı́nea gruesa corresponden a
los intervalos de predicción 95 % para Yx , para distintos valores de x, de acuerdo a la fórmula
(39).
19
Bibliografı́a
Calero, A. (1998) Estadı́stica (Tomo II), IPN (México D.F).
Casella, G., Berger, R.L. (2002) Statistical Inference, Duxbury (Pacific Grove).
Chambers, J.M. (2008) Software for Data Analysis, Springer (Nueva York).
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall/CRC (Boca Ratón).
Crawley, M.J. (2007) The R book, Wiley (Chichester).
Dalgaard, P. (2002) Introductory Statistics with R, Springer (Nueva York).
DasGupta, A. (2008) Asymptotic Theory of Statistics and Probability, Springer (Nueva York).
Embrechts, P., McNeil, A.J., Straumann, D. (1999) Correlation: pitfalls and alternatives. Risk Maga-
zine 5, 69–71.
Erdely, A. (2009) Cópulas y dependencia de variables aleatorias: Una introducción. Miscelánea Mate-
mática 48, 7–28.
Everitt, B.S. (2006) A Handbook of Statistical Analyses Using R, Chapman & Hall/CRC (Boca Ratón).
Galton, F. (1886) Family Likeness in Stature. Proceedings of The Royal Society (Londres) 40, 42–63.
Gentle, J.E. (2002) Elements of Computational Statistics, Springer (Nueva York).
Gujarati, D.N. (1997) Econometrı́a, McGraw-Hill (Bogotá).
Kotz, S., Balakrishnan, N., Read, C.B., Vidakovic, B., Johnson, N.L. (2006) Encyclopedia of Statistical
Sciences, Second edition (16 volúmenes), Wiley (Hoboken).
Lehmann, E.L. (1986) Testing Statistical Hypothesis, Springer (Nueva York).
Lehmann, E.L., Casella, G. (1998) Theory of Point Estimation, Springer (Nueva York).
Mood, A.M., Graybill, F.A., Boes, D.C. (1974) Introduction to the theory of statistics, McGraw-Hill
(Nueva York).
Nelsen, R.B. (1999) An introduction to copulas, Springer (Nueva York).
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996) Applied Linear Statistical Models,
McGraw-Hill (Boston).
Schweizer, B., Wolff, E.F. (1981) On nonparametric measures of dependence for random variables.
Annals of Statistics 9, 879–885.
Seber, G.A.F. (1977) Linear Regression Analysis, Wiley (Nueva York).
Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics, Wiley (Nueva York).
Ugarte, M.D., Militino, A.F., Arnholt, A.T. (2008) Probability and Statistics with R, Chapman &
Hall/CRC (Boca Ratón).
van der Vaart, A.W. (1998) Asymptotic Statistics, Cambridge University Press (Cambridge UK).
20