Está en la página 1de 118

Notas de Modelos No Paramétricos y de Regresión

Gonzalo Pérez

Semestre 2023-1

1. Regresión lineal simple

1.1. Relación funcional entre dos variables, X y Y .

Una relación funcional o determinística entre dos variables es expresada por una fórmula matemática:

y = f (x),

donde x denota la variable independiente y y la variable dependiente. Estos conceptos no están relacionados
al concepto de independencia en probabilidad.

Ejemplo. Relación determinística.

El costo total, y, por comprar x unidades a un precio α:

y = αx.

Sin embargo, también existen relaciones estadísticas y son las de interés en este curso. En este caso, las
observaciones del fenómeno incluyen un componente aleatorio. Es común denotar a este componente aleatorio
como una variable aleatoria ε y la relación como

y = f (x) + ε,

con ε ∼ F (.). Por ahora se asumirá que ε es una v.a. continua que toma tanto valores positivos como
negativos.
Por ejemplo, la densidad ósea, y, y la edad, x. Al inicio hay una relación creciente, pero después es decreciente.

1.2. Supuestos básicos.

1.2.1. E(ε) = 0 y V(ε) = σ 2

En la regresión lineal simple el modelo que se considera es:

y = β0 + β1 f (x) + ε, (1)

1
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

donde ε es una v.a. con media 0 y varianza σ 2 . Basta que f (x) sea un valor numérico, aunque x puede ser
una variable categórica.
Aquí β0 y β1 son valores fijos, pero desconocidos, es decir, son parámetros. La variable x se asume conocida,
que se mide sin error o que se puede controlar por diseño. El modelo se asume que se cumple para un
subconjunto de valores de interés que pueda tomar la variable x.
La expresión (1) es la forma general de considerar el modelo de regresión lineal simple. En muchos textos se
encontrará la expresión

y = β0 + β1 z + ε. (2)

Notar que en la expresión anterior, la variable z puede ser directamente observada en los datos (z = x) o
bien ser el resultado de transformar a la variable original x, es decir, z = f (x).
Consideremos el caso más general (ec. 1). Notar que una implicación directa del modelo es que la variable y
será una variable aleatoria, pues ε lo es. Además podemos ver que para un valor fijo de x:

E(y) = E(β0 + β1 f (x) + ε)


= β0 + β1 f (x) + E(ε) (3)
= β0 + β1 f (x)

V(y) = V(β0 + β1 f (x) + ε)


= V(ε) (4)
=σ 2

Notar que lo anterior implica que la esperanza de y depende de los valores de x, mientras que su varianza es
constante con respecto a x.
En realidad, lo que nosotros estamos modelando con la regresión lineal simple se traduce a

E(y) = E(y; x) = E(y|x) = β0 + β1 f (x).

La variable x se considera por lo general como continua o numérica, ver Figura 1. Sin embargo, el modelo
de regresión lineal simple se puede usar para el caso donde x es una variable categórica con dos niveles.

Figura 1: Ejemplo de la implicación de los supuestos cuando se considera válido el modelo para un conjunto
de valores de z = f (x) ∈ [1, 8].

2
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

El objetivo es encontrar valores para β0 y β1 , de manera que quede definida E(y) = E(y; x) para
un conjunto de interés de valores de x.
Notar que el adjetivo lineal en regresión lineal simple hace referencia a que la forma funcional de E(y) es
una combinación lineal en términos de β0 y β1 . Por otro lado, el adjetivo simple corresponde a que en la
expresión sólo se está incluyendo la variación en términos de f (x).
Como se mencionó antes, en general, x se asume como una variable NO aleatoria. Sin embargo, cuando y
y z = f (x) se consideran ambas como variables aleatorias que siguen una distribución normal bivariada,
E(y|z) tiene la forma funcional en (3) y varios resultados que veremos se mantienen.
Notar que de la ecuación (3), asumiendo x continua, se puede obtener la interpretación de los parámetros
β0 y β1 ; ésta sería la misma que la usada para una recta, pues β0 es la ordenada al origen o intercepto y β1
es la pendiente. Lo importante es notar que la interpretación se hace en términos de la E(y):

β0 es el valor promedio de y cuando z = f (x) = 0


β1 es el cambio en el valor promedio de y que se obtiene al aumentar en una unidad la variable z = f (x),
pues
E(y; z + 1) − E(y; z) = β0 + β1 (z + 1) − (β0 + β1 (z)) = β1 .

1.2.2. Supuestos sobre los datos

Se asume que se tiene acceso a una muestra de n observaciones

(y1 , x1 ), (y2 , x2 ), ..., (yn , xn ),

que provienen del modelo de regresión lineal simple, es decir,

yi = β0 + β1 f (xi ) + εi , i = 1, ..., n, (5)

con εi ∼ F (.) tal que E(εi ) = 0 y V(εi ) = σ 2 .


Como se mencionó antes, los valores de yi provienen de una v.a., aunque los valores de xi se asumen que se
definieron antes o son no aleatorios.
Además se asume uno de los siguientes dos casos:

I. E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.


II. ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).

Notar que en I) no se asume una distribución en particular para las εi0 s . Además que el caso II) implica el
caso I).
Los supuestos anteriores en términos de las yi0 s son:

I. E(yi ) = β0 + β1 f (xi ), V(yi ) = σ 2 y Cov(yi , yj ) = 0 ∀ i 6= j, i, j = 1, ..., n.


II. y1 , y2 , ..., yn son v.a. independientes tal que yi ∼ N (β0 + β1 f (xi ), σ 2 ), i = 1, ..., n.

En la Figura 2 se presenta el caso cuando no es posible asumir E(y) = β0 + β1 x (izquierda), pero sí


E(y) = β0 + β1 z = β0 + β1 x2 (derecha) de acuerdo con los datos observados. Los datos se generaron
con el siguiente código en R.

3
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

set.seed(123)
x=rep(1:10,10)
e=rnorm(100,0,1)
y= 1+.5* xˆ2+e
par(mfrow=c(1,2),mar=c(4,4,1,1))
plot(x,y, xlab="x", cex.lab=.7, cex=.5, cex.axis=.6)
z=xˆ2
plot(z,y, xlab="z", cex.lab=.7, cex=.5, cex.axis=.6)
50

50
40

40
30

30
y

y
20

20
10

10
0

2 4 6 8 10 0 20 40 60 80 100

x z

Figura 2: A la izquierda el scatterplot entre x y y, mientras que a la derecha el de z = x2 y y.

1.2.3. x es categórica con dos niveles.

Como ya se había mencionado, el modelo de regresión lineal simple también sirve para el caso donde x es
una variable categórica con dos niveles, por ejemplo
(
mujer
x= .
hombre

Para usar el modelo de regresión lineal simple se realiza un preprocesamiento, creando una variable z que
sólo toma dos valores. Dos opciones son

A. (
1, si x = mujer
z= .
0, si x = hombre

B. (
1, si x = mujer
z= .
−1, si x = hombre

Esta variable z es llamada variable binaria, indicadora o dummy. Este es un caso particular de la notación
z = f (x), donde para el caso A) z = I(x = mujer) y para B) z = I(x = mujer) − I(x = hombre).

4
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

En particular, notemos que en este caso sólo hay dos valores para los que el modelo es de interés. Cada
parametrización está asociada a una interpretación diferente, por ejemplo, siguiendo la ecuación (3) tenemos:

A.
E(y; x = mujer) = E(y; z = 1)
= β0 + β1 (1)
(6)
= β0 + β1
V(y; x = mujer) = σ 2

E(y; x = hombre) = E(y; z = 0)


= β0 + β1 (0)
(7)
= β0
V(y; x = hombre) = σ 2
Ver Figura 3.

Figura 3: Ejemplo de la implicación de los supuestos cuando la variable x es categórica con dos niveles, mujer
y hombre. Se considera la parametrización en A)

B.
E(y; x = mujer) = E(y; z = 1)
= β0 + β1 (1)
(8)
= β0 + β1
V(y; x = mujer) = σ 2

E(y; x = hombre) = E(y; z = −1)


= β0 + β1 (−1)
(9)
= β 0 − β1
V(y; x = hombre) = σ 2

Notar que en ambos casos, las medias son diferentes y se expresan como combinaciones lineales de β0 y β1 ,
aunque la parametrización es diferente.
En particular, en el caso A), es posible identificar que β1 tiene una interpretación muy útil, pues es la
diferencia entre la esperanza de y cuando se tiene el grupo x = mujer y la esperanza de y cuando se tiene
el grupo x = hombre:
E(y; x = mujer) − E(y; x = hombre) = β1 .

5
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Por otra parte, β0 es directamente la esperanza de y cuando se tiene el grupo x = hombre.


Para el caso B) la interpretación es diferente, pues la diferencia entre las medias de los grupos x = mujer y
x = hombre es
E(y; x = mujer) − E(y; x = hombre) = 2β1 .

Cabe mencionar que este tipo de problema, bajo el supuesto de normalidad, ya se consideró en el curso de
Inferencia Estadística, en donde se planteaba como sigue.
Sea W1 , ..., Wn1 una m.a. de la distribución N (µ1 , σ 2 ) y V1 , ..., Vn2 una m.a. de la distribución N (µ2 , σ 2 ).
Ambas muestras independientes. El objetivo es comparar las poblaciones, es decir, estimar los parámetros e
identificar si hay diferencia entre las medias.

1.3. Métodos de estimación


A partir de esta sección y para simplificar la notación consideraremos que el modelo de regresión lineal simple
es:

y = β0 + β1 x + ε. (10)

Esto siempre se puede asumir pensando que x es el resultado de una serie de transformaciones adecuadas
que por ahora no son de interés especificar.
El objetivo es estimar β0 y β1 con una muestra de n observaciones de ese modelo:

(y1 , x1 ), (y2 , x2 ), ..., (yn , xn ),


de manera que quede definida E(y) = E(y; x). A los estimadores de β0 y β1 los vamos a denotar como βb0 y
βb1 , además la recta estimada o ajustada βb0 + βb1 x correspondería al estimador plug-in para E(y) = E(y; x),
es decir
E(y)
b = E(y;
b x) = βb0 + βb1 x. (11)

1.3.1. Método de mínimos cuadrados

Este método busca definir un problema de optimización en términos de los errores observados (residuales)
ei0 s definidos como:
ei = yi − (βb0 + βb1 xi ), (12)
es decir, en términos de las diferencias entre lo observado (yi ) y lo que se obtiene de la evaluación de la recta
ajustada en el valor (xi ), ybi = βb0 + βb1 xi , ver Figura 4.

Figura 4: Ejemplo de la definición de los errores observados ei a partir de una recta ajustada βb0 + βb1 x
propuesta para estimar E(y) = E(y; x).

En general, podríamos plantear cualquier función Q = Q(e1 , e2 , ..., en ) que tienda a penalizar altos valores
de las ei0 s , de manera que se busque minimizar esa función Q. Dos opciones:

6
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X n
X
Q1 = |ei | = |yi − (βb0 + βb1 xi )|.
i=1 i=1
n
X n
X
Q2 = e2i = (yi − (βb0 + βb1 xi ))2 .
i=1 i=1

En particular, el método de mínimos cuadrados busca encontrar βb0 y βb1 que minimicen la función Q2 , es
decir, que minimicen la suma de los errores observados al cuadrado.
Para encontrar βb0 y βb1 se procede a derivar Q2 y resolver el sistema de ecuaciones que resulta de igualar
a cero. Además, se debe verificar que los valores de las soluciones del sistema efectivamente minimizan Q2 ,
esto es:

a. Se deben resolver para βb0 y βb1 :


∂Q2 ∂Q2
=0 y = 0.
∂ βb0 ∂ βb1
b. Se debe verificar que en las soluciones encontradas
!2
∂ 2 Q2 ∂ 2 Q2 ∂ 2 Q2 ∂ 2 Q2
2 >0 y 2 2 − > 0.
∂β
c0 ∂β
c0 ∂ β
c1 ∂β
c0 ∂ β
c1

Parte a). Derivadas:


n
∂Q2 ∂ X Pn
= (yi − (βb0 + βb1 xi ))2 = i=1 2(yi − (βb0 + βb1 xi ))(−1) (13)
∂ βb0 ∂ βb0 i=1
n
∂Q2 ∂ X Pn
= (yi − (βb0 + βb1 xi ))2 = i=1 2(yi − (βb0 + βb1 xi ))(−xi ) (14)
∂ β1
b ∂ β1 i=1
b

Igualando a cero:
∂Q2 Pn
= 0 ⇐⇒ i=1 (yi − (βb0 + βb1 xi )) = 0 (15)
∂ βb0
∂Q2 Pn
= 0 ⇐⇒ i=1 (yi − (βb0 + βb1 xi ))(xi ) = 0 (16)
∂ β1
b

De (15) y (16) se obtiene:


Pn Pn
i=1 yi = βb0 n + βb1 i=1 xi (17)

Pn Pn Pn
i=1 yi xi = βb0 i=1 xi + βb1 i=1 x2i (18)

De (17)
Pn Pn
i=1 yi − βb1 i=1 xi
βb0 = = Y − βb1 X (19)
n
Sustituyendo (19) en (18)
Pn Pn Pn
i=1 yi xi = (Y − βb1 X) i=1 xi + βb1 i=1 x2i

Pn Pn Pn Pn
=⇒ i=1 yi xi −Y i=1 xi = βb1 ( i=1 x2i − X i=1 xi )
Pn Pn
i=1 yi xi − Y xi
=⇒ βb1 = Pn 2 Pni=1 (20)
i=1 xi − X i=1 xi

7
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Por lo que los posibles valores extremos se obtienen en los valores de βb0 y βb1 dados en (19) y (20), respecti-
vamente.
Notar:
Pn Pn Pn Pn
i. − X)(yi − Y ) = i=1 yi xi − Y i=1 xi = i=1 yi xi − nY X.
i=1 (xi
Pn Pn 2 Pn Pn 2 2
i=1 (xi − X) = i=1 xi = i=1 xi − nX .
2
ii. i=1 xi − X

Usando lo anterior se obtiene una expresión alternativa para βb1 :


Pn Pn
i=1 yi xi − Y xi
βb1 = Pn 2 Pni=1
i=1 xi − X i=1 xi
Pn
i=1 (xi − X)(yi − Y )
= Pn (21)
i=1 (xi − X)
2

Parte b). Segundas derivadas:

∂ 2 Q2 ∂ Pn
= − 2 i=1 (yi − (βb0 + βb1 xi )) =2n (22)
∂ β0
b2 ∂ β0
b
∂ 2 Q2 ∂ 2 Q2 ∂ Pn Pn
= = − 2 i=1 (yi − (βb0 + βb1 xi )) =2 i=1 xi (23)
∂ βb1 ∂ βb0 ∂ βb0 ∂ βb1 ∂ βb1
2
∂ Q2 ∂ Pn Pn
= − 2 i=1 (yi − (βb0 + βb1 xi ))(xi )=2 i=1 x2i (24)
∂β b2 ∂ β1
b
1

De (22) se cumple
∂ 2 Q2
2 > 0.
∂β
c0
Además usando (22) a (24) se obtiene
!2
∂ 2 Q2 ∂ 2 Q2 ∂ 2 Q2 Pn Pn
2 2 − = 2n(2 i=1 xi )
2
− (2 i=1 xi )
2

∂β
c0 ∂ β
c1 ∂β
c0 ∂ β
c1
Pn Pn
= 4n( i=1 x2i ) − 4( i=1 xi )2
Pn Pn
= 4n[ i=1 x2i − X i=1 xi ]
Pn
= 4n i=1 (xi − X)2 > 0

Por lo tanto, las expresiones en (19) y (21) representan los estimadores de βb0 y βb1 , respectivamente, obtenidos
por el método de mínimos cuadrados.
Al sistema de ecuaciones que se debió resolver para encontrar βb0 y βb1 se le conoce como sistema de
ecuaciones normales. En resumen, βb0 y βb1 en (19) y (21) satisfacen:
Pn
i=1 (yi − (β0 + β1 xi )) = 0 (25)
b b
Pn
i=1 (yi − (β0 + β1 xi ))(xi ) = 0 (26)
b b

De lo anterior se siguen las propiedades siguientes.

n
X
a. ei = 0.
i=1

8
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
b. ei xi = 0.
i=1

n
X n
X
c. yi = ybi , con ybi = βb0 + βb1 xi .
i=1 i=1

n
X
d. ybi ei = 0.
i=1

Dem. Se sustituye ybi = βb0 + βb1 xi y se usa a) y b).

e. La recta ajustada yb = βb0 + βb1 x que se usará para estimar E(y) = E(y; x) debe pasar por (X, Y ).
Dem. Sustituyendo la expresión de βb0 = Y − βb1 X en yb = βb0 + βb1 x y evaluando en X se obtiene

yb = Y − βb1 X + βb1 X = Y .

Ejemplo

Una muestra aleatoria de 20 hombres de los Estados Unidos fue seleccionada y la


información siguiente fue recolectada:

X = el número de gramos de grasa consumida por día.


Y = el total de colesterol en la sangre en miligramos.

Los datos son:

#Ingresaremos los datos

X=c(21,29, 43, 52, 56, 64, 77, 81, 84, 93, 98, 101, 107, 109,
113, 120, 127, 134, 148, 157)
Y=c(130, 163, 169, 136, 187, 193, 170, 115, 196, 237, 214,
239, 258, 283, 242, 289, 298, 271, 297, 316 )

Datos=as.data.frame(cbind(X,Y))
head(Datos)

## X Y
## 1 21 130
## 2 29 163
## 3 43 169
## 4 52 136
## 5 56 187
## 6 64 193

La Figura 5 muestra el diagrama de dispersión de los datos, así como los errores observados asociados a cada
elemento en la muestra.

9
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

par(mar=c(4,4,1,1))
plot(Y~X, data=Datos, cex=.9, cex.axis=.7, cex.lab=.8)
fit1=lm(Y~X, data=Datos) #Ajuste de un modelo de regresión en R
abline(fit1, col="red")
segments(Datos$X, Datos$Y, Datos$X, predict(fit1))
300
250
Y

200
150

20 40 60 80 100 120 140 160

Figura 5: Diagrama de dispersión de las variables X y Y . La línea en rojo es la recta ajustada por mínimos
cuadrados que sirve para estimar E(y).

Algunas estadísticas que se pueden calcular con los datos son:


xi = 1, 814; yi = 4, 403; yi = 1, 041, 419; xi = 192, 204; xi yi = 438, 848;
P P P 2 P 2 P

2
(xi − X)2 = x2i − nX = 27, 674.20;
P P

2
(yi − Y )2 = yi − nY = 72, 098.55; y
P P 2

(xi − X)(yi − Y ) = xi yi − nXY = 39, 495.9.


P P

Con lo anterior se pueden calcular las estimaciones de

(39495.9/27674.20)

## [1] 1.4

(4403/20-39495.9/27674.20*1814/20)

## [1] 91

Todos los calculos se pueden hacer en R para mejor precisión

10
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

xbar=mean(Datos$X)
SSx=sum((Datos$X-xbar)ˆ2)
ybar=mean(Datos$Y)
SSy=sum((Datos$Y-ybar)ˆ2)
SSxy=sum((Datos$Y-ybar)*(Datos$X-xbar))
beta1=SSxy/SSx
beta0=ybar-beta1*xbar
options(digits=5)
print (c(beta0, beta1))

## [1] 90.7053 1.4272

Las estimaciones son:

βb0 = 90.7053

βb1 = 1.4272

E(y;
b x) = 90.7053 + 1.4272x

Además, la interpretación es la siguiente

Al aumentar en un gramo el consumo de grasa por día, el total de colesterol en sangre promedio
aumenta en β1 = 1.4272 miligramos.

1.3.1.1. Propiedades de los estimadores obtenidos por el método de mínimos cuadrados


El método de mínimos cuadrados no requirió del uso de algún supuesto distribucional. Sin embargo, los
estimadores obtenidos tienen propiedades muy interesantes con sólo asumir:

I. E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.

Resultado 1.1. (Linealidad) Sean βb0 y βb1 los estimadores obtenidos por mínimos cuadrados para β0 y β1 .
Entonces, βb0 y βb1 son estimadores lineales, es decir, son combinaciones lineales de las variables aleatorias
y1 , ..., yn :
Pn Pn
βb0 = i=1 ki0 yi y βb1 = i=1 ki1 yi , (27)

donde ki0 y ki1 son constantes conocidas para i = 1, ..., n.


Pn
Demostración. Sea SSx = i=1 (xi − X)2 . De (21) tenemos que
Pn Pn n
i=1 (xi − X)(yi − Y) (xi − X)yi (xi − X)yi Pn
X
βb1 = Pn = Pi=1
n = = i=1 ki1 yi , (28)
i=1 (xi − X) i=1 (xi − X)
2 2 SSx
i=1

donde
xi − X
ki1 = . (29)
SSx

Además, de (19)

11
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

βb0 = Y − βb1 X
n n
X yi X
= −X ki1 yi
i=1
n i=1
n
1
X  
= yi − Xki1
i=1
n
Pn
= i=1 ki0 yi , (30)

donde
1 1 X(xi − X)
ki0 = − Xki1 = − . (31)
n n SSx

Resultado 1.2. (Estimadores insesgados) Consideremos el modelo de regresión lineal simple

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n. Entonces βb0 y βb1 , los estimadores
obtenidos por mínimos cuadrados para β0 y β1 , son estimadores insesgados. Es decir,

E(βb0 ) = β0 y E(βb1 ) = β1 .

Demostración. Usando Resultado 1.1, tenemos que


Pn
E(βb1 ) = E( i=1 ki1 yi )
Xn
= ki1 E(yi )
i=1
n
X
= ki1 (β0 + β1 xi )
i=1
n
X n
X
= β0 ki1 + β1 ki1 xi
i=1 i=1
n n
X xi − X X (xi − X)xi
= β0 + β1
i=1
SSx i=1
SSx
= β0 (0) + β1 (1) = β1 .

Además

Pn
E(βb0 ) = E( i=1 ki0 yi )
Xn
= ki0 E(yi )
i=1
n
X
= ki0 (β0 + β1 xi )
i=1
n
X n
X
= β0 ki0 + β1 k i0 x i
i=1 i=1
n  n
1 1
  
X X(xi − X) X X(xi − X)
= β0 − + β1 xi −
i=1
n SSx i=1
n SSx

12
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
! n
!
X X X X
= β0 1− (xi − X) + β1 X− xi (xi − X)
SSx i=1 SSx i=1
= β0 (1) + β1 (0) = β0 .

Resultado 1.3. (Varianzas y covarianzas) Consideremos el modelo de regresión lineal simple

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n. Entonces


Pn 2
i=1 xi
a. V(βb0 ) = σ 2
n SSx
σ2
b. V(βb1 ) =
SSx
−Xσ 2
c. Cov(βb0 , βb1 ) =
SSx

Demostración. Usaremos la siguiente propiedad de la covarianza de combinaciones lineales de variables


aleatorias.
Sean y1 , ..., yn variables aleatorias y {ai , bi ; i = 1, ..., n} constantes. Entonces
 
Xn X n Xn Xn
Cov  ai yi , bj yj  = ai bj Cov(yi , yj ).
i=1 j=1 i=1 j=1

Aplicando lo anterior al modelo de regresión lineal simple, donde V(yi ) = σ 2 y Cov(yi , yj ) = 0 ∀ i 6= j,


i, j = 1, ..., n, se tiene:
 
Xn n
X n
X n X
X n
Cov  ai yi , bj yj  = ai bi Cov(yi , yi ) + ai bj Cov(yi , yj )
i=1 j=1 i=1 i=1 j=1
j6=i
n
X
= σ2 ai bi . (32)
i=1

a.

V(βb0 ) = Cov(βb0 , βb0 )


Pn Pn
= Cov( i=1 ki0 yi , j=1 kj0 yj )
n
X
= σ2 ki20
i=1
n  2
X 1 X(xi − X)
=σ 2

i=1
n SSx
2
n
!
X 1 X(xi − X) X (xi − X)2
=σ 2
−2 +
i=1
n 2 n SSx SSx2
2
n n
!
1 X X X X
=σ 2
−2 (xi − X) + (xi − X)2
n n SSx i=1 SSx2 i=1

13
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2
!
1 X
=σ 2
+
n SSx
2 2
Pn 2 !
i=1 xi − nX + nX
=σ 2
n SSx
 Pn 2 
i=1 xi
= σ2
n SSx

b.

V(βb1 ) = Cov(βb1 , βb1 )


Pn Pn
= Cov( i=1 ki1 yi , j=1 kj1 yj )
n
X
=σ 2
ki21
i=1
n  2
X xi − X
= σ2
i=1
SSx
n
σ2 X 2
= 2 xi − X
SSx i=1
σ2
=
SSx

c.
Pn Pn
Cov(βb0 , βb1 ) = Cov( i=1 ki0 yi , j=1 kj1 yj )
n
X
= σ2 k i0 k i1
i=1
n 
1
 
X X(xi − X) xi − X
= σ2 −
i=1
n SSx SSx
Pn n
!
− X) i=1 (xi
X X
=σ 2
− (xi − X)2
n SSx SSx2 i=1
 
X
=σ −
2
SSx

Resultado 1.4. (Teorema Gauss–Markov) Consideremos el modelo de regresión lineal simple

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n. Supongamos que el interés es estimar

θ = Z 0 β0 + Z 1 β1 ,

donde Z0 y Z1 son constantes conocidas. Entonces θb = Z0 βb0 + Z1 βb1 , con βb0 y βb1 los estimadores obtenidos
por mínimos cuadrados cumple:

i. θb es un estimador lineal, es decir, se puede expresar como una combinación lineal de y1 , ..., yn .
ii. θb es un estimador insesgado, es decir, E(θ)
b = θ.

14
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

iii. Si θe es cualquier estimador lineal e insesgado para θ, entonces


V(θ)
b ≤ V(θ).
e

Es decir, θb es el estimador lineal insesgado de mínima varianza de θ (θb es el MELI o BLUE de θ).

Demostración.

i. Usando Resultado 1.1 se tiene que:


θb = Z0 βb0 + Z1 βb1
X n n
X
= Z0 ki0 yi + Z1 ki1 yi
i=1 i=1
n
X
= (Z0 ki0 + Z1 ki1 )yi
i=1
n
X
= k i2 y i (33)
i=1

De lo anterior, θb es un estimador lineal.


ii. Usando Resultado 1.2 se tiene que:
E(θ)
b = E(Z0 βb0 + Z1 βb1 )

= Z0 E(βb0 ) + Z1 E(βb1 )
= Z 0 β0 + Z 1 β1 = θ (34)

De lo anterior, θb es un estimador insesgado para θ.


Nota. El resultado anterior implica una restricción en los valores ki2 que se obtuvieron en el inciso i),
pues
E(θ)
b = Z 0 β 0 + Z 1 β1
y
n
X
b = E( ki yi )
E(θ) 2
i=1
n
X
= ki2 E(yi )
i=1
Xn
= ki2 (β0 + β1 xi )
i=1
n
X n
X
= β0 ki2 + β1 ki2 xi
i=1 i=1

De donde
n
X n
X
ki2 = Z0 y ki2 xi = Z1 . (35)
i=1 i=1
Además se tiene que
n
X n
X
V(θ)
b = Cov( ki yi ,
2 k j 2 yj )
i=1 j=1
n
X
=σ 2
ki22 (36)
i=1

15
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

iii. Consideremos que θe es un estimador lineal e insesgado de θ. Entonces


a.
n
X
θe = ki3 yi ,
i=1

donde ki3 , i = 1, ..., n, son constantes.


b.
E(θ)
e = θ,

es decir:

E(θ)
e = Z 0 β0 + Z 1 β1
y
n
X
E(θ)
e = E( ki3 yi )
i=1
n
X
= ki3 E(yi )
i=1
Xn
= ki3 (β0 + β1 xi )
i=1
n
X n
X
= β0 ki3 + β1 k i3 x i
i=1 i=1

De donde
n
X n
X
ki3 = Z0 y k i3 x i = Z 1 . (37)
i=1 i=1

Además se tiene que


n
X n
X
V(θ)
e = Cov( ki yi ,
3 kj3 yj )
i=1 j=1
n
X
= σ 2 ki23 (38)
i=1

Por otra parte, notemos que siempre podemos encontrar un valor di ∈ R tal que ki3 = ki2 + di , i =
1, ..., n. Considerando esto en (37)
n
X n
X n
X n
X
ki3 = (ki2 + di ) = Z0 y k i3 x i = (ki2 + di )xi = Z1 , (39)
i=1 i=1 i=1 i=1

además, usando (35) en lo anterior se tiene que


n
X n
X
di = 0 y di xi = 0. (40)
i=1 i=1

Usando que ki3 = ki2 + di , i = 1, ..., n, en (38)

n
X
V(θ)
e = σ2 ki23
i=1
n
X
= σ2 (ki2 + di )2
i=1

16
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
=σ 2
(ki22 + 2di ki2 + d2i )
i=1
n
X n
X n
X
= σ2 ki22 + 2σ 2 di ki2 + σ 2 d2i
i=1 i=1 i=1
n
X n
X
= V(θ)
b + 2σ 2 di ki + σ 2 d2
2 i (41)
i=1 i=1

La última igualdad sigue de (36). A partir de esto y para demostrar que V(θ)
b ≤ V(θ),
e basta demostrar
que
X n Xn
2σ 2 di ki2 + σ 2 d2i ≥ 0
i=1 i=1
Pn
Observemos que σ 2 2
i=1 di ≥ 0, además
n
X n
X
di ki2 = di (Z0 ki0 + Z1 ki1 )
(33)
i=1 i=1
n n
1
   
X X(xi − X) X xi − X
= Z0 di − + Z1 di
(31,29)
i=1
n SSx i=1
SSx
=0
(40)

Por lo tanto,
V(θ)
b ≤ V(θ).
e

Nota. θb es el único cuya varianza es V(θ),b pues si θe es diferente de θ,


b entonces al menos una di 6= 0 y
Pn 2
por (41), V(θ) = V(θ) + σ
e b 2
i=1 di , es decir, V(θ) < V(θ).
b e

Resultado 1.5. (Corolario. Teorema Gauss–Markov) Consideremos el modelo de regresión lineal simple

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.

i. βb0 es el MELI de β0 .

ii. βb1 es el MELI de β1 .


iii. βb0 + βb1 x es el MELI de E(y; x), con x un valor fijo. Además

1 (x − X)2
 
V(βb0 + βb1 x) = σ 2 + . (42)
n SSx

Demostración.

i. Basta considerar el Resultado 1.4 con Z0 = 1 y Z1 = 0.

ii. Basta considerar el Resultado 1.4 con Z0 = 0 y Z1 = 1.

17
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

iii. Basta considerar el Resultado 1.4 con Z0 = 1 y Z1 = x. Además

V(θ)
b = V(Z0 βb0 + Z1 βb1 )

= Z02 V(βb0 ) + Z12 V(βb1 ) + 2Z0 Z1 Cov(βb0 , βb1 )


 Pn 2   2 
−Xσ 2
 
i=1 xi σ
= Z0 σ
2 2
+ Z1 2
+ 2Z0 Z1
n SSx SSx SSx
2
!
SSx + nX
 2 
−Xσ 2
 
σ
= Z02 σ 2 + Z12 + 2Z0 Z1
n SSx SSx SSx
2
!
σ2 SSx + nX
= Z12 + Z02 − 2Z0 Z1 X
SSx n
2
!
Z02 Z12 + Z02 X − 2Z0 Z1 X
=σ 2
+
n SSx
(Z1 − Z0 X)2
 2 
Z0
= σ2 + . (43)
n SSx

Por lo que

1 (x − X)2
 
V(βb0 + βb1 x) = σ 2 + . (44)
n SSx

Hasta este momento ya hemos encontrado los estimadores de β0 y β1 , sin embargo, aún sería necesario
estimar σ 2 para poder dar estimaciones de las varianzas.

Resultado 1.6. (Estimación insesgada de σ 2 ) Consideremos el modelo de regresión lineal simple

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.

i. ! ! !
n
X n
X n
X
E e2i =E (yi − (βb0 + βb1 xi ))2 =E (yi − ybi )2 = (n − 2)σ 2 ,
i=1 i=1 i=1

con ybi = βb0 + βb1 xi .


ii. Un estimador insesgado de σ 2 es: Pn
i=1 (yi− ybi )2
b2 =
σ .
n−2

Demostración. Primero observemos los siguientes 4 aspectos:

a. E(b
yi ) = E(βb0 + βb1 xi ) = β0 + β1 xi = E(yi ).
b. V(yi − ybi ) = E([yi − ybi ]2 ) − E2 (yi − ybi ) = E([yi − ybi ]2 ).

c. ybi = βb0 + βb1 xi = (Y − X βb1 ) + βb1 xi = Y + βb1 (xi − X).

18
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

d.
V(yi − Y ) = V [yi − (y1 /n + ... + yi /n + ... + yn /n)]
= V [−(y1 /n + ... + (1/n − 1)yi + ... + yn /n)]
= V [y1 /n + ... + (1/n − 1)yi + ... + yn /n]
= σ 2 (n − 1)(1/n)2 + (1/n − 1)2
 

n − 1 + (1 − n)2
 
= σ2
n2
n−1
 
= σ2 . (45)
n

i. ! !
n
X n
X
E e2i =E (yi − ybi ) 2

i=1 i=1
n
X
= E (yi − ybi )2
 
i=1
n
X
= V [yi − ybi ]
b
i=1
n
X  
= V yi − Y − β1 (xi − X)
b
c | {z } | {z }
i=1
n h
X i
= V(yi − Y ) + V(βb1 (xi − X)) − 2Cov(yi − Y , βb1 (xi − X))
i=1
n
X n
X n
X
= V(yi − Y ) + (xi − X)2 V(βb1 ) − 2 (xi − X)Cov(yi − Y , βb1 )
i=1 i=1 i=1
n n
n−1
   X X
=n σ 2 + V(βb1 ) (xi − X)2 − 2 Cov((yi − Y )(xi − X), βb1 )
d n i=1 i=1
n
!
X
=σ (n − 1) + V(βb1 ) SSx − 2Cov
2
(yi − Y )(xi − X), βb1
i=1
 n
X

 (yi − Y )(xi − X) 
 i=1
=σ (n − 1) + V(β1 ) SSx − 2 SSx Cov 
2

b , β1 
b

 SSx 

 
=σ 2 (n − 1) + V(βb1 ) SSx − 2 SSx Cov βb1 , βb1

=σ 2 (n − 1) − V(βb1 ) SSx
 2 
σ
= σ 2 (n − 1) − SSx
(1.3) SSx
=σ 2 (n − 2).

19
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

ii. Este resultado es directo de i), pues


 Pn 2

i=1 ei
E σ 2
=E

n−2
b
n
!
1 X
= E 2
ei
n−2 i=1
1
= σ 2 (n − 2) = σ 2 .
n−2

Resumiendo, si θ = Z0 β0 + Z1 β1 es el parámetro de interés, entonces el MELI es θb = Z0 βb0 + Z1 βb1 , cuya


varianza es

Z02 (Z1 − Z0 X)2


 
V(θ)
b = σ2 + .
n SSx

Un estimador insesgado de V(θ)


b se obtiene usando el resultado anterior:

(Z1 − Z0 X)2
 2 
Z0
V(θ) = σ
b b b 2
+ , (46)
n SSx
con Pn
i=1 (yi
− ybi )2
b =
σ 2
.
n−2

1.3.2. Método de máxima verosimilitud

Para poder usar este método es necesario considerar el segundo conjunto de supuestos en donde se especifica
una distribución a los errores en el modelo. Es decir, consideremos el modelo de regresión lineal simple

yi = β 0 + β 1 xi + ε i , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


Recordemos que lo anterior es equivalente a: y1 , y2 , ..., yn son v.a. independientes tal que yi ∼ N (β0 +β1 xi , σ 2 ),
i = 1, ..., n.
Con este conjunto de supuestos en el modelo, se suele decir que se habla del modelo de regresión lineal
simple normal.
Notemos que considerando estos supuestos yi tiene una distribución N (µi , σ 2 ), µi = β0 + β1 xi , donde hay
tres parámetros desconocidos. El objetivo es encontrar los valores de β0 , β1 y σ 2 que maximizan la función
de verosimilitud (que hacen más verosímil observar el conjunto de valores y1 , y2 , ..., yn ).
La función de verosimilitud en este caso es

L(β0 , β1 , σ 2 ; y1 , y2 , ..., yn ) = f (y1 , y2 , ..., yn ; β0 , β1 , σ 2 )


Yn
= fi (yi ; β0 , β1 , σ 2 )
i=1
n
Y 1 1 2
= √ e− 2σ2 (yi −µi )
i=1 2πσ 2
n
Y 1 1 2
= √ e− 2σ2 (yi −β0 −β1 xi )
i=1 2πσ 2

20
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1 − 2σ12
Pn
(yi −β0 −β1 xi )2
= e i=1 (47)
(2πσ )
2 n/2

La función de logverosimilitud es
n
n 1 X
ln L = ln L(β0 , β1 , σ 2 ; y1 , y2 , ..., yn ) = − ln(2πσ 2 ) − 2 (yi − β0 − β1 xi )2 (48)
2 2σ i=1

Para encontrar β0 , β1 y σ 2 , se puede maximizar ln L. Para esto derivamos con respecto a cada parámetro y
resolvemos el sistema que se obtiene al igualar las derivadas a cero.
Derivadas:
∂ ln L 1 Pn
= − 2 i=1 2(yi − (β0 + β1 xi ))(−1) (49)
∂β0 2σ
∂ ln L 1 Pn
= − 2 i=1 2(yi − (β0 + β1 xi ))(−xi ) (50)
∂β1 2σ
n
∂ ln L n 1 X
= − + (yi − β0 − β1 xi )2 (51)
∂σ 2 2σ 2 2(σ 2 )2 i=1

Igualando a cero y notando que σ 2 es una constante positiva:


∂ ln L Pn
= 0 ⇐⇒ i=1 (yi − (β0 + β1 xi )) = 0 (52)
∂β0
∂ ln L Pn
= 0 ⇐⇒ i=1 (yi − (β0 + β1 xi ))(xi ) = 0 (53)
∂β1
n
∂ ln L n 1 X
= 0 ⇐⇒ = (yi − β0 − β1 xi )2
∂σ 2 2σ 2 2(σ 2 )2 i=1
Pn
(yi − β0 − β1 xi )2
⇐⇒ σ 2 = i=1 (54)
n

Notar que buscamos resolver para β0 y β1 las ecuaciones (52) y (53), esto es equivalente a lo que cumplían
βb0 y βb1 con las ecuaciones normales en (15) y (16). Por lo que la solución es la misma. Notar también que
(54) hace referencia a una función que sólo depende de la solución que se obtendría para β0 y β1 .
A partir de lo anterior, se concluye que βb0 y βb1 son los mismos estimadores que obtuvimos por el método
de mínimos cuadrados:

βb0 = Y − βb1 X (55)


Pn
i=1 (xi − X)(yi − Y)
βb1 = Pn (56)
i=1 (xi − X)
2

Por otro lado, el estimador máximo verosímil de σ 2 es


Pn
i=1 (yi − βb0 − βb1 xi )2
σ
bM2
V = . (57)
n
Este estimador no es insesgado y en la práctica muchas veces se presenta la estimación obtenida con el
insesgado, es decir, se usa
Pn
i=1 (yi − βb0 − βb1 xi )2
b2 =
σ . (58)
n−2

21
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1.3.2.1. Propiedades de los estimadores obtenidos por el método máxima verosimilitud


Dado que para la obtención de los estimadores βb0 y βb1 bajo el método de máxima verosimilitud se requiere
que ε1 , ε2 , ..., εn sean v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ); entonces se cumplen los supuestos de todos
los resultados asociados a los estimadores obtenidos por mínimos cuadrados; en particular, se cumple el
Teorema Gauss-Markov.
Por otro lado, el supuesto de normalidad es mucho más estricto y también servirá para obtener propiedades
adicionales. Comenzaremos con la extensión del conjunto de estimadores para el cual βb0 y βb1 tendrán la
menor varianza, este se extenderá a todos los estimadores insesgados. Para demostrar esto requerimos la
siguiente definición alternativa de la familia exponencial.
Definición 1.1. (Familia exponencial, dimensión 1)
Sea Y = (y1 , ..., yn ) un vector aleatorio. Se dice que Y tiene una distribución que pertenece a la familia
exponencial de un parámetro γ de dimensión 1 si
f (Y ; γ) = a(γ)b(Y )ec(γ)d(Y ) ∀ Y ∈ Rn , (59)
con a(γ) ≥ 0, b(Y ) ≥ 0, así como c(γ) y d(Y ) funciones en los reales que sólo dependen de los argumentos
indicados o constantes conocidas.
Definición 1.2. (Familia exponencial, dimensión l)
Sea Y = (y1 , ..., yn ) un vector aleatorio. Se dice que Y tiene una distribución que pertenece a la familia
exponencial de l parámetros, γ = (γ1 , ..., γl ), si
Pl
c (γ)dj (Y )
f (Y ; γ) = a(γ)b(Y )e j=1 j ∀ Y ∈ Rn , (60)
con a(γ) ≥ 0, b(Y ) ≥ 0, así como cj (γ) y dj (Y ), j = 1, ..., l, funciones en los reales que sólo dependen de
los argumentos indicados o constantes conocidas.

Además enunciaremos los teoremas clásicos vistos en el curso de Inferencia Estadística que usaremos.
Resultado 1.7. (Estadísticas suficientes en la familia exponencial)
Sea Y = (y1 , ..., yn ) un vector aleatorio cuya función de densidad o probabilidad pertenece a la familia
exponencial de l parámetros. Entonces,
T (y1 , ..., yn ) = (d1 (Y ), d2 (Y ), ..., dl (Y )) , (61)
es una estadística suficiente y completa para γ = (γ1 , ..., γl ).
Resultado 1.8. (Teorema de Lehmann-Scheffé)
Sea f (Y ; γ) la función de densidad o probabilidad del vector Y y sea T (Y ) una estadística suficiente y
completa para γ. Supongamos que el interés es τ (γ), una función unidimensional de los parámetros. Si
T ∗ (Y ) es una estadística que es función de T (Y ) tal que E(T ∗ (Y )) = τ (γ), entonces T ∗ (Y ) es el UMVUE
de τ (γ).

Recordar que el UMVUE es el estimador insesgado de mínima varianza (el mejor dentro del conjunto de
estimadores insesgados, pues tiene el menor ECM).
Resultado 1.9. (UMVUE’s de β0 , β1 y σ 2 ) Consideremos el modelo de regresión lineal simple
yi = β0 + β1 xi + εi , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


Pn
i=1 (xi − X)(yi − Y )
Pn
b0 −βb1 xi )2
(yi −β
Entonces β0 = Y − β1 X, β1 =
b b b Pn y σ 2
= i=1
son los UMVUE’s de β0 ,
i=1 (xi − X)
2
b n−2

β1 y σ 2 , respectivamente.

22
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Demostración. Comenzaremos demostrando que al considerar Y = (y1 , ..., yn ), su densidad conjunta per-
tence a la familia exponencial, donde γ = (β0 , β1 , σ 2 ). Partiendo de lo desarrollado en (47).

n
1 − 2σ12
Pn
(yi −(β0 +β1 xi ))2
I(yi ∈ R)
Y
f (y1 , y2 , ..., yn ; β0 , β1 , σ 2 ) = e i=1
(2πσ )
2 n/2
i=1
| {z }
b(Y )
1 1
Pn
(yi2 −2yi (β0 +β1 xi )+(β0 +β1 xi )2 )
= e− 2σ2 i=1 b(Y )
(2πσ 2 )n/2

1
= e− 2σ2 [ yi (β0 +β1 xi )]
Pn Pn Pn
1
y 2 −2 − 2σ12 (β0 +β1 xi )2
i=1 i i=1 e i=1 b(Y )
(2πσ )
2 n/2
| {z }
a(γ)
− 2σ12 [ yi xi )]
Pn Pn Pn
yi2 −2β0 yi −2β1
=e i=1 i=1 i=1 a(γ)b(Y )

= e[− 2σ2 yi xi )]
Pn β
Pn β
Pn
1
y 2 + σ02 yi + σ12
i=1 i i=1 i=1 a(γ)b(Y ). (62)

De (62) se identifica:

1
Pn 2
e− 2σ2 i=1 (β0 +β1 xi )
a(γ) =
(2πσ 2 )n/2
n
I(yi ∈ R)
Y
b(Y ) =
i=1
n
1 X
c1 (γ) = − 2 , d1 (Y ) = yi2
2σ i=1
n
β0 X
c2 (γ) = , d2 (Y ) = yi
σ2 i=1
n
β1 X
c3 (γ) = , d3 (Y ) = yi xi .
σ2 i=1

Por Resultado 1.2 se concluye que Y = (y1 , ..., yn ) tiene una distribución que pertenece a la familia expo-
nencial de tres parámetros γ = (β0 , β1 , σ 2 ). Además por Resultado 1.7 se tiene que
n n n
!
X X X
T (y1 , ..., yn ) = 2
yi , yi , yi xi ,
i=1 i=1 i=1

es una estadística suficiente y completa para γ.


El resto sigue de aplicar el Resultado 1.8. Por ejemplo, sabemos que βb1 es un estimador insesgado de β1 , ver
Resultado 1.2. Además !
Pn n n
i=1 (xi − X)yi
X X
β1 = Pn
b = f1 yi , yi xi .
i=1 (xi − X)
2
i=1 i=1

Es decir, se cumplen los supuestos del Teorema de Lehmann-Scheffé y βb1 es el UMVUE de β1 .


Resultado 1.10. (UMVUE de θ = Z0 β0 + Z1 β1 ) Consideremos el modelo de regresión lineal simple normal

yi = β0 + β1 xi + εi , i = 1, ..., n,

23
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


Supongamos que el interés es estimar
θ = Z 0 β0 + Z 1 β1 ,
donde Z0 y Z1 son constantes conocidas. Entonces θb = Z0 βb0 + Z1 βb1 , con βb0 y βb1 los estimadores obtenidos
por mínimos cuadrados (máxima verosimilitud) es el UMVUE de θ = Z0 β0 + Z1 β1 .
Resultado 1.11. (Normalidad de θ)
b Consideremos el modelo de regresión lineal simple normal

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


Supongamos que el interés es estimar
θ = Z 0 β0 + Z 1 β 1 ,
donde Z0 y Z1 son constantes conocidas. Entonces θb = Z0 βb0 + Z1 βb1 , con βb0 y βb1 los estimadores obtenidos
por mínimos cuadrados (máxima verosimilitud), cumple:

Z02 (Z1 − Z0 X)2


  
θb = Z0 βb0 + Z1 βb1 ∼ N Z 0 β0 + Z 1 β1 , σ 2 + . (63)
n SSx

Demostración. Usaremos la siguiente propiedad de la distribución de combinaciones lineales de variables


aleatorias con distribución Normal.
Sean y1 , ..., yn variables aleatorias independientes tal que yi ∼ N (µi , σi2 ), i = 1, ..., n, y {ai ; i = 1, ..., n}
constantes. Entonces !
Xn Xn n
X
2 2
ai yi ∼ N ai µi , ai σi .
i=1 i=1 i=1

En el caso particular del modelo de regresión y usando (33)


n
X
θb = ki2 yi .
i=1

De donde se obtiene la normalidad. Además, por (34) y (43), se obtienen la esperanza y varianza de θb que
definen los parámetros de la distribución Normal.

Otras propiedades que podemos obtener se asocian directamente a la distribución normal multivariada. Las
demostraciones de los resultados que se enuncian a continuación se pueden encontrar, por ejemplo, para
el caso de la regresión lineal simple normal en Mood et al. (1974, Introduction to the Theory of Statistics,
p. 488) y para el caso más genérico en Seber y Lee (2003, Linear Regression Analysis, Sección 2 (Teoremas
2.5 y 2.9) y Teorema 3.5).
Resultado 1.12. (Distribuciones conjuntas de βb0 , βb1 y (n − 2)b
σ 2 /σ 2 .)
Consideremos el modelo de regresión lineal simple normal

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).

Pn β0 y β1 los 2estimadores obtenidos por mínimos cuadrados (máxima verosimilitud), y (n − 2)b


Sean σ 2 /σ 2 =
b b
(yi −β
b0 −βb1 xi )
i=1
σ2 , entonces se cumple:

i. Pn
σ2 2
  
β0 i=1 xi /n −X
(βb0 , βb1 ) ∼ N2 , .
β1 SSx −X 1

24
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

ii. Pn
i=1 (yi − βb0 − βb1 xi )2
(n − 2)b
σ 2 /σ 2 = ∼ χ2n−2 . (64)
σ2

iii. (βb0 , βb1 ) es independiente de (n − 2)b


σ 2 /σ 2 .
En particular θb = Z0 βb0 + Z1 βb1 es independiente de (n − 2)b
σ 2 /σ 2 .

1.4. Intervalos de confianza y pruebas t


En este apartado revisaremos los intervalos de confianza y pruebas de hipótesis asociados a θ = Z0 β0 + Z1 β1 ,
donde Z0 y Z1 son constantes conocidas. Para esto se considera el modelo de regresión lineal simple normal
yi = β0 + β1 xi + εi , i = 1, ..., n,
donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).
Tanto los intervalos de confianza como las pruebas de hipótesis se relacionan con la distribución t.

1.4.1. Intervalos de confianza

En el caso de los intervalos de confianza, usaremos el método de la cantidad pivotal. Para esto mantendremos
la notación usada en Resultado 1.8.
Definición 1.3. (Cantidad pivotal)
Sea f (Y ; γ) la función de densidad o probabilidad del vector Y , donde γ es un vector de parámetros. Su-
pongamos que el interés es θ = τ (γ), una función unidimensional de los parámetros.
Se dice que Q es una cantidad pivotal de θ = τ (γ) si:

i. Q es una función que sólo depende de las variables aleatorias y de θ, es decir, Q = q(y1 , ..., yn , θ). Esta
función sólo depende de parámetros desconocidos a través de θ.
ii. Q tiene una distribución que no depende de γ.
Resultado 1.13. (Intervalos de confianza para θ)
Consideremos el modelo de regresión lineal simple normal
yi = β0 + β1 xi + εi , i = 1, ..., n,
donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).
Supongamos que el interés es estimar
θ = Z 0 β0 + Z 1 β 1 ,
donde Z0 y Z1 son constantes conocidas. Entonces:

i.
θb − θ
Q= q , (65)
V(θ)
b b

es una cantidad pivotal para θ, donde θb = Z0 βb0 + Z1 βb1 , con βb0 y βb1 los estimadores obtenidos por
mínimos cuadrados (máxima verosimilitud), y
(Z1 − Z0 X)2
 2 
Z0
V( b =σ
b θ) b2 + ,
n SSx
con Pn
(yi − ybi )2
b = i=1
σ 2
.
n−2

25
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

ii. Un intervalo al (1 − α) × 100 % de confianza para θ es


 q q 
θ − tn−2,1−α/2 V(θ), θ + tn−2,1−α/2 V(θ) .
b b b b b b

Demostración.

Z02 (Z1 − Z0 X)2


  
i. Por Resultado 1.11 sabemos que θb tiene distribución N Z0 β0 + Z1 β1 , σ 2
+ .
n SSx
Podemos estandarizar, es decir,

θb − (Z0 β0 + Z1 β1 )
s  ∼ N (0, 1).
(Z1 − Z0 X)2
 2
Z0
σ 2 +
n SSx
Además usando Resultado 1.12, incisos ii) y iii), tenemos que

θb − (Z0 β0 + Z1 β1 )
s
(Z1 − Z0 X)2
 2 
Z0
σ2 +
n SSx θb − θ
r =s   = Q ∼ tn−2 , (66)
(Z
Pn 2 2
1 (y i −β 0 − β1 x i )2
Z 1 − Z 0 X)
0
+
b b
n−2
i=1
σ2 b2
σ
n SSx

de donde Q es una función de y1 , ..., yn y θ, cuya distribución no depende de ningún parámetro desco-
nocido, por lo que es una cantidad pivotal para θ.

ii. Vamos a usar Q y "pivotear". Sea (1 − α) × 100 % el nivel de confianza deseado de manera que t1 y t2
son tal que:

P (t1 ≤ Q ≤ t2 ) = 1 − α.
Como sabemos que Q ∼ tn−2 , entonces podemos elegir t1 = −tn−2,1−α/2 y t2 = tn−2,1−α/2 . Esto
asegurará obtener el intervalo de menor longitud. Ahora hay que "pivotear", es decir, despejar θ de las
desigualdades siguientes de manera que quede contenido entre dos estadísticas:

θb − θ
t1 ≤ q ≤ t2
V(
b θ)
b
q q
t1 V( b ≤
b θ) θb − θ ≤ t2 V(
b θ)
b
q q
t1 V( b − θb ≤
b θ) −θ ≤ t2 V( b − θb
b θ)
q q
−t1 V( b + θb ≥
b θ) θ ≥−t2 V( b + θb
b θ)

De esto y sustituyendo t1 y t2 se obtiene:


 q q 
θb − tn−2,1−α/2 V(b θ),
b θb + tn−2,1−α/2 V(
b θ)
b .

A partir del resultado anterior se obtienen los siguientes intervalos de confianza para casos particulares:

26
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i. Para β0 , con Z0 = 1 y Z1 = 0, el intervalo de confianza al (1 − α) × 100 % es


" s  Pn s  Pn #
2
x2i

i=1 xi c0 + tn−2,1−α/2 i=1
c0 − tn−2,1−α/2
β b2
σ , β b2
σ .
n SSx n SSx

ii. Para β1 , con Z0 = 0 y Z1 = 1, el intervalo de confianza al (1 − α) × 100 % es


" s s #
1 1
  
c1 − tn−2,1−α/2
β b2
σ , c1 + tn−2,1−α/2
β b2
σ .
SSx SSx

iii. Para E(y; x) = β0 + β1 x, con x un valor fijo. Aquí Z0 = 1 y Z1 = x y el intervalo de confianza al


(1 − α) × 100 % es

 s s 
1 (x − X)2 1 (x − X)2 
   
c0 + β
β c1 x − tn−2,1−α/2 b2
σ + , c0 + β
β c1 x + tn−2,1−α/2 b2
σ + .
n SSx n SSx

Recordar que si τ (θ) es una función creciente y [T1 (y1 , ..., yn ), T2 (y1 , ..., yn )] es un intervalo de confianza
para θ, entonces
[τ (T1 (y1 , ..., yn )), τ (T2 (y1 , ..., yn ))]
es un intervalo de confianza para τ (θ).
Algo similar a lo anterior aplica para funciones monótonas τ (θ).

1.4.2. Pruebas t

Recordar que en el caso de pruebas de hipótesis, los investigadores o quienes realizan el estudio hacen
preguntas que nosotros debemos expresar, cuando es posible, en términos de los parámetros en el modelo.
Supongamos que el interés es contrastar

H0 : θ = Z0 β0 + Z1 β1 = c vs Ha : θ = Z0 β0 + Z1 β1 6= c,

donde c, Z0 y Z1 son constantes conocidas.


En las pruebas de hipótesis manejamos dos posibles errores:

i. Error tipo 1. Rechazar H0 dado que H0 es cierta.


ii. Error tipo 2. No rechazar H0 dado que H0 es falsa (Ha es cierta).

Hay dos probabilidades asociadas a estos errores, sin embargo, en la práctica sólo se procede a encontrar
regiones de rechazo que controlen una de esas probabilidades. Esa probabilidad es α (la significancia de la
prueba) y se refiere a la probabilidad de cometer el error tipo 1.
Notar que el error que no se controla es el 2 y ese se puede cometer cuando no se rechaza H0 , por esa razón
se sugiere tener cuidado con la interpretación en ese caso y, de ser posible, se sugiere poner la afirmación
de interés en la hipótesis alternativa, pues en caso de rechazar H0 , sí podemos controlar el error tipo 1 y
concluir Ha .

27
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Resultado 1.14. (Prueba t de dos colas para θ)


Consideremos el modelo de regresión lineal simple normal

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


El interés es contrastar

H0 : θ = Z 0 β 0 + Z 1 β 1 = c vs Ha : θ = Z0 β0 + Z1 β1 6= c,

donde c, Z0 y Z1 son constantes conocidas. Entonces una prueba de hipótesis al nivel α tiene como regla de
decisión:

Rechazar H0 si |t∗ | > tn−2,1− α2 ,

donde la estadística de prueba es


θb − c
t∗ = q ,
V(θ)
b b

con θb = Z0 βb0 + Z1 βb1 y


Z02 (Z1 − Z0 X)2
 
V( b =σ
b θ) b2 + .
n SSx

Demostración. Bajo H0 : θ = Z0 β0 + Z1 β1 = c, tenemos aprovechando (66) que

θb − c
t∗ = q ∼ tn−2 .
V(
b θ)
b

Considerando la región de rechazo:

C : {y1 , ..., yn : |t∗ | > k},


tenemos que al fijar un nivel de significancia α, k debe ser tal que

P (Rechazar H0 |H0 es cierta) = α.


es decir,
P (|t∗ | > k|H0 es cierta) = α,
Usando que t∗ ∼ tn−2 cuando H0 es cierta, se traduce a elegir k = tn−2,1− α2 . Lo que lleva a

Rechazar H0 si |t∗ | > tn−2,1− α2 .

Resultado 1.15. (Prueba t una cola para θ)


Consideremos el modelo de regresión lineal simple normal

yi = β0 + β1 xi + εi , i = 1, ..., n,

donde ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).


El interés es contrastar

28
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i.
H0 : θ = Z0 β0 + Z1 β1 ≤ c vs Ha : θ = Z0 β0 + Z1 β1 > c,

ii.
H0 : θ = Z0 β0 + Z1 β1 ≥ c vs Ha : θ = Z0 β0 + Z1 β1 < c,

donde c, Z0 y Z1 son constantes conocidas. Entonces una prueba de hipótesis al nivel α tiene como regla de
decisión:

i. Rechazar H0 si t∗ > tn−2,1−α ,


ii. Rechazar H0 si t∗ < tn−2,α = −tn−2,1−α ,

donde la estadística de prueba es


θb − c
t∗ = q ,
V(
b θ)
b

con θb = Z0 βb0 + Z1 βb1 y


Z02 (Z1 − Z0 X)2
 
V( b =σ
b θ) b2 + .
n SSx

Algunas consideraciones sobre pruebas de hipótesis.

i. Las regiones de rechazo que se proponen en los resultados anteriores se pueden obtener si se aplica el
método del cociente de verosimilitud generalizado.
ii. Recomendación. Cuando no se rechaza H0 se sugiere interpretar como sigue: "No hay suficiente evi-
dencia en los datos para concluir que θ 6= c (θ < c, θ > c) con una significancia α."
iii. El uso del p − value. Recordar que la regla de decisión para toda prueba de hipótesis basada en el
p-value es:

Rechazar H0 si p − value < α.

iv. Si τ (θ) es una función monótona y se desea constrastar

H0 : τ (θ) = c vs Ha : τ (θ) 6= c,
se puede usar la prueba de hipótesis antes revisada para:

H0 : θ = τ −1 (τ (θ)) = τ −1 (c) vs Ha : θ = τ −1 (τ (θ)) 6= τ −1 (c).

1.4.3. Método delta (propiedades asintóticas de los EMV)

Una de las ventajas de usar el método de máxima verosimilitud es que de forma asintótica se puede usar la
siguiente aproximación sobre la distribución de los estimadores (βb0 , βb1 ):
Pn
b2 2
  
. β0 σ i=1 xi /n −X
(βb0 , βb1 ) ∼ N2 , .
β1 SSx −X 1

Además, también se pueden obtener aproximaciones asintóticas para los estimadores máximo verosímiles de
g(β0 , β1 ), donde
 g() es una función
 unidimensional y diferenciable de (β0 , β1 ) tal que h(β0 , β1 ) 6= (0, 0), con
b b
∂g(β0 ,β1 ) ∂g(β0 ,β1 )
h(β0 , β1 ) = ∂β0 , ∂β1 . En este caso

29
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Pn
b2 x2i /n
  
. σ −X
g(βb0 , βb1 ) ∼ N g(β0 , β1 ), [h(βb0 , βb1 )]t i=1 [h(βb0 , βb1 )] .
SSx −X 1

Aprovechando lo anterior se pueden obtener pruebas de hipótesis e intervalos de confianza. Por ejemplo, un
intervalo al (1 − α) × 100 % de confianza para g(β0 , β1 ) es
s Pn
b2 x2i /n

σ −X
g(βb0 , βb1 ) ± z1−α/2 [h(βb0 , βb1 )]t i=1 [h(βb0 , βb1 )].
SSx −X 1

Se recomienda usar este procedimiento sólo cuando el tamaño de muestra sea grande.

Ejemplo 1
Una compañía manufactura equipo de refrigeración, así como partes de reemplazo. En el pasado, una de las
partes de reemplazo ha sido producida periódicamente en lotes de varios tamaños. En el momento en el que
la compañía realiza un estudio de costos, sus directivos tienen la pregunta de cuál sería el tamaño óptimo
de los lotes que se debería producir de esta parte de reemplazo. La producción de esta parte de reemplazo
incluye la definición y puesta en marcha del proceso de producción (lo que se debe realizar sin importar el
tamaño del lote), el uso de máquinas particulares y operaciones de ensamblado. Una forma de estudiar el
tamaño óptimo fue a través de la relación entre el tamaño del lote y las horas de trabajo total requeridas
para su producción. Para esto último se tiene un registro de las últimas 25 producciones en donde se midió
el número de horas de producción y el tamaño del lote. Las condiciones de producción se consideran estables
dentro de los 6 meses en las cuales las 25 producciones se llevaron a cabo y se espera que continúen así en
los próximos tres años.
Es decir, se tiene lo siguiente
X = tamaño del lote.
Y = horas de trabajo.
Los datos son:

#Importando los datos


library(ALSM)

Datos=TolucaCompany
head(Datos)

## x y
## 1 80 399
## 2 30 121
## 3 50 221
## 4 90 376
## 5 70 361
## 6 60 224

str(Datos)

## ’data.frame’: 25 obs. of 2 variables:


## $ x: int 80 30 50 90 70 60 120 80 100 50 ...
## $ y: int 399 121 221 376 361 224 546 352 353 157 ...

30
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

par(mar=c(4,4,1,1))
plot(y~x, data=Datos, cex=.9, cex.axis=.7, cex.lab=.8)
500
400
y

300
200
100

20 40 60 80 100 120

Figura 6: Diagrama de dispersión de las variables x y y.

options(digits=10)
xbar=mean(Datos$x)
SSx=sum((Datos$x-xbar)ˆ2)
ybar=mean(Datos$y)
SSy=sum((Datos$y-ybar)ˆ2)
SSxy=sum((Datos$y-ybar)*(Datos$x-xbar))
(beta1=SSxy/SSx)

## [1] 3.57020202

(beta0=ybar-beta1*xbar)

## [1] 62.36585859

La interpretación de β1 es: por cada unidad adicional que se produce en un lote, el número promedio de
horas requerido aumenta en 3.57.
La recta ajustada es:
E(y;
b x) = βb0 + βb1 x = 62.366 + 3.5702x

Por ejemplo, si se quiere estimar el número promedio de horas necesarias cuando se produce un lote de
tamaño 65, basta evaluar la recta ajustada en x = 65.
E(y;
b x = 65) = 62.366 + 3.5702 ∗ 65 = 294.4

Los residuales (errores observados) se obtienen al calcular la diferencia entre el valor observado yi y el
obtenido al evaluar la recta de regresión ŷi en xi . Estos los hemos denotado como ei = yi − ŷi .

31
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

options(digits=10)
Datos$yhat=beta0+beta1*Datos$x

Datos$error=Datos$y-Datos$yhat
head(Datos)

## x y yhat error
## 1 80 399 347.9820202 51.017979798
## 2 30 121 169.4719192 -48.471919192
## 3 50 221 240.8759596 -19.875959596
## 4 90 376 383.6840404 -7.684040404
## 5 70 361 312.2800000 48.720000000
## 6 60 224 276.5779798 -52.577979798

n=length(Datos$x)
Sigma2=sum((Datos$error)ˆ2)/(n-2)
print(Sigma2)

## [1] 2383.715617

Supongamos que se tienen los siguientes aspectos por responder.

i. El directivo de la empresa está interesado en saber, con una confianza del 95 %, cuál sería el aumento
promedio de horas de trabajo al aumentar en una unidad el tamaño del lote.
ii. ¿Se puede decir que el modelo tiene sentido? Es decir, que al usar la variable tamaño del lote se puede
decir que hay relación lineal entre las horas promedio de trabajo y el tamaño del lote.
iii. Un directivo está interesado en saber cuántas horas en promedio se requieren para producir un lote de
tamaño 65. Dé una estimación intervalar al 95 %.
iv. Suponga que el costo de producción por hora es de 10 dólares. Si se decidierá producir de ahora en
adelante lotes de tamaño 65 y cobrar 3000 dólares por lote; los directivos quieren saber si en promedio
se puede tener una ganancia de más de 100 dólares por lote. Realizar una prueba de hipótesis. ¿Y si
cobrarán 3300 dólares por lote?
v. Suponga que por políticas de la empresa, el número de horas de trabajo por lote se limitará a partir
de ahora para que en promedio sea de 400. ¿Cuál sería el tamaño máximo de un lote que se puede
producir dada esta limitante?

Solución.
Ver EjemploRegLinSimple1.R para detalles adicionales.
Primero veamos los comandos básicos en R. El ajuste en R se realiza usando la función lm().
El summary()
q en elqapartado Coef f icients nos proporciona: las estimaciones de los parámetros, β̂0 y β̂1 ;
así como V̂ (β̂0 ) y V̂ (β̂1 ); los valores de las estadísticas t asociados a las pruebas de hipótesis H0 : β0 = 0
vs H0 : β0 6= 0 y H0 : β1 = 0 vs H0 : β1 6= 0, y los p − values correspondientes.
Además, también nos proporciona σ̂, n − 2, R2 y los resultados de la prueba F de la tabla anova.

fit=lm(y~x, data=Datos) #ajuste del modelo


summary(fit) #principales resultados

32
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

##
## Call:
## lm(formula = y ~ x, data = Datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -83.87596 -34.08808 -5.98202 38.82606 103.52808
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 62.3658586 26.1774339 2.38243 0.025851 *
## x 3.5702020 0.3469722 10.28959 4.4488e-10 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 48.82331 on 23 degrees of freedom
## Multiple R-squared: 0.8215335, Adjusted R-squared: 0.8137741
## F-statistic: 105.8757 on 1 and 23 DF, p-value: 4.448828e-10

sigma(fit)ˆ2 #valor estimado de sigmaˆ2

## [1] 2383.715617

coef(fit) #valores estimados de beta_0 y beta_1

## (Intercept) x
## 62.36585859 3.57020202

Para calcular intervalos de confianza de los parámetros, β0 y β1 , se puede usar la función conf int.

confint(fit, level=.95)

## 2.5 % 97.5 %
## (Intercept) 8.213710748 116.518006423
## x 2.852435427 4.287968613

Con lo anterior ya tenemos la información para responder I y II. En I, se requiere el intervalo para β1 .
Mientras que en II, se debe realizar la prueba de hipótesis H0 : β1 = 0 vs Ha : β1 6= 0.
Para I, se tiene que con una confianza de 95 % el número promedio de horas aumenta entre 2.85 y 4.29 al
aumentar en una unidad el tamaño del lote.
Para II, se rechaza H0 con una significancia de α = .05, pues p − value = 4.4488e − 10 < α = .05. Es decir,
se puede decir que hay una relación lineal entre las horas promedio de trabajo y el tamaño del lote.
Para estimar de forma puntual e intervalar E(y; x) para ciertos valores de x se usa la función predict.

newdata <- data.frame(x = c(65) )


Eydadx65 <- predict(fit, newdata, interval = "confidence", level = 0.95)

head(Eydadx65)

33
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

## fit lwr upr


## 1 294.4289899 273.9129153 314.9450645

Con esto podemos respoder III: con una confianza de 95 %, el número promedio de horas requeridas cuando
se producen lotes de tamaño 65 está contenido entre 273.9 y 314.9.
Con el paquete multcomp se pueden obtener intervalos y pruebas de hipótesis para combinaciones lineales
de los parámetros, es decir, para θ = Z0 β0 + Z1 β1 . Por ejemplo, replicando lo hecho antes con predict.

library(multcomp)

#Por ejemplo para III.


MatZ0Z1=matrix(c(1,65), ncol=2, nrow=1)
prueba2=glht(fit, linfct=MatZ0Z1)
### Intervalo de confianza
confint(prueba2, level=.95)

##
## Simultaneous Confidence Intervals
##
## Fit: lm(formula = y ~ x, data = Datos)
##
## Quantile = 2.0686576
## 95% family-wise confidence level
##
##
## Linear Hypotheses:
## Estimate lwr upr
## 1 == 0 294.4289899 273.9129153 314.9450645

Para IV. Analicemos el costo por producción: Costo = 10(E(y; 65)) = 10 × (β0 + β1 (65))
Ahora, analicemos los ingresos: Ingresos = 3000 por lote.
Ganancia= Ingresos − Costo = 3000 − 10 × (β0 + β1 (65)).
H0 : 3000 − 10 × (β0 + β1 (65)) ≤ 100 vs Ha : 3000 − 10 × (β0 + β1 (65)) > 100
La prueba de hipótesis se puede expresar como la siguiente combinación de los parámetros:
H0 : β0 + β1 (65) ≥ 290 vs Ha : β0 + β1 (65) < 290.

#Para inciso IV
MatZ0Z1=matrix(c(1,65), ncol=2, nrow=1)
c=290
#alternative: "two.sided" (default), "greater" or "less"
prueba2=glht(fit, linfct=MatZ0Z1, rhs=c, alternative="less")
summary(prueba2)

##
## Simultaneous Tests for General Linear Hypotheses
##
## Fit: lm(formula = y ~ x, data = Datos)
##
## Linear Hypotheses:

34
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

## Estimate Std. Error t value Pr(<t)


## 1 >= 290 294.428990 9.917579 0.44658 0.67032
## (Adjusted p values reported -- single-step method)

No se rechaza H0 , es decir, no hay suficiente evidencia para poder indicar que en promedio se obtendrá una
ganancia de más de 100 dólares por lote cuando se cobran 3000 dólares por cada lote de tamaño 65.
Si se cobrarán 3300 dólares, la prueba de hipótesis corresponde a contrastar
H0 : β0 + β1 (65) ≥ 320 vs Ha : β0 + β1 (65) < 320.

#Para inciso IV
MatZ0Z1=matrix(c(1,65), ncol=2, nrow=1)
c=320
#alternative: "two.sided" (default), "greater" or "less"
prueba2=glht(fit, linfct=MatZ0Z1, rhs=c, alternative="less")
summary(prueba2)

##
## Simultaneous Tests for General Linear Hypotheses
##
## Fit: lm(formula = y ~ x, data = Datos)
##
## Linear Hypotheses:
## Estimate Std. Error t value Pr(<t)
## 1 >= 320 294.428990 9.917579 -2.57835 0.0084018 **
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
## (Adjusted p values reported -- single-step method)

Se rechaza H0 , es decir, con una significancia de α = .05 se puede concluir que en promedio se obtendrá una
ganancia de más de 100 dólares por lote cuando se cobran 3300 dólares por cada lote de tamaño 65.
Para V. Observemos que ahora buscamos x tal que 400 = E(y; x = x) = β0 + β1 x, de donde

400 − β0
x= ,
β1
es decir, nuestro parámetro de interés es una función no lineal de β0 y β1 . Un estimador puntual se obtendría
usando la propiedad de invarianza de los estimadores máximo verosímiles:

400 − β̂0
,
β̂1

mientras que es posible usar la función deltaM ethod en la librería car para obtener intervalos de confianza
asintóticos y aproximados.

library(car)

deltaMethod(fit, "(400-b0)/b1", parameterNames= paste("b", 0:1, sep=""), level=.95)

## Estimate SE 2.5 % 97.5 %


## (400 - b0)/b1 94.5700382 3.6307456 87.4539076 101.68617

El tamaño máximo de los lotes debe ser de 95 (IC 95 % [87.45, 101.69]) para cumplir con la limitante de
horas.

35
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1.5. El coeficiente de determinación

Para definir el coeficiente de determinación, observemos primero que

(yi − Y ) = (b
yi − Y ) + (yi − ybi ), i = 1, ..., n,

donde ybi = βb0 + βb1 xi . De lo anterior se obtiene que


n n
X X 2
(yi − Y ) = 2
yi − Y ) + (yi − ybi )
(b

i=1 i=1
n
X n
X n
X
= (b
yi − Y )2 + 2 yi − Y )(yi − ybi ) +
(b (yi − ybi )2 .
i=1 i=1 i=1

Además,
n
X n
X n
X
yi − Y )(yi − ybi ) =
(b ybi (yi − ybi ) − Y (yi − ybi )
i=1 i=1 i=1
Xn n
X
= ybi ei − Y ei = 0.
i=1 i=1
(67)

La última igualdad en la ecuación anterior se debe a las propiedades que satisfacen los estimadores a partir
de las ecuaciones normales, ver (25) y (26).
Con esto se puede concluir que
n
X n
X n
X
(yi − Y )2 = (b
yi − Y )2 + (yi − ybi )2 . (68)
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCR SCE
10

10
8

8
6

Y=4.9 Y=4.9
SCT=575.9 SCT=575.8
4

4
2

2
0

0 2 4 6 8 10 0 2 4 6 8 10

x x

Figura 7: A la izquierda el scatterplot entre x y y, donde x parece NO explicar la variabilidad de y, mientras


que a la derecha el caso opuesto.

36
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

La suma de cuadrados totales (SCT) es parte de una estadística descriptiva usada para medir de forma
marginal la variabilidad observada en la variable y. La Figura 7 muestra dos casos en donde la SCT es
similar, pero al incluir una variable x se puede observar que los patrones son diferentes. A la izquierda el
scatterplot entre x y y, donde x parece NO explicar la variabilidad de y, mientras que a la derecha el caso
opuesto.
A partir de lo anterior se crea un índice relacionado con el porcentaje de variabilidad de y explicada por usar
la variable x en el modelo de regresión y se llama coeficiente de determinación:
Pn
yi − Y )2
(b
R = Pni=1
2
. (69)
i=1 (yi − Y )
2

R2 × 100 % se interpreta como el porcentaje de variabilidad de la variable y explicada por el modelo

y i = β0 + β1 x i + ε i .

La razón es la siguiente. En el caso de la gráfica de la izquierda, el modelo ajustado dará βb1 ≈ 0, pues sin
importar el valor de x el comportamiento promedio de y es similar. Dado lo anterior, un modelo plausible
sería

yi = β0 + εi ,

de donde βb0 = Y , usando esto se tiene


Pn Pn
(b
yi − Y )2 i=1 (Y − Y )
2
R2 = Pi=1
n = n ≈ 0. (70)
i=1 (yi − Y ) i=1 (yi − Y )
2
P 2

Por otro lado, en la figura de la derecha, el modelo sería muy bueno, de manera que yi ≈ ybi y
Pn Pn
yi − Y )2
i=1 (b i=1 (yi − Y )
2
R = Pn
2
≈ n = 1. (71)
i=1 (yi − Y ) i=1 (yi − Y )
2
P 2

Ejemplo 1 (Cont.)
Usando la salida de R, en particular del summary()

Multiple R-squared: 0.8215335

Se tiene que el 82.15 % de la variabilidad de las horas requeridas para la producción se explica por el modelo
que incluye la variable tamaño del lote.

Hay otras dos formas de obtener una interpretación del coeficiente de determinación. Ambas están relaciona-
das con la estadística descriptiva conocida como el coeficiente de correlación muestral o de Pearson, la cual
se define para dos variables X y Y como:
Pn
i=1 (xi − X)(yi − Y )
rxy = Pn Pn , (72)
( i=1 (xi − X)2 i=1 (yi − Y )2 )1/2

y se cumple que −1 ≤ rxy ≤ 1. Esta medida en general sirve para detectar ciertas asociaciones monótonas
entre las variables mostrando valores diferentes de cero.

37
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Cuando además se asume que (X, Y ) tiene distribución normal bivariada, entonces rxy = 0 se asocia a una
posible independencia entre las variables; rxy es parte de la estadística de prueba que contrasta esta hipótesis.
Una interpretación equivalente se encuentra observando que en este caso, Y |X sólo podrían relacionarse de
forma lineal y la independencia llevaría a que no se relacionan de esta forma.
En el caso particular del coeficiente de determinación y considerando como variables a y y yb se tiene
Pn
i=1 (yi − Y )(b
yi − yb)
ryb = Pn Pn , (73)
y
( i=1 (yi − Y ) 2
i=1 (b
yi − yb)2 )1/2

y se puede verificar que

R2 =ry2b
y
. (74)

Considerando lo anterior, si el modelo de regresión que incluye a x fuera bueno, entonces se espera que
ryb
y
≈ 1 (R2 ≈ 1), mientras que si el modelo fuera malo, ryb
y
≈ 0 (R2 ≈ 0).
La otra equivalencia sólo aplica para el caso de regresión lineal simple y es:

R2 =rxy
2
. (75)

1.6. Prueba F asociada a la Tabla Anova

La prueba F asociada a la tabla anova es una de las más importantes en un modelo de regresión lineal, ya
sea simple o múltiple. En el caso de regresión lineal simple está diseñada para contrastar

H0 : β1 = 0 vs Ha : β1 6= 0.

En caso de rechazar H0 podríamos concluir con una significancia α que la inclusión de la variable x ayuda
a modelar E(y; x).
Esta prueba se obtiene analizando las distribuciones de los componentes en la siguiente relación:
n
X n
X n
X
(yi − Y )2 = (b
yi − Y )2 + (yi − ybi )2 .
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCR SCE

Esta relación está asociada al análisis de la varianza de la variable y de forma marginal y lo que implica
considerar a la variable x en el modelo, por lo que se conoce a esta prueba como la prueba asociada a la tabla
de análisis de varianza (anova). Como veremos a continuación, la estadística de prueba tendrá distribución
F , pero las conclusiones son equivalentes a lo que se obtendría con la prueba t que revisamos en secciones
anteriores (sólo en el caso de regresión lineal simple).
Primero recordemos una de las distribuciones que ya hemos mencionado en el Resultado 1.12:

Pn
SCE i=1 (yi − βb0 − βb1 xi )2
= ∼ χ2n−2 . (76)
σ2 σ2

Por otro lado, notemos que

(b
yi − Y ) = (βb0 + βb1 xi − Y ) = (Y − βb1 X + βb1 xi − Y ) = βb1 (xi − X),

de donde

38
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
SCR = yi − Y )2
(b
i=1
n 
X 2
= βb1 (xi − X)
i=1
n
X
= βb12 (xi − X)2
i=1

= βb12 SSx. (77)

También de Resultado 1.12 sabemos que

σ2
 
βb1 ∼ N β1 ,
SSx

y βb1 es independiente de σ2 .
SCE
En particular,

 2

 = (β1 − β1 ) SSx ∼ χ21 ,


 βb1 − β1  b 2
r
2
(78)

σ2
 σ
SSx
también es independiente de σ2 .
SCE

Ahora consideremos
H0 : β1 = 0 vs Ha : β1 6= 0.

Bajo “H0 : β1 = 0” la ecuación (78) se reduce a

(βb1 − β1 )2 SSx βb2 SSx


2
= 1 2
σ σ
SCR
= ∼ χ21 . (79)
σ2

De donde se puede concluir que bajo H0

SCR
SCR SCR
σ2
= = ∼ F1,n−2 , (80)
SCE
σ 2 (n−2)
SCE/(n − 2) b2
σ

A F = SCR se le conoce como la estadística de la prueba F y aparece en la siguiente tabla resumen del
σ2
análisis de varianza.
b

Cuadro 1: Tabla de análisis de varianza (ANOVA).

Suma de cuadrados Grados de libertad Suma de cuadrados medios F


Regresión SCR 1 SCR
1
SCR
σ2
Errores SCE n−2 SCE
b
n−2

Totales SCT n−1 SCT


n−1

La regla de decisión es la siguiente:

39
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Rechazar H0 si F > F1,n−2;1−α .

Notas.

i. Las hipótesis:
H0 : β1 = 0 vs Ha : β1 6= 0,
se pueden reescribir como
H0 : yi = β0 + εi vs Ha : yi = β0 + β1 xi + εi ,
es decir, si se rechaza H0 se asume que el modelo que incluye a x tiene sentido contra el modelo reducido
yi = β0 + εi .
ii. Dado lo anterior, se sugiere que la primer prueba de hipótesis que se revise en un modelo de regresión
sea la prueba F asociada a la tabla anova. Notar que para que el resto de información que se obtiene
del ajuste sea interpretable, se debe rechazar H0 . Por ejemplo, R2 sólo tiene sentido cuando se rechaza
H0 .
iii. El coeficiente de determinación R2 , sólo es un índice. Hay casos donde R2 puede tomar un valor cercano
a 0, sin embargo, se rechaza H0 en la prueba F . Esto significa que la variable x sí ayuda a explicar
la E(y; x), pero el ajuste se podría considerar pobre, es decir, el ajuste se podría mejorar si se incluye
mayor información (más variables). En los casos en donde el objetivo es identificar la existencia de una
relación o diferencia de medias (problemas tipo anova), la prueba F es más importante y el coeficiente
de determinación muchas veces no se interpreta.
iv. La prueba F en una regresión lineal simple y la prueba t asociadas a
H0 : β1 = 0 vs Ha : β1 6= 0
son equivalentes. Se puede verificar que
F = (t∗ )2
y
F1,n−2;1−α = (tn−2,1−α/2 )2 .

Ejemplo 1 (Cont.)
Usando la salida de R, en particular del summary()

F-statistic: 105.8757 on 1 and 23 DF, p-value: 4.448828e-10

Se tiene que F = 105.8757 y el p − value = 4.448828e − 10 < .05, por lo que se rechaza H0 y se dice que,
con una significancia de α = .05, el tamaño del lote se relaciona de forma lineal con el promedio de horas
requeridas para la producción.
Notar que de la salida del summary() asociada al parámetro β1

Estimate Std. Error t value Pr(>|t|)


x 3.5702020 0.3469722 10.28959 4.4488e-10 ***

(t∗ )2 = 10.289592 = 105.876 = F y el p − value de la prueba t coincide con el de la prueba F .


Otras funciones en R que sirven para obtener la tabla anova son, para el caso de regresión lineal simple,
anova() y Anova(). Por ejemplo:

40
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

anova(fit)

## Analysis of Variance Table


##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 252377.581 252377.581 105.87571 4.4488e-10 ***
## Residuals 23 54825.459 2383.716
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Anova(fit)

## Anova Table (Type II tests)


##
## Response: y
## Sum Sq Df F value Pr(>F)
## x 252377.581 1 105.87571 4.4488e-10 ***
## Residuals 54825.459 23
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

1.7. Algunas consideraciones prácticas.

En los problemas en donde podemos considerar el uso del modelo de regresión lineal simple (o múltiple) se
identifican los siguientes grandes objetivos:

i. Estimación o Inferencia. Se refiere a la identificación de posibles relaciones entre variables o dife-


rencias entre poblaciones, generalmente modeladas a través de la esperanza de la variable dependiente,
E(y; x). En este caso también podría ser de interés conocer las magnitudes y sentido de esas relacio-
nes o diferencias y, en el caso de relaciones entre variables continuas, la forma en la que se dan esas
relaciones.
En este objetivo, es importante identificar la expresión matemática que se usa para modelar E(y; x),
pues de ahí se derivan las interpretaciones necesarias para responder los aspectos anteriores. En general,
los parámetros o funciones de los parámetros son la base.
Dado lo anterior, es muy importante notar que toda la teoría desarrollada se basa en el cumplimiento
de los supuestos realizados en la modelación de E(y; x) y, por lo tanto, se debe argumentar que estos
supuestos se cumplen.
Un caso particular que entra en este objetivo se conoce como el estudio de una posible relación que
además implica causalidad. Esto se refiere a qué no sólo existe una relación o asociación entre y y x a
través de la E(y; x), si no que una variación en x causa una variación en el comportamiento de y. Por
ejemplo, un mayor porcentaje de vacunación causa un menor porcentaje de mortalidad, mientras que
sólo existe una relación entre el precio del aguacate y el precio de la tortilla. En este último caso, es muy
probable que exista al menos una variable adicional que estaría asociada con el efecto de causalidad.
Para poder hacer conclusiones sobre causalidad, se requieren condiciones particulares en la población
de la cual se toma la muestra, pues se debe tratar de eliminar cualquier posible efecto de confusión.
Esto es muy usado para analizar la efectividad de medicamentos/sustancias o intervenciones de política
pública. Ver por ejemplo el libro Statistical Design (Casella, 2008) o el libro The Theory of the Design
of Experiments (Cox y Reid, 2000).

41
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

ii. Predicción. En este caso se busca obtener una regla o algoritmo que ayude a predecir de la mejor
manera el valor de y para una observación en donde sólo se observa el valor de x. Por ejemplo, dado un
conjunto de características clínicas de un paciente, un doctor desea predecir la probabilidad de riesgo
para determinar el mejor tratamiento.
Aquí no nos importa mucho la forma como se define la regla o algoritmo, nos importa más el resultado
de su uso en la predicción de y considerando nuevas observaciones.
En el paradigma de predicción que es comúnmente usado en machine learning o statistical learning
se puede optar por reglas o métodos estadísticos, pero no es necesario enfocarse en el cumplimiento de
los supuestos, el enfoque es en medir qué tan buen desempeño tiene el modelo para predecir. Medidas
basadas en remuestreo en donde se tiene un conjunto de entrenamiento y un conjunto de validación
(emula a las nuevas observaciones) son muy comunes para obtener métricas de desempeño de las reglas
obtenidas. Ver por ejemplo, capítulo 12 en el libro Computer Age Statistical Inference (Efron y Hastie,
2016).

Una discusión más detallada sobre los tipos de objetivos y las metodologías que han surgido asociadas a
éstos se puede revisar en Prediction, Estimation, and Attribution (Efron, 2020).
Lo desarrollado hasta el momento, se basa mucho en los supuestos y está más relacionado con el objetivo de
Estimación o Inferencia. En la sección siguiente presentaremos algunas herramientas de diagnóstico para ar-
gumentar sobre el cumplimiento de los supuestos. Posteriormente, en otra sección, presentaremos brevemente
cómo realizar un análisis para medir el desempeño de un modelo de regresión para predecir.

1.8. Verificación de supuestos. Herramientas de diagnóstico y de modelado.

1.8.1. Supongamos que x es una variable cuantitativa continua.

En este caso hay 4 supuestos importantes que se realizan en el modelo de regresión lineal simple y que deben
verificarse.

Homocedasticidad.
Linealidad
Normalidad
Independencia de los errores/observaciones

1.8.1.1. Homocedasticidad Se refiere al supuesto

V(εi ) = σ 2 , i = 1, ..., n.

Este supuesto es equivalente a


V(yi ) = σ 2 , i = 1, ..., n.
En el caso de regresión lineal simple, este supuesto se puede analizar usando un diagrama de dispersión de
x vs y. En este se debe observar una nube de puntos sobre el eje y de la misma longitud sobre todos los
valores de x para los que se plantea como válido el modelo. Algunos ejemplos se presentan en la Figura 8.
Otra alternativa más general para analizar este supuesto se basa en considerar una versión modificada de
los errores observados ei (también llamados residuales). Recordar que estos se definen como:

ei = yi − ybi , i = 1, ..., n.

Se puede verificar que:

42
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i.
V(ei ) = σ 2 (1 − hi ), i = 1, ..., n, (81)

(xi −X)2
donde hi = 1
n + SSx .

ii. NO necesariamente se cumple que

Cov(ei , ej ) = 0, i 6= j, i, j = 1, ..., n. (82)

Figura 8: Diferentes patrones que se pueden observar en un diagrama de dispersión de x vs y.

Lo anterior implica, que los errores observados ei tienen propiedades diferentes a las variables εi , por ejemplo,
la varianza de ei depende del valor xi observado, de manera que la varianza no es constante como lo sería la
de cada εi .
Para poder analizar el supuesto de homocedasticidad, entonces se usa una versión de los residuales que tienen
varianza constante, se les conoce como errores (residuales) estandarizados eis :

yi − ybi
eis = p , i = 1, ..., n. (83)
b2 (1 − hi )
σ

43
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Figura 9: Diferentes patrones que se pueden observar en un diagrama de dispersión de x vs es o yb vs es .

En este caso se usa un diagrama de dispersión de x vs es o bien yb vs es . En este se debe observar una nube
de puntos sobre el eje es centrada en 0 y de la misma longitud sobre todos los valores de x (b y ). Algunos
ejemplos se presentan en la Figura 9.
Adicionalmente a la revisión a partir de las gráficas anteriores, se puede realizar una prueba de hipótesis. En
R hay dos paquetes que pueden servir para esto y contrastan lo siguiente (Breusch-Pagan Test):

H0 : σ 2 = γ0 vs Ha : σ 2 = γ0 + γ1 x,
es decir, se contrasta la posible existencia de una relación lineal de la varianza con los valores de x. Notar
que sólo se contrasta la relación lineal y la prueba es entonces limitada, pues lo ideal sería no encontrar
evidencia de ninguna relación. Además lo que queremos está en H0 y buscamos no rechazar, en tal caso sólo
indicamos que no se encontró evidencia en contra de H0 con una significancia α.
Las dos funciones en R son:

i. ncvTest en el paquete car. Para la prueba se usa como aproximación de la variable σ 2 a e2s .
ii. bptest en el paquete lmtest. Para la prueba se usa como aproximación de la variable σ 2 a e2st .

Nota. Los errores estudentizados est se definen como

yi − ybi
eis = q , i = 1, ..., n, (84)
σ 2
b(−i) (1 − hi )

donde σ 2
b(−i) es el estimador de σ 2 en el modelo de regresión obtenido al ajustar considerando los datos sin
la i-ésima unidad. Estos errores estudentizados (studentized residuals), además de tener varianza constante,
también siguen una distribución tn−3 .

Ver continuación de ejemplo 1 en R. Datos de la Compañía Toluca


EjemploRegLinSimple1cont.R

¿Qué hacer si se detecta evidencia en contra de la homocedasticidad? Hay dos posibles opciones comúnmente
usadas:

1. Realizar alguna transformación a la variable y. Una opción es usar transformaciones tipo Box-Cox.
2. Se puede considerar el ajuste de una regresión ponderada. Aquí se permite que la varianza sea
σ2
diferente de acuerdo a constantes wi , es decir, V(εi ) = wi
.

44
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1.8.1.1.1. Transformaciones tipo Box-Cox En este caso se asume que es plausible buscar una trans-
formación de la forma:
(
y λ −1
λ , si λ 6= 0
y =∗
, (85)
ln(y), si λ = 0

donde el valor de λ se estima por lo regular usando el método de máxima verosimilitud, de manera que es
el valor que hace más verosímil observar un modelo de regresión lineal normal con la media de y ∗ asociada
a x de forma lineal y varianza constante.
La estimación de λ entonces depende también del cumplimiento de supuestos, aunque en la práctica se
puede usar el algoritmo para encontrar alguna transformación y después se verificará que para la regresión
ha funcionado (recordando que se deben de cumplir 4 supuestos de forma conjunta y que el proceso puede
ser iterativo).
En la práctica se prefieren valores de λ fáciles de interpretar, por ejemplo:

λ ∈ {−2, −1, −1/2, 0, 1/2, 1/3, 1/4, 1, 2, 3, 4}.

Notar que las transformaciones en (85) requieren que y > 0. Cuando esto no se cumple, se podría sumar una
constante positiva γ a los datos, es decir, la transformación sería

(y+γ)λ −1
(
si λ 6= 0
,
y =
∗ λ . (86)
ln(y + γ), si λ = 0

En R hay otro algoritmo que estima también el valor de γ de manera que la transformación sea
(
z λ −1
λ , si λ 6= 0
y =∗
, (87)
ln(z), si λ = 0

con z = .5(y + y 2 + γ 2 ).
p

La desventaja de este último caso es que la interpretación se vuelve mucho más complicada.

Ejemplo 2.
Relación entre el valor de las universidades y el costo de las colegiaturas. Datos University.
EjemploRegLinSimple2.R

Nota. En cuanto a la interpetación, es posible observar que cuando se transforma la variable y usando una
función biyectiva como la presentada en (85), ya no se puede indicar que estamos modelando E(y) = E(y; x),
pero cuando estamos bajo el supuesto de normalidad (o simetría de la distribución de ε) sí se puede indicar
que estamos modelando Med(y) = Med(y; x), es decir, la mediana. Para observar esto consideremos lo
siguiente.
Sea g() la función biyectiva usada para transformar y, es decir,

y ∗ = g(y).

Se ajusta un modelo de regresión lineal simple como

yi∗ = β0 + β1 xi + εi , i = 1, ..., n.

45
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

En este caso E(y ∗ ; x) = β0 + β1 x. Sin embargo, en general

E(y; x) 6= g −1 (E(y ∗ ; x)) .

Por otro lado, si yi∗ ∼ N (β0 + β1 x, σ 2 ), entonces E(y ∗ ; x) = Med(y ∗ ; x), ya que la distribución normal es
simétrica y unimodal alrededor de su media.
Además, la mediana es invariante ante transformaciones biyectivas, ya que por definición Med(y ∗ ; x) satisface

P (y ∗ <= Med(y ∗ ; x)) = .5,

lo que se cumple sí y sólo si

P y <= g −1 (Med(y ∗ ; x)) = .5,


 

de donde Med(y; x) = g −1 (Med(y ∗ ; x)). Por lo que en la escala original de y estamos modelando a Med(y; x)
como g −1 (β0 + β1 x). De esta manera, si usamos toda la teoría desarrollada para estimar E(y ∗ ; x) y deseamos
presentar la estimación puntual en la escala original, debemos interpretar a la estimación como el valor de
y en el cual se tiene un 50 % de casos por abajo y un 50 % por arriba dado que se observa el valor x.

Ejemplo sobre interpretación. Transformación logaritmo.


Sean y1 , ..., yn las observaciones en escala original. Se realiza la verificación de supuestos y se decide que para
poder usar un modelo de regresión lineal simple es mejor considerar a y1∗ , ..., yn∗ , donde

yi∗ = ln(yi ).

De esta manera es plausible asumir que yi∗ ∼ N (β0 + β1 xi , σ 2 ). Notar que si esto se cumple, entonces

yi = exp(yi∗ ) ∼ Lognormal(β0 + β1 xi , σ 2 ),

sin embargo, por propiedades de la distribución Lognormal, para un valor x este modelo implica que E(y; x) =
2
eβ0 +β1 x+σ /2 . Es decir, en este caso

2 ∗
E(y; x) = eβ0 +β1 x+σ /2
6= eβ0 +β1 x = eE(y ;x)
.

Pero sí se puede verificar que


Med(y; x) = eβ0 +β1 x = eE(y ;x)
.

Es decir, en escala logarítmica se está modelando a la E(y ∗ ; x) de forma lineal con respecto a x, pero en la
escala original se modela a la Med(y; x) como eβ0 +β1 x .

1.8.1.1.2. Regresión ponderada Supongamos que es apropiado el modelo

yi = β0 + β1 xi + εi , i = 1, ..., n,

σ2
donde E(εi ) = 0, V(εi ) = wi y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.
Aquí se asume que wi , i = 1, ..., n, son constantes conocidas. Notar que lo anterior implica que E(y; x) =
β0 + β1 x, aunque ahora V(y) ya no es constante.

46
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Para encontrar los estimadores bajo estos supuestos se puede usar el método de máxima verosimilitud o
el de mínimos cuadrados. En ambos casos se puede verificar que se buscan las expresiones de βb0 y βb1 que
minimizan:

n
X n
X
Q2w = wi e2i = wi (yi − (βb0 + βb1 xi ))2 .
i=1 i=1

2
Es decir, considerando que V(εi ) = w
σ
i
, en Q2w se da mayor peso (o se penaliza más) a los errores asociados
a las observaciones en donde se tenga menor variabilidad.
En la práctica es común definir los valores de las constantes wi , i = 1, ..., n, a partir de los correspondientes
valores de la variable x. Es decir, de alguna forma se asume que V(y) = V(y; x). Por ejemplo, ver el diagrama
de dispersión en la parte inferior izquierda de la Figura 8. En particular, se define una función g() tal que

σi2 = V(εi ) = V(εi ; xi ) = σ 2 g(xi ).

Un procedimiento comúnmente usado para definir la función g() parte de observar que

σi2 = V(εi ) = E(ε2i ) − E2 (εi ) = E(ε2i ).

Es decir, σi2 es la esperanza de una variable aleatoria ε2i . De donde, si tuvieramos una muestra
(ε21 , x1 ), ..., (ε2n , xn ) podríamos estimar V(εi ; xi ) = σ 2 g(xi ) y en particular identificar g(xi ). El procedimiento
que en la práctica se propone es el siguiente (se asume que el supuesto de linealidad es aceptable):

a. Se comienza ajustando un modelo de regresión simple sin ponderar.


b. Usando el modelo en a) se obtienen los errores observados, ei , i = 1, ..., n.
c. Se consideran como posibles aproximaciones de observaciones de (ε21 , x1 ), ..., (ε2n , xn ) a (e21 , x1 ), ..., (e2n , xn ),
ya que por (81), V(ei ) = σ 2 (1 − hi ) = σ 2 g(xi ) = E(e2i ). Se analiza el diagrama de dispersión entre
e2 y x para identificar la posible función g() que se podría usar. Una posible opción para eliminar
la variabilidad de los e2i es considerar el promedio de estos en grupos definidos por intervalos que
particionan al eje x. Otra posible alternativa es usar una trasformación Box-Tidwell, pero esto se verá
más adelante cuando se analice la parte del supuesto de linealización.
d. Una vez que se identifica g() se definen las constantes wi como
1
wi =
g(xi )

y se ajusta un nuevo modelo. En R, se usa la función lm, pero con el argumento weights = 1/g(x).
f. Se procede a hacer el análisis de los supuestos, pero usando los errores-residuales del nuevo modelo.

Ejemplo 3.
Relación entre salarios y años de experiencia. Datos initech.
EjemploRegLinSimple3.R

47
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1.8.1.2. Linealidad Se refiere al supuesto

E(yi ; xi ) = β0 + β1 xi , i = 1, ..., n.

En el caso de regresión lineal simple, este supuesto se puede analizar usando un diagrama de dispersión de
x vs y. En este se debe observar una nube de puntos que forme una recta para diferentes valores de x. Por
ejemplo, ver diagrama de dispersión presentado en la parte superior izquierda de la Figura 10.
También usando los errores observados es posible usar un diagrama de dispersión de x vs e o bien yb vs e.
En este se debe observar una nube de puntos sobre el eje e centrada en 0 de la misma longitud sobre todos
los valores de x (b
y ); ver por ejemplo, diagrama de dispersión en la parte inferior izquierda de la Figura 10.
Notar que en el caso de linealidad se usan los errores observados.

Ver continuación de ejemplo 1 en R. Datos de la Compañía Toluca


EjemploRegLinSimple1cont2.R

Figura 10: Diferentes patrones que se pueden observar en un diagrama de dispersión de x vs y en la parte
superior o de yb(x) vs e en la parte inferior.

¿Qué hacer si se detecta evidencia en contra de la linealidad? Hay varias alternativas comúnmente usadas,
por ejemplo:

1. Dentro del contexto de regresión lineal simple, se puede buscar una función f () tal que

E(yi ; xi ) = β0 + β1 f (xi ), i = 1, ..., n.

Esto se puede hacer a partir del diagrama de dispersión o usando algunos algoritmos, por ejemplo:
transformaciones tipo Box-Tidwell.
2. En el contexto de regresión lineal múltiple, otra alternativa es considerar el uso de una regresión
polinomial o una por pedazos. Esto se verá en el siguiente capítulo, pues estos casos ya incluyen más

48
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

variables y parámetros. Por ejemplo un caso sencillo donde se considera la linealidad con respecto a
los parámetros β0 , β1 y β2 es:

E(yi ; xi ) = β0 + β1 xi + β2 x2i , i = 1, ..., n.

1.8.1.2.1. Transformaciones tipo Box-Tidwell En las transformaciones Box-Tidwell se asume que

E(yi ; xi ) = β0 + β1 xλi , i = 1, ..., n,

es decir, la función f () corresponde a una función potencia. La variable x se asume positiva y se estima el
valor de λ usando máxima verosimilitud.
En la práctica se prefieren valores de λ fáciles de interpretar, por ejemplo:

λ ∈ {−1, −2, 1/2, 1/3, 1/4, 1, 2, 3, 4}.

Cuando λ es cercana a cero se puede considerar la transformación ln().


En el caso donde xi < 0 o para extender estas transformaciones, se podría sumar una constante positiva γ
a los datos, es decir, se podría considerar el modelo

E(yi ; xi ) = β0 + β1 (xi + γ)λ , i = 1, ..., n.

Sin embargo, por ahora no hay un algoritmo implementado en R para definir γ, aunque se podría programar.

Ejemplo 4.
Datos “ejemplo4.csv” asociados a Figura 2.
EjemploRegLinSimple4.R

1.8.1.3. Normalidad Se refiere al supuesto

ε1 , ε2 , ..., εn tienen distribución N (0, σ 2 ).

El supuesto de normalidad ayuda a obtener varios de los resultados teóricos desarrollados, por ejemplo, los
asociados al cálculo de los intervalos de confianza y pruebas de hipótesis.
En la práctica, muchas veces al realizar transformaciones para obtener el cumplimiento de la linealidad y
homocedasticidad se logra argumentar en favor de la normalidad (no se encuentra evidencia en contra),
aunque no siempre sucede esto.
La dificultad para realizar el análisis de este supuesto radica en que no tenemos observaciones de ε1 , ε2 , ..., εn ,
sólo tenemos de (y1 , x1 ), ..., (yn , xn ). Las propuestas entonces se basan en el análisis de los residuales estan-
darizados es o estudentizados est , aunque se prefiere realizar el análisis sobre est , pues si se cumpliera el
supuesto, entonces estos tendrían distribución tn−3 (condición necesaria). En general, se propone realizar lo
siguiente:

1. Si n es grande, se puede probar la normalidad usando es o bien est . Se puede usar:


i. Q-Q plot de una distribución Normal.
Se espera que los puntos caigan sobre la diagonal (cuantiles muestrales de los errores son similares
a los cuantiles teóricos de la distribución normal).

49
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

ii. Pruebas específicas que contrastan:


H0 : est1 , ..., estn provienen de una Normal vs Ha : est1 , ..., estn no provienen de una Normal.
Se espera no rechazar H0 , es decir, no encontrar evidencia en contra del supuesto deseado.
Existen varias opciones de pruebas, por ejemplo: Shapiro-Wilks, Kolmogorov-Smirnov (Lilliefors),
Jarque-Bera.
2. Si n es pequeña, se sugiere probar la normalidad con est , aunque también se sugiere usar una Q-Q
plot de una distribución tn−3 (se espera que los puntos caigan sobre la diagonal) y realizar la prueba
Kolmogorov-Smirnov que contrasta:
H0 : est1 , ..., estn provienen de una tn−3 vs Ha : est1 , ..., estn no provienen de una tn−3 .
Se espera no rechazar H0 .

Como ya se mencionó antes, se sugiere que ya se tenga un modelo en el que se satisfaga la linealidad y
homocedasticidad, pues esto probablemente ayude a argumentar en favor de la normalidad.
En el caso de no cumplirse la normalidad (encontrar evidencia en contra), se puede proceder a transformar
la variable y. Si aún no se cumple la normalidad, pero ya se cumple la linealidad y homocedasticidad, una
opción es proceder a calcular varianzas, intervalos de confianza y realizar pruebas de hipótesis basadas en el
método bootstrap. Para este tema se recomienda revisar el documento: Bootstrapping Regression Models in
R, Fox y Weisberg (2018).
Cuando n es muy grande, muchos test de normalidad tenderán a rechazar H0 (son muy sensibles). Sin em-
bargo, en este escenario el Teorema del Límite Central ayuda a argumentar la normalidad de los estimadores
del modelo de regresión y, por lo tanto, el uso de las pruebas de hipótesis e intervalos de confianza como las
desarrolladas en el curso. Para una discusión sobre este caso se recomienda revisar: The importance of the
normality assumption in large public health data sets, Lumley et. al. (2002).

Ver continuación de ejemplo 1 en R. Datos de la Compañía Toluca


EjemploRegLinSimple1cont3.R

Ver continuación del Ejemplo 4.


Datos “ejemplo4.csv” asociados a Figura 2.
EjemploRegLinSimple4cont.R

1.8.1.4. Covarianza cero - independencia Se refiere al supuesto

Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.

O en el caso de normalidad ε1 , ε2 , ..., εn son v.a. independientes.


En general, este supuesto se revisa analizando el proceso de generación de los datos que se están usando en
el análisis. En particular, analizar la forma cómo se recolectó o midió la información, pues lo deseable es
argumentar que la información recolectada proviene de elementos seleccionados de forma aleatoria, es decir,
que no se seleccionó el conjunto de datos en algún grupo particular que pudiera ocasionar grupos de errores,
por ejemplo basado en el lugar o momento para reducir costos.
También hay variables y1 , y2 , ..., yn que por construcción podrían tener una relación al medir fenómenos
asociados al tiempo o espacio. Por ejemplo, si y1 , y2 , ..., yn corresponden a los precios de cierto producto
del tiempo 1 al n, es probable que por construcción en la muestra exista una relación entre el precio al

50
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

tiempo j y al tiempo j − 1. Lo anterior podría influir en el no cumplimiento de este supuesto, y se analizaría


considerando el orden particular que se sospecha pudiera influir, por ejemplo, ordenar con respecto al tiempo
y ver si algún patrón en los errores se ve reflejado al modelar.
Existen algunas herramientas de diagnóstico que sirven para estudiar si hay evidencia en contra del cum-
plimiento de este supuesto. Las herramientas se basan en los errores estandarizados (o estudentizados) y
son:

i. Generar un diagrama de dispersión de los errores estandarizados (o estudentizados) vs el índice de las


observaciones. Es deseable que no se observe ningún patrón.
ii. Graficar las autocorrelaciones. Se espera que no haya alguna correlación muy grande o evidente, en su
caso, se recomienda revisar el contexto del problema y la captura de los datos para decidir si existe
alguna característica en la definición de la variable y que pudiera sugerir que es necesario tomar en
cuenta esa correlación.

iii. Pruebas de aleatoriedad basadas en rachas.


H0 : las observaciones se pueden considerar aleatorias.
vs
Ha : las observaciones no se pueden considerar aleatorias.
Se desea no rechazar H0 . La prueba se basa en considerar que en el caso aleatorio no se deberían
observar rachas de cierta longitud (número de observaciones que de forma continua presentan valores
mayores o menores a cierto umbral como la mediana).
iv. Prueba Durbin-Watson
Sólo sirve para contrastar la existencia de una posible autocorrelación de orden 1.
H0 : los errores no están autocorrelacionados.
vs
Ha : los errores están autocorrelacionados.
Se espera no rechazar H0 .

Se recomienda hacer la revisión de contexto al inicio del análisis. El uso de las herramientas de diagnóstico se-
ría al final del modelado, pues usan los errores y estos podrían mostrar patrones por la falta del cumplimiento
de los otros supuestos.
En caso de encontrar algún indicio del no cumplimiento de este supuesto se pueden usar otros modelos, por
ejemplo: modelos de series de tiempo, modelos lineales mixtos (ver función lmer en paquete lme4 en R),
mínimos cuadrados generalizados o máxima verosimilitud con V(ε) = Σ (ver función gls del paquete nlme
en R).

Ver continuación de ejemplo 1 en R. Datos de la Compañía Toluca


EjemploRegLinSimple1cont4.R

Ver continuación del Ejemplo 4.


Datos “ejemplo4.csv” asociados a Figura 2.
EjemploRegLinSimple4cont2.R

51
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

1.8.1.5. Otros aspectos a considerar en el modelado. Valores influyentes.


En el contexto de regresión lineal simple, se dice que un dato u observación está asociada a un valor extremo
(outlier), si el valor yi es inusual o muy extremo considerando el promedio de y para el valor xi asociado.
Esto dependerá del contexto del problema que se está analizando y muchas veces se pueden identificar estos
casos directamente en un diagrama de dispersión, ver Figura 11.

Figura 11: Ejemplos de observaciones que se pueden considerar valores extremos (en rojo).

El impacto que pueden tener los valores extremos en el ajuste del modelo puede ser considerable, haciendo
que en algunos casos se cambie: la decisión de pruebas de hipótesis asociadas a los parámetros, el sentido de
la interpretación de β1 o el cumplimiento de los supuestos del modelo. Además, la magnitud del impacto que
puede tener un valor extremo dependerá del valor xi que tiene asociado, pues si xi corresponde a valores en
los extremos del dominio de valores observados de x, entonces el valor extremo yi puede ser muy influyente.
Además del diagrama de dispersión, las observaciones asociadas a valores extremos se pueden identificar en
las gráficas de errores o residuales estandarizados o estudentizados, ya que por lo general sus errores tendrán
una magnitud en valor absoluto mayor a 2. Algunas gráficas asociadas a un objeto lm en R ya identifican
esas observaciones.
Para analizar el potencial impacto en el ajuste se usan los valores

1 (xi − X)2
hi = + ,
n SSx

también llamados “hat values”. Estos valores indican la influencia o “leverage” de cada observación en las
estimaciones considerando el valor de xi asociado. Así un valor extremo será potencialmente influyente si
tiene un alto valor hi asociado. Por ejemplo si es mayor a 2h o 3h, con h : número de parámetros en el modelo
dividido entre el número de observaciones (aquí sería 2/n). Este análisis se complementa con la estadística
D de Cook (Cook’s distance).
En términos generales, esta estadística trata de identificar el impacto de una observación en la estimación
de los parámetros. Para esto, de forma similar a los errores estudentizados, para obtener la estadística Di
asociada a la observación i, se ajusta un modelo sin considerar esa observación y los valores de los parámetros
de ese ajuste se comparan con los correspondientes a la regresión que incluye todas las observaciones. Una
regla “ad-hoc” que comúnmente se usa para analizar estos valores es la siguiente: se considera que una
observación es influyente si

4
Di > ,
n−2
donde el denominador corresponde a los grados de libertad asociados a la estimación de σ 2 . Ver la Figura
12 que resume lo antes descrito.

52
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Cuando se detectan valores extremos que son influyentes, se debe investigar el proceso de generación de los
datos, ya que podría ser un error de captura o medición. Lo ideal sería que se corrija el error en caso de
existir o, si se argumenta el error, se podría eliminar la observación.

Figura 12: Diagrama de dispersión de h vs es , donde se incluye también una curva para cierto valor de
interés de D. En los extremos superior e inferior derecho de la gráfica se encontrarán los potenciales valores
influyentes.

En caso de no tener elementos para argumentar que la observación se deriva de algún error, entonces se
procede a considerar que el objetivo del análisis en regresión es la estimación de E(y; x), de manera que si
se puede argumentar que es un valor inusual se podría eliminar; pero se debe tener cuidado en los casos en
donde ese valor realmente represente la tendencia de E(y; x), ahí se debe mejorar la modelación para incluir
esa tendencia. Ver Figuras 11 y 13, en la primera se podría decir que es un valor inusual, mientras que en la
segunda se debe tener cuidado de si el valor podría marcar un cambio en la modelación de E(y; x).

Figura 13: Ejemplo donde es necesario consultar con expertos lo que se espera aproximadamente en y para
un valor de x (en amarillo), de manera que se pueda decidir sobre el tratamiento de observaciones influyentes.

53
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Ejemplo 5.
Datos “ejemplo5.csv”.
EjemploRegLinSimple5.R

1.8.2. Supongamos que x es una variable categórica con dos niveles.

Recordemos la Figura 3, donde se puede observar que en este caso el objetivo es comparar la media de
dos poblaciones. Vimos dos posibles parametrizaciones para este problema, consideremos la denotada como
A, con z = I(x = cat 1). En este caso la linealidad se cumple por la forma de la parametrización de las
esperanzas, por ejemplo:

E(y; x = cat 1) = E(y; z = 1)


= β0 + β1 (1) (88)
= β0 + β1

E(y; x = cat 2) = E(y; z = 0)


= β0 + β1 (0) (89)
= β0

Restaría por revisar:

Homocedasticidad: V(y; x = cat 1) = V(y; x = cat 2) = σ 2 .


Normalidad
Independencia de los errores/observaciones

La revisión de estos supuestos puede realizarse con lo visto para el caso de x continua basado en los residuales.
Por otra parte, en lugar del diagrama de dispersión de x vs y, se sugiere usar el boxplot (o histograma) de y
para cada categoría de x, así como complementar la revisión con lo siguiente considerando directamente la
variable y:

Homocedasticidad.
• Los boxplots de y en cada categoría se espera que presenten un rango intercuartílico similar.
Deben existir suficientes datos en cada categoría para argumentar este punto.
• Se pueden realizar pruebas específicas sobre igualdad de varianzas de la variable y en los dos
grupos, es decir,
H0 : σ12 = σ22 vs Ha : σ12 6= σ22 ,
por ejemplo: Barlett, Levene o Fligner-Killeen. Se espera no rechazar H0 .
Normalidad e Independencia de las observaciones
• Aplicar mismas pruebas que en el caso continuo, pero en cada grupo y directamente sobre y.

En muchos problemas de este tipo, por diseño se cumple la aleatoriedad, pero se sugiere hacer la revisión
del proceso de generación de los datos.
Cuando hay evidencia en contra de la normalidad o de la homocedasticidad se sugiere lo siguiente:

Realizar transformaciones a y, por ejemplo usando las tipo Box-Cox

54
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Cuando no hay homocedasticidad, pero sí normalidad en cada grupo.


• Usar una prueba t para comparar las medias que permita diferentes varianzas:
◦ t.test(. . . , var.equal=FALSE)
◦ oneway.test(. . . , var.equal=FALSE)
• Usar un modelo de regresión con la matriz de varianza que permita variar los valores de la diagonal
por grupos.
◦ gls(. . . , weights=varIdent(form= ~ 1 | group)) en nlme.
Cuando no hay normalidad.
• si hay homocedasticidad, usar método bootstrap
• pruebas no paramétricas (Mann-Whitney test o Kruskal-Wallis test)

Ejemplo 6.
Datos “Average Annual Daily Traffic Data (AADT)” del paquete AID.
EjemploRegLinSimple6.R

1.9. El problema de predicción

Consideremos el caso donde se tiene el interés de atinar-aproximar-predecir el valor de y para una o varias
observaciones que NO SON incluidas en el conjunto con el cual se realiza el ajuste del modelo de regresión
lineal simple.
Como se comentó antes en la sección de consideraciones prácticas, existen dos posibles escenarios donde se
puede tener ese interés:

Se ha planteado un modelo con el objetivo fundamental de inferencia o estimación, pero también se


quiere tomar ventaja de éste para predecir. En este caso es importante verificar los supuestos, además
se puede tomar ventaja de su cumplimiento para encontrar intervalos de predicción.
El modelo sólo se requiere con el objetivo de predicción. En este caso no sería necesario el cumpli-
miento de los supuestos, aunque se recomienda que se cumplan para obtener mejores resultados. La
forma de evaluar un modelo se realiza mediante otras métricas especializadas para medir el desempeño
en este sentido, separando la muestra en al menos dos conjuntos: entrenamiento (training) y valida-
ción (test/emula nuevas observaciones). Algunas técnicas comúnmente usadas son repeated holdout
method y repetead k-cross-validation (validación cruzada).

1.9.1. Intervalos de predicción

Supongamos que yh es el valor de interés que se desea predecir asociado a una observación h que no fue
usada en el ajuste del modelo de regresión. Supongamos además que yh cumple los supuestos con los que se
ajustó el modelo de regresión lineal simple (no hay razón para suponer un cambio en el comportamiento que
reflejaban las observaciones y1 , ..., yn ), es decir

yh = β0 + β1 xh + εh ,

con εh una variable aleatoria tal que εh ∼ N (0, σ 2 ) y εh es independiente de ε1 , ..., εn , además los parámetros
coinciden con el modelo ajustado donde

y i = β0 + β1 x i + ε i , i = 1, ..., n,

55
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

y εi ∼ N (0, σ 2 ) ∀ i, i = 1, ..., n.
Lo anterior implica que
yh ∼ N (β0 + β1 xh , σ 2 )
y que yh es independiente de y1 , ..., yn y, por lo tanto, es independiente de βb0 , βb1 y σ
b2 , pues estos estimadores
son funciones de y1 , ..., yn .
La distribución de yh depende entonces de parámetros desconocidos, de manera para tratar de incluir la
incertidumbre de la estimación de éstos y si trataramos de emular el procedimiento de la cantidad pivotal
para yh (que es una v.a. y no un parámetro) podríamos comenzar observando que:

yh − (βb0 + βb1 xh )

es una variable aleatoria que cumple:

E(yh − (βb0 + βb1 xh )) = β0 + β1 xh − (β0 + β1 xh ) = 0,

2 1 (xh − X)2
 
V(yh − (β0 + β1 xh )) = V(yh ) + V(E(y; xh )) = σ + σ
b b b 2
+ ,
n SSx
ver por ejemplo, ecuación (42). Además

1 (xh − X)2
  
yh − (βb0 + βb1 xh ) ∼ N 0, σ 1 + +
2
.
n SSx

A partir de lo anterior, se podría considerar la siguiente transformación

yh − (βb0 + βb1 xh )
r h i ∼ N (0, 1).
−X)2
σ 2 1 + n1 + (xhSSx

Además usando Resultado 1.12, incisos ii) y iii), tenemos que

y − (βb0 + βb1 xh )
r hh i
−X)2
σ 2 1 + n1 + (xhSSx
yh − (βb0 + βb1 xh )
r Pn = r h i = Q ∼ tn−2 , (90)
2
1 i=1
b0 −βb1 xi )2
(yi −β
σ 2 1 + 1 + (xh −X)
n−2 2 σ
b n SSx

Es decir, Q es una “cantidad pivotal” para yh . A partir de lo anterior podemos encontrar t1 y t2 tal que

P (t1 ≤ Q ≤ t2 ) = 1 − α,

y “pivotear” para encontrar el intervalo de predicción de yh con un nivel 1 − α:


 s s 
1 (xh − X)2 1 (x
   2

βb0 + βb1 xh − tn−2,1−α/2 h − X)
b2
σ 1+ + , βb0 + βb1 xh + tn−2,1−α/2 b2 1 + +
σ .
n SSx n SSx
(91)
Nota. Aquí aún cuando se realice una transformación uno a uno a y en el ajuste del modelo, el intervalo de
predicción de y se obtiene en la escala original aplicando al intervalo la función inversa de la transformación
aplicada.

56
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Usando un razonamiento similar, se puede encontrar un intervalo de predicción para una combinación lineal
de yh1 , ..., yhm , donde cada una de estas v.a. está asociada a xh1 , ..., xhm y las observaciones h1 , ..., hm son
independientes entre sí y también de las observaciones 1, ..., n usadas para ajustar el modelo. Es decir, el
intervalo de predicción para

m
X
aj yhj ,
j=1

con a1 , ..., am constantes es:


 v  
u Pm Pm Pm
m
X m
X u X m
( j=1 aj )2 ( j=1 aj xhj − X j=1 aj ) 
2
aj + βb1 a2j + +  . (92)
u 2
β0 a j xh j ± tn−2,1−α/2 tb
σ
b
j=1 j=1 j=1
n SSx

Ver continuación de ejemplo 1 en R. Datos de la Compañía Toluca


EjemploRegLinSimple1cont5.R

1.9.2. MSE bajo Repeated K-Cross Validation (Repeated K-CV)

Supongamos que tenemos un conjunto y1 , ..., yn de valores observados que usamos para el ajuste de un
modelo de regresión (cualquier modelo). Una vez que ajustamos el modelo, nos interesa predecir los valores
yh1 , ..., yhm de nuevas observaciones las cuales están asociadas a xh1 , ..., xhm , respectivamente.
Supongamos que tenemos varios modelos que potencialmente se usarán para la predicción de yh1 , ..., yhm .
(M od) (M od)
Sean ybh1 , ..., ybhm los valores obtenidos para la predicción con un modelo ajustado M od. El objetivo es
definir alguna métrica para decidir entre los modelos ajustados de acuerdo con su desempeño al predicir.
Una métrica común es la media de los errores cuadráticos (MSE) para un modelo ajustado M od:

Pm (M od) 2
j=1 (yhj − ybhj )
M SE(M od) = . (93)
m

Sin embargo, esta métrica considera información que no se tiene al momento de decidir sobre qué modelo
se usará (los valores yh1 , ..., yhm ). Una alternativa práctica comúnmente usada para estimar esta métrica es
dividir la muestra y1 , ..., yn con la que se ajusta el modelo para obtener un conjunto que emule las nuevas
observaciones.
Si n es muy grande, una alternativa muy simple es dividir aleatoriamente en dos conjuntos la muestra
y1 , ..., yn : un conjunto se usará para el ajuste del modelo (training) y el otro se considerará como un conjunto
de observaciones nuevas con la que se evaluará el poder predictivo (test), ver Figura 14, de esta forma es
fácil calcular (93) para el conjunto test. Si ya se calculó (93) para cada posible modelo M od, se selecciona el
modelo que proporcione un menor valor.

Figura 14: Ejemplo de la división de la muestra en dos subconjuntos, uno para entrenamiento (training) y
otro para evaluar el poder predictivo (test).

57
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

En el caso donde n no es grande o para mejorar la estimación de (93) se procede a usar otros métodos. Uno
conocido como “repeated holdout method” consiste en repetir lo descrito anteriormente B veces y promediar
los B valores obtenidos de (93), la división se puede hacer, por ejemplo, dejando un 80 % de las observaciones
para entrenar y 20 % para la evaluación.

1.9.2.1. K-Cross Validation (K-CV) Este método particiona de forma aleatoria al conjunto de n
observaciones en K subconjuntos. Por ejemplo, si K = 5, la Figura 15 muestra una posible partición del
conjunto con n observaciones.

Figura 15: Ejemplo de la partición de la muestra en K subconjuntos. En cada iteración k = 1, ...K, un


subconjunto es usado como test, el resto como train. En el test se puede evaluar la medida de desempeño.

Una vez que ya se tiene particionada a la muestra, se realiza lo siguiente para cada subconjunto, es decir,
para k = 1, ..., K. El subconjunto k se usa como conjunto test, mientras que el resto de observaciones como
de entrenamiento (training). Con esto se obtiene M SE(M od)k .
Finalmente, se promedían los K valores M SE(M od)1 , ..., M SE(M od)K .

1.9.2.2. Repeated K-Cross Validation (Repeated K-CV). Este método consiste en repetir lo des-
crito para el método K-CV B veces y promediar los B valores obtenidos de (93).

Ver continuación del Ejemplo 4.


Datos “ejemplo4.csv” asociados a Figura 2.
EjemploRegLinSimple4cont3.R

2. Regresión lineal múltiple


En la regresión lineal múltiple el modelo que se considera sobre el conjunto de n observaciones es:

yi = β0 + β1 xi1 + β2 xi2 + ... + βp xip + εi , i = 1, ..., n, (94)

donde i representa a la i−ésima observación y p el número de variables independientes (covariables, variables


explicativas o predictoras). Notar que cuando p = 1 estamos hablando del modelo de regresión lineal simple.

58
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Los supuestos sobre las variables aleatorias ε1 , ..., εn son los mismos que trabajamos en la sección anterior,
es decir:

I. E(εi ) = 0, V(εi ) = σ 2 y Cov(εi , εj ) = 0 ∀ i 6= j, i, j = 1, ..., n.


II. ε1 , ε2 , ..., εn son v.a.i.i.d. (m.a.) de la distribución N (0, σ 2 ).

El número de parámetros asociados a la E(y) = E(y; x) en el modelo es p + 1, “y” es una variable continua
y las variables x1 , ..., xp son “fijas” o se pueden controlar.
En forma matricial, donde cada renglón representa una observación, lo anterior se puede describir como:

1
      
y1 x11 x12 ... x1p β0 ε1
 y2  1 x21 x22 ... x2p   β1   ε 2 
 ..  =  .. .. .. .. ..   ..  +  ..  . (95)
      
 .  . . . . .  .   . 
yn 1 xn1 xn2 ... xnp βp εn

O bien:

y = Xβ + ε, (96)

donde y es de n × 1
X es de n × (p + 1)
β es de (p + 1) × 1
ε es de n × 1.

A X en muchos libros se le llama la matriz diseño y por construcción es una matriz de constantes.
Los supuestos también se pueden expresar en forma matricial como:

I. E(ε) = 0 y Cov(ε) = σ 2 I.
En términos de y: E(y) = Xβ y Cov(y) = σ 2 I.
II. ε ∼ N (0, σ 2 I).
En términos de y: y ∼ N (Xβ, σ 2 I).

Donde I es una matriz identidad de n × n.


Asumiremos que el rango de X es completo, es decir, r(X) = p + 1.
Las observaciones que cumplen la parametrización en (94) o (96), provienen entonces de un modelo donde y
es una variable aleatoria que tiene las propiedades siguientes:

a. Supuesto de linealidad:

E(y) = E(y; x) = β0 + β1 x1 + β2 x2 + ... + βp xp

para un conjunto de interés de valores de x = (x1 , ..., xp ). Es decir, E(y; x) se puede expresar como
una combinación lineal de los parámetros β0 , β1 , ..., βp .
b. Supuesto de homocedasticidad:
V(y) = V(y; x) = σ 2 .
c. Supuesto de normalidad (sólo bajo supuesto II):

y ∼ N (β0 + β1 x1 + β2 x2 + ... + βp xp , σ 2 ).

59
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

El objetivo es encontrar valores para β0 , β1 , ..., βp , de manera que quede definida E(y) = E(y; x)
para un conjunto de valores de interés de x = (x1 , ..., xp ). Otro parámetro por estimar es σ 2 .
Nota. Como en el caso de regresión lineal simple, los valores de la variable xj , j = 1, ..., p, pueden ser
directamente observados o bien ser el resultado de alguna transformación, de manera que estos sean valores
numéricos y se cumpla el supuesto de linealidad.

2.1. Estimación puntual

2.1.1. Estimación por el método de mínimos cuadrados

Sea

n
X n
X n
X
Q= e2i = (yi − ybi )2 = (yi − (βb0 + βb1 xi1 + ... + βbp xip ))2 , (97)
i=1 i=1 i=1

donde ei es el i−ésimo error observado usando ybi = βb0 + βb1 xi1 + ... + βbp xip como la estimación de E(y; xi ).
El objetivo es encontrar βb0 , ..., βbp que minimizan la expresión (97), estos valores serán las estimaciones de
los parámetros β0 , β1 , ..., βp .
Notar que en forma matricial, la expresión (97) es equivalente a:

Q = et e = (y − X β)
b t (y − X β).
b (98)

Para resolver el problema de minimizar (97) tenemos que derivar con respecto a βb0 , ..., βbp , igualar a cero y
resolver.
Las derivadas y el sistema resultante al igualar a cero cada derivada se puede resumir como:

n
∂Q X
= 2(yi − (βb0 + βb1 xi1 + ... + βbp xip ))(−1) =0 (99)
∂ β0
b
i=1
n
∂Q X
= 2(yi − (βb0 + βb1 xi1 + ... + βbp xip ))(−xij )= 0, j = 1, ..., p. (100)
∂ βbj i=1

El sistema de ecuaciones definido por (99) y (100) se conoce como sistema de ecuaciones normales e implica
lo siguiente:

n
X n
X
De (99) (yi − ybi ) = ei =0
i=1 i=1
Xn Xn
y de (100) (yi − ybi )xij = ei xij = 0, j = 1, ..., p
i=1 i=1

Usando (98), es decir, la forma matricial, es muy fácil resolver el sistema de ecuaciones. Para esto antes
recordemos las siguientes propiedades donde a, z y y son vectores y A una matriz:

a. ∂ t
∂z a z = ∂ t
∂z z a = a.

b. ∂ t
∂z z z = 2z.

c. ∂ t
∂z z Az = (A + At )z.

60
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

d. ∂ t
∂z z Ay = Ay.

Además recordar que (A + B)t = At + B t y (AB)t = B t At ; en particular cuando se tiene el producto


punto de dos vectores se cumple lo siguiente: (z t y)t = y t z = z t y, la última igualdad se da porque z t y es
un número real.
Para usar lo anterior sobre Q notemos que:

Q= (y − yb)t (y − yb) = y t y − ybt y − y t yb + ybt yb


= y t y − 2b
y t y + ybt yb
= y t y − 2(X β)b t y + (X β)
b t X β.
b

= y t y − 2βbt X t y + βbt X t X β.
b

∂Q
=⇒ = −2X t y + (X t X + (X t X)t )βb
∂ βb | {z } | {z }
d. c.

= −2X y + 2X X βb = 0
t t
(101)

De esta forma, (101) es el equivalente en términos matriciales del sistema de ecuaciones normales en (99) y
(100).
De (101) tenemos que:

(X t X)βb = X t y,

de donde la solución es (por ser X de rango completo):

βb = (X t X)−1 X t y. (102)

Y es un mínimo pues la matriz hessiana es definida positiva (at X t Xa > 0 para toda a 6= 0, por ser X de
rango completo).
Si X no es de rango completo, se podría usar la inversa generalizada en (102).

2.1.2. Propiedades de vectores aleatorios

Sean A y B matrices de constantes, b un vector de constantes y z un vector aleatorio. Consideraremos las


siguientes propiedades.

Resultado 2.1. (Propiedades de vectores aleatorios)

i. E(A) = A

ii. E(b + z) = b + E(z)


iii. E(Az) = AE(z)
iv. V(Az) = AV(z)At = Cov(Az, Az) = Cov(Az)

v. V(Az + b) = ACov(z)At
vi. Cov(Az, Bz) = ACov(z)B t

61
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.1.3. Propiedades de los estimadores de mínimos cuadrados

Resultado 2.2. (Propiedades de los estimadores de mínimos cuadrados)

i. Insesgamiento, es decir, E(β)


b = β.

ii. V(β)
b = σ 2 (X t X)−1 .

Demostración.

i.
E(β)
b = E (X t X)−1 X t y


= (X t X)−1 X t E(y)
= (X t X)−1 (X t X)β

ii.
b = V (X t X)−1 X t y = (X t X)−1 X t V(y) (X t X)−1 X t t
V(β)
  

= (X t X)−1 X t (σ 2 I)X(X t X)−1


= σ 2 (X t X)−1 (X t X)(X t X)−1
= σ 2 (X t X)−1

Resultado 2.3. (Teorema de Gauss-Markov) Sea λ un vector de constantes de (p + 1) × 1 y sea


p
X
θ = λt β = λ j βj
j=0

el parámetro de interés. Considerando βb como la solución al problema de mínimos cuadrados se cumple:


Pn
i. θb = λt βb es un estimador lineal, es decir, se puede escribir como dt y = i=1 di yi , con d un vector de
constantes.
ii. θb = λt βb es un estimador insesgado de θ.
iii. Sea θe cualquier otro estimador lineal e insesgado de θ, es decir, θe = det y y E(θ)
e = θ con de un vector
de constantes, entonces:
V(θ)
b ≤ V(θ).
e

Demostración.

−1
i. Sabemos que βb = (X t X) X t y.

=⇒ θb = λt βb
−1
= λt X t X X ty
−1 −1
de donde dt = λt (X t X) X t y d = X (X t X) λ.

ii. E(θ)
b = E(λt β)
b = λt E(β)
b = λt β.

iii.

62
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

I. Observemos que:

V(λt β)
b = λt V(β)λ
b
h −1 i
= λt σ 2 X t X λ
−1
= σ 2 λt X t X (103)

λ.

II. Ahora sea θe = det y otro estimador insesgado de θ.

=⇒ E(θ)e = E(det y) = det E(y) = det Xβ = θ = λt β

=⇒ det X = λt o λ = X t d. e

III. Observemos que


h i
Cov(θ, b det y) = Cov λt X t X −1 X t y, det y
e = Cov(λt β,

b θ)
−1 t
= λt X t X X Cov(y)de
−1
= λt X t X X t σ 2 I de
 
−1 t −1
= σ 2 λt X t X X de = σ 2 λt X t X
|{z} λ.
λ

IV. Finalmente, V(θb − θ)


e = V(λt βb − det y) = V(λt β)
b + V(det y) − 2Cov(λt β,
b det y) ≥ 0

Pero:
−1
V(λt βb − det y) = V(λt β)
b + V(det y) − 2 σ 2 λt X t X λ
| {z }
Por III.

= V(λ β)
b + V(det y) − 2 V(λt β)
t b
| {z }
Por I.

= V(det y) − V(λt β)
b

=⇒ V(det y) ≥ V(λt β),


b es decir, V(θ)
e ≥ V(θ).
b

En particular si:

λ(k) = (0, ..., 1, ..., 0), es decir, el vector de ceros excepto en la k-ésima entrada donde vale 1.
t
=⇒ λ(k) βb = βbk−1 es el estimador lineal insesgado de mínima varianza de βk−1 y

t −1
V(βbk−1 ) = σ 2 λ(k) X tX λ(k)

−1
es decir, la entrada k−ésima de la diagonal de (X t X) multiplicada por σ 2 .
Además, cuando el interés es:

E(y; x∗ = (x∗1 , ..., x∗p )) = β0 + β1 x∗1 + ... + βp x∗p

=⇒ λ = (1, x∗1 , ..., x∗p )

63
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Y un estimador lineal insesgado de mínima varianza de E(y; x∗1 , ..., x∗p ) es:

E(y;
b x∗ , ..., x∗ ) = λt βb = βb0 + βb1 x∗ + ... + βbp x∗
1 p 1 p

−1
V(λ b = σ 2 λt X t X
b t β) λ
1
 
x∗1 
= σ 2 [1 x∗1 ... x∗p ](X t X)−1  . 
 
 .. 
x∗p

2.1.4. Matriz proyección o “hat matrix” H

Sea H = X(X t X)−1 X t . A H se le conoce como la matriz proyección y es una matriz de n × n. Además H
es muy importante pues yb = X βb = X (X t X)−1 X t y = Hy y a partir de las propiedades de H se pueden
 

obtener varias demostraciones sobre propiedades del estimador de σ 2 que veremos más adelante.
Resultado 2.4. (Propiedades básicas de la Matriz H)

i. H es simétrica (una matriz Z es simétrica si Z = Z t ).


ii. H es idempotente (una matriz Z es idempotente si ZZ = Z).

Demostración.

i. t
Ht = X(X t X)−1 X t


t h t −1 it t
= Xt X X X
−1
= X X tX Xt (X t X es simétrica, lo mismo su inversa)


=H

ii.
HH = X(X t X)−1 X t X(X t X)−1 X t
  

= X (X t X)−1 X t X (X t X)−1 X t
 
| {z }
Matriz I
= X(X t X)−1 X t
=H

Otras propiedades de la matriz proyección se pueden obtener a partir de las siguientes propiedades de la
traza de una matriz. Recordar que la traza de una matriz es la suma de los elementos de la diagonal.
Resultado 2.5. (Propiedades asociadas a la traza)

a. tr(AB) = tr(BA)
b. tr(A + B) = tr(A) + tr(B)

64
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

c. Sea A una matriz constante y z un vector aleatorio, entonces E (z t Az) = tr (ACov(z)) + E(z)t AE(z)
d. Si A es idempotente, entonces tr(A) = rango(A) = r(A).
Resultado 2.6. (Propiedades adicionales de la Matriz H)

iii. tr(H) = p + 1
iv. I − H es idempotente y simétrica
v. tr(I − H) = n − p − 1

Demostración.

iii.
tr(H) = tr X(X t X)−1 X t
 

= tr X t X(X t X)−1 Recordar dimensiones Xn×(p+1) , X t X(p+1)×(p+1)


 
a)

= tr(I(p+1)×(p+1) ) = p + 1

iv. Veamos que es simétrica, pues

(In×n − Hn×n )t = It − Ht
=I−H
i)

Por otra parte, es idempotente, ya que

(I − H)(I − H) = I − H − H + H2
=I−H−H+H
ii)

=I−H

v.
tr(I − H) = tr(In×n ) − tr(H)
b)

= n − (p + 1)
iii)

=n−p−1

2.1.5. Un estimador insesgado para σ 2

Resultado 2.7.

I. " n #
X
E (yi − ybi ) 2
= σ 2 (n − p − 1)
i=1

II. Un estimador insesgado de σ 2 es:


Pn
i=1 (yi
− ybi )2
b =
σ2
(104)
n−p−1

65
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Demostración. La demostración de I se basará en las propiedades de la matriz H, mientras que II es un


resultado directo de I. Observemos que:
n
X
(yi − ybi )2 = (y − X β)
b t (y − X β)
b
i=1
= (y − Hy)t (y − Hy)
= [(I − H)y] (I − H)y
t

= y t (I − H)t (I − H)y
= y t (I − H)(I − H)y
iv)

= y t (I − H)y. (105)
iv)

Ahora usando el Resultado 2.5 y la propiedad c) tenemos que:


" n #
(yi − ybi ) = E y t (I − H)y
X
E 2
 
i=1
= tr [(I − H)Cov(y)] + E(y)t (I − H)E(y)
= tr (I − H)(σ 2 I) + (Xβ)t (I − H)Xβ
 

= σ 2 tr(I − H) + (Xβ)t I − X(X t X)−1 X t Xβ


 

= σ 2 (n − p − 1) + (Xβ)t Xβ − (Xβ)t X(X t X)−1 X t Xβ


v)

= σ 2 (n − p − 1) + β t X t Xβ − β t X t X (X t X)−1 X t X β
| {z }
I
= σ 2 (n − p − 1)

∴ Un estimador insesgado de σ 2 es:


Pn
i=1 (yi− ybi )2
b2 =
σ .
n−p−1

Usando este resultado y la expresión (103), se puede obtener un estimador insesgado de V(θ)
b = V(λt β):
b

−1
V(λ b =σ
b t β) b 2 λt X t X λ. (106)

2.1.6. Estimación por Máxima Verosimilitud

Notemos que todo lo que se desarrolló en la sección anterior con el método de mínimos cuadrados sólo
requirió de los siguientes supuestos:

E(ε) = 0 y Cov(ε) = σ 2 I.

En términos de y : E(y) = Xβ y Cov(y) = σ 2 I.

En esta sección, para usar el método de máxima verosimilitud, es indispensable considerar el otro conjunto
de supuestos que incluyen la normalidad, es decir:

ε ∼ N (0, σ 2 I).

66
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

En términos de y : y ∼ N (Xβ, σ 2 I).

De esta manera, asumiremos que yi ∼ N (µi , σ 2 ), i = 1, ..., n, con µi = β0 + β1 xi1 + ... + βp xip , y las yi ’s son
independientes. Notar que la función de densidad marginal de cada yi es:

1 1 2
f (yi ; β0 , β1 , ..., βp , σ 2 ) = √ e− 2σ2 [yi −(β0 +β1 xi1 +...+βp xip )] , i = 1, ..., n.
2πσ 2

Con este es muy fácil observar que la función de verosimilitud es:

n
Y
L(β0 , β1 , ..., βp , σ 2 ; y1 , ..., yn ) = f (yi ; β0 , β1 , ..., βp , σ 2 )
i=1
1 1
Pn [yi −(β0 +β1 xi1 +...+βp xip )]2
= n e− 2 i=1 σ2 . (107)
(2πσ 2 ) 2

La función de log-verosimilitud es:

n 2
n 1 X [yi − (β0 + β1 xi1 + ... + βp xip )]
ln L = − ln(2πσ 2 ) − .
2 2 i=1 σ2

Para maximizar ln L podemos sacar derivadas e igualar a cero.

n
∂ ln L 1 X
= − 2 (−2) [yi − (β0 + β1 xi1 + ... + βp xip )] =0
∂β0 2σ i=1
n
∂ ln L 1 X
= − 2 (−2) [yi − (β0 + β1 xi1 + ... + βp xip )] (xij ) = 0, j = 1, ..., p.
∂βj 2σ i=1

Este sistema de ecuaciones coincide con el obtenido al usar mínimos cuadrados, considerando que σ 2 es una
constante positiva. De donde

−1
βb = X t X X ty (108)

Adicionalmente, el estimador de σ 2 se obtiene de la otra derivada

n
∂ ln L n 1 1 (−1) X 2
= − (2π) − [yi − (β0 + β1 xi1 + ... + βp xip )] = 0
∂σ 2 2 2πσ 2 2 (σ 2 )2 i=1
n
n 1 X 2
⇐⇒ = (yi − ybi )
2σ 2 2(σ 2 )2 i=1
Pn 2
(yi − ybi )
es decir, σ
bM V = i=1
2
.
n

Notar que σ
bM2
V es diferente al estimador de σ en (104) y no es insesgado.
2

Se puede verificar (demostración similar al Resultado 1.9) que bajo los supuestos usados, βb y σ
b2 , dados en
(108) y (104), son los UMVUEs de β y σ , respectivamente.
2

67
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.2. El coeficiente de determinación R2

Resultado 2.8.
n
X n
X n
X
(yi − ȳ)2 = (yi − ybi )2 + (b
yi − ȳ)2
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCE SCR

Demostración.
n
X n
X 2
(yi − ȳ) =
2
[(yi − ybi ) + (b
yi − ȳ)]
i=1 i=1
n
X n
X n
X
= (yi − ybi )2 + (b
yi − ȳ)2 + 2 (yi − ybi )(b
yi − ȳ).
i=1 i=1 i=1

Pero,
n
X n
X n
X
(yi − ybi )(b
yi − ȳ) = ybi (yi − ybi ) − ȳ (yi − ybi )
i=1 i=1 i=1
Xn n
X
= (βb0 + βb1 xi1 + ... + βbp xip )(yi − ybi ) − ȳ (yi − ybi )
i=1 i=1
n
X n
X n
X n
X
= βb0 (yi − ybi ) + βb1 (yi − ybi )xi1 + ... + βbp (yi − ybi )xip − ȳ (yi − ybi )
i=1 i=1 i=1 i=1
=0 (Propiedades de las ecuaciones normales (99) y (100))
n
X n
X n
X
∴ (yi − ȳ)2 = (yi − ybi )2 + (b
yi − ȳ)2
i=1 i=1 i=1

El coeficiente de determinación se define entonces como:


Pn
(b
yi − ȳ)2
R = Pi=1
2
n
i=1 (yi − ȳ)
2

y R2 × 100 % se interpreta como el porcentaje de la variabilidad en y explicada por el modelo.


Valores de R2 cercanos a 1 son preferibles y valores cercanos a 0 indican que el modelo es pobre. Cuando
se usa la prueba asociada a la Tabla Anova y se rechaza H0 y, además, el valor de R2 es cercano a cero, se
sugiere incluir más variables o hacer transformaciones para mejorar el modelo.

2.3. Propiedades de la distribución normal multivariada y de formas cuadráticas

Las propiedades que se listarán se usarán de referencia para la obtención de intervalos de confianza y pruebas
de hipótesis. La demostración de éstas escapa al temario de este curso, sin embargo, si se tiene interés en el
tema se sugiere revisar Seber y Lee (2003, Linear Regression Analysis, Sección 2).
Sea Vn×n una matriz definida positiva y z ∼ N (µ, V ). Entonces

I) y = a + Bz ∼ N (a + Bµ, BV B t )
II) E(z t Az) = tr(AV ) + µt Aµ

68
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

III) Cov(z, z t Az) = 2V Aµ


IV) V(z t Az) = 2 tr (AV )2 + 4µt AV Aµ
 

V) z t Az ∼ χ2rango(A), 1 µt Aµ ⇐⇒ AV es idempotente,
[ 2 ]
donde χ2(a,b) es una χ2 -cuadrada con a grados de libertad y parámetro de no centralidad b. Cuando
b = 0, entonces χ2(a,b) = χ2a .

VI) z t Az y Bz son independientes ⇐⇒ BV A = 0


VII) z t Az y z t Bz son independientes ⇐⇒ AV B = 0

2.4. Propiedades distribucionales de los estimadores de mínimos cuadrados o


de máxima verosimilitud

Bajo el modelo de regresión lineal múltiple con el supuesto:

ε ∼ N (0, σ 2 I).

En términos de y : y ∼ N (Xβ, σ 2 I).


Se cumple lo siguiente.
Resultado 2.9.

i)
βb ∼ N (β, σ 2 (X t X)−1 ) (109)

Demostración. Sabemos que βb = (X t X)−1 X t y, donde y ∼ N (Xβ, σ 2 I). Usando I) y Resultado 2..2
tenemos que:
βb ∼ N (β, σ 2 (X t X)−1 ).

ii)
SCE
∼ χ2 (Xβ)t
 = χ2n−p−1 (110)
σ2 rango(I−H), 12 σ (I−H) Xβ
σ

Demostración. Sabemos que y ∼ N (Xβ, σ 2 I)


 
y Xβ
=⇒ ∼N ,I
σ σ

Además usando (105)


n
X (yi − ybi )2
SCE
=
σ2 i=1
σ2
yt y
= (I − H) .
σ σ
A partir de esto y usando la propiedad V), con A = I − H y V = I, se tiene que

AV = (I − H)I = I − H, que es idempotente por Resultado 2.6 iv)

69
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

yt y
=⇒ (I − H) ∼ χ2 (Xβ)t
rango(I−H), 21 σ (I−H) Xβ

σ σ σ

Además, por Resultado 2.5 d), como (I − H) es idempotente, entonces rango(I − H) = tr(I − H) =
n − p − 1. Lo último por Resultado 2.6 v).
Ahora, observemos que

(Xβ)t (I − H)Xβ = β t X t I − X(X t X)−1 X t Xβ


 

= β t X t Xβ − β t X t X (X t X)−1 X t X β
| {z }
I
=0

SCE
=⇒ ∼ χ2n−p−1
σ2

SCE
iii) βb es independiente de σ2

Demostración. βb = (X t X)−1 X t y = σ(X t X)−1 X t yσ . Además, como en el inciso anterior, SCE


σ2 =
yt
σ (I − H) yσ .
A partir de esto y usando VI) con A = (I − H), B = σ(X t X)−1 X t y V = I, se tiene que:

σ(X t X)−1 X t I(I − H) = σ(X t X)−1 X t − σ(X t X)−1 X t H


 

= σ (X t X)−1 X t − (X t X)−1 X t X (X t X)−1 X t 


| {z }
I
= σ (X t X)−1 X t − (X t X)−1 X t
 

=0

SCE
=⇒ βb y son independientes.
σ2

iv)
θb = λt βb ∼ N λt β, σ 2 λt (X t X)−1 λ (111)


Demostración. Directo usando I) y i). Notar que λt βb un una variable aleatoria (una dimensión).

λt β
b−λt β
v) √ ∼ N (0, 1) y es independiente de SCE
σ2 ∼ χ2n−p−1
σ 2 λt (X t X)−1 λ

Demostración. Directo al estandarizar la distribución en iv) y usando iii).

70
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.5. Intervalos de confianza para λt β

Usando la propiedad v) del Resultado 2.9 es fácil verificar que una cantidad pivotal para λt β es:

√ λt β
b−λt β
σ 2 λt (X t X)−1 λ λt βb − λt β
=p ∼ tn−p−1 ,
b2 λt (X t X)−1 λ
r
( SCE
σ2
) σ
n−p−1
| {z }
cantidad pivotal para λt β

de donde el IC al (1 − α) × 100 % para λt β es:

b2 λt (X t X)−1 λ
p
λt βb ± tn−p−1 σ
1− α
2

Pn
yi )2
(yi −b
con σ
b = 2 SCE
n−p−1 = i=1
n−p−1 .

2.6. Pruebas de hipótesis asociadas a λt β

Las pruebas de hipótesis que sirven para contrastar hipótesis asociadas a λt β se llaman comúnmente pruebas
t, pues usando la propiedad v) del Resultado 2.9, se puede verificar que la estadística de prueba

λt βb − c
t∗ = p
σb2 λt (X t X)−1 λ

bajo el espacio parametral restringido por H0 , con c una constante, tiene una distribución tn−p−1 y esto
permite definir las regiones de rechazo. Los tres contrastes de pares de hipótesis que se pueden realizar son:

i)
H0 : λt β = c vs Ha : λt β 6= c

Regla de decisión: Rechazar H0 si |t∗ | > t 1− α


2
n−p−1

ii)
H0 : λt β ≤ c vs Ha : λt β > c

Regla de decisión: Rechazar H0 si t∗ > t 1− α


n−p−1

iii)
H0 : λt β ≥ c vs Ha : λt β < c

Regla de decisión: Rechazar H0 si t∗ < t α = −t 1−α


n−p−1 n−p−1

Como en toda prueba de hipótesis, la regla de decisión basada en el p − value es:

Rechazar H0 si p − value < α.

71
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.7. Tabla de análisis de varianza (ANOVA) y la prueba F asociada.

La tabla de análisis de varianza considera las tres sumas que aparecen en:

n
X n
X n
X
(yi − ȳ) =
2
(yi − ybi ) +
2
(b
yi − ȳ)2 .
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCE SCR

Su nombre se debe a que descompone la SCT que representa una estadística sobre la variabilidad de y
de forma marginal. Con base en las distribuciones de funciones de SCE y SCR también se construye la
prueba más relevante de la regresión lineal múltiple, donde la estadística de prueba tiene distribución F .
Para demostrar esto, se requiere el siguiente resultado.
Resultado 2.10.

a)
1 t
 
SCR = y H − 11 y t
n
Con

1 1 1
   
...
 ..   .. ..  .
1n×1 = . y 11tn×n = . .
1 1 ... 1

b)
SCR
∼ χ2 1 (Xβ)t
p, 2 σ (H− n 11t ) Xβ

σ2 1
σ

c)
SCE SCR
es independiente de .
σ2 σ2

Demostración.

a) Consideremos
1
C = In×n − 11t
n 
1 ... 0 1 ... 1
  
 .. . . .
.  1  .. ..  .
= . . . − n . .
0 ... 1 1 ... 1

Veamos que C = C t pues,


t
1

C = In×n − 11t
t
n
t
1 t

= It − 11
n
1 t
= I − 11
n
= C.

72
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Además

1 t 1 t
  
CC = I − 11 I − 11
n n
1 t 1 t
  
= I − 11 I − 11
n n
1 t 1 1
= I · I − 11 I − I11t + 2 11t 11t
n n
 n 
n ... n
2 1 
= I − 11t + 2  ... .. 
.
n n
n ... n
2 t 1 t
= I − 11 + 11
n n
1 t
= I − 11
n
= C.

Es decir, C es simétrica e idempotente. Ahora


 
z1
1 t
 
 .. 
Sea z =  .  =⇒ Cz = I − 11 Z
n
zn
Pn 
i=1 zi
1 ..
=z− 
n Pn.


z
i=1 i
= z − z̄
 
z1 − z̄
=  ... 
 

zn − z̄

En particular

ybi − y¯b
 

C yb =  ... 
 

ybn − y¯b
 
ybi − ȳ
=  ... 
 

ybn − ȳ
= yb − ȳ.

Lo anterior se debe a que:


n
X
(yi − ybi ) = 0
i=1
Pn Pn
yi ybi
=⇒ ȳ = i=1
= i=1
= y¯b.
n n

Considerando esto

73
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
(b
yi − ȳ)2 = (b
y − ȳ)t (b
y − ȳ) = (C yb)t C yb
i=1
= ybt C t C yb = ybt CC yb = ybt C yb
= (X β)b t CX βb = (Hy)t CHy
1 t
 
= y H CHy = y H I − 11 Hy
t t t t
n
1 1
= y t Hy − y t Ht 11t Hy = y t Hy − ybt 11t yb.
n n
Ahora
 
y1 n
1t y = 1 . . . 1  ...  =
  X
yi
yn i=1

y
 
yb1 n
 .  X
1t yb = 1Hy = 1 . . . 1  ..  = ybi = 1t y
ybn i=1

1 t t 1
=⇒ yb 11 yb = y t 11t y
n n
n
1
yi − ȳ)2 = y t Hy − y t 11t y
X
∴ (b
i=1
n
1
 
= y t H − 11t y.
n

b) Ahora
 buscaremos
 la distribución de SCR
σ 2 . Para usar la propiedad V) de la sección 2.3, con
y
σ ∼
N σ , I , A = H − n 11 y V = I, tenemos que ver si
Xβ 1 t

1 1
 
AV = H − 11t I = H − 11t
n n
es idempotente. Notemos que

1 t 1 t 1 1 1
  
H − 11 H − 11 = HH − 11t H − H11t + 11t
n n n n n
1 t 1 t t 1 t
= H − 11 H − H 11 + 11
n n n
Además sabemos que

1t y = 1t Hy ∀y, de donde, 1t = 1t H

Por lo que

1 1 1 1 1
  
H − 11t H − 11t = H − 11t − 11t + 11t
n n n n n
1 t
= H − 11
n

74
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

∴ AV es idempotente

SCR
=⇒ ∼ χ2
rango(H− n 11t ), 12 (Xβ) (H− n1 11t ) Xβ
t 
σ2 1
σ σ

Pero H − n1 11t es idempotente

1 t 1 t
   
=⇒ rango H − 11 = tr H − 11
n n
1
= tr(H) − tr(11t )
n
1
=p+1− n
n
=p

es decir

SCR
∼ χ2 1 (Xβ)t .
σ2 p, 2 σ (H− n
1
11t ) Xβ
σ

c) Usando la propiedad VII) de la sección 2.3, con A = I − H, B = H − n1 11t y V = I, tenemos que:

1 t
 
AV B = (I − H)I H − 11
n
1 t
 
= (I − H) H − 11
n
1 1
= H − HH − I11t + H11t
n n
1 t 1 t t
= H − H − 11 + H 11
n n
1 t 1 t
= − 11 + 11
n n
=0

SCE SCR
∴ 2
es independiente de .
σ σ2

En la Tabla Anova el objetivo es contrastar

0
   
β1
 ..   .. 
H0 :  .  =  .  vs Ha : βj 6= 0 para alguna j, j = 1, ..., p.
βp 0

Notar que H0 se construye a partir del cumplimiento simultáneo de igualdades asociadas a combinaciones
lineales de los parámetros. Además, si H0 fuera cierta, entonces ninguna variable incluida en el modelo
estaría aportando información relevante para la estimación de E(y; x), por lo que en muchos casos el interés
es rechazar H0 , para decir que el modelo tiene sentido.

75
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

La estadística de prueba y región de rechazo asociada al contraste de hipótesis anterior se basa en observar
que bajo H0 , inciso b) del Resultado 2.10:

SCR
∼ χ2   
σ2  β0
p, 1 β0 ... β0  ..  1 
 2 σ ( n ) .  σ 
H− 1
11 t

β0

Lo anterior debido a que

1
  
x11 ... x1p β0
1 x21 ... x2p  0
Xβ =  . .. ..   .. 
  
 .. . .  . 
1 xn1 ... xnp 0
 
β0
=  ... 
 

β0
= β0 1

De donde

1 1
 
1t H − 11t 1 = 1t H1 − 1t 11t 1
n n
= 1t 1 − 1t 1
=0

SCR
∴ ∼ χ2p bajo H0 .
σ2

Entonces, bajo H0 :

SCR
σ 2 /p
F = ∼ Fp,n−p−1 .
SCE
σ 2 /(n − p − 1)

De donde se rechaza H0 si F > F 1−α . Esta información se presenta generalmente en la Tabla Anova,
p, n−p−1
ver Cuadro 2.

Cuadro 2: Tabla de análisis de varianza (ANOVA).

Suma de cuadrados Grados de libertad Suma de cuadrados medios F


Regresión SCR p SCR
p
SCR
σ2
pb
Errores SCE n−p−1 n−p−1 =
SCE
b2
σ
Total SCT n−1

76
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.8. Prueba lineal general

La prueba lineal general asociada a un modelo de regresión lineal múltiple es una extensión de la prueba F
asociada a la Tabla ANOVA. En esta prueba se considera un contraste en donde la hipótesis nula corresponde
a la igualdad de forma simultánea de r combinaciones lineales de los parámetros con constantes. Es decir:

H0 : Kβ = m vs Ha : Kβ 6= m,

donde K es una matriz de constantes de r×(p+1) y rango(K) = r ≤ p+1. Cada renglón de K está asociado
a los coeficientes de una combinación lineal de los parámetros en el modelo. Notar que K es de rango igual
a los renglones, es decir, por renglón no deben existir combinaciones lineales que se puedan obtener de otros
renglones. m es un vector de constantes de r × 1.
Ejemplos

a) Sea
H0 : β1 = 0 vs Ha : β1 6= 0,
Aquí también se podría usar la prueba lineal general con

K = [0
| 0 ... 0}] y
1 {z m = [0].
p+1

b) Consideremos el contraste de la Tabla ANOVA, es decir

0
   
β1
H0 :  ...  =  ...  vs Ha : βj 6= 0 para alguna j, j = 1, ..., p.
   

βp 0

Aquí también se podría usar la prueba lineal general con

0 1 0 0 0
   
...
0 0 1 ... 0 0
K = . . . .. ..  y m = . .
   
 .. .. .. . .  .. 
0 0 0 ... 1 0
En este caso K y m tienen p renglones.
c) Comparar dos modelos anidados, uno con p + 1 parámetros vs uno con r parámetros r < p + 1.
Por ejemplo, en H0 se incluye el modelo en donde se eliminan las variables y sus correspondientes
parámetros βr , ..., βp , es decir, bajo H0 el modelo reducido es

E(y; x) = β0 + β1 x1 + ... + βr−1 xr−1 ,

y el modelo completo es

E(y; x) = β0 + β1 x1 + ... + βr−1 xr−1 + βr xr + ... + βp xp .

Notar que si r = 1, el modelo reducido es aquel que sólo tiene a β0 como en la prueba de la Tabla
Anova. El modelo en H0 se dice que está anidado porque se obtiene al considerar como cero algunos
de los parámetros del modelo completo.
Las hipótesis en este caso se escriben como:

77
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

0
   
βr
H0 :  ...  =  ...  vs Ha : βj 6= 0 para alguna j, j = r, ..., p.
   

βp 0

0 0 0 1 0 0
 
... ...
0
 
|{z}
 r+1 
0
K = 0 0 0 0 1 0
 
 ... ... y m = .
 
 .. .. .. .. .. .. ..   .. 

. . . . . . .
0
0 0 0 ... 0 0 ... 1

d) Consideremos el modelo
yi = β 0 + β 1 xi + ε i .

Los investigadores tienen la hipótesis de que E(y; x) = x ∀x, es decir, que se puede asumir un
modelo donde β0 = 0 y β1 = 1. Notar que este es un modelo de regresión lineal simple, pero con lo
desarrollado en la sección anterior no podíamos realizar esta prueba de hipótesis, pues se requiere de
forma simultánea el cumplimiento de dos condiciones sobre los parámetros:

0
   
β0
H0 : = vs Ha : β0 6= 0 o β1 6= 1.
β1 1
Usando la prueba lineal general

1 0 0
   
K= y m=
0 1 1

Para obtener la estadística de prueba y la región de rechazo de esta prueba se usa el cociente de verosimilitudes
generalizado:
 
2(0)
L βb(0) , σ
bM V
γ=   ,
L β,
b σbM 2
V

2(0)
donde βb y σ 2
bM V son los estimadores máximos verosimiles de β y σ (sin nunguna restricción). β
2 b(0) y σ
bM V
son los estimadores que se encuentran al maximizar L(β, σ ; y1 , ..., yn ) con la restricción dada por H0 , es
2

decir, asumiendo Kβ = m y usando multiplicadores de Lagrange. Se puede verificar que

−1 t −1
βb(0) = βb − X t X K K(X t X)−1 K t (K βb − m)
 t  
y − X βb(0) y − X βb(0)
2(0)
bM V =
σ
n
2(0) −1
σM V = nb
nb σM V + (K β − m)t K t (X t X)−1 K
2 b (K βb − m).

Y que
  ! n2
2(0)
L βb(0) , σ
bM V σ 2
γ=  =
bM V
 2(0)
L β,
b σbM 2
V
σ
bM V

Además que bajo H0

78
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

 2 n−p−1
F ∗ = γ− n − 1 ∼ Fr, n−p−1 .
r

De esta forma F ∗ se usa como estadística de prueba y la regla de decisión es: rechazar H0 si F ∗ > F 1−α .
r, n−p−1

Observar que
 2 n−p−1
F ∗ = γ− n − 1
! r
2(0)
σ n−p−1
= −1
bM V
σ 2
bM V r
!
2(0)
bM V − σ
σ 2
n−p−1
=
bM V
σ 2
bM V r
SCEred − SCEc n − p − 1
= ·
SCEc r

Ver ejemplo en R
EjemploRegLinMul1.r

Nota. Si bien la prueba lineal general nos sirve para contrastar hipótesis que se expresan mediante condiciones
sobre los parámetros que se deben cumplir de forma simultánea, esta prueba no incluye casos donde nos
importaría la dirección o sentido en las condiciones (< , >).

2.9. Interpretación de los coeficientes y uso de variables categóricas.


En general, la interpretación de los coeficientes en

E(y; x) = β0 + β1 x1 + ... + βr−1 xr−1 + βr xr + ... + βp xp ,


se debe realizar una vez que se eliminan coeficientes no significativos (o sin considerar a estos). En algunos
casos el interés está en las pruebas de hipótesis (problemas tipo ANOVA), pero una vez que se determinan
ciertos coeficientes (o combinaciones lineales) como significativas, entonces se procede a la interpretación.
Cada problema es único, así que se debe tener cuidado con la interpretación. Veremos algunos casos generales,
pero no son todos (ver, por ejemplo, las ayudantías sobre regresión por pedazos y polinomial).

I. Asumiremos por ahora que estamos interesados en interpretar el coeficiente βj asociado a la variable
xj , con xj continua y el resto de variables no dependen de xj (por ejemplo, xk = x2j , k 6= j, depende
de xj y no se puede usar lo que aquí se describe).
Notemos que si
x∗ = (x∗1 , ..., x∗j−1 , x∗j , x∗j+1 , ..., x∗p ) y x∗∗ = (x∗1 , ..., x∗j−1 , x∗j + 1, x∗j+1 , ..., x∗p ),
se tiene que
E(y; x∗∗ ) − E(y; x∗ ) = β0 + β1 x∗1 + .... + βj (x∗j + 1) + ... + βp x∗p − β0 + β1 x∗1 + .... + βj x∗j + ... + βp x∗p
   

= βj (x∗j + 1) − βj x∗j
= βj .

Es decir, βj es la diferencia del promedio (la esperanza) de la variable ”y” cuando la variable xj aumenta
en una unidad y los valores del resto de variables se mantienen constantes.
Si βj es positivo sería un aumento en E(y; x), mientras que βj negativo implica una disminución.

79
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Ver ejemplo de interpretación en R:


EjemploRegLinMul2.r

II. Sea x∗j una variable categórica de k niveles (categorías), k ≥ 2, denotados con las etiquetas ”a1 ”, ..., ”ak ”.
Como en el caso anterior, supongamos que x∗j no se usa para construir otras variables, ni se consideran
interacciones entre variables. La forma de incluir a x∗j al modelo y la interpretación de los coeficientes
asociados es la siguiente:
a. Se crean k variables dicotómicas (binarias) tal que:
xjr = 1 si x∗j = ”ar ” y xjr = 0 e.o.c, r = 1, ..., k.
Notar que ”ar ” es uno de los niveles, en particular, aquel que se asocia al nivel r−ésimo. De
manera que se crea una variable dicotómica por nivel.
b. En el modelo sólo se incluyen k − 1 variables dicotómicas.
¿Cuáles? No hay restricción para elegir las k − 1 variables dicotómicas, se puede dejar fuera
cualquier variable. Sin embargo, se debe tener registro de cual es la que se deja fuera. Al nivel
asociado a la variable dicotómica que se deja fuera se le llama nivel de referencia.
En ocasiones, los investigadores tienen en mente ciertas hipótesis y eso ayuda a fijar el nivel de
referencia (por ejemplo, en problemas ANOVA, suele ser el nivel asociado al control/placebo).
c. Para la interpretación siempre se comparan las esperanzas dado cierto nivel de la variable cate-
górica dejando fijos los valores del resto de variables. Es decir, se comparan:
E(y; x∗1 , ..., x∗j−1 , x∗j = ”a1 ”, x∗j+1 , ..., x∗p ), E(y; x∗1 , ..., x∗j−1 , x∗j = ”a2 ”, x∗j+1 , ..., x∗p ),

..., E(y; x∗1 , ..., x∗j−1 , x∗j = ”ak ”, x∗j+1 , ..., x∗p ).

Ejemplo.
Supongamos que sólo hay otra variable x2 continua y la variable x∗1 categórica con k niveles, k ≥ 2.
El modelo es:

yi = β0 + β1 xi11 + β2 xi12 + ... + βk−1 xi1k−1 +βk xi2 + εi


| {z }
k − 1 variables dicótomicas
asociadas a x∗1

Notar que aquí la referencia es el nivel "ak ", pues se dejó fuera del modelo a la variable dicotómica
asociada.
Además que x11 , .., x1k−1 son dependientes algebraicamente, pues sólo puede pasar que una de ellas
valga 1 o bien todas igual a 0, dependiendo del valor (nivel) que tome x∗1 ; de donde:
(
β0 + βr + βk x∗2 si r = 1, ..., k − 1
E(y; x1 = ”ar ”, x2 = x2 ) =
∗ ∗
β0 + βk x∗2 si r = k.

Comparando contra el nivel de referencia, en este caso cuando x∗1 = ”ak ”.

E(y; x∗1 = ”ar ”, x∗2 ) − E(y; x∗1 = ”ak ”, x∗2 ) = βr , r = 1, ..., k − 1.

∴ βr es la diferencia en el promedio de la variable y cuando la variable categórica x∗1 toma el nivel ”ar ”
en comparación con el nivel ”ak ” y dado que el resto de variables se mantienen constantes.
Notas.

80
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i. ¿Cómo se analiza en este ejemplo si la variable x∗1 (de forma global) tiene un impacto en la
esperanza de la variable ”y”, dado que en el modelo se incluye a la variable x2 ?
Para que x∗1 no tenga un efecto en E(y; x∗1 , x2 ), debe pasar que para cualquier valor de x2

E(y; x∗1 = ”a1 ”, x2 = x∗2 ) = E(y; x∗1 = ”a2 ”, x2 = x∗2 ) = ... = E(y; x∗1 = ”ak ”, x2 = x∗2 ).

Es decir, se debe identificar cuáles son los parámetros asociados a todas la variables binarias que
se crearon para x∗1 y se debe realizar una prueba lineal general, donde:

H0 : βr = 0 ∀ r = 1, ..., k − 1 vs Ha : βr 6= 0 para alguna r = 1, ..., k − 1.

Si se rechaza H0 , entonces hay evidencia de que son diferentes al menos las medias de dos niveles
de x∗1 mientras se dejan fijos los valores del resto de variables en el modelo (en este caso dado x2 ).
ii. Las preguntas se pueden hacer de forma puntual sobre algunos niveles de x∗1 . Por ejemplo.
¿La esperanza de y entre dos niveles de x∗1 son diferentes (o una menor a otra), dado un valor fijo
de x2 ?
- Si una de las dos medias está asociada al nivel de referencia, entonces basta hacer una prueba
asociada al coeficiente del otro nivel, por ejemplo.

H0 : βr = 0 vs Ha : βr 6= 0 con r ∈ {0, ..., k − 1},


pues

E(y; x∗1 = ”ar ”, x2 = x∗2 ) − E(y; x∗1 = ”ak ”, x2 = x∗2 ) = β0 + βr + βk x∗2 − (β0 + βk x∗2 )
= βr .

- Si ninguna de las medias está asociada al nivel de referencia, supongamos que los niveles son
”am ” y ”al ”, entonces la prueba contrasta

H0 : βm − βl = 0 vs Ha : βm − βl 6= 0,
pues

E(y; x∗1 = ”am ”, x2 = x∗2 ) − E(y; x∗1 = ”al ”, x2 = x∗2 ) = β0 + βm + βk x∗2 − (β0 + βl + βk x∗2 )
= βm − βl .

Ver ejemplo:
EjemploRegLinMul3.r

2.10. Intervalos y pruebas de hipótesis simultáneas


En la sección 2.8 con la prueba lineal general, se introdujo el problema en donde se tiene interés de contrastar
hipótesis que se construyen a partir de condiciones que se deben de cumplir de forma simultánea. Sin embargo,
esta prueba sólo considera el caso de igualdad vs alguna diferencia.
En ocasiones las afirmaciones o hipótesis están asociadas a condiciones sobre los parámetros que deben satis-
facerse de forma simultánea e incluyen “dirección u ordenamiento”: “es mayor a”, “tiene más probabilidad”,
“es el mejor”. Para este tipo de casos, en el contexto de regresión, existe una estrategia de pruebas de hipó-
tesis e intervalos de confianza simultáneos que se basa en las pruebas t o intervalos de confianza para λt β
revisados en las secciones 2.5 y 2.6.

81
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Cabe mencionar que hay mucha discusión y análisis sobre este tipo de estrategia y para una revisión más
amplia se sugiere consultar el capítulo 13 en James et. al. (2021, An Introduction to Statistical Learning with
Applications in R) y Bretz et. al. (2011, Multiple Comparisons Using R); esta última referencia describe la
metodología implementada en el paquete multcomp en R.

2.10.1. Pruebas de hipótesis simultáneas. Idea general.

Supongamos que tenemos un conjunto de pares de hipótesis individuales: H0j vs Haj , j = 1, ..., r, tal que
H0j corresponde a una condición del estilo λtj β ≥ cj , λtj β ≤ cj o λtj β = cj .
Si sólo estamos interesados en controlar el error tipo I dada cierta significancia α para una prueba de hipótesis
individual, digamos H0j vs Haj , la regla de decisión basada en el p−value es “Rechazar H0j si p−value < α”,
es decir, con esta regla se satisface:
P [Rechazar H0j |H0j es cierta] ≤ α.

Cuando hablamos de forma simultánea, una forma de controlar un error similar al anterior se construye
considerando que la hipótesis nula global es
r
\
H0 : H0j ,
j=1

y a partir de esto, se puede controlar lo que se llama la probabilidad de rechazar H0 (bastaría rechazar al
menos una de las hipótesis nulas H0j ) dado que H0 es cierta, es decir:
P [Rechazar H0 |H0 es cierta] < α.

Existen varios métodos para controlar lo anterior, la mayoría toma en cuenta lo desarrollado teóricamente
para los contrastes de hipótesis individuales y proporciona un conjunto de p − values ajustados para cada
contraste individual.
La regla de decisión usando los p − values ajustados es: No se rechaza H0 si todos los p − values ajustados
pj , j = 1, ..., r, son tal que pj > α. En el caso de que al menos un pj < α entonces se rechaza H0 .
Aquí es posible identificar qué
Trpruebas individuales fueron las que provocaron el rechazo. Por ejemplo, si el
interés es la hipótesis global j=1 Haj , se deberían tener pj < α ∀ j, j = 1, ..., r, para indicar que se rechaza
Tr
H0 dado que se observó evidencia relacionada con j=1 Haj .

2.10.2. Intervalos de confianza simultáneos. Idea general.

Un intervalo de confianza
ICj = limInf j , limSupj
 

al (1 − α) × 100 % para el parámetro τj (θ) debe cumplir por definición que


P limInf j < τj (θ) < limSupj = 1 − α.
 

Ahora supongamos que nos interesan intervalos de confianza simultáneos al (1 − α) × 100 % para τ1 (θ), τ2 (θ),
. . . , τr (θ). En este caso se debe cumplir:

P [τ1 (θ) ∈ IC1 , ..., τr (θ) ∈ ICr ] = 1 − α,

con ICj = limInf j , limSupj , donde limInf j y limSupj son estadísticas.


 

Para lograr lo anterior no se pueden usar los intervalos de confianza individuales obtenidos para una confianza
(1 − α) × 100 %, pero se pueden hacer ajustes a éstos de manera que se satisfaga el cumplimiento de forma
simultánea de los eventos en la probabilidad anterior, estos ajustes generalmente se realizan en los cuantiles
que se usan en las expresiones de los intervalos de confianza.

82
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.10.3. Ejemplos: Problemas tipo ANOVA y ANCOVA.

2.10.3.1. ANOVA
Supongamos que tenemos k m.a. que son independientes entre si:

y1 , ..., yn1 , m.a de una distribución N (µ1 , σ 2 )


..
.
y1 , ..., ynk , m.a de una distribución N (µk , σ 2 )

Aquí k ≥ 2 y y es una variable asociada a una medición continua de interés; por ejemplo:

i. y es la medición sobre el puntaje en alguna prueba.


ii. y es una medición obtenida al aplicar una droga/medicina/sustancia: cantidad de anticuerpos, colesterol
en sangre, glucosa, etc.
Este caso es muy común. Aquí el interés es analizar el efecto en la medición y al considerar una caracte-
rística particular que define las poblaciones. Por ejemplo, supongamos que hay k posibles tratamientos
para aumentar los anticuerpos en la sangre (por simplicidad, k = 3)
k = 1 es con control (placebo, es decir, no se administra nada).
k = 2 es el tratamiento 1.
k = 3 es el tratamiento 2.
El investigador o empresa que trabaja con el tratamiento 2 indica que este es mejor que el control y
el tratamiento 1. Es decir, su hipótesis se puede traducir en.

µ3 > µ1 y µ3 > µ2 ,

o equivalentemente:

E(y; tratamiento 2) > E(y; control) y E(y; tratamiento 2) > E(y; tratamiento 1).

Notar que aquí la pregunta o el interés del investigador se traduce en dos condiciones de los parámetros
que se deben satisfacer de forma simultánea e incluyen una dirección (no podemos usar la prueba lineal
general).

En general en un problema tipo ANOVA con los supuestos antes descritos, el interés es estimar y comparar
las diferentes medias µ1 , ..., µk asociadas a las k poblaciones. Este problema se puede plantear como uno de
regresión lineal múltiple, en donde se incluye una variable categórica que distingue a las k poblaciones.
Como ya se mencionó antes, al trabajar con una variable categórica se construyen variables dicotómicas y el
modelo de regresión lineal múltiple se puede expresar como:

yi = β0 + β1 xi1 + ... + βk−1 xik−1 + εi , i = 1, ...n,

donde εi ∼ N (0, σ 2 ) y xir es la variable binaria que toma el valor 1 si la observación i corresponde al grupo
o población r y 0 en otro caso. Con esta notación r = k es el nivel de referencia.
Además

83
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

E(y; Población 1) = β0 + β1 = µ1
..
.
E(y; Población k − 1) = β0 + βk−1 = µk−1
y
E(y; Población k) = β0 = µk .

Hay k − 1 expresiones de la esperanza de y que incluyen un parámetro, aquel asociado a la varible dicotómica
que se consideró en el modelo. Mientras que la esperanza para el nivel de referencia sólo corresponde a β0 .
La hipótesis de interés para el ejemplo con k = 3, en términos de los parámetros del modelo de regresión
lineal múltiple, es:

Hipótesis: µ3 > µ1 y µ3 > µ2


(equiv) β0 > β0 + β1 y β0 > β0 + β2
(equiv) 0 > β1 y 0 > β2

Consideraciones sobre los problemas tipo ANOVA:

i) Cada conjunto de observaciones se asume independiente, pero también hay independencia entre obser-
vaciones de diferentes conjuntos de poblaciones.
ii) Las poblaciones están definidas por entes similares excepto por una característica. En caso de observar
una diferencia en la esperanza de la variable y entre las poblaciones, se pretende estudiar si esa ca-
racterística es la causa. Es importante entonces identificar con detalle que no haya otras fuentes que
hagan diferentes a las poblaciones y que dentro de las características de las poblaciones no tengamos
la sospecha de que alguna podría afectar también el comportamiento de y (e.g. estudiar tres vacunas
en un población entre 20 y 65 años, la población pudiera ser muy similar en los grupos en donde se
aplican las diferentes vacunas, pero si se sospecha que el desempeño podría ser diferenciado por edad,
se tendría que usar otro modelo).
iii) El efecto se analiza en términos de E(y; grupo). Se sugiere tener a la mano las expresiones de la
esperanza para cada grupo en términos de los parámetros del modelo. Esto ayudará a definir hipótesis
y dar una apropiada interpretación.
iv) No es necesario tener el mismo tamaño de muestra en las poblaciones, aunque se sugiere que no exista
mucha diferencia. Lo más importante es validar el punto ii) para que las conclusiones sean adecuadas.
v) El procedimiento en este tipo de problemas se puede resumir como sigue.
a) Verificar supuestos del modelo (se pueden usar transformaciones tipo Box-Cox).
b) Revisar prueba F asociada a la tabla ANOVA, aquí esta prueba tiene una interpretación particular:
H0 : La esperanza de y es la misma en todas las poblaciones
vs
Ha : La esperanza de y difiere al menos en una población
En términos de los parámetros.
H0 : β1 = β2 = ... = βk−1 = 0 vs Ha : βj 6= 0, para alguna j = 1, .., k − 1.

c) Si se rechaza H0 en b) se tienen dos opciones: I) si no se tiene una hipótesis dada por el investigador,
considerar todas las pruebas entre pares de poblaciones para identificar cuáles son diferentes; II)
si hay una hipótesis específica del investigador, como en el ejemplo, sólo hacer la prueba asociada.

84
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Ejemplo en R
EjemploRegLinMul4.r (ANOVA)
Se usará el paquete mulcomp para pruebas de hipótesis e intervalos de confianza simultáneos.

2.10.3.2. Nota sobre la prueba asociada a la tabla ANOVA y las pruebas simultáneas en los
problemas tipo ANOVA.
Consideremos un problema ANOVA con una variable categórica con 3 niveles (tres poblaciones o grupos):
Niv 1= control, Niv 2=Trat 1 y Niv 3= Trat 2. Como el ejemplo de los tratamientos o el ejemplo 4 en R.
Consideremos el siguiente modelo de regresión.

yi = β0 + β1 xiTrat 1 + β2 xiTrat 2 + εi

Notar que en este modelo el nivel 1, es decir, “control” es la referencia. Ahora, este modelo en términos de
E(y; N ivel) se expresa como:

E(y; control) = β0
E(y; Trat 1) = β0 + β1
E(y; Trat 2) =β0 + β2 .
{3}
La hipótesis que se contrastan con la tabla ANOVA son:

H0 : E(y; control) = E(y; Trat 1) Ha : E(y; Niv i) 6= E(y; Niv j)


E(y; control) = E(y; Trat 2) vs para algunas i, j ∈ {1, 2, 3}
E(y; Trat 1) = E(y; Trat 2) i 6= j.

Sin embargo, esta prueba se puede llevar a cabo usando dos estrategias:

A) Prueba F asociada a la tabla ANOVA (prueba lineal general).


B) Pruebas de hipótesis simultáneas implementadas en el paquete ‘multcomp‘.

En ambos casos

3
\
H0 : H0i
i=1

Con H01 : E(y; control) = E(y; Trat 1)


H02 : E(y; control) = E(y; Trat 2)
H03 : E(y; Trat 1) = E(y; Trat 2)
Notar que en términos de combinaciones lineales estas hipótesis se traducen en:

H01 : β0 = β0 + β1 es decir, β1 = 0
H02 : β0 = β0 + β2 es decir, β2 = 0
H03 : β0 + β1 = β0 + β2 , es decir, β2 − β1 = 0

85
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

De donde

3
\
H0 : H0i , es equivalente a, H0 : β1 = 0 y β2 = 0.
i=1

Pues β2 − β1 = 0 se cumple, si se cumplen las dos condiciones anteriores, es decir, es redundante.


Sin embargo, incluir o no redundancias es importante al elegir la forma A) o la forma B) de realizar el
contraste.

A) Cuando se usa la prueba F se prefiere expresar H0 sin redundancias. En este caso sólo obtendremos
un p − value. Se rechaza H0 si p − value < α.
Ventaja: Buenas propiedades en cuanto a cometer el error tipo II.
Desventaja: Si se rechaza H0 , no sabemos la razón: podría ser que la diferencia se dé entre los Niveles
1 y 2, pero podría ser otro par de niveles o se podría deber a que hay diferencias en los tres niveles.
B) Cuando se realiza esta prueba se prefiere pensar en lo que deseamos analizar en la alternativa, es decir,
si se rechaza H0 ¿qué quisieramos identificar? En general, aquí se dejan las hipótesis aunque haya
redundancias, pues esto sirve para identificar qué H0i se rechaza y, por lo tanto, cuál fue la razón que
se observó en los datos para rechazar H0 .
Recordar que aquí no se rechaza H0 si pi > α para toda i, i = 1, 2, 3, donde pi son lo p-values ajustados.
En caso de rechazar H0 , entonces algún pi < α y se puede realizar la interpretación indicando qué
hipótesis alternativas se pueden considerar plausibles y cuáles no de forma simultánea. Esta es la
ventaja de esta prueba.

En la práctica, cuando sea posible se realiza la prueba F en A), en caso de rechazar H0 , se procede a realizar
la prueba en la forma B) para analizar qué diferencias significativas se pueden identificar.

2.10.3.3. ANCOVA
En este caso, el interés también es analizar el efecto de una variable categórica (diferentes grupos o po-
blaciones) como en el caso ANOVA; sin embargo, los investigadores tienen la sospecha de que ese efecto
podría diferir con base en una variable continua observada en la muestra. El interés es analizar el efecto de
la variable categórica x1 “ajustado” por el valor de la variable continua x2 , es decir, si la variable x1 tiene
un efecto una vez que se fija un valor de x2 . Para considerar esto, en el modelo asociado a un problema tipo
Ancova se asume que la posible relación entre la esperanza de y y x2 es lineal dada cada una de las categorías
de x1 .
Nota. La consideración ii) del caso ANOVA ahora se interpreta como: condicional en el valor de x2 los entes
en cada población son similares excepto por una característica definida por la variable categórica x1 .
Ejemplo general de un modelo para el problema tipo ancova donde la variable categórica tiene dos niveles:
( (
grupo 1 1, si grupo 1
x1 = ; xg1 = ; x2 continua.
grupo 2 0, e.o.c

Modelo:

yi = β0 + β1 xig1 +β2 xi2 + β3 xig1 xi2 +εi ,


|{z} | {z }
efecto xi3 −interacción
principal

86
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

donde ε ∼ N (0, σ 2 I).


Para interpretar el modelo, basta encontrar las expresiones de la esperanza de y para las diferentes categorías
de x1 , dejando fijo el valor de x2 :

E(y; grupo 1, x2 ) = β0 + β1 + β2 x2 + β3 x2
= (β0 + β1 ) + (β2 + β3 )x2
E(y; grupo 2, x2 ) = β0 + β2 x2

Notar que las expresiones anteriores corresponden a dos rectas en función del valor x2 , una por grupo y con
diferente intercepto (β0 vs β0 + β1 ) y pendiente (β2 vs β2 + β3 ).
Algunas preguntas que se pueden analizar con un modelo de este tipo:

a) El modelo tiene sentido:

H0 : β1 = β2 = β3 = 0 vs Ha : βj 6= 0 para alguna i = 1, 2, 3

b) La variable x2 tiene un efecto en E(y; x1 , x2 ) al menos en un grupo.

H0 : β2 = 0, β3 = 0 vs Ha : β2 6= 0 ó β3 6= 0

c) La variable x1 tiene un efecto en E(y; x1 , x2 ) dado algún valor fijo de x2 .

H0 : β1 = 0, β3 = 0 vs Ha : β1 6= 0 ó β3 6= 0

d) El efecto de la variable x2 en E(y; x1 , x2 ) es el mismo para los diferentes niveles de x1 (rectas con la
misma pendiente; se pueden quitar las interacciones).

H0 : β3 = 0 vs Ha : β3 6= 0

En la práctica, dado que el objetivo es analizar el efecto de la variable categórica, se procede a hacer lo
siguiente:

1. Verificar supuestos del modelo usando los residuales. Se puede verificar la linealidad por grupo a partir
de un diagrama de dispersión.
2. Realizar prueba en a), es decir, interpretar la prueba asociada a la Tabla Anova. Si se rechaza H0
se sigue analizando el modelo, de otra forma hasta aquí se termina el análisis y se concluye que las
variables incluídas no parecen ser significativas en el modelado de la esperanza de y.
3. Si se rechaza H0 en 2), realizar prueba en d), es decir, sobre la igualdad de pendientes. Esto puede
simplificar el análisis.
4a. Si no se rechaza H0 en 3), es plausible usar el modelo reducido (quitando coeficientes asociados a
interacciones, lo que facilita la interpretación). La prueba siguiente se realiza usando el modelo reducido
para identificar si la esperanza de y presenta diferencias entre las categorías de x1 para un valor fijo
de x2 .
En el ejemplo, el modelo reducido es:

yi = β0 + β1 xig1 + β2 xi2 + εi

=⇒ E(y; grupo 1, x2 ) = β0 + β1 + β2 x2
E(y; grupo 2, x2 ) = β0 + β2 x2 .

87
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Notar que las diferencias en la esperanza de y entre categorías de x1 , en caso de existir, serán relacio-
nadas con los interceptos de las rectas sin importar el valor de x2 que se fije, pues las pendientes son
las mismas, ver Figura 16.

Figura 16: Modelo ANCOVA con dos grupos e igualdad de pendientes (o sin interacciones). La diferencia de
las esperanzas entre los dos grupos dado un valor fijo de x2 es β1 .

En este caso, es fácil identificar si un grupo es mejor que otro(s) como en el caso de los problemas
ANOVA para todo valor de x2 . Las hipótesis quedarán en términos de los parámetros asociados a las
variables binarias. Por ejemplo

Hipótesis: "grupo 1 es mejor que grupo 2 para cualquier x2 ”


(equiv) E(y; grupo 1, x2 ) > E(y; grupo 2, x2 ) ∀ x2
(equiv) β0 + β1 + β2 x2 > β0 + β2 x2 ∀ x2
(equiv) β1 > 0

4b. Cuando se rechaza H0 en 3), es decir, la igualdad de pendientes. Todavía se pueden comparar las
esperanzas de y para diferentes categorías, pero estas comparaciones se deben hacer dado un valor fijo
de x2 , pues ahora también la variable x2 tiene un efecto. Es decir, ya no es fácil realizar una conclusión
de forma sencilla sobre el efecto de x1 para todo valor de x2 (ver Figura 17) y una alternativa para la
interpretación es usar intervalos de confianza simultáneos.
En el ejemplo, para un valor fijo de x2 las comparaciones de las esperanzas de y entre grupos sigue
siendo fácil, aunque involucran al valor x2 :

Hipótesis: "grupo 1 es mejor que grupo 2 dado un valor fijo x2 ”


(equiv) E(y; grupo 1, x2 ) > E(y; grupo 2, x2 )
(equiv) (β0 + β1 ) + (β2 + β3 )x2 > β0 + β2 x2
(equiv) β1 + β3 x 2 > 0

88
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Figura 17: Modelo ANCOVA con dos grupos y diferentes pendientes (incluyendo interacción). En líneas
punteadas se calculan los intervalos de confianza simultáneos para E(y; x1 , x2 ) variando las categorías de x1
y los valores de x2 .

Ejemplos en R
EjemploRegLinMul5.r (ANCOVA con igualdad de pendientes)
EjemploRegLinMul6.r (ANCOVA sin igualdad de pendientes)

2.11. El problema de predicción

Supongamos que el interés está en el valor de y para una nueva observación donde (x1 , x2 , ..., xp ) =
(x∗1 , x∗2 , ..., x∗p ) con x∗j el valor que toma esa observación en la variable xj , j = 1, ..., p.

Si se asume que se conservan los supuestos del modelo ajustado con n observaciones, donde βb es el vector de
parámetros estimados, y la nueva observación es independiente de las n observaciones usadas para el ajuste,
entonces un intervalo de predicción al (1 − α) × 100 % para y es:

=⇒ λt βb ± tn−p−1
p
b2 (1 + λt (X t X)−1 λ),
σ
1−α/2

donde λ = (1, x∗1 , x∗2 , ..., x∗p ). Este intervalo se obtiene de forma similar al intervalo de predicción que se
encontró en el caso de regresión lineal simple.
En R se puede usar la función predict() con la opción interval="prediction".
Por otra parte, si el modelo sólo se usará para el problema de predicción, entonces se puede usar lo descrito
en la sección 1.9.2 para calcular el poder predictivo del modelo.

2.12. Intervalos de confianza para funciones no lineales de los parámetros

Cuando el parámetro de interés es una función no lineal de los parámetros del modelo, entonces se puede usar
el método delta para encontrar intervalos de confianza. Este método se basa en las propiedades asintóticas
de los estimadores máximo verosímiles, en particular:

˙ b2 (X t X)−1 .

βb∼N β, σ

89
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Consideremos que el parámetro de interés se puede expresar como g(β), donde g(β) es una función unidi-
mensional y diferenciable
 con respecto a β tal que g (β) 6= 0. En este caso g (β) = h(β) es un vector con
0 b 0
∂g(β) ∂g(β)
p + 1 entradas: h(β) = ∂β0 , ..., ∂βp .

b − g(β)
g(β)
=⇒ r h it ˙ (0, 1),
∼N
b h(β) (X X) h(β)
σ 2 b t −1 b

de donde un intervalo asistótico al (1 − α) × 100 % de confianza para g(β) es

r h it
b ± Z1− α
g(β) σ b (X t X)−1 h(β),
b2 h(β) b
2

donde Z1− α2 es el cuantil de una normal estándar asociado a 1 − α


2 de probabilidad.
En R se puede usar la librería car y la función deltaMethod.

Ejemplo en R
EjemploRegLinMul4cont.r
Continuación con los datos del ejemplo sobre el problema tipo ANOVA

2.13. Verificación de supuestos

Como en el caso de regresión lineal simple, cuando el objetivo del modelo es el de estimación es indispensable
verificar los supuestos del modelo de regresión lineal múltiple. En particular:

Homocedasticidad.
Linealidad
Normalidad
Independencia de los errores/observaciones

La verificación de los supuestos en este caso se realiza usando los residuales.

Ejemplo en R
EjemploVerSup.r

2.14. Selección de variables

El problema de selección de variables radica en identificar el subconjunto de variables que mejor ayudan a
modelar la esperanza de y o bien producen una mejor predicción de y, dependiendo del objetivo del ajuste
del modelo.
Dentro de los métodos clásicos de selección de variables se considera un mayor énfasis en el modelado de la
esperanza de y, mientras que en los métodos de validación cruzada el énfasis es el poder predictivo del modelo.
Actualmente, también hay métodos de selección de variables que se basan en considerar penalizaciones en

90
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

las funciones a optimizar que se usan para encontrar las estimaciones, uno de los métodos más populares es
el método lasso, ver por ejemplo, sección 6.2 en James et. al. (2021, An Introduction to Statistical Learning
with Applications in R) y capítulo 16 en el libro Computer Age Statistical Inference (Efron y Hastie, 2016).
Aquí se verán los métodos clásicos y sólo se mencionará de forma breve en R el ejemplo con regresión lasso.
Lo correspondiente a validación cruzada sale del alcance del curso, pero es similar al ejemplo que se presentó
para regresión lineal simple.
Dentro de los métodos clásicos, existen dos muy populares, el método por pasos y el método del mejor
subconjunto.

- Mejor subconjunto (especialmente cuando p es pequeña). Aquí se comparan todos (o casi todos) los
posibles modelos que se pueden construir con p o menos variables. La comparación se realiza con base
en un criterio de optimización.
- Métodos por pasos (stepwise). Aquí se realiza la comparación por pasos de acuerdo con un orden
establecido:
- Forward (agregando una variable en cada paso)
- Backward (quitando una variable en cada paso)
- Both (agregando o quitando una variable en cada paso)
La comparación también se realiza con base en un criterio de optimización.

2.14.1. Criterios de optimización comúnmente usados.

Supongamos que se ajusta un modelo con k ≤ p variables (incluyendo todas las dicótomicas que se usan en
el modelado). Entonces con ese modelo se pueden calcular las siguientes métricas:
Pn
yi −ȳ)2
(b
- Rk2 = Pni=1 (y −ȳ)2 = 1 − SCEk
SCT
i
i=1
 
- Radj,k
2
=1− n−1
n−k−1 (1 − Rk2 )

- Cpk = SCEk
− n + 2(k + 1) (b
σ 2 calculado con p variables)
σ2
b
- AICk ∝ nln SCEk
+ 2(k + 1)

n

bk2 ) + 2(k + 1)
∝ −2lnL(βbk , σ
- BICk ∝ nln SCE + (k + 1)ln(n)
k

n

bk2 ) + (k + 1)ln(n)
∝ −2lnL(βbk , σ

Usando estas métricas la elección de un modelo sigue las siguientes reglas:

i) Para R2 y Radj
2
se eligen los modelos asociados a mayores valores.

ii) Para Cp se elige el modelo asociado al menor valor y que esté cercano al valor k + 1.
iii) Para AIC y BIC se eligen los modelos asociados al menor valor.

No existe un criterio de optimización que sea catalogado como el mejor, cada uno tiene sus ventajas y
desventajas. Uno de los más usados es el BIC.

91
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

2.14.2. Métodos por pasos

En el caso del método por pasos, en cada paso se compara el criterio de optimización para agregar (forward)
o quitar (backward) una variable al modelo que se analiza.
En estos algoritmos se trabaja con modelos anidados, es decir:

i) Forward. El modelo que se analiza está contenido en el que sigue, pues a lo más se agrega una variable.
i) Backward. El modelo que sigue está contenido en el que se analiza, pues a lo más se quita una variable.

Estos algoritmos son computacionalmente menos demandantes que el método del mejor subconjunto, pues
el cálculo del criterio sólo se realiza para algunos modelos posibles.

2.14.3. Mejor subconjunto

El objetivo es seleccionar el mejor subconjunto {x1 , ..., xk } ⊂ {x1 , ..., xp } de cardinalidad k ≤ p. Aquí se
calcula el criterio de optimización elegido sobre todos los posibles modelos, por ejemplo, ver la tabla de
abajo con todos los posibles modelos con efectos principales de las variables.

Num. Variables Forma del modelo Número de posibles modelos


1 y = β0 + β1 x i + ε p

1
2 y = β0 + β1 x i + β2 x j + ε p
2
.. .. ..
. . . 
p−1 y = β0 + β1 xi + β2 xj + ... + βp−1 xl + ε p
p−1
y = β0 + β1 x1 + β2 x2 + ... + βp xp + ε p

p p

Total 2 −1
p

Nota: A veces también se estudian modelos con interacciones entre las variables y eso aumenta mucho más
el número de posibles modelos a considerar.

Ver ejemplo en R:
EjemploSelVar.R

3. Introducción a la estadística no paramétrica


I. Estadística paramétrica. Supuestos principales.

i) x1 , ..., xn ∼ f (x1 , ..., xn ; θ).


ii) Se conoce la expresión de f (·), excepto por θ.

Toda la inferencia se centra en θ (o depende de), incluyendo pruebas de hipótesis e intervalos de


confianza.

II. Estadística no paramétrica

a) No se trabaja en términos de θ porque no se conoce f (·) y

92
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i) no se asume nada sobre la expresión de f (·).


ii) no se asume una expresión específica, sólo características genéricas: simetría, misma forma
entre poblaciones, etc.
b) El problema planteado a través de una de las hipótesis es muy genérico y no se puede plantear en
términos de θ.
i) Hipótesis "No son v.a. independientes".
ii) Hipótesis "No son observaciones de cierta distribución"

Nos centraremos en la construcción de pruebas de hipótesis usando el enfoque no paramétrico para contrastar
hipótesis asociadas a problemas muy comúnes. Recordemos que en las pruebas de hipótesis contrastamos

H0 v.s Ha

y buscamos un “algoritmo” o región de rechazo C tal que tomamos, una vez observados los datos, sólo una
de las siguientes acciones:

i) Rechazar H0 o ii) No rechazar H0 .

Dos posibles errores se pueden cometer al tomar esas decisiones:

H0 cierta H0 falsa
7
Rechazar H0 Error tipo I 3
7
No rechazar H0 3 Error tipo II

Y para cuantificar esos errores se consideran las probabilidades siguientes:

α = P(”Rechazar H0 ”|H0 es cierta)


β = P(”No rechazar H0 ”|H0 es falsa).

En estadística paramétrica se revisaron resultados para encontrar una región de rechazo C, tal que para un
valor fijo α se “espera” que β sea la menor bajo ciertas condiciones. Es decir, se consideraba la comparación
de un conjunto de regiones de rechazo, C1 , ..., Ck , cada una asociada a una probabilidad de cometer el error
tipo I (αi ) y a una probabilidad de cometer el error tipo II (βi ), donde se acotaba ese subconjunto a que
αi < α y se elegía la de menor βi :
 
 C1
 α1 β1 

.. tal que αi < α → se elige la de menor βi .
 . 
Ck αk βk
 

En estadística no paramétrica ya no tenemos ese tipo de resultados globales. Y sólo se tienen resultados
particulares sobre el desempeño de una prueba de hipótesis que usa una región de rechazo C particular. La
región de rechazo C se construye con alguna estadística que mida algo relacionado con el fenómeno a estudiar,
por ejemplo.
Sea C = {(x1 , ..., xn ) : w(x1 , ..., xn ) > k} la región de rechazo definida para contrastar

H0 : la distribución es simétrica
vs
Ha : la distribución no es simétrica

93
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

con w(x1 , ..., xn ) tal que w(x1 , ..., xn ) toma valores pequeños cuando la variable es simétrica y valores grandes
cuando se presenta una asimetría alta.
Para proceder se busca la distribución de w(x1 , ..., xn ) dado H0 y se “acota” la probabilidad de cometer el
error tipo I:

α = P ((x1 , ..., xn ) ∈ C|H0 es cierta) .

Aquí no se acota β = P(No rechazar H0 |H0 es falsa). Por lo que se debe tener mucho cuidado y entender
qué mide y cómo w(x1 , ..., xn ), en particular cuando no se rechaza H0 .
Si se rechaza H0 , es porque con w(x1 , ..., xn ) se encuentra evidencia en contra de H0 . Pero rechazar H0
dependerá de qué tan buena medida sea w(x1 , ..., xn ), pues en muchas instancias se pueden mostrar ejemplos
donde w(x1 , ..., xn ) no sirve para detectar evidencia en contra, es decir, construir una estadística w(x1 , ..., xn )
que siempre detecte la evidencia en contra no es fácil y esto lleva a la posibilidad de tener un error tipo II
grande.
En general, en estadística no paramétrica la región de rechazo o estadística w(x1 , ..., xn ) ha sido propuesta
por un investigador (o grupo de investigadores) en particular y por eso las pruebas tienen nombres específicos.
Con los años y con base en simulaciones se han estudiado muchas de estas pruebas que revisaremos y que
han presentado no tan “altos” valores de β en muchos casos. Sin embargo, esto no asegura que para una
aplicación en particular se tenga un valor β pequeño.
En general, cuando no se rechaza H0 , se interpreta en términos de lo qué mide w(x1 , ..., xn ) y se dice “no se
encontró evidencia en contra de H0 a partir de w(x1 , ..., xn )”.

3.1. Problemas asociados al análisis de varianza (problemas tipo ANOVA)

Supongamos que tenemos lo siguiente:

y1 , ..., yn1 una muestra aleatoria de la distribución F (θ1 )


y1 , ..., yn2 una muestra aleatoria de la distribución F (θ2 )
..
.
y1 , ..., ynk una muestra aleatoria de la distribución F (θk )

Las k m.a.s son independientes entre sí. La variable y es continua.


Supuesto: Las muestras provienen de una misma distribución F (·), aunque esta distribución depende del
parámetro θi , i = 1, .., k, que puede ser diferente entre poblaciones. El parámetro θi por lo general es la
mediana de la distribución.
Pregunta de investigación:

H0 : θ1 = θ2 = ... = θk vs Ha : θi 6= θj para algunas i 6= j con i, j = 1, ..., k.

Es decir, se está estudiando si las poblaciones difieren en cuanto a su mediana.


Una segunda pregunta de investigación, si se rechaza H0 , es analizar cómo es que se diferencian las k
poblaciones.
Dos alternativas para responder.

94
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

I. Asumiendo normalidad (modelo de regresión lineal múltiple)


En este caso F (θi ) se asume que es una N (µi , σ 2 ). Notar que F es simétrica y además se asume la
misma varianza en todas las poblaciones. En este caso la media coincide con la mediana, de donde las
hipótesis se traducen a:

H0 : µ1 = µ2 = ... = µk vs Ha : µi 6= µj para algunas i 6= j con i, j = 1, ..., k.

Notar que el modelo de regresión lineal múltiple se puede usar. Además, si se rechaza H0 las pruebas
de hipótesis simultáneas sirven para identificar qué diferencias se observan entre las poblaciones.
II. Kruskal-Wallis test
En este caso no se asume una distribución particular F (θi ). Además la variable aleatoria y puede o no
tener una distribución simétrica, pero sí se asume que la única diferencia en la distribución está en la
mediana (esto implica la misma variabilidad entre los grupos).
La estadística de la prueba se basa en los rangos obtenidos para cada población a partir de los valores
de la variable de interés y al considerarlos como una muestra completa de tamaño n = n1 + ... + nk .
La estadística de prueba es:

k
12 X R2
H= r
− 3(n + 1), (112)
n(n + 1) r=1 nr

donde Rk es la suma de los rangos que le corresponden a las observaciones de la r−ésima población.
Para n1 , ..., nk grandes la estadística de prueba H tiene una distribución χ2(k−1) . Se rechaza H0 si

H > χ2(k−1) .
1−α

En el caso de rechazar H0 , se proceden a hacer pruebas simultáneas. Un ejemplo es realizar todas


las comparaciones por pares usando las pruebas Dunn, aunque hay varias opciones más (paquete
‘PMCMRplus‘ en R).

3.1.1. Definición genérica de rangos

Los rangos son muy usados para definir las pruebas de hipótesis bajo el enfoque de estadística no paramétrica.
Sean x1 , ..., xn observaciones de una v.a X cuya función de distribución es F (·). Asumamos X continua en
un intervalo de R y x1 , ..., xn observaciones independientes.
El rango de la observación xi , R(xi ), se define como el subíndice asociado a xi cuando los datos se ordenan
de menor a mayor (podría ser de mayor a menor). Una forma fácil de calcular el rango, asumiendo que las
x1 , ..., xn toman valores diferentes, es:

n
I(xj ≤xi )
X
R(xi ) = Rango(xi ) =
j=1

Ejemplo.

x: 10 4 3 15 20
R(x): 3 2 1 4 5

95
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Notar que los valores de los rangos de las observaciones están en el conjunto finito {1, 2, .., n}, de esta manera
trabajaremos con rangos para simplificar un problema que originalmente se piensa en el espacio continuo,
pues las estadísticas asociadas a los rangos tendrán distribuciones con soporte en un subconjunto finito.
Para identificar las distribuciones de las posibles estadísticas basadas en rangos, se usa que x1 , ..., xn son
observaciones independientes de una v.a X, entonces los rangos podrían asignarse de forma equiprobable
por la independencia. Es decir, para valores observados x1 , ..., xn ,

R(x1 , ..., xn ) = (1, 2, 3, ..., n)

es igual de probable que


R(x1 , ..., xn ) = (n, n − 1, ..., 1)
y en general que cualquiera de las n! permutaciones posibles.
Lo anterior sirve para observar que las distribuciones sobre los rangos no dependen de la distribución F (·) o
de los valores en la escala original de X, sólo dependen del orden.
Notar que a partir de la distribución anterior es posible encontrar la distribución de una función de los
rangos:

w(R(x1 ), ..., R(xn )).

En general, en muchas de las pruebas basadas en rangos, se propone una estadística w(R(x1 ), ..., R(xn )) y
se define una región de rechazo en términos de w(R(x1 ), ..., R(xn )), por ejemplo:

C = {(x1 , ..., xn ) : w(R(x1 ), ..., R(xn )) > k}

y se acota la probabiidad de cometer el error tipo I, encontrando k tal que

P(w(R(x1 ), ..., R(xn )) > k|H0 es cierta) ≤ α.

Cuando hay empates, es decir, hay valores en x1 , ..., xn que se repiten, se procede a realizar el siguiente
ajuste:

i) Ordenar la muestra tal que x(1) ≤ x(2) ≤ ... ≤ x(n) . Llamar a los subíndices rangos originales.
ii) Ahora el rango de xi será el promedio de los rangos originales de todas las observaciones con el mismo
valor de xi .

Ejemplo.

x: 3 4 1 0 0 1
x(5) x(6) x(4) x(1) x(2) x(3)

R(x): 5 6 3.5 1.5 1.5 3.5

En R se pueden calcular los rangos con la función rank().

Regresando a la prueba Kruskal-Wallis.


La expresión H en (112) está en términos de los rangos y es equivalente a:

96
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

k 2
12 (n + 1)

X Rr
H= nr −
n(n + 1) r=1 nr 2

Considerando

H0 : θ1 = ... = θk vs Ha : θi 6= θj para algunas i 6= j con i, j = 1, ..., k.

Si H0 fuera cierta se espera que

Rr n+1
≈ ,
nr 2
es decir. valores pequeños en la estadística H.
Cuando hay empates en los rangos se deben hacer correcciones a la estadística H en (112).

Ver ejemplos en R
Sobre los rangos y la idea detrás de la estadística H: EjemploRangos.R
Uso de R para generar resultados asociados a las pruebas de hipótesis asumiendo normalidad y usando la
prueba Kruskal-Wallis: ejemploNP-ANOVA.R

3.2. Pruebas para datos pareados


Problema
Una compañía estaba preocupada por el número de horas-hombre pérdidas debido a accidentes de trabajo.
Por tal motivo implementó un programa de control y cuidado en el trabajo. Los datos mostrados abajo
corresponden al número de horas-hombre pérdidas en cada una de 8 plantas antes y después de que el
programa fuera implementado.
La pregunta de los dueños de la compañía es ¿El programa ha sido efectivo en reducir el número de horas-
hombre pérdidas debido a accidentes?

Horas
Planta Antes Despúes
1 51.2 45.8
2 46.5 41.3
3 24.1 15.8
4 10.2 11.1
5 65.3 58.5
6 92.1 70.3
7 30.3 31.6
8 49.8 35.4

En este tipo de problemas se tienen vectores aleatorios independientes (x1 , y1 ), ..., (xn , yn ); donde para cada
una de las n observaciones se han medido las variables continuas xi y yi ; i = 1, ..., n. Dado que xi y yi se miden
en una misma observación (y por lo general representan el mismo puntaje), no se asumen independientes
(hay una dependencia inherente derivada de observar la información en la misma unidad).
Dos alternativas para responder considerando
wi = xi − yi ∀ i = 1, ..., n.

97
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

I. Prueba paramétrica.
Dado que los vectores (x1 , y1 ), ..., (xn , yn ) son independientes, las w1 , ..., wn son v.a independientes.
Además se asume que

wi ∼ N (µw , σw
2
) ∀ i = 1, ..., n.

De donde el problema se traduce a

i. H0 : µw = 0 vs Ha : µw 6= 0
ii. H0 : µw ≥ 0 vs Ha : µw < 0
iii. H0 : µx ≤ 0 vs Ha : µw > 0

Notar que estas pruebas se pueden realizar usando las pruebas t donde el estadístico es:


t= √
σ̃w / n
Pn Pn
wi i=1 (wi
− w̄)2
Con w̄ = i=1
y σ̃ =
2
n n−1
Notar que t ∼ tn−1 .
Esta prueba también se puede realizar usando un modelo de regresión:

wi = β0 + εi con εi ∼ N (0, σw
2
), ε1 , ..., εn independientes

Lo anterior implica

wi ∼ N (β0 , σw
2
),

es decir, µw = β0 y se reescriben las hipótesis i) a iii) en términos de β0 .


En R se puede usar la función t.test() con la opción paired o lm() con la fórmula "w ∼ 1".
II. Prueba no paramétrica. Prueba de rangos "Wilcoxon signed test".
En este caso se asume que

i. w1 , ..., wn son v.a independientes.


ii. wi ∼ F (w; θ), i = 1, ..., n; donde F es simétrica
iii. θ es la mediana (equivalentemente media al ser simétrica).

Y las hipótesis se expresan como:


a. H0 : θ = 0 vs Ha : θ 6= 0
b. H0 : θ ≥ 0 vs Ha : θ < 0
c. H0 : θ ≤ 0 vs Ha : θ > 0
La contrucción de la estadística de prueba se basa en los rangos del valor absoluto de los valores
w1 , ..., wn . En específico, sea R(|wi |) el rango de la observación i de acuerdo al valor |wi |. Además, sea
(
1, si wi > 0
zi =
0, e.o.c

Las posibles estadísticas de prueba son

98
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
T +
= zi R(|wi |)
i=1
Xn
T− = (1 − zi )R(|wi |)
i=1

donde zi R(|wi |) representa si el rango está asociado a una diferencia positiva.


Las distribuciones de T + y T − se pueden calcular vía simulación fácilmente, ya que sólo están en
función de los rangos del valor absoluto de wi . También hay aproximaciones a la distribución normal
para un tamaño de muestra grande.
Nota. Esta prueba no paramétrica no requiere asumir una distribución dada, aunque sí queda repre-
sentada por un sólo parámetro.

Ver EjemploNP-DatosPareados.R

3.3. Pruebas de hipótesis sobre independencia entre dos variables X y Y .

Se supone que se tienen observaciones (x1 , y1 ), ..., (xn , yn ) de un conjunto de vectores aleatorios independien-
tes.
Las hipótesis a contrastar son:

H0 : X y Y son independientes vs Ha : X y Y no son independientes

Los métodos para poder argumentar en contra de H0 se basan en las características de las variables X y Y ,
así como si se asume o no alguna distribución. La tabla siguiente resume los métodos más comúnes y que
revisaremos.
Consideraciones en
Tipos de variables Prueba/estadística Supuestos/Estrategia que se usa
la interpretación
(x, y) ∼ N2 (µ, Σ)
  - Bajo los supuestos ρxy = 0 si implica independencia. rxy = r es el estimador de ρxy
X-continua µ1
- Coeficiente de correlación µ=
µ2 - r > 0 relación lineal positiva.
de Pearson (r)
Y -continua
σ12 2
- r < 0 relación lineal negativa.
 
σ12
Σ= 2
σ21 σ22

X-continua - Sólo miden asociación monótona.


Y -continua
- Coeficiente de correlación - Rangos (rs )
- Si se rechaza H0 , se dice que hay evidencia de una relación monótona.
de Spearman (rs )
X-continua
Y -ordinal - rs o τb igual a cero no implican independencia.
- Coeficiente de correlación - Pares concordantes/discordantes (τb )
de Kendall (τb )
X-ordinal - rs > 0 o τb > 0 están asociadas a relaciones monótonas crecientes.
Y -ordinal
- rs < 0 o τb < 0 están asociadas a relaciones monótonas decrecientes.

X-ordinal Con estas pruebas sólo se contrasta si son o no independientes,


- Ji-cuadrada - Distribución multinomial
Y -ordinal
no se habla de alguna dirección, pero hay otros modelos.
- LRT - Tablas de contingencia
X-categórica
Y -categórica An Introduction to Categorical Data Analysis (Agresti, A., 2019)

3.3.1. Medidas de asociación o coeficientes de correlación

3.3.1.1. Paramétrica: Coeficiente de correlación de Pearson, r.


Se calcula como

99
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Pn
i=1 (xi − x̄)(yi − ȳ)
r = pPn pPn
i=1 (xi − x̄) i=1 (yi − ȳ)
2 2

En general, sólo mide asociaciones monótonas entre las variables continuas X y Y . Sólo bajo el supuesto
de normalidad bivariada r es un estimador de la correlación entre las variables X y Y y su interpretación
cuando vale cero se puede asociar a la independencia de las variables.
La estadística de prueba bajo el supuesto de normalidad bivariada es

r n−2
t= √ ,
1 − r2
y bajo H0 , t tiene una distribución tn−2 .
Las hipótesis que se contrastan son:

a) H0 : ρ = 0 vs Ha : ρ 6= 0
H0 : X y Y son independientes vs Ha : X y Y no son independientes
H0 : X y Y son independientes vs Ha : X y Y tienen una relación lineal
Se rechaza H0 si |t| > t1− α2
n−2

b) H0 : ρ ≤ 0 vs Ha : ρ > 0
H0 : independencia o relación lineal negativa vs Ha : relación lineal positiva
Se rechaza H0 si t > t1−α
n−2

c) H0 : ρ ≥ 0 vs Ha : ρ < 0
H0 : independencia o relación lineal positiva vs Ha : relación lineal negativa
Se rechaza H0 si t < −t1−α
n−2

Nota. Si no se cumple el supuesto de normalidad bivariada, r sólo se puede usar como una estadística que
habla de la asociación monótona de dos variables. En este caso, la prueba de hipótesis no tiene validez.

3.3.1.2. No paramétrica: Coeficientes de correlación de Spearman (rs ) y τb de Kendall


Se asume que (X, Y ) ∼ F (x, y) donde X y Y son continuas u ordinales (e.g. malo, regular, bueno, muy
bueno).

i) Si X y Y son v.a independientes, entonces F (x, y) = F (y)F (x); esto se usa para encontrar las dis-
trubuciones de las estadísticas basadas en estos coeficientes cuando se asume H0 . Por ejemplo, la
independencia sí implica que la correlación sea cero, pero lo opuesto (la otra implicación) ya no es
cierto necesariamente.
ii) Dado que las estadísticas rs y τb sólo miden asociaciones monótonas, las pruebas asociadas sólo buscan
evidencia en ese sentido contra la hipótesis nula, es decir, si se define

H0 : X y Y son independientes,

entonces la prueba sólo podrá encontrar evidencia en contra cuando se observa alguna relación móno-
tona en los datos.

100
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

iii) rs de Spearman
Se basa en los rangos de X y Y , donde
− R(xi ) el rango de xi , i = 1, ..., n, considerando los n valores de X.
− R(yi ) el rango de yi , i = 1, ..., n, considerando los n valores de Y .
El coeficiente rs es equivalente a usar el coeficiente de correlación de Pearson pero usando los rangos
en lugar de los valores originales de X y Y :
Pn
R(xi ) − R̄x R(yi ) − R̄y
 
rs = qP i=1
2 q 2 ,
n
i=1 R(xi ) − R̄x R(yi ) − R̄y
Pn Pn
R(xi ) R(yi )
con R̄x = i=1
y R̄y = i=1
.
n n
Es decir, este coeficiente sólo considera el orden. Por ejemplo, si hay una relación monótona positiva
entre las variables X y Y se esperaría que las observaciones con rangos pequeños en X también tengan
rangos pequeños Y , así como observaciones con rangos grandes en X se espera que tengan rangos
grandes en Y .
iv) τb de Kendall
Se basa en analizar todos los diferentes pares de observaciones a través de la siguiente función para
definir si ese par es concordante o discordante:

 1, si (d − b)(c − a) > 0 [Concordant pair]

Q ((a, b), (c, d)) =

0, si (d − b)(c − a) = 0 [tie]
−1, si (d − b)(c − a) < 0 [discordant pair]

Es decir, se dice que un par de observaciones es concordante cuando la diferencia entre los valores en
la variable X de las dos observaciones tiene el mismo signo que la diferencia entre los valores en la
variable Y de las dos observaciones. En otras palabras una observación tiene valores más pequeños
tanto en X como Y cuando se compara con otra observación.
Sea

n−1
X n
X
k= Q∗ ((xi , yi ), (xj , yj ))
i=1 j=i+1

y el estimador para τb de Kendall es

k
τbb = p √
(D − U ) D − V
con

n(n − 1)
D= ,
2

n−1
X n
X
U= N ∗ (xi , xj ) (# empates en x)
i=1 j=i+1
y
n−1
X n
X
V = N ∗ (yi , yj ) (# empates en y),
i=1 j=i+1

101
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

donde
(
1, si a = b
N (a, b) =

.
0, e.o.c

Notar que si no hay empates ni en X, ni en Y

U =0 y V =0

k
=⇒ τbb = n(n−1)
2

v) Interpretación
Si
H0 : X y Y son independientes,
entonces

- Si no se rechaza H0 .
No se encontró evidencia de una relación monótona entre X y Y para descartar la independencia.
- Si se rechaza H0 .
Se encontró evidencia de una relación monótona entre X y Y .

vi) Variables ordinales


A diferencia de una variable X continua que toma valores en algún intervalo de R; las variables ordinales
están asociadas a etiquetas que sólo indican un orden. Por ejemplo, pueden ser el resultado de

a) ¿Qué tanto le gusta Z producto?

nada 1 

más o menos 2 Orden posible sobre las respuestas


mucho 3

b) ¿Qué tanto le parece el desempeño de — comparado con —?

mucho peor 1 

peor 2 



igual 3 Orden posible sobre las respuestas
mejor 4 


mucho mejor 5

c) Categorizar una variable continua.


¿Cuál es su ingreso mensual?

[0, 1000) 1


[1000, 5000) 2


Orden posible sobre las respuestas
[5000, 20000) 3 
[20000, ∞) 4

d) Una categorización o clasificación.


Clasificación de un objeto (persona, vivienda, localidad) de acuerdo con su nivel de pobreza.

baja 1 

media 2


Orden posible sobre la clasificación
moderada 3 
extrema 4

102
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Para poder usar las variables ordinales junto con los coeficientes rs y τb es necesario especificar el orden
de las k etiquetas en el preprocesamiento de los datos, ya sea transformando las etiquetas a 1, 2, ..., k;
o bien indicar el orden al definir las variables en los paquetes estadísticos (e.g. en R indicando el orden
de los niveles en una variable tipo factor).

Ver Ejemplo_MedidasAsociación.R

3.3.2. La distribución multinomial: pruebas Ji-cuadrada y LRT para analizar variables cate-
góricas

I. La distribución multinomial
Supongamos que tenemos una variable categórica de k niveles o categorías. Para modelar esa variable,
una alternativa es definir un vector Y = (Y1 , ..., Yk ) donde cada entrada está asociada a una categoría
de manera que
(
1, si la variable toma el valor de la categoría r
Yr =
0, e.o.c.

Es decir, para cada observación el vector Y sólo podría tener una entrada igual a 1 y el resto es igual
a cero.
Este tipo de vectores se puden modelar con una distribución multinomial:

Y ∼ multinomial(1, p1 , ..., pk ),

donde

P(Y = y) = P(Y1 = y1 , Y2 = y2 , ..., Yk = yk ) = py11 py22 · · · pykk


y
= py11 py22 · · · pk−1
k−1
(1 − p1 − ... − pk−1 )1−y1 −...−yk−1 ,

donde la última igualdad se debe a las restricciones:

k
X k
X
pr = 1 y yr = 1.
r=1 r=1

Es decir, aunque la distribución multinomial se describe con k parámetros, uno para cada categoría,
es suficiente estimar k − 1 parámetros. Cada parámetro está asociado a la probabilidad de observar la
categoría correspondiente.
Notar que esta distribución es una extensión del modelo Bernoulli(p), donde sólo hay dos categorías
y se suele expresar a través de un parámetro p.
Una forma de estimar los parámetros desconocidos a partir de una m.a de tamaño n, {y1 , ..., yn }, es
usar el método de máxima verosimilitud. Por ejemplo, si k = 3
n
Y
=⇒ L(p1 , p2 ; y1 , ..., yn ) = py1i1 py2i2 (1 − p1 − p2 )1−yi1 −yi2
i=1
Pn Pn Pn Pn
yi1 yi2
= p1 i=1 p2 i=1 (1 − p1 − p2 )n− i=1 yi1 − i=1 yi2 .

La log-verosimilitud es:

103
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n n n n
!
X X X X
ln L = yi1 ln(p1 ) + yi2 ln(p2 ) + n− yi1 − yi2 ln(1 − p1 − p2 ).
i=1 i=1 i=1 i=1

Derivando con respecto a p1 y p2 se obtiene:


Pn Pn Pn
∂ ln L yi1 n− yi1 − i=1 yi2
= i=1
− i=1
∂p1 p1 1 − p1 − p2
Pn Pn Pn
∂ ln L yi2 n− yi1 − i=1 yi2
= i=1
− i=1
∂p2 p2 1 − p1 − p2
igualando a cero y resolviendo para p1 y p2 se tiene
Pn Pn Pn Pn
yi1 n− yi1 − i=1 yi2 yi2
i=1
= i=1
= i=1 . (113)
p1 1 − p1 − p2 p2

Usando las restricciones sobre el modelo, es decir,

i) p1 + p2 + p3 = 1,
P3
ii) r=1 yir = 1 ∀ i = 1, ..., n,

se obtiene usando ii)

n X
X 3 n
X
yir = (1) = n
i=1 r=1 i=1
n
3 X
X
= yir
r=1 i=1

de donde

n
X n
X n
X
n= yi1 + yi2 + yi3
i=1 i=1 i=1

Usando esto y i) en (113)


Pn Pn
yi1 p3 yi2 p3
p1 = Pi=1
n y p2 = Pi=1
n (114)
i=1 yi3 i=1 yi3

y sabiendo que
Pn Pn
yi1 p3 yi2 p3
1 = Pi=1
n + Pi=1
n + p3
i=1 y i3 i=1 yi3

obtenemos
 Pn Pn Pn
yi1 + y + i=1 yi3

1 = p3 i=1 Pni=1 i2
i=1 yi3
Pn
yi3
=⇒ p3 = i=1
n

104
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Sustituyendo esto en (114) lleva a


Pn Pn
yi1 yi2
p1 = i=1
y p2 = i=1
n n
Es decir, los estimadores máximo verosimiles de (p1 , ..., pk ) son
 Pn Pn 
yi1 yik
(b
p1 , ..., pbk ) = i=1
, ..., i=1
n n

Recordar que en estricto sentido sólo se estiman k − 1 parámetros, pues el otro está definido a partir
de los k − 1.
Pn
Muchas veces se usa la notación Or o nr para i=1 yir , pues se dice que es el número de observaciones
en la muestra que presentan la etiqueta r-ésima.
II. Pruebas usando el cociente de verosimilitud generalizado
Supongamos que podemos expresar las hipótesis de interés de la forma siguiente:

H0 : p1 = p01 , p2 = p02 , ..., pk−1 = p0k−1 vs Ha : pr 6= p0r para alguna r = 1, ..., k − 1,

donde p0r , r = 1, ..., k − 1, representa una restricción específica sobre cada uno de los parámetros en
el modelo, por ejemplo, podría ser un valor fijo constante o bien que p0r se pueda obtener como una
función del resto de parámetros (los k − 1 se obtienen a partir de m0 parámetros, con m0 ≤ k − 1).
El cociente de verosimilitud generalizado se define en este caso como:
Pn Pn
0 yi1 0 yik
L(b
p01 , ..., pb0k ; Y1 , ..., Yn ) pb1 i=1 · · · pbk i=1

λ= =
L(b
p1 , ..., pbk ; Y1 , ..., Yn )
Pn P n
yi1 yik
pb1 i=1 · · · pbk i=1

Pn
 n
P
yi1 yik
pb01 pb0k
  
i=1 i=1
= ···
pb1 pbk

Como la distribución multinomial pertenece a la familia exponencial, se puede usar la propiedad asin-
tótica bajo H0 :

−2 ln λ ∼ χ2m−m0
0
donde m es el número de parámetros estimados en el denominador (en este caso k − 1) y m es el
número de parámetros estimados en el numerador para especificar p01 , ..., p0k−1 . Es decir

−2 ln λ ∼ χ2k−1−m0

y se rechaza H0 si

−2 ln λ > χ2 1−α .
0
k−1−m

Notemos que

n n !
pb01 pb0k
X   X 
− 2 ln λ = −2 yi1 ln + ··· + yik ln . (115)
i=1
pb1 i=1
pbk

Considerando la siguiente notación:

105
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

n
X
Or = yir y Er = nb
p0r
i=1

donde:

i. Or : número de observaciones que toman el valor de la categoría r.


ii. Er : número de observaciones esperadas, en una muestra de tamaño n, que toman el valor de la
categoría r bajo la hipótesis nula.

Se tiene que (115) es equivalente a


    
E1 Ek
−2 ln λ = −2 O1 ln + · · · + Ok ln
O1 Ok
k  
X Er
= −2 Or ln = G2 (estadística del LRT). (116)
r=1
O r

Pk  
A (116) se le conoce como la estadística asociada al LRT y también es equivalente a 2 r=1 Or ln O Er .
r

Con esto podríamos usar una aproximación cuadrática


 para00 la función x ln a alrededor de ’a’ usando
x


series de Taylor; con f (x) = x ln a , f (x) = ln a + 1, f (x) = x , de donde


x
 0 x 1

x 1
x ln ≈ 0 + (x − a) + (x − a)2 .
a 2a
Pk  
Aplicando esto a cada elemento de 2 r=1 Or ln Or
Er se obtiene

k k 
1
  
X Or X
2 Or ln =2 (Or − Er ) + (Or − Er )2
r=1
Er r=1
2Er
k
X (Or − Er )2
=
r=1
Er

pues

k
X k X
X n k
X k
X k
X
Or = yir = n y Er = p0r = n
nb pb0r = n.
r=1 r=1 i=1 r=1 r=1 r=1

A
k
X (Or − Er )2
χ=
r=1
Er
se le conoce como la estadística asociada a la prueba Ji-cuadrada. Además, dado que χ es una aproxi-
mación de −2 ln λ, se tiene también que

χ ∼ χ2k−1−m0 .

III. Ejemplo en el contexto de Bondad de ajuste.


Suponga que se tiene una v.a W ∼ exp(λ0 ), λ0 conocida. Además, se tiene un conjunto de datos
w1 , ..., wn y se quiere probar si son una m.a. de W . Es decir,

H0 : Los datos provienen de la distribución exp(λ0 )

106
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

vs
Ha : Los datos no provienen de la distribución exp(λ0 )

En este caso, bajo H0 sabemos que el soporte de W es (0, ∞) y además podríamos particionarlo, por
ejemplo, usando los intervalos:

(0, 1), [1, 2), [2, 3), [3, ∞).

Es decir, en 4 intervalos. Dado que λ0 es conocida también podríamos calcular la probabilidad de que
la variable W caiga en cada intervalo, por ejemplo
Z 1
P (W ∈ (0, 1)) = λ0 e−λ0 t dt.
0

Para usar la prueba Ji-cuadrada en este contexto, se transforma el problema a uno discreto considerando
una v.a categórica con 4 clases. En este caso, en lugar de usar los valores originales wi , cada observación
puede ser catalogada o clasificada a una clase de acuerdo a si wi ∈ (a, b)r , con (a, b)r el r-intervalo a
usar.
De manera que las hipótesis de este ejemplo se traducen en términos de las probabilidades de los
intervalos como

H0 : p1 = p01 , p2 = p02 , p3 = p03 vs Ha : pr 6= p0r para alguna r = 1, 2, 3.

donde p0r = P(W ∈ (a, b)r ), r = 1, 2, 3, 4. Notar que con este procedimiento se busca encontrar evidencia
en contra de H0 a partir de las probabilidades observadas de las categorías asociadas a los intervalos.
Además, como aquí λ0 es conocida, cada p0r se puede calcular bajo H0 sin estimar ningún parámetro,
por lo que

4
X (Or − Er )2
χ= ∼ χ23
r=1
Er
0
pues k = 4, m = k − 1 = 3 y m = 0.
IV. Prueba Ji-cuadrada para probar la independencia entre dos variables categóricas
Sean Z y W dos variables categóricas. Z con j niveles y W con l niveles. Para este caso se hace uso
de una variable Y que se construye con los j × l niveles de las variables Z y W , de manera que puede
tomar sólo una etiqueta dependiendo de los valores que toman las variables Z y W .
Para analizar esta variable Y se puede usar un vector Y = (y1 , ..., yj×l ) y el modelado se hace a través
de la distribución multinomial(1, p1 , ..., pj×l ).
En este caso y de forma más conveniente, usaremos en lugar del vector Y una matriz construida como:

Variable Z
1 2 ··· ··· j
1 y11 y12 ··· ··· y1j
2 y21 y22 ··· ··· y2j
.. .. .. .. ..
Variable W . . . . .
.. .. .. .. ..
. . . . .
l yl1 yl2 ··· ··· ylj

Al igual que en la definición del vector Y , aquí

107
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

(
1, si la variable W toma el valor i y la Z el h
yih =
0, e.o.c

Con esta notación las probabilidades asociadas en la distribución multinomial serían

pih , i = 1, ..., l; h = 1, ..., j.

Considerando una muestra de tamaño n, los estimadores máximo verosímiles son:


Pn
yihm Oih
pbih = m=1
= , i = 1, ..., l; h = 1, ..., j.
n n
Aquí se estimarían l × j − 1 parámetros.
Ahora consideremos el contraste de las hipótesis

H0 : Z y W son independientes vs Ha : Z y W no son independientes

Notar que esto implicaría bajo H0

P(W = i, Z = h) = P(W = i)P(Z = h), i = 1, ..., l; h = 1, ..., j.

Notemos que las probabilidades asociadas a la distribución conjunta y las marginales se pueden pre-
sentar en una tabla:

Variable Z
1 2 ··· ··· j
1 p11 p12 ··· ··· p1j p1.
2 p21 p22 ··· ··· p2j p2.
.. .. .. .. .. ..
Variable W . . . . . . ← Marginal W
.. .. .. .. .. ..
. . . . . .
l pl1 pl2 ··· ··· plj pl.
p.1 p.2 ··· ··· p.j

Marginal Z

Notar que de forma marginal se pueden estimar los parámetros de la variable W al usar una
multinomial(1, p1. , ..., pl. ) y los parámetros de la variable Z al usar una multinomial(1, p.1 , ..., p.j )
con base en una m.a. de tamaño n:

Oi.
pbi. = , i = 1, ..., l
n

O.h
pb.h = , h = 1, ..., j
n
Además la hipótesis H0 se puede reescribir como:

H0 : pih = pi. p.h ∀ i = 1, ..., l y h = 1, ..., j.

Notar que aquí las p01 , ..., p0k−1 usados en la sección II para definir el cociente de verosimilitud gene-
ralizado son los productos de probabilidades antes definidos y que se tienen que estimar. Bajo H0

108
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

tendríamos que estimar (j − 1) parámetros asociados a la variable Z y (l − 1) parámetros asociados a


la variable W , además los estimadores son:

Oi. O.h
pbih =
b × = pbi. × pb.h .
n n
De esta forma se pueden definir las dos estadísticas siguientes:

l Xj
X (Eih − Oih )2 Oi. × O.h
X= , con Eih = b
pbih · n = ,
i=1
Eih n
h=1

j
l X  
X Eih
G2 = −2 Oih ln
i=1 h=1
Oih

Tanto X como G2 tienen una distribución χ2m−m0 , donde m = l × j − 1 y m0 = (l − 1) + (j − 1).


Es decir

χ2lj−1−(l−1)−(j−1) = χ2(l−1)(j−1) ,

usando que lj − 1 − (l − 1) − (j − 1) = (l − 1)(j − 1).


Si se usa X, se rechaza H0 si

X > χ2(l−1)(j−1)
1−α

Este procedimiento se conoce como la prueba ji-cuadrada.


Si se usa G2 , se rechaza H0 si

G2 > χ2(l−1)(j−1)
1−α

Este procedimiento se conoce como la prueba asociada al LRT.


Notas prácticas.

a) En lo anterior se asume una muestra de tamaño n de donde se observan cuantos casos caen en
cada celda de la matriz. En algunos diseños de experimentos se fijan los tamaños de muestra a
priori con base en las categorías de una de las v.a., ya sea Z o bien W . Aún en esos casos se
procede de la misma forma.
b) Notar que

H0 : W y Z son independientes
implica varias cosas
i) P(w, z) = P(w)P(z)
P(w,z)
ii) P(w|z) = P(z) = P(w)
Es decir, de ii) que la función de probabilidad de W para cada categoría de Z es la misma.
En algunos casos el problema se define con la afirmación: ’La distribución de W es la misma
para j grupos’. Esta afirmación sería entonces equivalente a ’W y Z son independientes’ con Z la
variable que identifica los grupos. Notar que esto se parece mucho a un problema tipo ANOVA,
pero W con distribución multinomial.

109
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

c) Si W tiene sólo dos niveles, entonces el interés podría ser analizar si las probabilidades de cierto
evento son iguales en j grupos (tratamientos). Por ejemplo, se aplican 3 tratamientos (control,
tratamiento 1 y tratamiento 2) y se quiere analizar si las probabilidades de desarrollar un cua-
dro grave de cierta enfermedad son iguales o hay algún tratamiento que pudiera modificar esas
probabilidades.
Aquí es más claro que se parece a un problema tipo ANOVA, pero con una variable W binaria.
En este caso una alternativa serían los modelos lineales generalizados con W ∼ Bernoulli(pj ).
El procedimiento es similar a uno de regresión lineal múltiple, pero con g (E(W |Z)) = β0 +
β1 control + β2 trat1 y

E(W |control) = pcontrol


E(W |trat1) = ptrat1
E(W |trat2) = ptrat2 .

Dentro de los modelos lineales generalizados para W binaria, la regresión logística es muy usada,
en donde:
 
πj
g(πj ) = ln , con πj = P(W = 1|j) = pj .
1 − πj

Ver EjemploNP_Pruebas_JiCuad.R para las pruebas de independencia para dos variables categóricas.

3.4. Pruebas de Bondad de Ajuste

Problema:
¿x1 , ...xn son una m.a de la distribución con función de probabilidad o densidad f (x; θ)?
Notación:
Sea F (x; θ) la función de distribución asociada a f (x; θ). X puede ser continua o discreta, así como θ un
parámetro o un vector de parámetros.
Dos casos en la forma de definir f (x; θ) en la pregunta.

i) θ se conoce.
ii) θ no se conoce.

A partir de esto tenemos las siguientes hipótesis.

H0 : Las observaciones x1 , ..., xn fueron generadas de la distribución f (x; θ)


vs
Ha : Las observaciones x1 , ..., xn no fueron generadas de la distribución f (x; θ)

Cuando θ se conoce en H0 , entonces la hipótesis nula es simple, pues está completamente definida la distribu-
ción. En el caso donde θ no se conoce, entonces H0 es compuesta y en la práctica se estiman los parámetros,
por ejemplo, con el método de máxima verosimilitud. Las pruebas que se revisarán son:

110
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

 
Kolmogorov-Smirnov

 

 


 

 
θ conocida Ji-cuadrada




(no recomendada, pero

 

 

 es posible usarla)

 




 

Caso continuo  Kolmogorov-Smirnov con


corrección Lilliefors
 


 
(Lilliefors test)
 


 

no conocida

θ




Ji-cuadrada

 


 
(posible, pero no
 


 


 recomendada)
 


 n
 θ conocida Ji-cuadrada

Caso discreto n
 θ no conocida Ji-cuadrada

Otras pruebas específicas para el caso de una distribución normal con µ y σ 2 desconocidas:

- Shapiro-Wilk test
- Shapiro-Francia test
- Anderson-Darling test
- Jarque-Bera test

Nota:
Cada prueba se enfoca en definir una estadística que distinga cualidades de la distribución a analizar. Bajo
H0 es fácil calcular o acotar la probabilidad de cometer el error tipo I; pero dado lo abstracto de la hipótesis
alternativa, no es fácil el cálculo del error tipo II. Por este motivo las pruebas se hacen con el objetivo de
encontrar evidencia contra H0 .

3.4.1. Supongamos que X es continua y conocemos θ.

3.4.1.1. Prueba Kolmogorov-Smirnov


Sea x1 , ..., xn una m.a de una variable X con función de distribución F (x). Sea F0 (x) = F0 (x; θ) una función
de distribución completamente especificada (omitiremos θ por ser conocida).

H0 :F (x) = F0 (x) ∀ x
vs
Ha :F (x) 6= F0 (x) para al menos una x en el soporte.

La estadística de prueba es

D= sup {|Fn (x) − F0 (x)|},


−∞<x<∞

donde Fn (x) es la función de distribución empírica o muestral, es decir para valores diferentes x1 , ..., xn :

111
Notas de clase. Semestre 2023-1. Gonzalo Pérez.




0, x < x(1)




Fb(x) = Fn (x) = ni , x(i) ≤ x < x(i+1) , i ∈ {1, ..., n − 1}





1, x ≥ x

(n)

donde x(1) , ..., x(n) son los estadísticos de orden de la muestra, ver Figura 18.

Figura 18: Ejemplo de Fn (x) y F0 (x).

Notar que dado que D es la distancia más grande entre Fn (x) y F0 (x): el supremo ocurre en una de las x(i)0 s
o justo antes de una de las x(i)0 s . De donde, cuando todos los valores x1 , ..., xn son diferentes, se tiene que

D = máx Mi ,
i=1,..,n
 
 
i − 1

 i 

con Mi = máx − F0 (x(i) ) ,
− F0 (x(i) )


 n n 
| {z } | {z }
D+ D−

Se rechaza H0 si

D > Dn,α

Donde Dn,α es el valor de tablas para un α dado.

Ver ejemplo en R
ejemploNP_BA_KStest.R

112
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

3.4.1.2. Prueba χ2 (Ji-cuadrada) para Bondad de Ajuste (X continua, θ conocida)

H0 : Los datos fueron generados de una distribución completamente especificada F0 (x)


vs
Ha : Los datos no fueron generados de esa distribución

Para esta prueba se deben definir k intervalos que formen una partición del soporte de la distribución
cuidando que las clases tengan al menos cuatro o cinco observaciones (es deseable que la muestra en cada
intervalo sea grande). Por ejemplo, si el soporte es [a0 , ak ], con a0 y ak constantes o posiblemente ±∞, una
posible partición es la siguiente

Intervalo Límites del intervalo Freq. Observada Freq. Esperada


1 [a0 , a1 ) O1 E1
2 [a1 , a2 ) O2 E2
.. .. .. ..
. . . .
k [ak−1 , ak ] Ok Ek

113
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

La frecuencia observada Oi es el número de observaciones en los datos que están en el intervalo [ai−1 , ai ].
Por otro lado, la frecuencia esperada bajo H0 se calcula como

Ei = pi n,

donde n es el número de observaciones en la muestra y pi es la probabilidad calculada bajo la distribución


F0 (x), es decir,

pi = P(ai−1 ≤ x < ai ) = F0 (ai ) − F0 (ai−1 ).

La estadística de prueba es

k
X (Oi − Ei )2
X= .
i=1
Ei

Notar que cuando los datos se parecen a los valores esperados, entonces la estadística X toma valores muy
pequeños. En general esta prueba detecta si en alguna parte del soporte de la distribución (algún intervalo)
hay diferencias entre lo observado y lo esperado.
Bajo H0 y suficiente muestra

X ∼ χ2(k−1)

y se rechaza H0 con una significancia α si:

X > χ21−α .
(k−1)

Nota
El número de intervalos es arbitrario, pueden ser k = 5, 10, etc. Y también podrían definirse tal que son
equiprobables con respecto a F0 (x) o de otra forma. Los resultados podrían no coincidir.

Equiprobables: E1 = E2 = · · · = Ek se obtiene usando los cuantiles de F0 (x).

Ver ejemplo en R
ejemploNP_BA_JiCuadtest.R

3.4.2. Supongamos que X es continua y no conocemos θ

Cuando no se conoce θ tanto la prueba Kolmogorov-Smirnov como la Ji-cuadrada deben modificarse. Una
alternativa es considerar un estimador de θ, por ejemplo, es común usar el Estimador Máximo Verosimil de
θ (EMV de θ). Una vez estimado θ las pruebas son:

114
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

i) Prueba Lilliefors (prueba Kolmogorov-Smirnov con corrección Lilliefors)


En esta prueba se realiza el mismo procedimiento que en la prueba de Kolmogorov-Smirnov, pero
en lugar de usar F0 (x) se usa Fb0 (x), donde Fb0 (x) es la distribución propuesta con los parámetros
estimados.
La estadística de prueba es

D= sup {|Fn (x) − Fb0 (x)|}.


−∞<x<∞

Como en el caso de la prueba Kolmogorov-Smirnov, cuando los valores x1 , ..., xn son diferentes, enton-
ces:

D = máx Mi
i=1,...,n

i − 1
 
i
con Mi = máx − F0 (x(i) ) , − F0 (x(i) ) .

b b
n n

Es decir, la estadística de prueba puede calcularse como en la prueba Kolmogorov-Smirnov pero usando
Fb0 (x). La diferencia radica en la distribución de la estadística D.

a) La distribución de la estadística D no depende de la distribución F0 (x) en la prueba Kolmogorov-


Smirnov.
b) La distribución de la estadística D depende de la distribución F0 (x) en la prueba Lilliefors, pues
se estimaron los parámetros. Esta distribución es más compleja y depende de la distribución y
cuáles parámetros se estiman.

Se rechaza H0 si

0
D > Dn,α

donde Dn,α
0
es el valor en tablas para una n y α especificadas y considerando la distribución F0 (x).
Por ejemplo, las Figuras 19 y 20 corresponden a los cuantiles Dn,α
0
considerando la distrbución normal
y exponencial, respectivamente.
Nota.
Pn En el caso de la distribución normal se usa el estimador insesgado de σ 2 , es decir, σ
b2 =
2
(xi −x̄)
i=1
n−1 en lugar del EMV.

115
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Figura 19: Valores de Dn,α


0
para la distribución normal

116
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Figura 20: Valores de Dn,α


0
para la distribución exponencial

ii) En el caso de la Ji-cuadrada

Ei = pbi n, donde

pbi = P(a
b i−1 ≤ x < ai ) = Fb0 (ai ) − Fb0 (ai−1 ),

es decir, pbi se calcula bajo la distribución Fb0 (x).


Pk (Oi −Ei )2
En este caso, la distribución de X = i=1 Ei también se modifica, en particular los grados
libertad son c = k − 1 − p, donde k es el número de intervalos y p es el número de parámetros estimados
para definir F0 (x). En todo momento en esta prueba se usan los EMV de θ.
Se rechaza H0 con una significancia α si

X > χ21−α = χ2 1−α .


(c) (k−1−p)

117
Notas de clase. Semestre 2023-1. Gonzalo Pérez.

Nota. EL número de intervalos está condicionado a que c > 0, es decir, k − 1 − p > 0 y se pide que, en
la medida de lo posible, en cada intervalo se tengan al menos 5 observaciones.

Ejemplo en R EjemploNP_BA-Lilliefors-JiCuad-Test.R

3.4.3. Supongamos que X es discreta y θ no se conoce o se conoce.

- La única prueba que veremos es la Ji-cuadrada.

- En este caso, al igual que en el continuo, F0 (x) está bien definida si θ es conocido (p = 0) y F0 (x) se
estimará usando el EMV de θ cuando θ es desconocido (p > 0).
- La regla de decisión es la misma:
Rechazar H0 con una significancia α si:

X > χ2 1−α
(k−1−p)

- La definición de los intervalos es mucho más fácil o intuitiva, pues en general cada intervalo corresponde
a un valor en el soporte de la distribución F0 (x), excepto en los extremos en donde se colapsan las
categorías.

Ejemplo. Si F0 (x) corresponde a una distribución P oisson(θ) o Binomial(n, θ), entonces los intervalos
pueden ser

Intervalo P oisson(θ) Binomial(n, θ)


1 0 = [0, 1) 0
2 1 = [1, 2) 1
3 2 = [2, 3) 2
4 3 = [3, 4) 3
5 4 = [4, 5) 4
6 [5, ∞) [5, n]

Ejemplo en R
ejemploNP_BA-JiCuad-Test-VariablesDiscretas.R
Nota. En los extremos se colapsan las clases para tener al menos 5 observaciones o evitar intervalos con cero
o una observación.

118

También podría gustarte