Introducción A Los Modelos Lineales: Modelos Estáticos: Modelos Dinámicos: Modelos Explicativos: Modelos Causales

Notas de Clase elaboradas por L. M.
González
Introducción a Modelos Lineales
Introducción a los modelos lineales

Según Everitt (2006), una función lineal es un conjunto de variables, parámetros,
etc. que no contiene potencias o productos cruzados de las cantidades y un modelo
lineal es un modelo en el cual el valor esperado de una variable aleatoria es expresado
como una función lineal de los parámetros en el modelo. Por otro lado, Hinkelmann
& Kempthorne (1994)[p.60] expresa que “A model is an explanation of observables
in terms of observables”.
Los modelos en general se pueden clasificar como, ver Hinkelmann & Kempthorne
(1994)[p.60]:
Estáticos ó dinámicos:
• Modelos Estáticos: Describen una situación. Por ejemplo la medida del
tiempo t que demora en caer un objeto desde una determinada altura s,
s = 21 gt2 con s altura en metros, g constante gravitacional (g = 9.8m/s2 )
y t tiempo de caida en segundos.
• Modelos Dinámicos: Si el modelo es correcto, nos ayuda a prever el
futuro.
Explicativos ó causales:
• Modelos Explicativos: No hay intervenciones por parte del observador.
• Modelos Causales: Hay intervención de parte del observador.
Para representar un modelo lineal, suponga que una variable Y se puede expre-
sar en términos de las variables X1 , X2 , . . . , Xp . Se llamará variable dependiente
a Y y variables independientes a las X ′ s.
Organizando la Y y las X ′ s en matrices, se tiene que
   
y1 x11 x12 . . . x1p
 y2   x21 x22 . . . x2p 
=.  = . . .

.
   
 ..   .. .. . . .. 
y n×1 y X n×p  = x1 x2 . . . xp .
yn xn1 xn2 . . . xnp
con xj = (x1j x2j x3j . . . xnj )⊤ y n el número de unidades en las cuales se realizan
las observaciones. A X se le va a llamar matriz diseño.
Un modelo lineal en los parámetros es dado por:
E(Y ) = Xβ (1)
en que β = β1 β2 . . . βp ⊤ vector de parámetros a estimar. Cabe resaltar la

diferencia entre Y y y, el primero se refiere a variables aleatorias y el segundo a los

datos (realizaciones de las variables aleatorias).
1
Notas de Clase elaboradas por L. M. González
Considere ahora
Y = Xβ + ε, (2)
con ε un vector aleatorio tal que E(ε) = 0. Xβ corresponde a la parte sistemática
del modelo, y ε corresponde a la parte aleatoria del modelo. Si se conoce β y X , y
si se obtiene una realización de ε, entonces se tiene un vector de escalares y,
y = Xβ + una realización de ε.
Ejemplo 1. Considere el modelo de efectos fijos, como el dado en (2). Algunos casos
particulares son
1. yij = µ + τi + εij , i = 1, 2, . . . , a
y j = 1, 2, . . . , ri .
Esta expresión corresponde a un modelo lineal con una vía de clasificación. En
la tabla 1 se presentan datos ilustrativos sobre el número de vehículos de la
marca A en la empresa B clasificados por kilómetros rodados. En este caso las
ciudades corresponden a “unidades” o réplicas. a = 3, r1 = 4, r2 = 3 y r3 = 4.
Tabla 1: Número de vehículos de la marca A en la empresa B clasificados por kiló-

metros rodados. Datos ilustrativos.
Kilómetros rodados al año
Zonas Menos de 15.000 Entre 15.000 y 25.000 Más de 25.000
Barranquilla 8 10 13
Bogotá 10 15 16
Cali 12 . 13
Medellín 13 12 15
Las respectivas matrices y, X , β y ε son dadas por

     
8 1 1 0 0 ε11
10 1 1 0 0 ε12 
     
12 1 1 0 0 ε13 
     
13 1 1 0 0   ε14 
    µ  
10 1 0 1 0  
 ε21 
τ1 
    
15 = 1 0 1 0 ε22 
    τ2  +  
12 1 0 1 0 ε24 
    τ3  
13 1 0 0 1 ε31 
    | {z }  
16 1 0 0 1 β ε32 
     
13 1 0 0 1 ε33 
15 1 0 0 1 ε34
| {z } | {z } | {z }
y X Una realización de ε
2. yijk = µ + τi + γj + εijk , i = 1, 2, . . . , a, j = 1, 2, . . . , b y k = 1, 2, . . . , r.
2
Esta expresión corresponde a un modelo lineal con dos vías de clasificación. En

la tabla 2 se presentan datos ilustrativos sobre el número de vehículos importa-
dos por la empresa B en el último año según marca y puerto de importación.
En este ejemplo solo hay una “unidad” o réplica por casilla pero pueden ser más
de una. a = 3, b = 3 y r = 1.
Tabla 2: Número de vehículos importados por la empresa B en el último año según

puerto de importación y marca. Datos ilustrativos.
Puerto importación Renault Volkswagen Chevrolet
Santa Martha 9 10 13
Buenaventura 10 16 15
Cartagena 11 10 13
     
9 1 1 0 0 1 0 0   ε111
10 1 1 0 0 0 1 0 µ
ε121 
    
11 1 1 0 0 0 0 1  τ1 
  ε131 
    
10 1 0 1 0 1 0 0  τ2 
  ε211 
    
16 = 1 0 1 0 0 1 0  τ3  +
  ε221 
    
10 1 0 1 0 0 0 1  γ1 
  ε231 
    
13 1 0 0 1 1 0 0 γ2
  ε311 
    
15 1 0 0 1 0 1 0  γ3 ε321 
13 1 0 0 1 0 0 1 | {z } ε331
| {z } | {z } β | {z }
3. yijk = µ + τi + γj + (τ γ)ij + εijk , i = 1, 2, . . . , a, j = 1, 2, . . . , b

y k = 1, 2, . . . , r.
Esta expresión corresponde a un modelo lineal con dos vías de clasificación
e interacción. En la tabla 3 se presentan datos ilustrativos sobre número de
vehículos importados por la empresa B en los últimos dos años clasificados por
marca y puerto de importación. En este ejemplo, se tienen dos observaciones
por casilla que corresponden a los datos de los dos años. a = 3, b = 2 y r = 2.
Tabla 3: Número de vehículos importados por la empresa B en los últimos dos años
clasificados por puerto de importación y marca. Datos ilustrativos.
Puerto importación Renault Volkswagen Chevrolet
Buenaventura 15 11 12
13 10 10
Santa Martha 9 11 18
8 14 23
3

      
15 1 1 0 0 1 0 1 0 0 0 0 0 µ ε111
13  1 1 0 0 1 0 1 0 0 0 0 0   τ1  ε112 
      
 9  1 1 0 0 0 1 0 1 0 0 0 0   τ2  ε121 
      
 8  1 1 0 0 0 1 0 1 0 0 0 0   τ3  ε122 
      
11  1 0 1 0 1 0 0 0 1 0 0 0   γ1  ε211 
      
10  1 0 1 0 1 0 0 0 1 0 0 0   γ2  ε212 
 =
 (τ γ)11  +
   
11  1 0 1 0 0 1 0 0 0 1 0 0 ε221 
      
14  1 0 1 0 0 1 0 0 0 1 0 0  (τ γ)12  ε222 
      
12  1 0 0 1 1 0 0 0 0 0 1 0  (τ γ)21  ε311 
      
10  1 0 0 1 1 0 0 0 0 0 1 0  (τ γ)22  ε312 
      
18  1 0 0 1 0 1 0 0 0 0 0 1  (τ γ)31  ε321 
23 1 0 0 1 0 1 0 0 0 0 0 1 (τ γ)32 ε322
| {z } | {z } | {z } | {z }
y X β
Una realiza-
ción de ε
4. yijk = µ + τi + δj(i) + ε(ij)k , i = 1, 2, . . . , a, j = 1, 2, . . . , b

y k = 1, 2, . . . , r.
Esta expresión corresponde a un modelo lineal con anidamiento. En la tabla 4
se presentan datos ilustrativos sobre número de vehículos importados por la
empresa B en los últimos dos años según origen del vehículo. En este ejemplo,
se tienen dos observaciones por casilla que corresponden a los datos de los dos
años. a = 2, b = 3 y r = 2.
Tabla 4: Número de vehículos importados por la empresa B en los últimos dos años
según marca y origen del vehículo. Datos ilustrativos.
Ford Volkswagen
Brasil Venezuela EEUU Brasil México Alemania
30 7 5 32 10 12
8 14 20 10 9 15
     
30 1 1 0 1 0 0 0 0 0 ε(11)1
 8 1 1 0 1 0 0 0 0 0   ε(11)2 
  
 7 1
 µ  
1 0 0 1 0 0 0 0 
 ε(12)1 
 τ1 
     
14 1 1 0 0 1 0 0 0 0 ε(12)2 
     τ2   
 5 1 1 0 0 0 1 0 0 0   ε(13)1 
    δ1(1)   
20 1 1 0 0 0 1 0 0 0 
   ε(13)2 
 = δ2(1) 
+
 
32 1 0 1 0 0 0 1 0 0 
  ε(24)1 
  
10 1 δ
 3(1) 
  
   0 1 0 0 0 1 0 0 δ4(2) 
ε(24)2 
 
10 1 0 1 0 0 0 0 1 0   ε(25)1 
    δ5(2)   
 9 1 0 1 0 0 0 0 1 0 ε(25)2 
   δ  
12 1 0 1 0 0 0 0 0 1 | 6(2)
{z } ε(26)1 
15 1 0 1 0 0 0 0 0 1 β ε(26)2
| {z } | {z } | {z }
4
5. yi = a + bxi + εi , i = 1, 2, . . . , n.
Esta expresión corresponde a un modelo lineal con variable independiente re-
gresora ( regresión lineal simple). En la tabla 5 se presentan datos ilustrativos
sobre número de reclamaciones y valor pago para diferentes zonas. n = 7.
Tabla 5: Número de reclamaciones y valor pago para diferentes zonas. Datos ilustra-
tivos.
Reclamaciones Valor pago
65 350.000
35 250.000
20 130.000
10 75.000
15 60.000
5 20.000
30 120.000
     
350.000 1 65 ε1
250.000 1 35 ε2 
     
130.000 1 20 ε3 
 75.000 = 1 10 a +
     
ε4 
    b  
 60.000 1 15 | {z } ε5 
     
 20.000 1 5 β ε6 
120.000 1 30 ε7
| {z } | {z } | {z }
6. yij = µ + τi + γ(xij − x̄) + εij , i = 1, 2, . . . , a y j = 1, 2, . . . , ri , en que x̄ =

a ri a
1 P P
xij , n = ri .
P
n
i=1 j=1 i=1
Esta expresión corresponde a un modelo lineal de covarianza. En la tabla 6 se
presentan datos ilustrativos sobre número de reclamaciones y valor pago para
diferentes zonas por kilómetros rodados (por año). a = 2, r1 = 4 y r2 = 7.
5
Tabla 6: Número de reclamaciones y valor pago para diferentes zonas por kilómetros
rodados (por año). Datos ilustrativos.
Kilómetros Reclamaciones Valor pago
Entre 15.000 y 25.000 10 60.000
Entre 15.000 y 25.000 140 700.000
Entre 15.000 y 25.000 30 140.000
Entre 15.000 y 25.000 9 25.000
Más de 25.000 65 350.000
Más de 25.000 35 250.000
Más de 25.000 20 130.000
Más de 25.000 10 75.000
Más de 25.000 15 60.000
Más de 25.000 5 20.000
Más de 25.000 30 120.000

     
60.000 1 1 0 (10 − 33, 55) ε11
700.000 1 1 0 (140 − 33, 55) ε12 
     
140.000 1 1 0 (30 − 33, 55) ε13 
     
 25.000 1 1 0 (9 − 33, 55)   ε14 
    µ  
350.000 1 0 1 (65 − 33, 55)  
 ε21 
τ1 
    
250.000 = 1 0 1 (35 − 33, 55) ε22 
    τ2  +  
130.000 1 0 1 (20 − 33, 55) ε23 
    γ  
 75.000 1 0 1 (10 − 33, 55) ε24 
    | {z }  
 60.000 1 0 1 (15 − 33, 55) β ε25 
     
 20.000 1 0 1 (5 − 33, 55) ε26 
120.000 1 0 1 (30 − 33, 55) ε27
| {z } | {z } | {z }
Nota 1. En un modelo lineal NO hay relación entre los coeficientes β0 , β1 , β2 , . . . , βp .

Algunos ejemplos son:
E(Yij ) = µ + γi + δj , con i = 1, 2, . . . , a y j = 1, 2, . . . , b.
E(Yij ) = µ + γi + δj + (γδ)ij , con i = 1, 2, . . . , a y j = 1, 2, . . . , b.
E(Yi) = β0 + β1 xi, con i = 1, 2, . . . , n.
E(Yi) = β0 + β1 x1i + β2 x2i + β3 x3i , con i = 1, 2, . . . , n.
E(Yi) = β0 + β1 x1i + β2 x21i + β3 x2i , con i = 1, 2, . . . , n.
E(Yi) = β0 + β1 x1i + β2 x2i + β3 x1i x2i, con i = 1, 2, . . . , n.
6
E(yi) = β0 + β1 x1i + β2 ln(x1i) + β3 [ln(x1i )]2 , con i = 1, 2, . . . , n.

Un modelo no lineal en los parámetros es, por ejemplo, E(yi ) = β1 x1 + β12 x2 + β2 x3 .
Nota 2. La matriz diseño, X , puede ser de rango columna completo, es decir, que
las columnas de X son linealmente independientes, pero también puede no ser de
rango columna completo. En el ejemplo 1, en los items 1 al 4 y 6, la matrix X no
es de rango columna completo, mientras que en el item 5 la matriz X si es de
rango columna completo.
Ejercicio 1. Identifique si las siguientes matrices son de rango columna completo:
 
1 2 3  
 5 4 6 10 15 20
A= 9 8 7
 B= 8 12 22
6 7 8
10 11 12
 
1 3 3 6
4 8
C= D = 4 5 20 15
2 4
5 3 15 18
Otra clasificación dada en Hinkelmann & Kempthorne (1994)[p.63] de los modelos

lineales es:
Modelos funcionales: Son por ejemplo los modelos de regresión lineal sim-
ple/múltiple en que uno de sus problemas es posible multicolinealidad, es decir,
γ1 x1 + γ2 x2 + · · · + γp xp = 0.
Modelos de clasificación. Por ejemplo y ∼= µ + efecto de bloque+ efecto de

tratamiento. El simbolo ∼ = significa “aproximadamente descrito por”.
Modelos de componentes clasificatorias y funcionales. Por ejemplo yij ∼=
µ + βj + τi + γxij , en que µ, βj , τi y γ son parámetros del modelo a estimar y
xij es una variable concomitante o covariable.
Nota 3. Ejemplo sobre una combinación lineal de los parámetros inseridos en β.
Sea β = (β1 , β2 , β3 , β4 , β5 )⊤ , algunas combinaciones lineales de las componentes de
β son:
β1 − β2
β1 − β5
β2 − β5
β1 + β2 + 2β3 − β4
β2 + β4 − 2β3
7
Definición 1. Hocking (1996)[p.10] La matriz de covarianza V = V(Y ) del vector

aleatorio Y es dada por
V(Y ) = E E(Y )] [Y − E(Y )]⊤
n o
V = [Y − . (3)
Definición 2 . Hocking (1996)[p.10] El vector aleatorio Y se dice que tiene un
modelo lineal general si E(Y ) y V(Y ) son dadas por (1) y (3), respectivamente.
Si V(Y ) = σ2 I , el modelo se dice que es un modelo lineal simple.
Modelo de medias de celda
Definición 3. Hocking (1996)[p.13] El modelo de medias de celda se define
como un caso especial del modelo lineal para el cual
   
Y11 ε11
 ..   .. 
 .   . 
   
Y1n      ε1n1 

 ..   .. 
 1
1n 0 ... 0 ... 0 µ1
 .   1    . 
   0 1 n2 ... 0 ... 0   µ2   
 Yi1   . .. ... .. ... ..   ..  
.. ε 
. . .  .  i1
 ..   .
  
 . =  + . 
.
 

   0 0 . . . 1ni ... 0    µi  
  
 Yin   . .. ... .. ... ..   ..   εini 
 i  .

 ..  . . . .   .   .. 
 .   . 

  0 0 ... 0 ... 1np µp  
 Yp 1  | {z } | {z }  εp1 
 ..   .. 
  W β
 
 .   . 
Ypnp εpnp
| {z } | {z }
Y ε
Y = Wβ + ε
en que 1a corresponde a un vector de orden a cuyas entradas son unos. Los pa-
rámetros µi , i = 1, 2, . . . , p, corresponden a las medias de celda, y los tamaños ni
corresponden a las frecuencias de celda.
Ejemplo 2. Retomando el ejemplo 1, los respectivos modelos de medias de celda
para los items 1 a 4 son:
8
1. p = 3, n1 = 4, n2 = 3 y n3 = 4.
    
8 1 0 0 ε11
10 1 0 0 ε12 
     
12 1 0 0 ε13 
     
13 1 0 0 ε14 
      
10 0 1 0
 µ1
ε21 
    
15 = 0 1 0
 µ2 +
  ε22 
    
12 0 1 0
| µ 3
ε24 
   {z }  
13 0 0 1 ε31 
    β  
16 0 0 1 ε32 
     
13 0 0 1 ε33 
15 0 0 1 ε34
| {z } | {z } | {z }
y W Una realización de ε
2. p = 9, n11 = n12 = · · · = n33 = 1.

      
9 1 0 0 0 0 0 0 0 0 µ11 ε1
10 0 1 0 0 0 0 0 0 0 µ12  ε2 
      
11 0 0 1 0 0 0 0 0 0
 µ13 
  ε3 
    
10 0 0 0 1 0 0 0 0 0 µ21 
  ε4 
    
16 = 0 0 0 0 1 0 0 0 0 µ22  +
  ε5 
    
10 0 0 0 0 0 1 0 0 0 µ23  ε6 
      
13 0 0 0 0 0 0 1 0 0
 µ31 
  ε7 
    
15 0 0 0 0 0 0 0 1 0 µ32 
 ε8 
13 0 0 0 0 0 0 0 0 1 µ33 ε9
| {z } | {z } | {z } | {z }
y W β Una realización de ε
Y = I 9µ + ε = µ + ε
3. p = 6, n11 = n12 = · · · = n32 = 2.

     
15 1 0 0 0 0 0 ε11
13 1 0 0 0 0 0 ε12 
     
 9 0 1 0 0 0 0 ε21 
      
 8 0 1 0 0 0 0
 µ11
ε22 
    
11 0 0 1 0 0 0
 µ12 
  ε31 
    
10 0 0 1 0 0 0
 µ21  +
  ε32 
 =  
11 0 0 0 1 0 0
 µ22 
  ε41 
    
14 0 0 0 1 0 0
 µ31
  ε42 
    
12 0 0 0 0 1 0
 | µ{z
32
ε51 
   }  
10 0 0 0 0 1 0 ε52 
    β  
18 0 0 0 0 0 1 ε61 
23 0 0 0 0 0 1 ε62
| {z } | {z } | {z }
Y = (I 6 ⊗ 12 ) µ + ε
9
4. p = 6, n11 = n12 = · · · = n23 = 2.

     
30 1 0 0 0 0 0 ε11
 8 1 0 0 0 0 0 ε12 
     
 7 0 1 0 0 0 0 ε21 
      
14 0 1 0 0 0 0
 µ11
ε22 
    
 5 0 0 1 0 0 0
 µ12 
  ε31 
    
20 0 0 1 0 0 0
 µ13  +
  ε32 
 =  
32 0 0 0 1 0 0
 µ21 
  ε41 
    
10 0 0 0 1 0 0
 µ22
  ε42 
    
10 0 0 0 0 1 0
 | µ{z
23
ε51 
    
 9 0 0 0 0 1 0 } ε52 
    β  
12 0 0 0 0 0 1 ε61 
15 0 0 0 0 0 1 ε62
| {z } | {z } | {z }
Y = (I 6 ⊗ 12 ) µ + ε
Modelos de regresión
El modelo de regresión es un caso especial del modelo lineal simple enmarcado
en los modelos funcionales. La relación funcional depende de una o más variables
conocidas como regresores, predictores o variables independientes. En general las
variables son cuantitativas, pero puede incluir variables cualitativas, en este caso el
modelo tendrá componentes funcionales y de clasificación. Ver Hocking (1996)[p.14].
Definición 4 .Hocking (1996)[p.17] Se dice que la variable aleatoria Y satisface
un modelo de regresión lineal simple sobre x, si los pares observados (xi , yi ) están
relacionados por la ecuación
Yi = β0 + β1 xi + εi
en que los εi son variables aleatorias independientes que tienen distribución normal
con media cero y varianza σ2 .
Ejemplo 3. La expresión asociada a los datos ilustrativos presentados en la tabla 5,
si adicional al supuesto de E(εi ) = 0, para todo i, se agregan los supuestos de inde-
pendencia entre los ε′ s y distribución normal con varianza constante, , corresponde
a un ejemplo de regresión lineal simple.
Definición 5 Bickel & Doksum (1977)[p.251] Y1 , Y2 , . . . , Yn se dice que satisfacen
.
un modelo lineal general, si se pueden expresar como
p
(4)
X
Yi = βj xij + εi , i = 1, 2, . . . , n
j=0
10
en que las xij son constantes conocidas, los βj son parámetros de valor real descono-
cidos, y los εi son variables aleatorias independientes que tienen distribución normal
con media cero y varianza σ2 .
Ejemplo 4. La expresión asociada a los datos ilustrativos presentados en la tabla 6,
si adicional al supuesto de E(εij ) = 0, para todo i y para todo j , se agregan los su-
puestos de independencia entre los ε′ s y distribución normal con varianza constante,
corresponde a un ejemplo de la expresión (4).
Ejemplo 5. Considere los datos ilustrativos presentados en la tabla 7, sobre el nú-
mero de reclamaciones, valor pago para diferentes zonas y número de asegurados año
póliza . Un modelo propuesto, en este caso, puede ser dado por
a
yi = β0 + β1 x1i + β2 x2i + εi , i = 1, 2, . . . , n,
en que las variables aleatorias εi son independentes con distribución normal de media
cero y varianza σ2 . Note que p = 2, sin embargo el número de parámetros a estimar
en β es p + 1 = 3.
Tabla 7: Datos ilustrativos sobre número de reclamaciones, valor pago para diferentes
zonas y número de asegurados año póliza.
Número de asegurados año póliza Reclamaciones Valor pago
1200,35 65 350.000
800,70 35 250.000
300,65 20 130.000
170,10 10 75.000
300,40 15 60.000
120,15 5 20.000
600,24 30 120.000
     
350.000 1 1200, 35 65 ε1
250.000 1 800, 70 35 ε2 
      
130.000 1 300, 65 20
 β0
ε3 
    
 75.000 = 1 170, 10 10
 β1 +
  ε4 
    
 60.000 1 300, 40 15
 β2 }
ε5 
    
 20.000 1 120, 15 5 | {z ε6 
β
120.000 1 600, 24 30 ε7
| {z } | {z } | {z }
a
Esta variable cuenta el tiempo que una persona estuvo asegurada en un año. Una persona que
este medio año se contabiliza como 0.5, una persona que estuvo asegurada 3 meses cuenta como
0.25 y una persona que estuvo todo el año cuenta como 1.
11
Métodos de estimación
Método de Mínimos Cuadrados
Suponga que las variables aleatorias Y1 , Y2 , Y3 , . . . , Yn , se pueden escribir de la
forma
Yi = gi (θ1 , θ2 , . . . , θr ) + εi , 1≤i≤n
con gi funciones conocidas y θ1, θ2 , . . . , θr , parámetros de interés, de valor descono-
cido. Suponga que el vector de parámetros θ = (θ1 , θ2, . . . , θr )⊤ puede variar libre-
mente sobre un conjunto A ⊂ Rr . También, suponga que los εi satisfacen, al menos
en forma aproximada, las siguientes restricciones:
E(εi ) = 0, 1 ≤ i ≤ n
V(εi) = σ2 > 0, 1 ≤ i ≤ n
Cov(εi , εj ) = 0, 1 ≤ i < j ≤ n
Cabe notar que σ2 es, también, un parámetro. Sea g(θ) = (g1 (θ), g2 (θ), . . . , gn (θ))⊤
y Y = (Y1 , Y2, Y3 , . . . , Yn )⊤ , el valor esperado de Y es
   g (θ) 
Y1 1
g2 (θ) 
E
  Y2    
  = 
. . .  .. 
 . 
Yn gn (θ)
E(Y ) = g(θ)
Una vez se observa Y = y, con y = (y1 , y2, y3, . . . , yn )⊤ , el estimador obtenido vía
mínimos cuadrados resulta de minimizar
n
X
[yi − gi (θ1 , . . . , θr )]2 = [y − g(θ)]⊤ [y − g(θ)]
i=1
Si las gi , i = 1, 2, . . . , n, son diferenciables, θ̂ está bien definido, ver Bickel & Doksum
(1977)[p.95].
Ejemplo 6 (Regresión lineal simple). Un caso especial es
Yi = gi (θ) + εi = β0 + β1 xi +εi , 1≤i≤n
| {z }
gi (θ)
con θ = (β0 , β1 )⊤ , el vector de parámetros, y xi , i = 1, 2, 3, . . . , n, valores conocidos

(variables explicativas). En este caso
gi (θ) = β0 + β1 xi , i = 1, 2, 3, . . . , n. (5)
12
Para minimizar
n
X n
X
Q= [yi − gi (θ1 , . . . , θr )]2 = [yi − β0 − β1 xi ]2
i=1 i=1
se deriva Q con respecto a θ, dQ b

dθ , y se iguala a cero, dQ
dθ = 0:
 n
  n n

! P P P
∂Q
∂β0
 (−1) i=1 2(yi − β0 − β1 xi )   i=1 yi − nβ0 − β1 i=1 xi 
∂Q =P n

 = −2 n
P Pn Pn


∂β1 2(yi − β0 − β1 xi )(−xi ) xi yi − β0 xi − β1 2
xi
i=1 i=1 i=1 i=1
 
nȳ − nβ0 − β1 nx̄
= −2  Pn
xi yi − β0 nx̄ − β1
n
P
x2i
 (6)
i=1 i=1
igualando (6) a cero se tiene que:

 
nȳ − nβ̂0 − β̂1 nx̄
−2  P n Pn =0
xi yi − β̂0 nx̄ − β̂1 x2i
i=1 i=1
   
nȳ nβ̂0 + β̂1 nx̄
Pn − Pn =0
xi y i β̂0 nx̄ + β̂1 x2i
i=1 i=1
   
β̂0 + β̂1 x̄ ȳ
n n
n P  = n1 P 
β̂0 x̄ + n1 β̂1 x2i n xi y i
i=1 i=1
   
1 x̄ ȳ
 Pn  β̂0 =  1 P n 
x̄ n1 x2i β̂1 n xi y i
i=1 i=1
 −1  
1 x̄ ȳ
β̂0 n n
= P  1 P 
β̂1 x̄ n1 x2i n xi y i
i=1 i=1
 n  
1 P 2 ȳ
β̂0
=
1  n i=1 xi −x̄  1 P n 
n x y
β̂1 1 P 2 n i i
n xi − x̄2 −x̄ 1 i=1
i=1
 n n

ȳ P 2 x̄ P
 n i=1 xi − n i=1 xi yi 

β̂0 1
= n
 n

β̂1 1 P 2 2

−x̄ȳ + 1 P
x y

n x i − x̄ n i i
i=1 i=1
denota .
⊤
b d

∂
dθ
d
dθ
= , ∂ , . . . , ∂θ∂r
∂θ1 ∂θ2
13
 n n

P P

ȳ x2i − x̄ xi y i 
β̂0 1  i=1n i=1
= n
.
β̂1 X  P
xi yi − nx̄ȳ

x2i − nx̄2 i=1
i=1
| {z }
SSxx
Ejemplo 7. Considere los datos presentados en la tabla 5. Si fuera adecuado el

modelo (5) para este conjunto de datos, en que yi corresponde al valor pago y xi al
número de reclamaciones, las estimativas de β0 y β1 son
7
X
x̄ = 25, 7143 ȳ = 143571, 4286 x2i = 7100
i=1
7
X 7
X
yi2 = 2, 25925 × 1011 xi yi = 39450000
i=1 i=1
luego
n
P n
P
ȳ x2i − x̄ xi y i
i=1 i=1 (143571, 4286) (7100) − 25, 71428571(39450000)
β̂0 = n =
P 7100 − (7) (25, 71422 )
x2i − nx̄2
i=1
= 1994, 22
Pn
xi yi − nx̄ȳ
39450000 − (7)(25, 7142)(143571, 4286)
β̂1 = i=1n =
P 2 7100 − (7) (25, 71422 )
xi − nx̄2
i=1
= 5505, 78
En la figura 1 se presenta un gráfico de dispersión para los datos del ejemplo 7,

agregando la línea estimada por mínimos cuadrados.
Las instrucciones en R para la estimación y el gráfico se presentan a continuación.
remove(list=ls()) # limpia bases de datos anteriores
Reclamaciones=c(65,35,20,10,15,5,30)
Valor_Pago=c(350000,250000,130000,75000,60000,20000,120000)
ajuste1=lm(Valor_Pago~Reclamaciones) # ajusta la regresión lineal
# simple
plot(Valor_Pago~Reclamaciones,ylim=c(15000,370000),xlim=c(4,70))
# realiza un gráfico de dispersión
abline(coef(ajuste1)) # agrega la línea ajustada
14
350000
250000
Valor_Pago
150000
50000
10 20 30 40 50 60 70
Reclamaciones
Figura 1: Gráfico de dispersión para los datos del ejemplo 7 y línea ajustada.
Ejercicio 2. Sea el modelo yij = µ + iα + eij ,

con i = 1, . . . , a y j = 1, . . . , r .
µ̂
Encontrar α̂
vía mínimos cuadrados ordinarios.
Ejercicio 3. Canavos (1988)[p.492] Una compañía de seguros desea determinar el
grado de relación que existe entre el ingreso familiar, x, y el monto de seguro de vida,
Y , del jefe de familia (en miles de dólares). En la tabla 8 se presentan los datos para
una muestra aleatoria de 18 familias.
Tabla 8: Ingreso y monto del seguro de vida del jefe de familia.

Ingreso Seguro de Vida Ingreso Seguro de Vida Ingreso Seguro de Vida
45 70 47 90 15 40
20 50 30 55 35 65
40 60 25 55 40 75
40 50 20 35 55 105
50 110 60 120 15 30
30 40 35 65 45 80
Si fuera adecuado el modelo (5) para este conjunto de datos, obtener las estima-
tivas de β0 y β1 . Realizar un gráfico de dispersión con los datos de ingreso y seguro
de vida, presentando la recta ajustada.
Ejemplo 8 (Regresión lineal múltiple). Otro caso especial es
Yi = gi (θ) + εi = β0 xi0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi , 1≤i≤n (7)
15
con θ = (β0 , β1 , β2 , . . . , βp )⊤ , el vector de parámetros, y xij , i = 1, 2, 3, . . . , n y

j = 0, 1, 2, . . . , p, valores conocidos (variables explicativas). En este caso
gi (θ) = β0 xi0 + β1 xi1 + β2 xi2 + · · · + βp xip , i = 1, 2, 3, . . . , n.
Matricialmente el modelo (7) se puede escribir

Y = Xβ + ε
 
    β0  
Y1 x10 x11 . . . x1p β1  ε1
 Y2   x20 x21 . . . x2p     ε2 
Y =  . , X= . . . . β = β2  , ε =  . .
       
 ..  . . . .  .. 
,
 . . . .   .. 
.
Yn xn0 xn1 . . . xnp εn
βp
Para minimizar
Q = [y − g(θ)]⊤ [y − g(θ)] = (y − Xβ)⊤ (y − Xβ)
se deriva Q con respecto a θ, dQ

dθ = 0.

Nota 4. Harville (1997)[p.295] Definiendo d
dβ
=
∂
∂βi
se tiene que
a) para un vector a de tamaño adecuado:
d(β ⊤ a)
=a (8)
dβ
b) y para una matriz A, simétrica, de tamaño adecuado:

d(β ⊤ Aβ)
= 2Aβ (9)
dβ
Usando (8) y (9)

dQ d ⊤ ⊤ ⊤ ⊤ ⊤ ⊤

= y y − y Xβ − β X y + β X Xβ
dβ dβ
d ⊤
= y y − 2β ⊤ X ⊤ y + β ⊤ X ⊤ Xβ
dβ
= −2X ⊤ y + 2X ⊤ Xβ,
16
igualando a 0,
dQ
=0
dβ
−2X ⊤ y + 2X ⊤ X β̂ = 0
X ⊤ X β̂ = X ⊤ y (10)
Si X ⊤ X es no singular,
β̂ = (X ⊤ X)−1 X ⊤ y. (11)
Si X no es de rango columna completo, X ⊤ X es singular, ver anexo A.
Ejemplo 9. Las ecuaciones dadas en (11) se pueden usar en el caso de regresión
lineal simple, ejemplo 6, se tiene
   
1 x1 y1
 1 x2   y2 
   
β̂0
, X =  1 x3  , y =  y 3 
   
β̂ =
β̂1  .. ..   .. 
. .  .
1 xn yn
   
n nx̄ nȳ
X ⊤X =  Pn  y X ⊤y =  P n 
nx̄ x2i xi y i
i=1 i=1
 n  n 
h i−1 P 2 −nx̄
P 2
1 x
i=1 i 1 x −nx̄
X ⊤X = P n
=
n
i=1 i 
2 2 2
P
n xi − n x̄ −nx̄ n n 2
xi − nx̄ 2 −nx̄ n
i=1 i=1
 n 
P 2
1  n1 xi −x̄
= i=1
SSxx −x̄ 1
 n n

P 2 P
ȳ x i − x̄ x y
i i
β̂0 1   i=1n i=1
β̂ = = .
β̂1 SSxx  P x y − nx̄ȳ 
i i
i=1
Ejemplo 10. Continuando con el ejemplo 7, sobre número de reclamaciones y valor

pago para diferentes zonas, el estimador del vector de parámetros, β, se puede obtener
reemplazando directamente en (11).
h i−1 −1
β̂0 7 180 1005000 1994, 2197
β̂ = = X ⊤X X ⊤Y = = .
β̂1 180 7100 39450000 5505, 7803
17
Ejemplo 11. Considere los datos ilustrativos presentados en la tabla 7 sobre el nú-
mero de reclamaciones, valor pago y número de asegurados año póliza, para diferentes
zonas. Si el modelo (7) fuera adecuado, en modelo propuesto sería
yi = β0 + β1 x1i + β2 x2i + εi , i = 1, 2, . . . , n,
en que las variables aleatorias εi son independentes con distribución normal de media
cero y varianza σ2 .
     
350.000 1 1200, 35 65 ε1
250.000 1 800, 70 35 ε2 
      
130.000 1 300, 65 20 β0 ε3 
     
 75.000 = 1 170, 10 10 β1  + ε4  .
     
 60.000 1 300, 40 15 β2 ε5 
     
 20.000 1 120, 15 5 | {z } ε6 
β
120.000 1 600, 24 30 ε7
| {z } | {z } | {z }
Luego, el estimador de β vía minimos cuadrados, teniendo en cuenta que
   
7 3492, 59 180 1005000
X ⊤ X = 3492, 59 2666249, 285 136875, 2  X ⊤ y = 764595300 
180 136875, 2 7100 39450000
 
−1 0, 41335 −0, 00034 −0, 004
X ⊤X = −0, 00034 0, 000036 −0, 0007
−0, 004 −0, 0007 0, 0137
es  
633, 43
β̂ =  147, 27 .
2701, 164
En la figura 2 se presenta una matriz de scatterplot para las variables Número de
asegurados año póliza (Insured), Reclamaciones y Valor_Pago. En la figura 3 se
presenta un gráfico de dispersión, y en la figura 4 se presenta un gráfico de dispersión
agregando un plano estimado por mínimos cuadrados.
Las instrucciones en R para la estimación y el gráfico se presentan a continuación.
library(scatterplot3d)
library(car)
library(ggplot2)
library(GGally)
library(Cairo)
remove(list=ls())
Insured=c(1200.35,800.70,300.65,170.10,300.40,120.15,600.24)
18
Insured Reclamaciones Valor_Pago
9e−04
Insured
6e−04 Corr: Corr:
0.985*** 0.958***
3e−04
0e+00
60
Reclamaciones
40 Corr:
0.958***
20
3e+05
Valor_Pago
2e+05
1e+05
250 500 750 1000 1250 20 40 60 1e+05 2e+05 3e+05
Figura 2: Matriz de scatterplot para los datos del ejemplo 11.
Reclamaciones=c(65,35,20,10,15,5,30)
Valor_Pago=c(350000,250000,130000,75000,60000,20000,120000)
ajuste2=lm(Valor_Pago~Insured+Reclamaciones)
ejemplo.regm=data.frame(Insured,Reclamaciones,Valor_Pago)
ggpairs(ejemplo.regm,columns=1:3,
upper = list(continuous = wrap("cor", size = 5)),
lower = list(continuous = "points"))
figura3d <-scatterplot3d(Insured,Reclamaciones,Valor_Pago,
xlim=c(100,1250),ylim=c(4,70),zlim=c(15000,370000),
angle=30,pch=16, highlight.3d=TRUE, type="h")
library(rgl)
figura3d$plane3d(ajuste2, lty.box = "solid")
scatter3d(Valor_Pago~Insured+Reclamaciones, data=ejemplo.regm,
fit="linear")
Ejercicio 4. Una compañía desea predecir el costo unitario de fabricación, Y , como

una función de la tasa de producción, x1 , y de los costos x2 . En la tabla 9 se presentan
los datos de 12 meses.
Si el modelo (7) fuera adecuado para este conjunto de datos, obtener una estima-
19
4e+05
3e+05
Reclamaciones
Valor_Pago
70
2e+05
60
50
40
1e+05
30
20
10
0e+00
0
0 200 400 600 800 1000 1200 1400
Insured
Figura 3: Gráfico de dispersión para los datos del ejemplo 11 en 3D.
Tabla 9: Datos para el ejemplo sobre valor unitario, tasa de producción y costos.
Valor unitario tasa de costos Valor unitario tasa de costos
producción producción
14.39 85 80 16.70 80 95
16 80 105 21.20 65 115
24.60 50 125 22. 25 60 130
19.90 70 116 14.9 90 90
15.10 95 94 16.50 100 110
15.90 100 115 17.40 80 115
ción para β. Realizar un gráfico de dispersión, presentando la recta ajustada.

Mínimos Cuadrados Ponderados
Suponga que las variables aleatorias Y1 , Y2 , Y3 , . . . , Yn , se pueden escribir de la
forma
Yi = gi (θ1 , θ2 , . . . , θr ) + εi , 1≤i≤n
con gi funciones conocidas y θ1, θ2, . . . , θr parámetros de interés, de valor desconocido.
Suponga que el vector de parámetros θ = (θ1 , θ2, . . . , θr )⊤ puede variar libremente
sobre un conjunto A ⊂ Rr . También, suponga que los εi satisfacen, al menos en
forma aproximada, las siguientes restricciones:
E(εi ) = 0, 1 ≤ i ≤ n
20
4e+05
3e+05
Reclamaciones
Valor_Pago
70
2e+05
60
50
40
1e+05
30
20
10
0e+00
0
0 200 400 600 800 1000 1200 1400
Insured
Figura 4: Gráfico de dispersión para los datos del ejemplo 11 en 3D y plano ajustado.
V(εi) = wiσ2 > 0, 1 ≤ i ≤ n

Cov(εi , εj ) = 0, 1 ≤ i < j ≤ n
Cabe notar que σ2 es, también, un parámetro desconocido, pero los wi se consideran
pesos conocidos. Este tipo de modelo está enmarcado entre los modelos llamados
modelos heterocedásticos . Para afrontar este problema se proponen las variables
aleatorias Z1, Z2 , Z3 , . . . , Zn , como
Yi gi (θ) εi
Zi = √ = √ + √ (12)
wi wi wi
entonces
✟i σ 2
V √
εi
wi
=
w
✟
w✟i
= σ2 .
✟
Tomando gi∗ (θ) = g√(θ)

w y εi = w , se tiene
∗ √εi
i
i
i
Zi = gi∗ (θ) + ε∗i i ≤ 1 ≤ n.
21
Igual que en el método de mínimos cuadrados, sea g(θ) = (g1 (θ), g2 (θ), . . . , gn (θ))⊤
y Y = (Y1 , Y2, Y3 , . . . , Yn )⊤ , el valor esperado de Y es
   g (θ) 
Y1 1
g2 (θ) 
E
  Y2    
. . .  ... 
  =  

Yn gn (θ)
E(Y ) = g(θ).
Una vez se observa Y = y, con y = (y1, y2 , y3, . . . , yn )⊤ , se tiene Z = z, con z =
(z1 , z2 , z3 , . . . , zn )⊤ . El estimador obtenido vía mínimos cuadrados ponderados
resulta de minimizar
n n
X X 1
[zi − gi∗ (θ)]2 = [yi − gi (θ)]2 = [y − g(θ)]⊤ W −1 [y − g(θ)]
wi
i=1 i=1
con W = diag{w1 , w2 , w3 , . . . , wn }c y rango de θ sobre A.

Ejemplo 12. Considere el modelo
Yi = gi (θ) + εi = β0 xi0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi , 1≤i≤n (13)
con θ = (β0 , β1 , β2 , . . . , βp )⊤ , el vector de parámetros, xij , i = 1, 2, 3, . . . , n y j =
0, 1, 2, 3, . . . , p, valores conocidos (variables explicativas) y
E(εi ) = 0, 1 ≤ i ≤ n
V(εi) = wiσ2 > 0, 1 ≤ i ≤ n
Cov(εi , εj ) = 0, 1 ≤ i < j ≤ n
En este caso
1
gi∗ (θ) = √ (β0 xi0 + β1 xi1 + β2 xi2 + · · · + βp xip ) , i = 1, 2, 3, . . . , n.
wi
c
La notación C = diag{c1 , c2 , c3 , . . . , ca } indica la matriz diagonal cuyas entradas son
c1 0 0 ... 0
 
 0 c2 0 . . . 0 
c1 , c2 , c3 , . . . , ca , es decir, C =  .
 
0 0 c3 . . . 0 
. .. .. . . .. 
 .. . . . .

0 0 0 ... ca
22
Considerando (12) se tiene que

 
  √1 0 0 ... 0
√Y1 w1  
w1  0 √1 0 ... 0  Y1
 √Y2   w2  
 w2   √1
  Y2 
Z= . = 0 0 ... 0   .  = W − 21 Y ,
 . 
 ..   ..
  w3
.. .. ... ..  .

 . . . . 
√Yn Yn
wn 0 0 0 . . . √1wn
 x10 x x   
√ √11 ... √1p
w1 w1 w1 β0
 √x20 √x21 . . . x
√2p 
w2  β1 
 w2  
..   ... 
w2
 ..
g ∗ (θ) =  .. . . . 
 . . . 


xn0 xn1 xnp
√
wn
√
wn ... √
wn
βp
 1 
√
w1 0 0 ... 0   
 0 √ 1
0 ... 0  x10 x11 . . . x1p β0
 w2 
 √1
  x20 x21 . . . x2p  β1 
0 0 ... 0  . .. . . . ..  .
 
 .
.   .. 
= w3
 ..

.
. .
. . . . ...  . .
 . . . 
1
xn0 xn1 . . . xnp βp
0 0 0 ... √
wn
1
= W − 2 Xβ
 ∗
ε1
 ε∗ 
 2
ε =  . .
 .. 
ε∗n
Para minimizar
1 1 1 1
Q = [z − g ∗ (θ)]⊤ [z − g ∗ (θ)] = [W − 2 y − W − 2 Xβ]⊤ [W − 2 y − W − 2 Xβ]
= (y − Xβ)⊤ W −1 (y − Xβ)
se deriva Q con respecto a θ, dQ

dθ = 0. Usando (8) y (9)
dQ d ⊤ −1
= y W y − y ⊤ W −1 Xβ − β ⊤ X ⊤ W −1 y + β ⊤ X ⊤ W −1 Xβ
dβ dβ
d ⊤ −1
= y W y − 2β ⊤ X ⊤ W −1 y + β ⊤ X ⊤ W −1 Xβ
dβ
= −2X ⊤ W −1 y + 2X ⊤ W −1 Xβ,
23
igualando a 0,
dQ
=0
dβ
−2X ⊤ W −1 y + 2X ⊤ W −1 X β̂ = 0
X ⊤ W −1 X β̂ = X ⊤ W −1 y. (14)
Si X ⊤ W −1 X es no singular,
β̂ = (X ⊤ W −1 X)−1 X ⊤ W −1 y.
Ejemplo 13. Retomando el ejemplo 12, sea p = 1, xi0 = 1 y xi1 = xi , para i=

1, . . . , n, entonces Yi = β0 + β1 xi + εi , i = 1, . . . , n. Note que
 
√1 0 0 ... 0
w1    ∗
 0 √1 0 ... 0  Y1 ε1
 w2    ε∗ 
 √1
  Y2   2
0 0 ... 0   .  = W − 12 Y , ε=.
  ..   .. 
Z= w3
 .. .. .. ... .. 

 . . . .  Yn
1
ε∗n
0 0 0 ... √
wn
 1 
√
w1 0 0 ... 0  
 0 √1 0 ... 0  1 x1
 w2 
 √1
 1 x2  β0
∗ 0 0 ... 0  . .  1
= W − 2 Xβ,
g (θ) =  w3  . . 
 .. .. .. ... ..  . .  β1

 . . . . 
1 xn
0 0 0 ... √1
wn
entonces
β̂ = (X ⊤ W −1 X)−1 X ⊤ W −1 y
  1  −1
w1 0 0 ... 0  
1 1 x 1 
0 0 ... 0
  
 w2  1 x2 
1 1 1 . . . 1 1
  .. ..  ×
 0 0 ... 0  
=
 x1 x2 x3 . . . xn  . .. .. ..
w3
...   . . 

  .. . . .  
1 1 xn
0 0 0 ... wn
 1 
w1 0 0 ... 0  
1  y1
0
 w2 0 ... 0   y2 
1 1 1 ... 1  0 1
0 ... 0   .. 
 
. . . xn  . .. .. ..
w3
...  . 

x1 x2 x3
 .. . . . 
1 yn
0 0 0 ... wn
24
 n n
−1  n 
P 1 P xi P yi
i=1 wi wi   wi 
= i=1   i=1 
Pn Pn 2 n
P
xi xi   x i yi 
wi wi wi
i=1 i=1 i=1
 n n
 n

P x2i P xi P yi
wi − wi   wi
1  i=1 i=1   i=1

= 2  n
P n
P n

  P x i yi 
n n n  xi 1
P 1 P x2i P xi −
wi wi − wi i=1
wi
i=1
wi
i=1
wi
i=1 i=1 i=1
 n
n
n
n

P x2i P yi P xi P x i yi
wi −
wi wi wi
1  i=1
i=1 i=1 i=1

= 2  n n
n
n
 ,
n n n  P 1 P x i yi P xi P yi 
P 1 P x2i P xi −
wi wi − wi wi wi wi wi
i=1 i=1 i=1 i=1 i=1 i=1 i=1
n
2 1
dividiendo tanto numerador como denominador por y tomando ui =
P 1 wi
wi P
n
1
i=1 wj
j=1
se tiene que
n
 n
n n 
2
P P P P
u x
i i u y
i i − u x
i i u x y
i i i 
1 
 i=1 n i=1 n i=1 n i=1
β̂ = 2 
.
n
P n
P P P P 
ui x2i − ui x i ui xi yi − ui x i ui yi
i=1 i=1 i=1 i=1 i=1
Ejercicio 5. Sea p = 1, xi0 = 1 y xi1 = xi , para i = 1, . . . , n, entonces Yi =

β0 + β1 xi + εi , V
i = 1, . . . , n. Si (εi ) = σ 2 (1 − hii ), en que hii es el elemento i-
ésimo de la diagonal de la matriz X X ⊤ X −1 X ⊤ , ¿cómo quedan las estimaciones

de β1 y β2 ?
Ejercicio 6. Considere el siguiente conjunto de datos:
i 1 2 3
xi 2 -6 7
yi 3 4 6
1. para el modelo yi = β0 + β1 xi + ǫi , i = 1, 2, 3, con E(ǫi ) = 0 y V(ǫi ) = σ2 ,
i = 1, 2, 3, presente la estimación de β0 y de β1 , vía mínimos cuadrados.
2. para el modelo yi = β0 + β1 xi + ǫi , i = 1, 2, 3, con E(ǫi ) = 0 y V(ǫ1 ) = σ2 ,

V(ǫ2) = 4σ2 y V(ǫ3 ) = 9σ2 , presente la estimación de β0 y de β1 , vía mínimos
cuadrados.
25
Para la interpretación de los parámetros del modelo, cuando la matrix

diseño X no es de rango columna completo, es necesario especificar restriccio-
nes sobre los parámetros. Las restricciones, más usadas, para el modelo del item 1
presentado en el ejemplo 1 se dan a continuación:
yij = µ + τi + εij , i = 1, 2, 3, . . . , a, j = 1, 2, 3, . . . , ri .
a
La suma de los τ ’s es igual a cero, es decir, ri τi = 0. En este caso
P
i=1
• µ es la media general, y
• τi es el efecto de estar en la categoría i de kilometraje, con respecto a la
media general, µ.
     
8 1 1 0 ε11
10 1 1 0 ε12 
     
12 1 1 0 ε13 
     
13 1 1 0 ε14 
      
10 1 0 1
 µ
ε21 
    
15 = 1 0 1
 τ1 +
  ε22 
    
12 1 0 1 τ2 ε24 
    | {z }  
13 1 −1 −3/4 ε31 
    β  
16 1 −1 −3/4 ε32 
     
13 1 −1 −3/4 ε33 
15 1 −1 −3/4 ε34
| {z } | {z } | {z }
Uno de los τ ’s es cero, por ejemplo, τ1 = 0 (menos de 15.000 kilómetros rodados

al año). En este caso
• µ es el número promedio de vehículos de la marca A en la empresa B con
menos de 15.000 kilómetros rodados al año, y
• τi , i = 2, . . . , a, es el efecto de estar en la categoría i de kilometraje con
respecto al efecto de la categoría “menos de 15.000 kilómetros rodados al
año”.
Nota 5. Es usual asumir este tipo de restricción si entre las categorias
hay una categoria control o base que sería la asignada a τ1 , por ejemplo.
26

     
8 1 0 0 ε11
10 1 0 0 ε12 
     
12 1 0 0 ε13 
     
13 1 0 0 ε14 
      
10 1 1 0
 µ
ε21 
    
15 = 1 1 0
 τ2 +
  ε22 
    
12 1 1 0
 | τ{z3 }
ε24 
    
13 1 0 1 ε31 
    β  
16 1 0 1 ε32 
     
13 1 0 1 ε33 
15 1 0 1 ε34
| {z } | {z } | {z }
A. Anexo: Inversa generalizada

Una inversa generalizada de una matriz Ap×q digamos G, ver Harville (1997)
[p.107], satisface que
AGA = A.
Un método para obtener G dada una matríz Ap×q de rango r es:
1. Obtener una submatriz A11 de rango r

A11 A12
A= .
A21 A22
2. Obtener A−1
11 .
3. Substituir en A⊤ los elementos de A⊤11 por sus correspondientes A−1

11 .
4. Hacer todos los otros elementos iguales a cero.

Ejemplo 14. Encontrar la inversa generalizada de la matriz
 
1 2 4 3
A3×4 = 3 −1 2 −2
5 −4 0 −7

1 2
1. Obtener una submatriz A11 de rango 2: A11 =
3 −1
.
27
2. Sustituir en A⊤ los elementos de A⊤11 por sus correspondientes A−1

11 y hacer
todos los otros elementos iguales a cero:

1 −1 −2
A−1
11 =
−7 −3 1
 
1/7 2/7 0
3/7 −1/7 0
G= 0
.
0 0
0 0 0
Ejercicio 7. Verificar que G en el ejemplo 14 es una inversa generalizada de A.

Ejercicio 8. Sea  
5 7 9
−2 −3 −6
 
X=
 1 2 3

 1 7 9
4 −6 −6
1. Encontrar una inversa generalizada, G, de X ⊤ X .

2. Usando la inversa encontrada en el item anterior, verificar que cumple las
propiedades 1, 2 y 4 presentadas en la nota 6.
Ejercicio 9. Encontrar una inversa generalizada de las matrices:
 
4 1 2 0
A1 = 1
 1 5 15
3 1 3 5

4 1 2 0
A2 =
1 3 5 10
Nota 6. La matriz X ⊤X : Si G es una inversa generalizada de X ⊤X , se tienen las

siguientes propiedades:
1. G⊤ también es una inversa generalizada de X ⊤ X .
2. XGX ⊤ X = X , i.e., GX ⊤ es una inversa generalizada de X .
3. XGX ⊤ es invariante a G.
4. XGX ⊤ es simétrica.
28
Veamos: 1. Se sabe que X ⊤ XGX ⊤ X = X ⊤ X , luego

−
X ⊤X X ⊤X X ⊤X = X ⊤X
− ⊤ ⊤
⊤ ⊤ ⊤
X X X X X X = X ⊤X
− ⊤
⊤ ⊤
X X X X X ⊤X = X ⊤X
h − i⊤
Entonces X ⊤X = G⊤ es una inversa generalizada de X ⊤ X .
2. Teniendo en cuenta que, ver Harville (1997)[p.52],
para cualquier matriz Am×n , se puede probar que A = 0 si y solo si
A⊤ A = 0, y que
para cualquier matrices Am×n , B n×p y C n×p , se puede probar que AB =
AC si y solo si A⊤ AB = A⊤ AC ,
entonces
−
⊤ ⊤
X X
|{z} |{z} X X X ⊤ |{z}
X ⊤ X = |{z} I
X |{z}
A⊤ A | {z } A⊤ A C
B
−
X X ⊤X X ⊤ X = X
| {z }
G
es decir, X ⊤ X X ⊤ es una inversa generalizada de X .

−
3. Usando el resultado de Harville (1997)[p.119]: Sean las matrices Am×n , B p×n

y C m×q . Si R(B) ⊂ R(A) y C(C) ⊂ C(A) se tiene que BA− C es invariante
d
a la escogencia de la inversa generalizada A− , sea

−
X X ⊤ X |{z}
BA− C = |{z} X⊤
B | {z } C
A−
d
El espacio fila de Am×n , denotado por R(A), es el conjunto de todos los vectores fila n-
dimensionales tales que se pueden expresar como combinaciones lineales de las m filas de A.
x1 a⊤ ⊤ ⊤ ⊤
1 + x2 a2 + · · · + xm am = x A
con xi escalar y a⊤i la i-ésima fila de A. Similarmente, el espacio columna de Am×n , denotado por
C(A), es el conjunto de todos los vectores columna m-dimensionales tales que se pueden expresar
como combinaciones lineales de las n columnas de A.
x1 a1 + x2 a2 + · · · + xn an = Ax
con xi escalar y ai la i-ésima columna de A. Ver Harville (1997)[p.27]
29
luego se necesita encontrar L y R tal que

B = LA
C = AR
es decir,
X = LX ⊤ X
X ⊤ = X ⊤ XR
pero de 2. se tiene que

− −
X X ⊤X X ⊤X = X ⇒ L = X X ⊤X
− ⊤ − ⊤
⊤ ⊤
X X X X X⊤ = X⊤ ⇒ R= X X X ⊤
Así X es invariante a .
− −
X ⊤X X⊤ X ⊤X
4. Usando que, Harville (1997)[p.117], para cualquier matriz A, (A− )⊤ es una
inversa generalizada de A⊤ . En este caso, se tiene que si A− = X ⊤ X − es
h i⊤
la inversa generalizada de A = X ⊤ X , (A− )⊤ = X ⊤ X − es una inversa
generalizada de X ⊤ X ⊤ = X ⊤ X , y

− ⊤ − ⊤
⊤ ⊤ ⊤
X X X X =X X X X⊤
h − i⊤
la cual por 3. es invariante a G, entonces X X ⊤.
−
X ⊤X X ⊤ = X X ⊤X
Nota 7. Sea A− una inversa generalizada de A. Entonces

i) Un sistema lineal Ax = d es consistente si y solo si AA− d = d. Ver Harville
e
(1997)[p.120].
ii) Cualquier solución es de la forma

x = A− d + I − A− A z
para algún z. Ver Harville (1997)[p.141].

e
Un sistema lineal se dice consistente si tiene una o más soluciones. Si no exite la solución, el
sistema lineal se dice inconsistente. Ver Harville (1997)[p.71].
30
REFERENCIAS Introducción a Modelos Lineales
Retomando la ecuación (10), si X ⊤ X es singular,

⊤
X β̂ = X ⊤ y
| {zX} |{z} | {z }
A x d
i) −
X ⊤ X X ⊤X X ⊤Y = X ⊤Y = d
| {z }
inversa gener. de X⊤
luego X ⊤ X β̂ = X ⊤ y es una ecuación consistente.

ii) se tiene una solución para β y es dada por
− −
⊤ ⊤ ⊤ ⊤
β̂ = X X X Y + I − X X X X z
para algún z.
Ejercicio 10. Para X ⊤X β̂ = X ⊤y, encontrar una solución de β̂, en que
   
10 1 1 0 0
 5 1 1 0 0
   
12 1 1 0 0  
 
 3

1
 µ̂
   0 1 0
 τˆ1 
 4 ,
Y = 1
X= 0 1 0
, β̂ = 
 
τˆ2 
 3 1 0 1 0
 
 8

1
 τˆ3
   0 0 1

 7 1 0 0 1
6 1 0 0 1
Referencias
Bickel, P. & Doksum, K. (1977), Mathematical Statistics: Basic ideas and selected
topics, San Francisco: Holden-Day Inc.
Canavos, G. (1988), Probabilidad y estadística. Aplicaciones y Métodos, México: Mc
Graw-Hill.
Everitt, B. (2006), The Cambridge Dictionary of Statistics, Cambridge University
Press.
Harville, D. A. (1997), Matrix Algebra from a Statistician’s Perspective, New York:
Springer.
31
REFERENCIAS Introducción a Modelos Lineales
Hinkelmann, K. & Kempthorne, O. (1994), Design and analysis of experiments. Vo-

lumen I: Introduction to Experimental Design, New York: John Wiley & Sons.
Hocking, R. (1996), Methods and applications of linear models, John Wiley & Sons,
Inc.
32

Introducción A Los Modelos Lineales: Modelos Estáticos: Modelos Dinámicos: Modelos Explicativos: Modelos Causales

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A Los Modelos Lineales: Modelos Estáticos: Modelos Dinámicos: Modelos Explicativos: Modelos Causales

Cargado por

Copyright:

Formatos disponibles

Notas de Clase elaboradas por L. M.

Introducción a los modelos lineales

yn xn1 xn2 . . . xnp

diferencia entre Y y y, el primero se refiere a variables aleatorias y el segundo a los

Tabla 1: Número de vehículos de la marca A en la empresa B clasificados por kiló-

Las respectivas matrices y, X , β y ε son dadas por

Esta expresión corresponde a un modelo lineal con dos vías de clasificación. En

Tabla 2: Número de vehículos importados por la empresa B en el último año según

3. yijk = µ + τi + γj + (τ γ)ij + εijk , i = 1, 2, . . . , a, j = 1, 2, . . . , b

Las respectivas matrices y, X , β y ε son dadas por

4. yijk = µ + τi + δj(i) + ε(ij)k , i = 1, 2, . . . , a, j = 1, 2, . . . , b

6. yij = µ + τi + γ(xij − x̄) + εij , i = 1, 2, . . . , a y j = 1, 2, . . . , ri , en que x̄ =

Las respectivas matrices y, X , β y ε son dadas por

Nota 1. En un modelo lineal NO hay relación entre los coeficientes β0 , β1 , β2 , . . . , βp .

E(yi) = β0 + β1 x1i + β2 ln(x1i) + β3 [ln(x1i )]2 , con i = 1, 2, . . . , n.

Otra clasificación dada en Hinkelmann & Kempthorne (1994)[p.63] de los modelos

Modelos de clasificación. Por ejemplo y ∼= µ + efecto de bloque+ efecto de

Definición 1. Hocking (1996)[p.10] La matriz de covarianza V = V(Y ) del vector

2. p = 9, n11 = n12 = · · · = n33 = 1.

3. p = 6, n11 = n12 = · · · = n32 = 2.

4. p = 6, n11 = n12 = · · · = n23 = 2.

con θ = (β0 , β1 )⊤ , el vector de parámetros, y xi , i = 1, 2, 3, . . . , n, valores conocidos

se deriva Q con respecto a θ, dQ b

igualando (6) a cero se tiene que:

Ejemplo 7. Considere los datos presentados en la tabla 5. Si fuera adecuado el

En la figura 1 se presenta un gráfico de dispersión para los datos del ejemplo 7,

Ejercicio 2. Sea el modelo yij = µ + iα + eij ,

Tabla 8: Ingreso y monto del seguro de vida del jefe de familia.

con θ = (β0 , β1 , β2 , . . . , βp )⊤ , el vector de parámetros, y xij , i = 1, 2, 3, . . . , n y

gi (θ) = β0 xi0 + β1 xi1 + β2 xi2 + · · · + βp xip , i = 1, 2, 3, . . . , n.

Matricialmente el modelo (7) se puede escribir

se deriva Q con respecto a θ, dQ

b) y para una matriz A, simétrica, de tamaño adecuado:

Usando (8) y (9)

Ejemplo 10. Continuando con el ejemplo 7, sobre número de reclamaciones y valor

Insured Reclamaciones Valor_Pago

250 500 750 1000 1250 20 40 60 1e+05 2e+05 3e+05

Figura 2: Matriz de scatterplot para los datos del ejemplo 11.

Ejercicio 4. Una compañía desea predecir el costo unitario de fabricación, Y , como

Figura 3: Gráfico de dispersión para los datos del ejemplo 11 en 3D.

ción para β. Realizar un gráfico de dispersión, presentando la recta ajustada.

V(εi) = wiσ2 > 0, 1 ≤ i ≤ n

Tomando gi∗ (θ) = g√(θ)

Zi = gi∗ (θ) + ε∗i i ≤ 1 ≤ n.

con W = diag{w1 , w2 , w3 , . . . , wn }c y rango de θ sobre A.

Considerando (12) se tiene que

se deriva Q con respecto a θ, dQ

Ejemplo 13. Retomando el ejemplo 12, sea p = 1, xi0 = 1 y xi1 = xi , para i=

Ejercicio 5. Sea p = 1, xi0 = 1 y xi1 = xi , para i = 1, . . . , n, entonces Yi =

2. para el modelo yi = β0 + β1 xi + ǫi , i = 1, 2, 3, con E(ǫi ) = 0 y V(ǫ1 ) = σ2 ,

Para la interpretación de los parámetros del modelo, cuando la matrix

Uno de los τ ’s es cero, por ejemplo, τ1 = 0 (menos de 15.000 kilómetros rodados

Las respectivas matrices y, X , β y ε son dadas por

A. Anexo: Inversa generalizada

3. Substituir en A⊤ los elementos de A⊤11 por sus correspondientes A−1

4. Hacer todos los otros elementos iguales a cero.

2. Sustituir en A⊤ los elementos de A⊤11 por sus correspondientes A−1

Ejercicio 7. Verificar que G en el ejemplo 14 es una inversa generalizada de A.

1. Encontrar una inversa generalizada, G, de X ⊤ X .

Nota 6. La matriz X ⊤X : Si G es una inversa generalizada de X ⊤X , se tienen las

Veamos: 1. Se sabe que X ⊤ XGX ⊤ X = X ⊤ X , luego

es decir, X ⊤ X X ⊤ es una inversa generalizada de X .

3. Usando el resultado de Harville (1997)[p.119]: Sean las matrices Am×n , B p×n

Ejercicio 2. Sea el modelo yij = µ + iα + eij ,