Está en la página 1de 109

Modelos lineales: notas de cases

Mario Alfonso Morales Rivera


15 de febrero de 2008

Indice general
1. Introduccion a matrices 5
1.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Propiedades de la suma . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2. Propiedades del producto . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Matrices especiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Transpuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Matrices Simetricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Matriz particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Traza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1. Propiedades de la traza . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Todos iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1. Condiciones de existencia . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2. Propiedades de la inversa . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.3. Matrices ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7. Diferenciacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9. Procesamiento de datos con R . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9.1. Creacion de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9.2. Funciones para manipulacion de matrices . . . . . . . . . . . . . . . . 18
2. Inversa Generalizada 19
2.1. Denicion y existencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Un algoritmo para calcular A

. . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Solucionando ecuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Ecuaciones consistentes. . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Obteniendo soluciones. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Matrices Simetricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1. Propiedades de una IG . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5. Procesamiento de datos con R . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2

INDICE GENERAL 3
3. Distribuciones y formas cuadraticas 31
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Matrices simetricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Matrices denidas positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1. Funciones de distribucion multivariadas . . . . . . . . . . . . . . . . . 34
3.4.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.4. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.5. f.g.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.6. Distribucion normal univariada . . . . . . . . . . . . . . . . . . . . . 38
3.4.7. Distribucion normal multivariada . . . . . . . . . . . . . . . . . . . . 38
3.4.8.
2
, F y t centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9.
2
no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.10. F no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.11. Otras distribuciones no centrales . . . . . . . . . . . . . . . . . . . . 43
3.5. Distribucion de formas cuadraticas . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1. Valores esperados y varianzas . . . . . . . . . . . . . . . . . . . . . . 44
3.5.2. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4. Modelos de regresion 47
4.1. Modelo de regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1. Estimacion por mnimos cuadrados . . . . . . . . . . . . . . . . . . . 48
4.2. Metodos de estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1. Mnimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . . . . . 51
4.2.2. Mnimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . 53
4.2.3. Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.4. Mejor estimador lineal insesgado . . . . . . . . . . . . . . . . . . . . 55
4.3. Propiedades del estimador de . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4. Particion de la suma de cuadrados total. . . . . . . . . . . . . . . . . . . . . 60
4.5. Propiedades distribucionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.7. Error puro y error por falta de ajuste . . . . . . . . . . . . . . . . . . . . . . 67
4.8. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.9. Hipotesis lineal general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.10. Ejemplo (Hipotesis lineal general) . . . . . . . . . . . . . . . . . . . . . . . . 70
4.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5. Introduccion a los modelos de clasicacion 77
5.1. Regresion en variables Dummy . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.1. Factores y niveles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Descripcion de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.1. Una va de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4

INDICE GENERAL
5.2.2. Dos vas de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.3. Tres vas de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.4. Efectos principales e interacciones . . . . . . . . . . . . . . . . . . . . 82
5.3. Las ecuaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6. Modelos de rango incompleto 91
6.1. Seleccion de ejercicios (Modelos lineales) . . . . . . . . . . . . . . . . . . . . 94
7. Introduccion a SAS/IML software 99
7.1. Sintaxis basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2. Denicion de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.1. Denicion de matrices literalemnte . . . . . . . . . . . . . . . . . . . 99
7.2.2. Matrices de caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.3. Denicion de matrices con operaciones . . . . . . . . . . . . . . . . . 100
7.2.4. Denicion de matrices con llamadas a funciones . . . . . . . . . . . . 101
7.2.5. Denicion de matrices con a partir de un data . . . . . . . . . . . . . 101
7.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.3.1. Solucion de un sistema de ecuaciones lineales . . . . . . . . . . . . . . 102
7.3.2. Inversa generalizada de una matriz . . . . . . . . . . . . . . . . . . . 102
7.3.3. Analisis de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.4. Particiones de la suma de cuadrados . . . . . . . . . . . . . . . . . . . . . . 105
7.5. El proc reg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.5.1. Opciones de proc reg . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.5.2. Opciones en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Captulo 1
Introduccion a matrices
Se pretende recordar algunas deniciones y propiedades referentes a matrices. Asumo que el
estudiante esta familiarizado con las operaciones basicas como la trasposicion, suma, multipli-
cacion de un escalar por una matriz, multiplicacion de dos matrices entre otras. Los teoremas
se dan sin demostracion, los interesados en esos detalles pueden remitirse a la bibliografa
recomendada.
1.1. Propiedades de la suma y producto
1.1.1. Propiedades de la suma
Teorema 1.1. Sean A, B y C matrices de tama no mn y c y d escalares, entonces:
a. (A+B) +C = A+ (B +C)
b. A+B = B +A
c. A+0 = A ( 0 la matriz nula)
d. A+ (A) = 0
e. c(A+B) = cA+ cB
f. (c + d)A = cA+ dA
g. 1A = A
La matriz que tiene todos sus elementos iguales a cero se denomina matriz nula (o matriz
cero ) y la denotaremos por 0
1.1.2. Propiedades del producto
Recordemos que la multiplicacion de una matriz A por una matriz B solamente se dene
cuando el n umero de columnas de A es igual al n umerode las de B. Hay tres situaciones
con respecto al producto de dos matrices A y B. Si A es de orden r c
5
6 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
a. AB existe solo si B tiene c las.
b. BA existe solo si B tiene r columnas.
c. Ambas, AB y BA existen solo si B es de orden c r
De las situaciones anteriores se desprende que AA = A
2
existe solo cuando A es cuadrada;
AB y BA siempre existen y son del mismo orden cuando A y B son cuadradas del mismo
orden. Tenganse en cuenta que en general AB = BA
Cuando se hace el producto AB se dice que A es postmultiplicada por B o que A es
multiplicada a derecha por B. Tambien se puede decir que B es premultiplicada por A o
que B es multiplicada a izquierda por A
Teorema 1.2. Al suponer que A, B y C son conformables con las operaciones indicadas y
que c y d son escalares; entonces
a. c(dA) = (cd)A
b. cAB = (cA)B = A(cB)
c. A(BC) = (AB)C
d. IA = A y BI = B
e. A(B +C) = AB +AC
f. (A+B)C = AC +BC
En el teorema 1.2, I es la matriz identidad, la cual es una matriz cuadrada que tiene todos
los elementos diagonales iguales a 1 y todos los demas componentes iguales a cero. Para
simbolizar la matriz identidad de orden n usaremos I
n
o simplemente I cuando en el contexto
este claro el orden de la matriz.
1.2. Algunos tipos especiales de matrices
1.2.1. Transpuesta
Denicion 1.1. Sea A una matriz de orden mn la matriz A

de tama no n m obtenida
de A al intercambiar las las y las columnas, se denomina la transpuesta de A
Teorema 1.3. Si A y B son matrices conformables para las operaciones indicadas y si c es
un escalar, se tiene:
a. (A

= A
b. (cA)

= cA

c. (A+B)

= A

+B

d. (AB)

= B

1.2. MATRICES ESPECIALES 7


La propiedad de la transpuesta del producto en el teorema 1.3 se puede extender a tres o
mas matrices, por ejemplo (ABC)

= C

El producto interno de dos vectores y una matriz postmultiplicada por un vector columna
son casos especiales del producto de matrices:
a. Un vector la postmultiplicado por un vector columna es un escalar
a

1c
b
c1
= p
11
b. Un vector columna postmultiplicado por un vector la es una matriz
b
c1
a

1c
= P
cc
c. Una matriz postmultiplicada por un vector columna es un vector columna
A
rc
b
c1
= p
r1
d. Un vector la postmultiplicado por una matriz es un vector la
a

1c
B
cr
= p

1r
Si a

=
_
a
1
a
2
a
n

y x =
_

_
x
1
x
2
.
.
.
x
n
_

_
el producto interno de a y x es
a

x = a
1
x
1
+ a
2
x
2
+ + a
n
x
n
=
n

i=1
a
i
x
i
el producto interno solo esta denido cuando los vectores son del mismo orden. En particular
cuando a

= x

se tiene
x

x =
n

i=1
x
2
i
1.2.2. Matrices Simetricas
Denicion 1.2. Una matriz cuadrada A se denomina simetrica si A = A

y antisimetrica
si A = A

El producto de matrices simetricas generalmente no es una matriz simetrica. Si A = A

y
B = B

. La traspuesta del producto (si existe) es


(AB)

= (B

) = BA
ya que AB generalmente no es lo mismo que BA tenemos que AB generalmente no es
simetrica.
8 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
El producto de una matriz por su traspuesta siempre existe y es una matriz simetrica
(AA

= (A

= AA

y
(A

A)

= A

(A

= A

A
ambos productos existen y son matrices simetricas pero no necesariamente iguales.
Los elementos de AA

son el producto interno de las las de A con ellas mismas y con cada
una de las otras las.
Denicion 1.3. En una matriz cuadrada A, la diagonal principal es el conjunto ordenado
de elementos diagonales y se denota diag(A)
diag(A) = {a
11
, a
22
, , a
nn
}
El iesimo elemento de la digonal de AA

es la suma de cuadrados de los elementos de la


iesima la de A. Si la matriz A es real y como la suma de cuadrados de reales es positiva o
cero, la matriz AA

tiene todos sus elementos digonales positivos o cero. Resultados similares


son validos para A

A, en terminos de las columnas de A


Recordemos que si una suma de cuadrados de numeros reales es cero entonces cada uno de
los n umeros tiene que ser cero, esto es: si

x
2
i
= 0 implica que x
1
= x
2
= = x
n
= 0. Esa
es la base para probar que
A

A = 0 implica que A = 0 (1.1)


A partir de (1.1) se puede probar un resultado bastante util
PXX

= QXX

implica que PX = QX
El producto interno de dos vectores es un escalar y por lo tanto simetrico
x

y = (x

y)

= y

x
en contraste, el producto externo no es necesariamente simetrico
Denicion 1.4 (Matriz diagonal). Una matriz cuadrada en la que los elementos no diago-
nales son todos ceros, se denomina matriz diagonal.
Denicion 1.5 (Matriz escalar). Una matriz diagonal que tiene todos sus elementos diago-
nales iguales, se denomina matriz escalar.
Denicion 1.6 (Matriz triangular superior). Una matriz cuadrada en la que los elementos
por debajo de la diagonal principal son ceros, se denomina triangular superior.
Denicion 1.7 (Matriz triangular inferior). Una matriz cuadrada en la que los elementos
por encima de la diagonal principal son ceros, se denomina triangular inferior.
Denicion 1.8. Sea A una matiz cuadrada
a. Si AA

= A

A = I se dice que A es ortogonal


1.2. MATRICES ESPECIALES 9
b. Si A
2
= A se dice que A es idempotente
c. Si A
2
= I se dice que A es involutiva
Dos resultados importantes con relacion a matrices idempotentes son
a. Si K es idempotente entonces I K es idempotente
b. Si G es tal que AGA = A entonces GA es idempotente
1.2.3. Matriz particionada
Consideremos la matriz [1]
B =
_

_
1 6 8 9 3 8
2 4 1 6 1 1
4 3 6 1 2 1
9 1 4 6 8 7
6 8 1 4 3 2
_

_
Suponga que dibujamos lneas punteadas entre ciertas las y columnas como en
B =
_

_
1 6 8 9 | 3 8
2 4 1 6 | 1 1
4 3 6 1 | 2 1
+
9 1 4 6 | 8 7
6 8 1 4 | 3 2
_

_
(1.2)
Cada uno de los arreglos de numeros de las cuatro secciones de B engendrados por las lneas
punteadas es una matriz:
B
11
=
_
_
1 6 8 9
2 4 1 6
4 3 6 1
_
_
B
12
=
_
_
3 8
1 1
2 1
_
_
(1.3)
B
21
=
_
9 1 4 6
6 8 1 4
_
B
21
=
_
8 7
3 2
_
Usando las matrices en (1.3) podemos ahora escribir la matriz B de (1.2) como una matriz
de matrices:
B =
_
B
11
B
12
B
21
B
22
_
(1.4)
Esta especicacion de B se llama una partici on de B, y se dice que las matrices B
11
, B
12
,
B
21
y B
22
son submatrices de B; ademas, B de (1.4) se llama matriz particionada.
Notese que B
11
y B
21
tienen el mismo n umerode columnas, as como B
12
y B
22
. Similarmente
B
11
y B
12
tienen el mismo n umerode las, como tambien B
21
y B
22
. El caso general de una
matriz particionada es:
A
rc
=
_
K
pq
L
p(cq)
M
(rp)q
N
(rp)(cq)
_
(1.5)
donde K, L, M y N son las submatrices con su orden como se muestra en los subndices.
10 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
1.3. Traza de una matriz
Denicion 1.9. La suma de los elementos de la diagonal de una matriz cuadrada se le conoce
como su traza y se simboliza por Tr(A). Para A = (a
ij
) con i, j = 1, 2, , n
Tr(A) = a
11
+ a
11
+ + a
nn
=
n

i=1
a
ii
Cuando A no es cuadrada la traza no esta denida
1.3.1. Propiedades de la traza
La traza de una matriz cuadrada A tiene las siguientes propiedades
a. Tr(A) = Tr(A

)
b. Si escribimos un escalar como una matriz 1 1 tenemos Tr(Escalar) = Escalar
c. Tr(A+B) = Tr(A) + Tr(B)
d. Tr(A) = Tr(A)
e. Tr(AB) = Tr(BA)
f. Tr(ABC) = Tr(BCA) = Tr(CAB) (dado que las matrices son conformables para las
operaciones indicadas)
g. Tr(AA

) = Tr(A

A)
h. Tr(A

A) = 0 implica que A = 0
1.4. Matrices con todos sus elementos iguales
Los vectores que tienen todos sus elementos iguales a uno se pueden usar para expresar una
suma de numeros en notacion matricial, como un producto interno
1
.
El producto interno de un vector sumador con el mismo es un escalar, el orden del vector
1

n
1
n
= n
los productos externos son matrices con todos los elementos iguales a 1. En general 1
r
1

s
es
una matriz de orden r s y se denota con el smbolo J
rs
o simplemente J cuando sea claro
el orden
1
r
1

s
= J
rs
claramente J tiene todos sus elementos iguales a . Son particularmente utiles las matrices
J cuadradas, J
n
= 1
n
1

n
. Denimos
J
n
=
1
n
J
n
1
Searle [1] les llama summing vectors, que podramos traducirlo como vectores sumadores
1.5. INVERSA 11
Denimos
C
n
= I J
n
= I
1
n
J
n
La matriz se le conoce como matriz centradora
2
.
1.4.1. Propiedades.
Las siguientes propiedades son muy utiles y sencillas de probar
a. J
rs
J
st
= sJ
rt
b. 1

r
J
rs
= r1

s
c. J
rs
1
s
= s1
r
d. C = C

= C
2
e. C1 = 0
f. CJ = JC = 0
g. x

C = x

x1

= {x
i
x} (por eso el nombre de matriz centradora)
h. x

Cx = x

x nx
2
=
n

i=1
(x
i
x)
2
1.5. Inversa de una matriz
Denicion 1.10. Sea A una matriz cuadrada de tama no n n. Se dice que A es invertible
o no singular si existe una matriz cuadrada X de tama no n n, tal que
AX = XA = I
n
y X se denomina la inversa de A
Denicion 1.11. El menor ij denotado por M
ij
, es el determinante
3
que resulta de suprimir
la la i y la columna j de un determinante
Ejemplo 1.1. Para

a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33

el menor 32 es
M
32
=

a
11
a
13
a
21
a
23

= a
11
a
23
a
21
a
13
2
centering matrix
3
Para la teora sobre determinantes se remite al estudiante al captulo 4 Searle 1982 [1]
12 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
Denicion 1.12. El cofactor ij denotado por c
ij
, se dene por
c
ij
= (1)
i+j
M
ij
Ejemplo 1.2. En

a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33

el cofactor 32 es
c
32
= (1)
3+2
M
32
= (1)(a
11
a
23
a
21
a
13
)
Denicion 1.13. Sea A una matriz cuadrada de orden n n. Si formamos la matriz con
los cofactores de los elementos del determinante de A y tomamos su traspuesta. La matriz
as formada se llama la adjunta de A y se simboliza por adj(A)
Teorema 1.4. Si |A| = 0, la inversa de la matriz A es:
A
1
=
1
|A|
adj(A)
El teorema 1.4 nos proporciona un metodo para hallar la inversa de una matriz, sin embargo
este metodo es extenso especialmente si la matriz es de gran tama no. Otro metodo para hallar
la inversa de una matriz es por medio de las operaciones elementales de la (o columna), se
ilustrara este con un ejemplo
Ejemplo 1.3. Hallar la inversa (si existe) de la matriz
A =
_
_
1 1 1
0 2 3
1 1 3
_
_
Partimos de la matriz ampliada
_
_
1 1 1 | 1 0 0
0 2 3 | 0 1 0
1 1 3 | 0 0 1
_
_
y efectuamos operaciones elementales de la hasta conseguir en el bloque de la izquierda la
matriz I
3
. La matriz resultante en el bloque de la derecha es la inversa de A. El estudiante
puede comprobar que esto se consigue con las siguientes operaciones elementales de la F
1
+
F
3
, F
2
+ F
3
, 2F
1
, F
2
+ F
1
, 5F
1
, F
3
+ F
1
,
3
5
F
3
+ F
2
,
1
10
F
1
,
1
2
F
2
,
1
5
F
3
, y se obtiene
_
_
1 0 0 |
9
10
4
10
1
10
0 1 0 |
3
10
2
10
3
10
0 0 1 |
1
5
1
5
1
5
_
_
1.5.1. Condiciones de existencia
a. A
1
puede existir solo cuando A es cuadrada.
b. A
1
existe solo si |A| = 0
1.5. INVERSA 13
1.5.2. Propiedades de la inversa
Si A es una matriz cuadrada no singular su inversa A
1
, tiene las siguientes propiedades:
a. Si A tiene inversa, es unica. Por eso podemos hablar de la inversa de A
b. La inversa conmuta con A. Ambos productos siendo la matriz identidad:
A
1
A = AA
1
= I
c. El determinante de la inversa de A, es el recproco del determinante de A: |A
1
| = 1/|A|
d. La matriz inversa es no singular.
e. La inversa de A
1
es A:
_
A
1
_
1
= A
f. La inversa de la traspuesta es la traspuesta de la inversa:
(A

)
1
=
_
A
1
_

g. Si A es simetrica, su inversa tambien lo es: si A

= A, entonces
_
A
1
_

= A
1
h. La inversa de un producto es el producto de las inversas tomado en reversa, dado que A
1
y B
1
existen:
(AB)
1
= B
1
A
1
1.5.3. Matrices ortogonales
Recordemos de la denicion 1.8 que una matriz cuadrada P es ortogonal cuando P

P =
PP

= I ademas, por la denicion 1.10, es claro que P


1
existe y
P
1
= P

Una matriz ortogonal tiene las siguientes propiedades


a. Es cuadrada.
b. |P| = 1
c. Sus las son ortonormales
4
lo que signica que PP

= I
d. Sus columnas son ortonormales, esto es P

P = I
Cualquier combinacion de (a) o (b) con (c) o (d) es necesaria y suciente para las otras dos.
4
Ortonormal signica que el producto interno de cualquier par de ellas es cero y que su norma es uno. La
norma de un vector se dene como x =

x =
_
n
i=1
x
2
i
_1
2
14 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
1.6. El rango de una matriz
5
Un conjunto de vectores x
1
, x
2
, , x
n
son linealmente independientes si

i
x
i
= 0, im-
plica que
i
= 0 para todo i. Si x
1
, x
2
, , x
n
no son linealmente independientes, se dice
que son linealmente dependientes.
Denicion 1.14. Sea A una matriz de orden m n. El rango columna de A es el n ume-
romaximo de columnas linealmente independientes que esta contiene. El rango la de A es
el n umeromaximo de las linealmente independientes que esta contiene.
Se puede demostrar que el rango columna de A es igual al rango la, por lo tanto el concepto
de rango no es ambiguo. Denotamos el rango de A por
r(A)
es claro que
r(A) mn(m, n)
Denicion 1.15. Si A es una matriz de orden m n y r(A) = m, decimos que A es de
rango la completo. Si r(A) = n, decimos que A tiene rango columna completo
Tenemos los siguientes resultados importantes concernientes al rango:
a. r(A) = r(A

) = r(A

A) = r(AA

).
b. r(AB) mn(r(A), r(B)).
c. r(AB) = r(A) si B es cuadrada de rango completo.
d. r(CA) = r(A) si C es cuadrada de rango completo.
e. Si B y C son no singulares, r(BAC) = r(A).
f. r(A+B) r(A) + r(B)
g. Si A es una matriz mn y Ax = 0 para alg un x = 0 entonces r(A) n 1
h. Si A es una matriz cuadrada de orden n, A
1
existe si y solo si r(A) = n.
i. Si A es idempotente, r(A) = Tr(A)
1.7. Diferenciacion
Los siguientes resultados con respecto a la diferenciacion de matrices seran utiles para el
desarrollo de nuestro curso.
a.
(x

a)
x
= a
b.
(x

A)
x
= A
c.
(x

)
x
= A

d.
(x

Ax)
x
= Ax +A

x en particular, si A es simetrica se tiene que


(x

Ax)
x
= 2Ax
5
Tomado de [5]
1.8. EJERCICIOS 15
1.8. Ejercicios
1. Encuentre el rango de cada una de las siguientes matrices. Cuales matrices son de
rango completo?
A =
_

_
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 0 0 0 1
_

_
B =
_
_
1 1 0 0
1 0 1 0
1 0 0 1
_
_
C =
_

_
1 1 0 0
1 0 1 0
1 0 0 1
1 1 1 1
_

_
2. Use la matriz B en el ejercicio 1 para calcular D = B(B

B)
1
B

. Determine si D es
idempotente. Caul es el rango de D?
3. Encuentre a
ij
para que la siguiente matriz sea simetrica
A =
_

_
1 2 a
13
4
2 1 0 a
24
6 0 a
32
2
a
41
8 2 3
_

_
4. Encuentre b
41
tal que a y b sean ortogonales.
a =
_

_
2
0
1
3
_

_
b =
_

_
6
1
3
b
41
_

_
5. Halle la inversa de la siguiente matriz,
A =
_
_
5 0 0
0 10 2
0 2 3
_
_
6. Sea
X

=
_
_
1 1 1 1 1 1 1 1
,2 ,4 ,6 ,8 ,2 ,4 ,6 ,8
0 0 0 0 ,1 ,1 ,1 ,1
_
_
Y

=
_
242 240 236 230 239 238 231 226
_
a) Calcule X

X y X

Y . Verique por calculo separado que el elemento (2, 2) en


X

X es la suma de cuadrados de la columna 2 en X. Verique que el elemento


(2, 3) es la suma de productos entre las columnas 2 y 3 de X. Identique los
elementos de X

Y en terminos de sumas de cuadrados o productos de las columnas


de X y Y
16 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
b) Tiene X rango columna completo? Cual es el rango de X

X?
c) Obtenga (X

X)
1
. Cual es el rango de (X

X)
1
?
d) Calcule P = X(X

X)
1
X

y verique por multiplicacion de matrices que P es


idempotente. Calcule la traza de P. Cual es el rango de P?
7. Sea a

un vector de orden m1 con a

a > 0. Denimos a =
a

(a

)
1/2
y A = aa

.
Demuestre que A es simetrica e idempotente.
8. Sean a y b dos vectores de orden m 1 que son ortogonales uno al otro. Denimos
A = aa

y B = bb

. Demuestre que AB = BA = 0, una matriz de ceros.


1.9. Procesamiento de datos con R
En esta seccion se explica como introducir una matriz y denir matrices especiales, como la
identica y la matriz J.
1.9.1. Creacion de matrices
A partir de un vector
Suponga que queremos crear (denir) la matriz en R
A =
_
_
3 1 2
2 4 5
1 0 4
_
_
El codigo R para hacerlo es
A<-matrix(c(3,2,1,-1,4,0,2,5,4),nrow=3,ncol=3)
notese que los elementos se colocaron en el orden de las columnas, esa es la opcion por defecto,
pero tambien es posible colocar los elementos por las y usar la opcion byrow=TRUE as:
A<-matrix(c(3,-1, 2,2,4,5,1, 0,4),nrow=3,ncol=3,byrow=TRUE)
en ambos casos se obtiene el mismo resultados. En los codigos anteriores se pudo haber escrito
solo nrow=3 o solo ncol=3 obteniendo el mismo resultado, ya que R cuenta el n umerode
elementos en el vector dado, y con una dimension calcula la otra, por ejemplo los dos codigos
anteriores producen el mismo resultado que:
A<-matrix(c(3,2,1,-1,4,0,2,5,4),nrow=3)
o que
A<-matrix(c(3,-1, 2,2, 4,5,1, 0,4),ncol=3,byrow=TRUE)
1.9. PROCESAMIENTO DE DATOS CON R 17
tenga en cuenta que si la longitud del vector no es divisible por el n umerode las dado por
nrow (o el n umerode columnas dado por ncol) se produce un error. Si usted no indica el
numero de las y/o el n umerode columnas, por defecto R crea un vector columna con tantas
las como la longitud del vector, as, por ejemplo, para crear el vector b = [ 5 3 1 ]
t
se
introduce
b<-matrix(c(-5, 3, 1))
Ejercicio: Ingrese la matriz
X =
_

_
1 1 2
1 2 4
1 1 2
1 3 6
_

_
Matrices especiales
Suponga que necesitamos una matriz de 3 4 cuyos elementos sean todos unos, eso se logra
en R as:
U<-matrix(1,nrow=3,ncol=4)
La matriz identica de orden 5 se crea mediante la funcion diag()
I5<-diag(5) %# crea la matriz identica de orden 5
Atencion: La funcion diag() como muchas (por no decir todas), las funciones en R tiene
un comportamiento que depende del argumento que ella reciba, si ejecutamos la orden
d<-diag(A)
en d se asigna la diagonal principal de la matriz A y si ejecutamos la orden
D<-diag(b)
en D se asigna una matriz diagonal cuyos elementos en la diagonal son los elementos del
vector b. Si necesitamos una matriz escalar kI cuyo orden en el n umero de las de A
D1<-diag(5,nrow(A))
Creacion de matrices a partir de un data frame
Podemos crear una matriz usando las columnas de un marco de datos (data frame). Para
el ejemplo usaremos el marco de datos women, de los datos de ejemplo de R
6
data(women)
W<-as.matrix(women)
head(W)
6
Para tener un listado y una corta descripcion de los marcos de datos disponibles en el paquete (librera)
datasets de R, use el comando data(), si quiere un listado de los marcos de datos de ejemplo de todas las
libreras instaladas use data(package = .packages(all.available = TRUE))
18 CAP

ITULO 1. INTRODUCCI

ON A MATRICES
1.9.2. Funciones para manipulacion de matrices
En esta seccion se presenta una serie de funciones de uso frecuente para calculos con matrices.
nrow(X) %# numero de filas
ncol(X) %# numero de columnas
t(X) %# traspone una matriz
det(A) %# calcula el determinante
una funcion de uso frecuente cuando manipulamos matrices es la funcion solve() que permite
calcular la inversa de una matriz invertible y la solucion de sistemas de ecuaciones lineales.
solve(A) %# calcula la inversa de una matriz
solve(A,b) %# solucion para el sistema Ax=b con A invertible
nuevamente, observese como la funcion solve() tiene dos usos dependiendo del argumento:
si solo le entrega la matriz invertible A, la funcion regresa su inversa; si se entrega una matriz
invertible y un vector b, la funcion regresa A
1
b, la solucion al sistema. Tenga en cuenta que
si la matriz A no es invertible se genera un error.
Si queremos ver la respuesta en formato de fraccionarios se puede usar la funcion fractions()
de la librera MAS
library(MASS)
fractions(solve(A)) %# la inversa de A en formato de fracciones
Captulo 2
Matrices inversas generalizadas
2.1. Denicion y existencia
Denicion 2.1. Sea A
pq
una matriz, una inversa generalizada de A se dene como cual-
quier matriz G que satisface
AGA = A (2.1)
Para denotar una inversa generalizada de la matriz A se usa el smbolo A

. Otros nombres
para una matriz G que cumpla 2.1 son: inversa condicional, pseudoinversa o ginversa. En la
denicion 2.1 se dice una inversa generalizada y no la inversa generalizada, esto es as porque
para una matriz dada A la matriz G no es unica.
Ejemplo 2.1. Una inversa generalizada de la matriz
A =
_
_
2 3 1 1
5 8 0 1
1 2 2 3
_
_
es G
1
=
_

_
0 0 0
0 0 0
1 1 0
0 1 0
_

_
y otra es G
2
=
_

_
0 1 4
0
1
2
5
2
0 0 0
0 0 0
_

_
, le queda como ejercicio al estudiante
comprobar que G
1
y G
2
cumplen con (2.1), es decir AG
1
A = A y AG
2
A = A
En general, la existencia de G para una matriz cualquiera A se garantiza escribiendo esta
ultima como en su forma diagonal equivalente; dada una matriz A
pq
de rango r siempre es
posible hallar matrices P
pp
y Q
qq
tales que
PAQ = =
_
D
r
0
r(qr)
0
(pr)r
0
(pr)(qr)
_
pq
(2.2)
donde la matriz D
r
es una matriz diagonal de orden r, las matrices P y Q surgen de
operaciones elementales de la y columna sobre la matriz identica respectivamente, lo que
garantiza que ellas son no singulares y por tanto podemos escribir A = P
1
Q
1
.
19
20 CAP

ITULO 2. INVERSA GENERALIZADA


Denimos

como

=
_
D
1
r
0
0 0
_
qp
(2.3)
El estudiante puede comprobar que

= , esto es,

es una inversa generalizada


de .
Se dene G = Q

P y mostraremos que G cumple la condicion de la denicion 2.1, en


efecto:
AGA = P
1
Q
1
. .
A
Q

P
. .
G
P
1
Q
1
. .
A
= P
1

. .

Q
1
= P
1
Q
1
= A
Ejemplo 2.2. Para la matriz A del ejemplo 2.1 se tiene una forma diagonal equivalente
usando
1
P =
_
_
0 0 1
0
1
2
5
2
1
1
2
1
2
_
_
y
2
Q =
_

_
1 2 8 11
0 1 5 7
0 0 1 0
0 0 0 1
_

_
de tal forma que PAQ = =
_
_
1 0 0 0
0 1 0 0
0 0 0 0
_
_
con D
2
=
_
1 0
0 1
_
= I
2
luego D
1
2
= D
2
y por tanto

=
_

_
1 0 0
0 1 0
0 0 0
0 0 0
_

_
34
el estudiante puede vericar que G = Q

P =
_

_
0 1 4
0
1
2
5
2
0 0 0
0 0 0
_

_
43
La matriz G no es unica debido a que P y Q no son unicas.
2.2. Un algoritmo para calcular A

Para hallar una inversa generalizada de una matriz A siga los siguientes pasos
(i) En A de rango r halle un menor no singular de orden r, llame a este M.
(ii) Invierta M y transponga la inversa:
_
M
1
_

.
(iii) En A reemplace cada elemento de M por el correspondiente elemento de
_
M
1
_

.
(iv) Reemplace todos los otros elementos de A por cero.
(v) Transponga la matriz resultante.
(vi) El resultado es A

, una inversa generalizada de A.


1
La matriz P se obtiene despues de realizar las siguientes operaciones elementales de la sobre la matriz
I
3
: f
3
f
1
, 2f
1
+f
3
f
3
, 5f
1
+f
2
f
2
,
1
2
f
2
f
2
, f
2
+f
3
f
3
2
La matriz Q se obtiene despues de realizar las siguientes operaciones elementalesde columna sobre la
matriz I
4
: 3c
1
+c
4
c
4
, 2c
1
+c
3
c
3
, 2c
1
+c
2
c
2
, 7c
2
+c
4
c
4
, 5c
2
+c
3
c
3
2.2. UN ALGORITMO PARA CALCULAR A

21
Ejemplo 2.3. Se ilustrara el uso del algoritmo para obtener la matriz G
1
del ejemplo 2.1
Paso (i) La matriz A tiene rango r = 2 por eso se toma un menor de orden 2, en este caso
se tomo
_
_
2 3 1 1
5 8 0 1
1 2 2 3
_
_
M
es decir
M =
_
a
13
a
14
a
23
a
24
_
=
_
1 1
0 1
_
Paso (ii) La inversa de M es M
1
=
_
1 1
0 1
_
y la transpuesta de la inversa es
(M
1
)

=
_
1 0
1 1
_
Pasos (iii) y (iv) Reemplazando en A cada elemento de M por el correspondiente de M
1
y reemplazando todos los demas elementos de A por cero nos queda
_
_
0 0 1 0
0 0 1 1
0 0 0 0
_
_
Paso (v) Trasponiendo esta ultima matriz obtenemos
G =
_

_
0 0 0
0 0 0
1 1 0
0 1 0
_

_
que es una inversa generalizada de A.
El hecho que A tenga una inversa generalizada a un si esta es singular o rectangular tiene
aplicaciones en el problema de solucion de ecuaciones, por ejemplo, solucionar Ax = y
cuando A es singular o rectangular. En situaciones de esta naturaleza, el uso de una inversa
generalizada A

conduce, como veremos, muy directamente a una solucion. Esto es de gran


importancia en el estudio de modelos lineales, donde tales situaciones surgen frecuentemente.
Por ejemplo, cuando un modelo puede ser escrito como y = X + e, el procedimiento de
mnimos cuadrados conduce a la ecuacion X

= X

y donde la matriz X

X es singular.
La solucion no puede ser escrita (X

X)
1
X

y; pero usando una inversa generalizada de


X

X se puede obtener una solucion directamente y estudiar sus propiedades.


22 CAP

ITULO 2. INVERSA GENERALIZADA


2.3. Solucion de ecuaciones lineales.
2.3.1. Ecuaciones consistentes.
Denicion 2.2. Las ecuaciones lineales Ax = y se dicen consistentes si cualquier relacion
lineal existente entre las las de A tambien existe entre los correspondientes elementos de y
Como un ejemplo simple, las ecuaciones
_
1 2
3 6
_ _
x
1
x
2
_
=
_
7
21
_
son consistentes: en la matriz de la izquierda, la segunda la es tres veces la primera y esto
tambien es cierto para los elementos a la derecha. Pero las ecuaciones
_
1 2
3 6
_ _
x
1
x
2
_
=
_
7
24
_
no son consistentes. Una evidencia de esto se observa escribiendo las ecuaciones explcitamente
x
1
+ 2x
2
=7
3x
1
+ 6x
2
=24
como una consecuencia de la primera ecuacion se tiene que 3x
1
+ 6x
2
= 21 que no puede ser
cierto si la segunda lo es, estas ecuaciones se dicen inconsistentes.
Un metodo para determinar si un sistema de ecuaciones lineales es inconsistente, consiste en
comparar el rango de A con el rango de la matriz aumentada [A|y]. Las ecuaciones Ax = y
son consistentes si y solo si r(A) = r([A|y])
La importancia del concepto de consistencia radica en el siguiente teorema: Un sistema de
ecuaciones lineales puede ser solucionado si y solo si las ecuaciones son consistentes.
Ya que solo ecuaciones consistentes pueden ser solucionadas, la discusion de un procedimiento
para resolver ecuaciones lineales es connado unicamente a ecuaciones que son consistentes.
2.3.2. Obteniendo soluciones.
El enlace entre una inversa generalizada de la matriz A y las ecuaciones consistentes Ax = y
se muestra en el siguiente teorema (ver demostracion de este teorema y los subsiguientes en
[2]).
Teorema 2.1. Las ecuaciones consistentes Ax = y tienen una solucion x = Gy si y solo
si AGA = A
El teorema 2.1 indica como se puede obtener una solucion a un sistema de ecuaciones consis-
tentes: halle una matriz G que satisfaga AGA = A, esto es, halle G como cualquier inversa
generalizada de A y entonces Gy es una solucion. Sin embargo como el teorema 2.2 muestra,
Gy no es la unica solucion. Hay, en efecto, muchas soluciones siempre que A sea distinta a
una matriz cuadrada no singular.
2.3. SOLUCIONANDO ECUACIONES 23
Teorema 2.2. Si A tiene q columnas y si G es una inversa generalizada de A entonces las
ecuaciones consistentes Ax = y tienen solucion
x = Gy + (GAI)z (2.4)
donde z es cualquier vector arbitrario de orden q
Ejemplo 2.4. Considere las ecuaciones
_

_
7 3 2 2
3 3 0 0
2 0 2 0
2 0 0 2
_

_
_

_
x
1
x
2
x
3
x
4
_

_
=
_

_
553
219
156
178
_

_
(2.5)
Una inversa generalizada para A es (vericarlo)
G =
_

_
1
2

1
2

1
2
0

1
2
5
6
1
2
0

1
2
1
2
1 0
0 0 0 0
_

_
y el conjunto solucion, seg un (2.4) es:
x =
_

_
89
16
11
0
_

_
+
_

_
_

_
1 0 0 1
0 1 0 1
0 0 1 1
0 0 0 0
_

_
I
_

_
_

_
z
1
z
2
z
3
z
4
_

_
=
_

_
89
16
11
0
_

_
+
_

_
0 0 0 1
0 0 0 1
0 0 0 1
0 0 0 1
_

_
_

_
z
1
z
2
z
3
z
4
_

_
=
_

_
89 +z
4
16 z
4
11 z
4
z
4
_

_
(2.6)
donde z
4
es arbitrario, si tomamos z
4
= 0 entonces se obtiene
x

1
=
_
89 16 11 0

(2.7)
y si z
4
= 1 se tiene
x

2
=
_
88 15 10 1

(2.8)
La matriz G usada previamente no es la unica inversa generalizada de A, otra es es

G =
_

_
0 0 0 0
0
1
3
0 0
0 0
1
2
0
0 0 0
1
2
_

_
(2.9)
24 CAP

ITULO 2. INVERSA GENERALIZADA


con lo que (2.4) viene a ser

x =
_

_
0
73
78
89
_

_
+
_

_
_

_
0 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
_

_
I
_

_
_

_
z
1
z
2
z
3
z
4
_

_
=
_

_
0
73
78
89
_

_
+
_

_
1 0 0 0
1 0 0 0
1 0 0 0
1 0 0 0
_

_
_

_
z
1
z
2
z
3
z
4
_

_
=
_

_
z
1
73 +z
1
78 +z
1
89 +z
1
_

_
si hacemos z
1
= 0 obtenemos
x
3
=
_
0 73 78 89

(2.10)
Lema 2.1. Sea H = GA donde el rango de A, denotado por r(A) es r, esto es, r(A) = r
y A tiene q columnas, entonces H es idempotente con rango r y r(I H) = q r
Teorema 2.3. Cuando A es una matriz de q columnas y rango r y cuando y en un vector
no nulo, el numero de soluciones linealmente independientes a las ecuaciones consistentes
Ax = y es q r + 1
Este teorema signica que x = Gy y x = Gy + (H I)z para q r vectores z linealmen-
te independientes, son soluciones linealmente independientes de Ax = y. Todas las otras
soluciones seran combinacion lineal de aquellas que forman un conjunto de soluciones lineal-
mente independientes. Una forma de construir soluciones como combinacion lineal de otras
soluciones, esta contenida en el siguiente teorema.
Teorema 2.4. Si x
1
, x
2
, , x
s
son cualquier conjunto de s soluciones de las ecuaciones
consistentes Ax = y, para las cuales y = 0, entonces cualquier combinacion lineal de esas
soluciones x

i
x
i
es tambien una solucion de las ecuaciones si y solo si

i
= 1
Ejemplo 2.5. El rango de la matriz A denida en 2.5 es 3 por tanto existen 4 3 + 1 = 2
soluciones linealmente independientes para la ecuacion. x

1
de (2.7) y x

2
de (2.8) son dos
soluciones linealmente independientes, por tanto cualquier otra solucion puede ser expresada
como combinacion lineal de ellas. La solucion
_
0 73 78 89

de (2.10) se puede obtener a


partir de (2.7) y (2.8) as
88 x
1
+ 89 x
2
= x
3
(vericarlo)
Teorema 2.5. Para las ecuaciones consistentes Ax = y todas las soluciones son, para
cualquier G especca, generadas por x = Gy + (GAI)z para z arbitrario.
2.4. MATRICES SIM

ETRICAS. 25
La importancia de este teorema es que uno solo necesita derivar una inversa generalizada de
A para generar todas las soluciones a Ax = y. No hay otras soluciones distintas a las que
pueden generarse desde x.
Un teorema nal, relacionado con la propiedad de invariancia de los elementos de una solu-
cion, importante en el estudio de modelos lineales porque esta relacionado con el concepto
de estimabilidad.
Teorema 2.6. El valor de k

x es invariante a cualquier solucion de Ax = y usada para x


si y solo si k

H = k

, donde H = GA y AGA = A
Ejemplo 2.6. Con la matriz

G de (2.9) se verica que
H =
_

_
0 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
_

_
=

GA
para k

=
_
0 1 1 0

se verica que k

H = k

por tanto k

x es invariante cualquiera sea


la solucion usada para x, en efecto, para (2.7), (2.8) y (2.10) se tiene:
k

x
1
= 0 89 + 1 (16) + (1) (11) + 0 0 = 5
k

x
2
= 0 88 + 1 (15) + (1) (10) + 0 1 = 5
k

x
3
= 0 0 + 1 73 + (1) (78) + 0 89 = 5
en general usando (2.6)
k

x = 0 (89 +z
4
) + 1 (16 z
4
) + (1) (11 z
4
) + 0 z
4
= 16 z
4
+ 11 +z
4
= 5
Hay por supuesto, muchos valores de k

que satisfacen k

H = k

. Para cada uno de ellos,


k

x es invariante a la solucion x que escojamos; esto es, para dos de tales vectores, digamos
k

1
y k

2
, k

1
x y k

2
x son diferentes pero cada uno tiene un valor que es el mismo para todos
los valores de x
2.4. Matrices Simetricas.
El estudio de modelos lineales frecuentemente conduce a ecuaciones de la forma X

= x

y
que tienen que ser solucionadas para

b. Por tanto hay que poner especial atencion a una
inversa generalizada de la matriz simetrica X

X.
2.4.1. Propiedades de una Inversa Generalizada de X

X
Cuatro propiedades de una inversa generalizada de X

X estan contenidas en el siguiente


teorema
Teorema 2.7. Cuando G es una inversa generalizada de X

X, entonces
26 CAP

ITULO 2. INVERSA GENERALIZADA


i. G

es tambien una inversa generalizada de X

X
ii. XGX

X = X esto es, GX

es una inversa generalizada de X


iii. XGX

es invariante a G
iv. XGX

es simetrica, lo sea G o no
Corolario. Aplicando la parte (i) del teorema 2.7 a sus otras partes mostrar que:
i. XG

X = X
ii. X

XGX

= X

iii. X

XG

= X

iv. XG

= XGX

v. XG

es simetrica
2.5. Procesamiento de datos con R
Se ingresan las matrices A, G
1
y G
2
del ejemplo 2.1 y se verica que efectivamente AG
i
A =
A
A<-matrix(c( 2 , 3,1,-1 ,
5, 8 ,0 ,1 ,
1 , 2 ,-2 ,3),nrow=3,byrow=T )
G1<-matrix(c(0,0,0 ,
0,0,0 ,
1,1,0 ,
0,1,0),nrow=4,byrow=T)
G2<-matrix(c(0,1,-4 ,
0,-1/2,5/2 ,
0,0,0 ,
0,0,0) ,nrow=4,byrow=T)
A%*%G1%*%A-A # el resuldato debe ser cero
A%*%G2%*%A-A # el resuldato debe ser cero
Se ingresan las matrices P y Q del ejemplo 2.2, se verica que efectivamente PAQ = y
A = P
1
Q
1
2.5. PROCESAMIENTO DE DATOS CON R 27
P<-matrix( c(0,0,1 ,
0,-1/2,5/2 ,
1,-1/2,1/2),nrow=3,byrow=T )
Q<-matrix(c( 1,-2,-8 ,11,
0,1,5,-7 ,
0,0,1,0,
0,0,0,1),nrow=4,byrow=T)
Delta<-P%*%A%*%Q
solve(P)%*%Delta%*%solve(Q)
Se calcula una inversa generalizada de A tal como se hace en el ejemplo 2.3
# rango de A igual a dos
qr(A)$rank
# Menor no singular
M<-A[1:2,3:4]
# transpuesta de la inversa del menor
Mi<-t(solve(M))
# matriz de ceros del mismo tama~no de A
A0<-matrix(0,nrow=nrow(A),ncol=ncol(A))
A0[1:2,3:4]<-Mi
G<-t(A0) # la inversa generalizada de A
Se desarrolla el ejemplo 2.4.
# ejemplo 2.4
A<-matrix(c(7,3,2,2,
3,3,0,0,
2,0,2,0,
2,0,0,2),nrow=4,byrow=T)
y<-matrix(c(553,219,156,178))
G<-diag(c(0,1/3,1/2,1/2))
# una solucion
G%*%y
# identica de orden 4
I<-diag(1,4,4)
G%*%A-I
# multiplique esta ultima por un vector z arbitrario y sumele G%*%y y tiene
# todas las soluciones posibles.
28 CAP

ITULO 2. INVERSA GENERALIZADA


2.6. Ejercicios
1. Reducir las matrices
A =
_
_
2 3 1 7
5 8 0 1
1 2 2 3
_
_
y B =
_

_
1 2 3 1
4 5 6 2
7 8 10 7
2 1 1 6
_

_
a la forma diagonal y hallar una inversa generalizada de cada una.
2. Hallar una inversa generalizada de A y B del ejercicio anterior, invirtiendo un menor no
singular.
3. Demuestre que las ecuaciones Ax = y son consistentes donde
A =
_
_
1 2
3 3
5 7
_
_
y y =
_
_
6
9
21
_
_
4. Verique que
G =
1
18
_
10 16 4
8 11 5
_
es una inversa generalizada para la matriz A del ejercicio 3
5. Verique que
G =
_
_

1
10

2
10
4
9
0 0
1
9
1
10
2
10

2
9
_
_
es una inversa generalizada de la matriz
A =
_
_
1 2 3
2 4 6
3 3 3
_
_
6. Use la inversa generalizada del ejercicio 5 para obtener una solucion a las ecuaciones
Ax = y, donde A es la denida en el mismo ejercicio y y =
_
6 12 9

7. Para A y B del ejercicio 1, halle una solucion general para


Ax =
_
_
1
13
11
_
_
y para Bx =
_

_
14
23
32
5
_

_
2.6. EJERCICIOS 29
8. Hallar una inversa generalizada para las matrices A
1
=
_
_
4 1 2 0
1 1 5 15
3 1 3 5
_
_
A
2
=
_
_
2 2 6
2 3 8
6 8 22
_
_
A
3
=
_
_
1 2 3 2
3 7 11 4
4 9 14 6
_
_
A
4
=
_
_
2 3 5 1
5 8 13 3
1 2 3 1
_
_
9. Sea
X =
_

_
1 1 0 0
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
_

_
a. Cual es el rango de X? Explique.
b. Halle X

X.
c. Cual es el rango de X

X? Explique.
d. Halle una inversa generalizada de X

X
10. Sea Y

=
_
8 10 7 6 9 8 7 8 9

, para la matrix X del ejercicio anterior, hallar


una solucion general al sistema X

Xb
0
= X

Y
11. Hallar una inversa generalizada de cada una de las siguientes matrices (A es una matriz
cualquiera de orden p q y el orden de las otras matrices es tal que el producto de puede
efectuar)
a. PAQ cuando P y Q son no singulares.
b. GA cuando G es una inversa generalizada de A.
c. kA cuando k es un escalar.
d. ABA cuando ABA es idempotente.
e. J cuando J es cuadrada con todos los elementos iguales a 1.
12. Demuestre que B

es una inversa generalizada de AB si y solo si A

ABB

es
idempotente.
13. Construya una inversa generalizada en terminos de X

para cada una de las matrices


LX, XM y LXM donde L y M son no singulares.
14. Cuando K es idempotente y Z

es una inversa generalizada de Z = KAK pruebe que


KA

K es tambien una inversa generalizada de Z


30 CAP

ITULO 2. INVERSA GENERALIZADA


15. Suponga que G es una inversa generalizada de A, con A simetrica. Demuestre que si GA
es simetrica entonces G
2
es una inversa generalizada de A
2
.
16. Suponga que A es de rango r y que se puede particionar de la siguiente forma:
A
pq
=
_
A
11
A
12
A
21
A
22
_
donde A
11
es de orden r r de rango r muestre que una inversa generalizada de A es:
G =
_
A
1
11
0
0 0
_
donde las matrices nulas son de orden apropiado para hacer G de orden q p (ver [2]
pagina 4)
Captulo 3
Distribuciones y formas cuadraticas
3.1. Introduccion
La tecnica de analisis de varianza involucra particionar la suma de cuadrados total en sumas
de cuadrados componentes cuyas razones (bajo condiciones distribucionales apropiadas) con-
ducen a estadsticas F adecuadas para probar ciertas hipotesis. Cuando estudiamos modelos
lineales en forma general, especialmente en presencia de datos desvalanceados, es conveniente
pensar en las sumas de cuadrados involucradas en el proceso como formas cuadraticas de las
observaciones. En este contexto pueden ser establecidos teoremas muy generales de los cuales
el analisis de varianza usual y las pruebas F asociadas son un caso especial.
3.2. Matrices simetricas
Una expresion de la forma x

Ay se conoce como una forma bilineal. Cuando se usa x en


lugar de y la expresion viene a ser x

Ax; esta es llamada una forma cuadratica y es una


funcion cuadratica de las x

s
Ejemplo 3.1.
x

Ax =
_
x
1
x
2
x
3

_
_
1 2 3
4 7 6
2 2 5
_
_
_
_
x
1
x
2
x
3
_
_
al multiplicar obtenemos
x

Ax = x
2
1
+ 7x
2
2
+ x
2
3
+ 6x
1
x
2
+ 5x
1
x
3
+ 4x
2
x
3
esta es una funcion cuadratica de las x

s, de ah el nombre de forma cuadratica.


Notese que x

Ax se puede expresar as
x

Ax = x
2
1
+ 7x
2
2
+ x
2
3
+ (3 + 3)x
1
x
2
+
_
5
2
+
5
2
_
x
1
x
3
+ (2 + 2)x
2
x
3
=
_
x
1
x
2
x
3

_
_
1 3
5
2
3 7 2
5
2
2 5
_
_
_
_
x
1
x
2
x
3
_
_
31
32 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
donde la matriz involucrada B =
1
2
(A+A

) es simetrica. Ademas, mientras que cualquier


forma cuadratica puede escribirse como x

Ax para un innito numero de matrices, cada una


puede ser escrita en una sola forma como x

Bx con B simetrica, por ejemplo:


x
2
1
+ 7x
2
2
+ x
2
3
+ 6x
1
x
2
+ 5x
1
x
3
+ 4x
2
x
3
=
_
x
1
x
2
x
3

_
_
1 3 a
5
2
+ b
3 +a 7 2 +c
5
2
b 2 c 5
_
_
_
_
x
1
x
2
x
3
_
_
para valores cualquiera a, b y c pero solo cuando a = b = c = 0 la matriz involucrada es
simetrica. esto signica que para cualquier forma cuadratica particular hay una y solo una
matriz tal que la forma cuadratica puede ser escrita como x

Ax con A una matriz simetrica.


Por causa de la unicidad de esta matriz simetrica, toda la discusion siguiente referente a
formas cuadraticas, se suscribira a matrices simetricas.
3.3. Matrices denidas positivas
Una propiedad de algunas formas cuadraticas usada repetidamente es la de ser denida
positiva. Una forma cuadratica se dice denida positiva si es positiva para todos los valores
de x excepto para x = 0 esto es, si
x

Ax > 0 para todo x, excepto x = 0


entonces x

Ax es denida positiva, y la correspondiente matriz simetrica es tambien descrita


como denida positiva.
Ejemplo 3.2.
x

Ax =
_
x
1
x
2
x
3

_
_
2 2 1
2 5 1
1 1 2
_
_
_
_
x
1
x
2
x
3
_
_
= 2x
2
1
+ 5x
2
2
+ 2x
2
3
+ 4x
1
x
2
+ 2x
1
x
3
+ 2x
2
x
3
= (x
1
+ 2x
2
)
2
+ (x
1
+ x
3
)
2
+ (x
2
+ x
3
)
2
es positiva para cualquier valor (real) de las x

s excepto para x
1
= x
2
= x
3
= 0 esto es, excepto
para x = 0 (en cuyo caso x

Ax es siempre cero). Por tanto x

Ax es denida positiva (d.p)


Cuando x

Ax es positiva o cero para todos los x = 0 se dice que x

Ax es semidenida
positiva, es decir, cuando
x

Ax 0 para todo x = 0, con x

Ax = 0 para al menos un x = 0
x

Ax es una forma cuadratica semidenida positiva y la correspondiente matriz simetrica A


es una matriz semidenida positiva.
Ejemplo 3.3.
x

Ax =
_
x
1
x
2
x
3

_
_
37 2 24
2 13 3
24 3 17
_
_
_
_
x
1
x
2
x
3
_
_
= (6x
1
4x
3
)
2
+ (x
1
2x
2
)
2
+ (3x
2
x
3
)
2
3.3. MATRICES DEFINIDAS POSITIVAS 33
es cero cuando x

=
_
2 1 3

por tanto x

Ax es una forma cuadratica semidenida positiva,


de igual forma A es una matriz semidenida positiva.
Ejemplo 3.4.
y

y = y

Iy =

y
2
i
es denida positiva porque es cero solo cuando y = 0, pero
y

y ny
2
= y

(I
1
n
J
n
)y
es una forma cuadratica semidenida positiva porque es cero cuando y = 0 y tambien cuando
todos los elementos de y son iguales, esto es cuando y = 1
Seguidamente se dan lemas concernientes a matrices (semi)denidas positivas ((s)dp) que
seran subsecuentemente utilizados.
Lema 3.1. La matriz simetrica A es denida positiva si y solo si todos sus menores princi-
pales tienen determinante positivo.
Corolario. las matrices denidas positivas son no singulares.
El recproco de este corolario no es cierto: las matrices no singulares no son, en general,
denidas positivas.
Lema 3.2. para P no singular, P

AP es o no (semi)denida positiva de acuerdo con que


A sea o no (semi)denida positiva.
Lema 3.3. Los valores propios de una matriz (semi)denida positiva son todos positivos
(no negativos).
Lema 3.4. Una matriz simetrica es denida positiva si y solo si puede ser escrita como P

P
para P no singular.
Lema 3.5. A

A es denida positiva cuando A tiene rango columna completo y semidenida


positiva en otro caso.
Corolario. A

A es denida positiva cuando A tiene rango la completo y semidenida


positiva en otro caso.
Lema 3.6. Una suma de matrices (semi)denidas positivas es (semi)denida positiva
Lema 3.7. Una matriz simetrica A de orden n y rango r, puede ser escrita como L

L donde
L es de orden n r de rango r; es decir, L es de rango columna completo.
Lema 3.8. Una matriz simetrica que tiene sus valores propios iguales a 0 y 1 es idempotente
Lema 3.9. Si A y V son simetricas y V es denida positiva, entonces si AV tiene valores
propios 0 y 1 implica que AV es idempotente.
34 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
3.4. Distribuciones
3.4.1. Funciones de distribucion multivariadas
Considerando n variables aleatorias X
1
, X
2
, , X
n
para las cuales x
1
, x
2
, , x
n
es un con-
junto de realizaciones escribimos la funcion de densidad acumulativa como
P(X
1
x
1
, X
2
x
2
, , X
n
x
n
) = F(x
1
, x
2
, , x
n
) (3.1)
entonces la funcion de densidad es
f(x
1
, x
2
, , x
n
) =

n
x
1
x
2
x
n
F(x
1
, x
2
, , x
n
) (3.2)
Las propiedades que debe cumplir la funcion de densidad son
i. f(x
1
, x
2
, , x
n
) 0 para < x
i
< para todo i
ii.

f(x
1
, x
2
, , x
n
)dx
1
dx
2
dx
n
= 1
La funcion de densidad marginal de x
k+1
, , x
n
es
g(x
k+1
, , x
n
) =

f(x
1
, , x
k
, x
k+1
, , x
n
)dx
1
dx
k
(3.3)
la distribucion condicional de las primeras k x

s dadas las ultimas n k es la razon de


f(x
1
, x
2
, , x
n
) a la marginal de las ultimas n k x

s, esto es
f(x
1
, , x
k
/x
k+1
, , x
n
) =
f(x
1
, x
2
, , x
n
)
g(x
k+1
, , x
n
)
(3.4)
3.4.2. Momentos
El kesimo momento alrededor de cero de la iesima variable aleatoria es E(x
k
i
), el valor
esperado de la kesima potencia de x
i
:

(k)
x
i
= E(x
k
i
) =

x
k
i
g(x
i
)dx
i
(3.5)
y sustituyendo desde (3.3) tenemos

(k)
x
i
=

x
k
i
f(x
1
, x
2
, , x
n
)dx
1
dx
2
dx
n
(3.6)
en particular, cuando k = 1, el superndice (k) se omite y se escribe
i
en lugar de
(1)
i
3.4. DISTRIBUCIONES 35
La covarianza entre la iesima y la jesima variable, para i, j = 1, 2, , n es

ij
=E(x
i

i
)(x
j

j
)
=

(x
i

i
)(x
j

j
)g(x
i
, x
j
)dx
i
dx
j
=

(x
i

i
)(x
j

j
)f(x
1
, x
2
, , x
n
)dx
1
dx
n
(3.7)
analogamente, la varianza de la iesima variable es

ii
=
2
i
= E(x
i

i
)
2
=

(x
i

i
)
2
g(x
i
)dx
i
=

(x
i

i
)
2
f(x
1
, x
2
, , x
n
)dx
1
dx
n
(3.8)
La varianza de, y covarianza entre las variables en un vector
_
x
1
x
2
x
n

son dadas en
(3.8) y (3.7). Arreglando esas varianzas y covarianzas en una matriz, obtenemos asi la matriz
de varianzas y covarianzas de las x

s
3.4.3. Distribuciones
Notacion: La varianza de una variable aleatoria escalar sera escrita v(x) mientras que la
matriz de varianza covarianza de un vector de variables aleatorias sera denotada por Var(x).
El vector de medias correspondiente a x es
E(x

) =
_

1

2

n

y as por la denicion de varianza covarianza


Var(x) = E[(x )(x )

] = V
ademas, ya que la correlacion entre la variable i y la variable j es
ij
/
i

j
, la matriz de
correlaciones es
R =
_

ij

j
_
= D{1/
i
} V D{1/
i
} (3.9)
donde las D son matrices diagonales con elementos 1/
i
para i = 1, 2, , n claramente, los
elementos diagonales de R son unos y R es simetrica.
La matriz V es denida no negativa ya que para alg un vector no nulo t, v(t

x) = t

V t, que
es positiva (por denicion de varianza) a menos que t

x sea identicamente cero, en cuyo caso


v(t

x) = 0 por tanto V es denida no negativa, la matriz R es tambien denida no negativa


porque en (3.9) todos los son positivos.
36 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
3.4.4. Transformaciones lineales
Cuando las variables x son transformadas a variables y por la transformacion lineal y = Tx,
los momentos son faciles de derivar por ejemplo

y
= T
x
y Var (y) = TV T

cuando hacemos una transformacion de esta naturaleza que involucra una matriz no singular
T, se puede hallar la funcion de densidad de las y por
h(y
1
, y
2
, , y
n
) =
f(T
1
y)
T
(3.10)
donde T es el valor absoluto del determinante de T
Ejemplo 3.5. Si
y
1
= 3x
1
2x
2
y
2
= 5x
1
4x
2
es la transformacion y = Tx con
T =
_
3 2
5 4
_
T = |3 (4) 5 (2)| = | 2| = 2 y
T
1
=
1
2
_
4 2
5 3
_
por tanto
x =
_
x
1
x
2
_
= T
1
y =
1
2
_
4 2
5 3
_ _
y
1
y
2
_
es decir
x
1
= 2y
1
y
2
x
2
=
5
2
y
1

3
2
y
2
por lo que
h(y
1
, y
2
) =
f(T
1
y)
T
=
1
2
f(2y
1
y
2
,
5
2
y
1

3
2
y
2
)
3.4.5. Funcion generadora de momentos
Los momentos y las relaciones entre distribuciones son a menudo derivadas a partir de la
funcion generadora de momentos (f.g.m). En el caso univariado la f.g.m de una variable
3.4. DISTRIBUCIONES 37
aleatoria x escrita como una funcion de t es
M
x
(t) = E
_
e
tx
_
=

e
tx
f(x)dx
=

(1 +tx + (t
2
/2)x
2
+ (t
3
/3!)x
3
)f(x)dx
= (1 +t
(1)
x
+ (t
2
/2)
(2)
x
+ (t
3
/3!)
(3)
x
+ ) (3.11)
por tanto

(k)
x
=

k
M
x
(t)
t
k

t=0
(3.12)
esto es, el kesimo momento de x es la kesima derivada parcial de la f.g.m con respecto a
t evaluada en el punto t = 0. Analogamente para una funcion de x, digamos h(x) la f.g.m es
M
h(x)
(t) = E
_
e
th(x)
_
=

e
th(x)
f(x)dx
y el kesimo momento de la distribucion al rededor de cero es

k
h(x)
=

k
M
h(x)
(t)
t
k

t=0
(3.13)
En situaciones multivariadas se siguen resultados similares. La f.g.m de la distribucion con-
junta de n variables utiliza un vector de parametros t

=
_
t
1
t
2
t
n
:

M
x
(t) = E
_
e
(t
1
x
1
+t
2
x
2
++tnxn)
_
= E
_
e
t

x
_
=

e
t

x
f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
(3.14)
y la f.g.m de una funcion escalar de elementos de x, digamos la forma cuadratica es
M
x

Ax
(t) = E
_
e
tx

Ax
_
=

e
tx

Ax
f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
Ademas de generar los momentos de una distribucion la f.g.m. tambien tiene otros dos im-
portantes usos
Primero: Si dos variables aleatorias tienen la misma f.g.m entonces tienen la misma funcion
de densidad.
Segundo: Dos variables aleatorias son independientes si su f.g.m conjunta se puede factorizar
en el producto de sus dos f.g.m separadas, esto signica que si
M
(x
1
,x
2
)
(t
1
, t
2
) = M
x
1
(t
1
)M
x
2
(t
2
)
entonces x
1
y x
2
son independientes
38 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
3.4.6. Distribucion normal univariada
Cuando una variable aleatoria X tiene una distribucion normal con media y varianza
2
,
escribimos x es N(,
2
) o x N(,
2
) la funcion de densidad de x es entonces
f(x) =
1

2
e

1
2
(
x

)
2
, para < x <
de acuerdo con (3.11) se puede demostrar que
M
x
(t) = e
t+
1
2
t
2

2
(3.15)
y desde (3.12) es facil establecer que
(1)
x
= y
(2)
x
=
2
+
2
as que v(x) = E(x )
2
=

(2)
x

2
=
2
3.4.7. Distribucion normal multivariada
Funcion de densidad
Cuando las variables aleatorias en x

=
_
x
1
x
2
x
n

tiene una distribucion normal


multivariada con vector de medias y matriz de varianza covarianza V , escribimos x es
N(, V ) o x N(, V ), cuando E(x
i
) = para todo i entonces = 1 y si las
x
i
son mutuamente independientes, todas con la misma varianza
2
entonces V =
2
I y
escribimos x es N(1,
2
I). Esto es equivalente a la notacion usual NID(,
2
), pero
usando la notacion matricial de N(1,
2
I) enfatizamos que es justamente un caso especial
de la normal multivariada general N(, V ). Limitamos nuestro estudio al caso cuando V es
denida positiva. La funcion de densidad normal multivariada es
f(x
1
, x
2
, , x
n
) =
e

1
2
(x)

V
1
(x)
(2)
1
2
n
|V |

1
2
(3.16)
Integral de Aitken
Un resultado en calculo general que es particularmente aplicable a cualquier discusion de la
normal multivariada es la integral de Aitken. Esta es como sigue: para una matriz simetrica
A denida positiva de orden n

1
2
x

Ax
dx
1
dx
n
= (2)
1
2
n
|A|

1
2
(3.17)
la aplicacion directa de este resultado a (3.16) demuestra que

f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
=
(2)
1
2
n
|V
1
|

1
2
(

2)
n
|V |
1
2
= 1
3.4. DISTRIBUCIONES 39
Funcion generadora de momentos
La f.g.m de la normal multivariada es
M
x
(t) = e
t

+
1
2
t

V t
(3.18)
derivando esta a la manera de (3.12) se muestra que el vector de medias es y la matriz de
varianza y covarianzas es V
Distribuciones marginales
La denicion de la distribucion marginal de x
1
, x
2
, , x
k
es, de acuerdo con (3.3)
g(x
1
, x
2
, , x
k
) =

f(x
1
, x
2
, , x
n
)dx
k+1
, , dx
n
la funcion generadora de momentos de esta distribucion es, por (3.14)
M
x
1
, ,x
k
(t) =

e
t
1
x
1
++t
k
x
k
g(x
1
, , x
k
)dx
1
dx
k
y sustituyendo para g(x
1
, x
2
, , x
k
) se tiene
M
x
1
, ,x
k
(t) =

e
t
1
x
1
++t
k
x
k
f(x
1
, , x
n
)dx
1
, , dx
n
= f.g.m de x
1
, x
2
, , x
n
, con t
k+1
= = t
n
= 0
= e
t

+
1
2
t

V t
con t
k+1
= = t
k
= 0 (3.19)
para hacer las sustituciones t
k+1
= = t
n
= 0 particionamos x, , V y t deniendo
x

1
=
_
x
1
x
2
x
k

y x

2
=
_
x
k+1
x
n

as que
x =
_
x

1
x

entonces, conformable con esto

=
_

, t

=
_
t

1
t

y V =
_
V
11
V
12
V

12
V
22
_
ahora colocando t
2
= 0 en (3.19) obtenemos
M
x
1
, ,x
k
(t
1
) = e
t

1
1+
1
2
t

1
V11t1
por analoga con (3.18) y (3.16) tenemos por tanto la funci on de densidad marginal como
g(x
1
) =
exp
_

1
2
(x
1

1
)

V
1
11
(x
1

1
)

(2)
1
2
k
|V
11
|
1
2
(3.20)
40 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
se observa que g(x
1
) es una funcion de densidad normal multivariada. Similarmente
g(x
2
) =
exp
_

1
2
(x
2

2
)

V
1
22
(x
2

2
)

(2)
1
2
(nk)
|V
22
|
1
2
(3.21)
As vemos que las densidades marginales de la distribucion normal multivariada son tambien
normales multivariadas.
Ya que V es denida positiva, tambien lo son V
11
y V
22
, ademas en esas expresiones podemos
usar la forma particionada de V . As, si
V
1
=
_
V
11
V
12
V

12
V
22
_
1
=
_
W
11
W
12
W

12
W
22
_
entonces V
1
11
= W
11
W
12
W
1
22
W

12
y V
1
22
= W
22
W

12
W
1
11
W
12
Distribuciones condicionales
Denotamos por f(x) la funcion de densidad marginal de todas las n x

s entonces la ecuacion
(3.4) da la distribucion condicional de las primeras k x

s como
f(x
1
|x
2
) =
f(x)
g(x
2
)
se puede demostrar que la distribucion condicional tambien es normal:
x
1
|x
2
N[
1
+V
12
V
1
22
(x
2

2
), W
1
11
]
Independencia
Supongamos que el vector x

=
_
x
1
x
2
x
n

es particionado en p subvectores x

=
_
x

1
x

2
x

entonces una condicion necesaria y suciente para que los vectores sean
mutuamente independientes es, en la correspondiente particion de V = {V
ij
} para i, j =
1, 2, , p que V
ij
= 0 para i = j. La prueba de esto se establece como sigue: La f.g.m de x
es, por (3.18),
M
x
(t) = e
t

+
1
2
t

V t
exp
_
p

i=1
t

i
+
1
2
p

i=1
p

j=1
t
i
V
ij
t

i
_
y si V
ij
= 0 para i = j esta se reduce a
M
x
(t) = exp
_
p

i=1
_
t

i
+
1
2
t

i
V
ii
t
i
_
_
=
p

i=1
exp
_
t

i
+
1
2
t

i
V
ii
t
i
_
invocando la propiedad que la f.g.m de la distribucion conjunta de un grupo de variables
independientes es el producto de sus funciones generadoras de momento, concluimos que las
3.4. DISTRIBUCIONES 41
x

s son independientes. Recprocamente, si ellas son independientes, cada una con su matriz
de varianza covarianza, digamos K
ii
entonces la f.g.m de la distribucion conjunta es
p

i=1
exp
_
t

i
+
1
2
t

i
K
ii
t
i
_
= exp
p

i=1
(t

i
+
1
2
t

i
K
ii
t
i
)
= exp(t

+
1
2
t

V t)
donde V = diag{K
11
, K
22
, , K
pp
} por tanto V
ij
= 0 para i = j
3.4.8.
2
, F y t centrales
cuando x es N(0, I) entonces

x
2
i
tiene distribucion
2
con n grados de libertad. As, cuando
x es N(0, I) y u =
n

i=1
x
2
i
= x

x entonces u
2
n
la funcion de densidad es
f(u) =
u
1
2
n1
e

1
2
u
2
1
2
n
(
1
2
n)
para u > 0 (3.22)
donde (
1
2
n)
1
es la funcion gamma con argumento
1
2
n [para un entero positivo n, (n) =
(n 1)!] la funcion generadora de momentos correspondiente a (3.22) es
M
u
(t) = (1 2t)

1
2
n
(3.23)
la media y la varianza de u son n y 2n respectivamente (ejercicio). La aplicacion mas com un
de la distribucion
2
es que cuando
x es N(1,
2
I) entonces

(x
i
x)
2
/
2
es
2
n1
Dos variables independientes con distribucion
2
i
forman la base de la distribucion F. As, si
u
1
es
2
n
1
y u
2
es
2
n
2
entonces v =
u
1
/n
1
u
2
/n
2
F
n
1
,n
2
la media de la distribucion es n
2
/(n
2
2) y la varianza es
2n
2
2
[1 + (n
2
2)/n
1
]
(n
2
2)
2
(n
2
4)
nalmente, la razon de una variable aleatoria distribuida normalmente a una que tiene dis-
tribucion
2
n
es la base de la distribucion t de student. As, cuando x es N(0, 1) y u es
2
n
,
independiente de x entonces
t = x/
_
u/n (3.24)
1
(n) =
_

0
u
n1
exp(u)du
42 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
esta distribuida como t
n
, la distribucion t con n grados de libertad. Su funcion de densidad
es
f(t) =
(
1
2
n +
1
2
)

n(
1
2
n)
_
1 +
t
2
n
_

1
2
(n+1)
para < t < (3.25)
la distribucion t tine media cero y varianza n/(n2) una aplicacion frecuente de esta distri-
bucion es que si x es N(1,
2
I) entonces
x
S/

n
tiene distribucion t
n1
Se puede establecer una relacion entre t
n
y F
1,n
. Para t descrito en 3.24 consideremos
t
2
=
x
2
u/n
x
2
es claramente
2
1
y u es
2
n
por tanto t
2
es F
1,n
, esto es: cuando una variable tiene distri-
bucion t
n
su cuadrado esta distribuido F
1,n
.
3.4.9.
2
no central
Previamente hemos visto que cuando x es N(0, I
n
), la distribucion de x

x =

x
2
i
se conoce
como
2
central. Ahora consideramos la distribucion de u = x

x cuando x es N(, I), la


unica diferencia es que la media es y no cero. La distribucion resultante de x

x se conoce
como una
2
no central. Como con la
2
central, la
2
no central involucra los grados de
libertad, n. Esta tambien involucra el parametro
1
2

=
1
2

2
i
conocido como parametro
de no centralidad, para el cual se usa el smbolo , esto es
=
1
2

nos referimos a la distribucion por medio del smbolo


2

(n, ), la
2
no central con n grados
de libertad y parametro de no centralidad , cuando = 0 entonces = 0 y la distribucion
no central se reduce a la distribucion central.
La funcion de densidad de la distribucion
2

(n, ) es
f(u) = e

k=0

k
k!
u
1
2
n+k1
e

1
2
u
2
1
2
n+k

_
1
2
n + k
_ (3.26)
la funcion generadora de momentos de la distribucion
2

(n, ) esta dada por:


M
u
(t) = (1 2t)

1
2
n
e
[1(12t)
1
]
(3.27)
la media y la varianza de la distribucion
2

(n, ) son n + 2 y 2n + 8 respectivamente.


Notese que las propiedades de la
2
no central se reduce a la
2
cuando = 0. Debe notarse
una propiedad adicional: si variables con distribuciones
2
no centrales son conjuntamente
independientes, su suma tambien tiene distribucion
2
no central. As si para i = 1, 2 , k
las
i
son
2

(n
i
,
i
) e independientes entonces

i

2

(
k

i=1
n
i
,
k

i=1

i
)
3.5. DISTRIBUCI

ON DE FORMAS CUADR

ATICAS 43
3.4.10. F no central
Analogamente a la distribucion
2
no central hay una distribucion F no central. Esta se
especica como sigue. Si u
1
y u
2
son independientes donde u
1
es
2

(n
1
, ) y u
2
es
2
n
2
entonces
v =

1
/n
1

2
/n
2
esta distribuido como F

(n
1
, n
2
, ).
Cuando = 0 la distribucion F no central se reduce a la distribucion central. La media y la
varianza de la distribucion F no central son
E(v) =
n
2
n
2
2
_
1 +
2
n
1
_
v(v) =
2n
2
2
n
2
1
(n
2
2)
_
(n
1
+ 2)
2
(n
2
2)(n
2
4)
+
n
1
+ 4
n
2
4
_
3.4.11. Otras distribuciones no centrales
En el contexto de las distribuciones no centrales pueden mencionarse otras dos: la distribucion
t no central y la distribucion F doblemente no central. Si x es N(, 1) y si independientemente
de x, u es
2
n
entonces x/
_
u/n tiene la distribucion t no central, t

(n, ), con n grados de


libertad y parametro de no centralidad .
La distribucion F doblemente no central esta basada en la razon de dos variables
2
no
centrales independientes. As, si u
1
es
2

(n
1
,
1
) y u
2
es
2

(n
2
,
2
) entonces v = n
2
u
1
/n
1
u
2
esta distribuida como F

(n
1
, n
2
,
1
,
2
), la distribucion F doblemente no central.
3.5. Distribucion de formas cuadraticas
Discutiremos aqu la distribucion de una forma cuadratica x

Ax cuando x es N(, V ).
La mayor parte de la discusion es dedicada al caso en que V es no singular aunque son
dados algunos resultados pertinentes a V singular. Tratando con el caso general cuando
x es N(, V ) podemos considerar casos de interes especial tales como x siendo N(0, I) o
N(1, I) o N(, I).
En todos los teoremas se hace uso de la traza de una matriz, tr(A), la suma de los elementos
de la diagonal de A. Recordemos que tr(A) es igual a la suma de los valores propios de A y
que cuando A es idempotente tr(A) = r(A). Ademas, bajo la operacion de tomar la traza
el producto es cclicamente conmutativo:
tr(ABC) = tr(BCA) = tr(CAB)
tambien, ya que una forma cuadratica es un escalar, esta es igual a su propia traza y por
tanto
x

Ax = tr(x

Ax) = tr(Axx

)
esas propiedades de la traza son usadas muchas veces en lo que sigue sin explcita referencia
se advierte por tanto al lector que debe estar familiarizado con ellas.
Todos los teoremas dados estan relacionados a x siendo N(, V ), con una excepcion, la
primera parte del teorema 3.1, que es verdadero para x siendo (, V )n normal o no.
44 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
3.5.1. Valores esperados y varianzas
Teorema 3.1. Cuando x es N(, V )
i.) E(x

Ax) = tr(AV ) +

A (verdadero tambien cuando x no es normal)


ii.) v(x

Ax) = 2tr(AV )
2
+ 4

AV A
iii.) La covarianza de x con x

Ax es
Cov(x, x

Ax) = 2V A
Corolario. Cuando = 0
E(x

Ax) = tr(AV )
y bajo normalidad
Cov(x, x

Ax) = 0
Corolario. Cuando x N(, V ) entonces
v(x

Ax) = 2tr(AV )
2
3.5.2. Distribuciones
Teorema 3.2. Cuando x es N(, V ) entonces x

Ax es
2

_
r(A),
1
2

si y solo si AV
es idempotente.
Operacionalmente, la parte mas importante de este teorema es la condicion de suciencia, a
saber, que si AV es idempotente entonces x

Ax tiene una distribucion


2
no central.
Corolario. Si x es N(0, I) entonces x

Ax es
2
r
si y solo si A es idempotente de rango r
Corolario. Si x es N(0, V ) entonces x

Ax es
2
r
si y solo si AV es idempotente de rango
r
Corolario. Si x es N(,
2
I
n
) entonces x

x es
2

(n,
1
2

/
2
)
Corolario. Si x es N(, I) entonces x

Ax es
2

(r,
1
2

2
) si y solo si A es idempotente
de rango r
3.5.3. Independencia
En esta seccion consideraremos la independencia de: 1. Una forma cuadratica y una forma
lineal, 2. Dos formas cuadraticas y 3. conjuntos de formas cuadraticas. Hay un teorema para
cada caso. Considerando la independencia recordamos que cuando dos variables aleatorias
estan distribuidas independientemente es siempre cero. Pero el hecho que dos variables tengan
covarianza cero no siempre implica independencia.
Teorema 3.3. Cuando x N(, V ) entonces x

Ax y Bx estan distribuidas independien-


temente si y solo si BV A = 0
3.6. EJERCICIOS 45
El siguiente teorema, que trata sobre la independencia de dos formas cuadraticas es similar
al teorema 3.3
Teorema 3.4. Cuando x N(, V ), las formas cuadraticas x

Ax y x

Bx estan distribui-
das independientemente si y solo si AV B = 0 (o equivalentemente AV B = 0)
Notese que la forma de la distribucion de x

Ax y x

Bx no es especicada en el teorema.
Este se aplica sin importar que distribucion siguen esas formas cuadraticas, solo se exige que
x sea un vector de variables normales. En la practica los teoremas se aplican usualmente en
situaciones donde las formas cuadraticas tienen distribucion
2
pero esta no es una exigencia
Teorema 3.5. Sea dado lo siguiente:
x, de orden n 1, distribuido N(, V );
A
i
, de orden n n, simetrica de rango k
i
, para i = 1, 2, , p;
y A =

p
i=1
A
i
, la cual es simetrica, con rango k
entonces
1. x

A
i
x es
2

(k
i
,
1
2

A),
2. Los x

A
i
x son independientes por pares y
3. x

Ax es
2

(k,
1
2

A) si y solo si
I: Cualquiera 2 de
a) A
i
V es idempotente, para todo i
b) A
i
V A
j
= 0 para todo i < j
c) AV es idempotente
son verdaderas, o
II: c) es verdadera y d), k =
p

i=1
k
i
, o
III: c) es verdadera y e), A
1
V , , A
p1
V son idempotentes y A
p
V es denida no negativa
Corolario (Teorema de Cochran). Cuando x es N(0, I
n
) y A
i
es simetrica de rango r
i
para
i = 1, , p con
p

i=1
A
i
= I
n
entonces las x

A
i
x estan distribuidas independientemente como

2
r
i
si y solo si
n

i=1
r
i
= n
3.6. Ejercicios
1. Demuestre todos los corolarios del teorema 3.2.
2. Demuestre todos los corolarios del teorema 2.7.
46 CAP

ITULO 3. DISTRIBUCIONES Y FORMAS CUADR

ATICAS
3. Sea X
1
, X
2
, , X
n
variables aleatorias normales independientes e identicamente dis-
tribuidas con media y varianza
2
demuestre que
n

i=1
(X
i
X)
2

2
tiene una distribucion chicuadrado con n1 grados de libertad. [sugerencia: Organice
las variables en un vector columna y escriba su distribucion en version multivariada,
luego escriba

n
i=1
(X
i
X)
2

2
como una forma cuadratica en x y use el teorema 3.2]
4. Con las mismas condiciones del ejercicio 3 demuestre que X y

n
i=1
(X
i
X)
2
son
independientes [sugerencia: Use el teorema 3.3]
5. Si una variable aleatoria tiene distribucion
2

(n, ), use la f.g.m para obtener su media


y su varianza.
6. Sean X
j
N(j, 1) con j = 1, 2, , 5 variables aleatorias independientes. Si Y
1
=
X
1
+X
2
+ X
3
, y ademas Y
2
= X
2
+ X
3
+X
4
, cual es la distribucion del vector
_
Y
1
Y
2

?
7. Suponga que Y N
4
(; V ) con

=
_
10 12 14 16

y ademas V =
_

_
2 1 1 1
1 2 1 1
1 1 2 1
1 1 1 2
_

_
obtenga la distribucion de Z = CY donde C =
_
1 1 1 1
1 1 1 1
_
8. Sea una poblacion con distribucion
_
X
Y
_
N
2
__
0
0
_
;
_
1 0,5
0,5 1
__
y suponga que (X
1
, Y
1
)

, (X
2
, Y
2
)

, , (X
n
, Y
n
)

es una muestra aleatoria de tama no n


a) Obtenga la distribucion de Z = 2X Y [Sugerencia: Recuerde que una combina-
cion lineal de normales multivariantes es normal multivariante]
b) Obtenga la f.g.m de Z
Captulo 4
Modelos de regresion
El analisis de regresion es apropiado en situaciones donde se sospecha o se asume que una
variable esta relacionada a una o varias mediadas hechas usualmente en un mismo individuo
(objeto). El objetivo del analisis es usar los datos (valores observados de las variables) para
estimar la forma de la relacion. Como ejemplos podemos citar:
Usar la informacion sobre el ingreso y el numero de a nos de escolaridad formal para
estimar la forma en que el ingreso anual esta relacionado con los a nos de escolaridad.
Usar la informacion sobre el ingreso y el gasto familiar para predecir el gasto promedio
de una familia de la cual se conoce su ingreso.
Usar la informacion de el numero de kilogramos por hectarea y el rendimiento de un
cultivo para estimar la dosis que produce el maximo rendimiento.
4.1. Modelo de regresion lineal simple
En el caso de la relacion entre ingreso y a nos de escolaridad esperaramos que una persona
con 0 a nos de escolaridad tenga un ingreso $a y por cada a no de escolaridad en ingreso se
aumente en $b, As, para un hombre con x a nos de escolaridad esperaramos un ingreso de
a +bx. Al decir esperaramos un ingreso de a +bx estamos pensando en el ingreso promedio
de todos los hombres con x a nos de escolaridad. Si y denota el ingreso, escribimos E(y) para
el ingreso esperado
E(y) = a + bx (4.1)
este es un modelo lineal porque E(y) es una combinacion lineal de los parametros desconocidos
a y b.
Hay, por supuesto, muchos otros modelos no lineales en a y b que podran postularse, por
ejemplo E(y) una funcion de x
a
o (log x)
b
o b
x
, sin embargo el modelo lineal ha recibido
gran atencion tanto en la teora como en la practica ya que desde el punto de vista teorico es
matematicamente tratable y en aplicaciones practicas hay una amplia variedad de situaciones
donde ha demostrado ser de gran utilidad.
47
48 CAP

ITULO 4. MODELOS DE REGRESI

ON
La ecuacion 4.1 es nuestro modelo, en este caso el modelo como el ingreso promedio se
relaciona con los a nos de escolaridad.
Los parametros a y b nunca son conocidos, en el mejor de los casos lo que se puede hacer es
obtener una estimacion de ellos a partir de los datos, los cuales asumimos que es una muestra
aleatoria de una poblacion a la cual nosotros conjeturamos que se aplica nuestra ecuacion.
El modelo se le conoce como modelo de regresion y como la ecuacion es lineal, mas con-
cretamente se le llama modelo de regresion lineal. A y se le conoce como variable dependiente
y a x como variable independiente.
Al tomar los datos, el ingreso de cada hombre con x a nos no sera exactamente a + bx (a
y b siendo los mismos para todos los hombres), este hecho ha sido reconocido al escribir el
modelo como E(y) = a + bx en lugar de y = a + bx. Si y
i
es el ingreso de un hombre con x
i
a nos de escolaridad escribimos
E(y
i
) = a + bx
i
donde E(y
i
) no es lo mismo que y
i
. La diferencia y
i
E(y
i
) representa la desviacion del valor
observado al valor esperado y lo escribimos como
e
i
= y
i
E(y
i
) = y
i
a bx
i
(4.2)
por tanto
y
i
= a + bx
i
+ e
i
(4.3)
lo que tomamos como la ecuacion del modelo. e
i
representa cuanto una observacion diere de
su valor esperado. Los e
i
recogen, por ejemplo, errores de medicion, deciencias en el modelo
(variables distintas al nivel de escolaridad que pueden afectar el ingreso, por ejemplo la edad).
Los e
i
se consideran como variables aleatorias y se llaman usualmente errores aleatorios o
residuales aleatorios.
Para completar la ecuacion del modelo en terminos de la ecuacion y
i
= a +bx
i
+e
i
se deben
especicar las caractersticas de e
i
. Los que se supone usualmente es que el valor esperado
de e
i
es cero y su varianza
2
para todo i y que la covarianza para cualquier par e
i
y e
j
es
cero. en smbolos
E(e
i
) =0 (4.4)
Var(e
i
) =E[e
i
E(e
i
)]
2
= E[e
2
i
] =
2
(4.5)
Cov(e
i
, e
j
) =E
_
e
i
E(e
i
)
_
e
j
E(e
j
)

= E
_
e
i
e
j

= 0 (4.6)
4.1.1. Estimacion por mnimos cuadrados
La estimacion por mnimos cuadrados involucra minimizar de la suma de cuadrados de las
desviaciones de los valores observados y su valor esperado es decir minimizar
e

e =
n

i=1
e
2
i
=
n

i=1
_
y
i
E(y
i
)

2
=
n

i=1
(y
i
a bx
i
)
2
(4.7)
aunque a y b son valores jos (aunque desconocidos), por el momento pensamos en ellos
como variables, entonces esos valores de ellos que minimizan e

e son los estimadores mnimos


4.1. MODELO DE REGRESI

ON LINEAL SIMPLE 49
cuadrados de a y b, los cuales seran denotados por a y

b. La minimizacion se logra de la manera


usual: derivar con respecto a a y b e igualar a cero, las ecuaciones encontradas seran escritas
en terminos de a y

b , sus soluciones para a y

b son los estimadores mnimos cuadrados.


(e

e)
a
=

a
n

i=1
(y
i
a bx
i
)
2
=
n

i=1

a
(y
i
a bx
i
)
2
=2
n

i=1
(y
i
a bx
i
) = 2
n

i=1
y
i
na b
n

i=1
x
i
(4.8)
(e

e)
b
=

b
n

i=1
(y
i
a bx
i
)
2
=
n

i=1

b
(y
i
a bx
i
)
2
=2
n

i=1
(y
i
a bx
i
)(x
i
) = 2
n

i=1
(y
i
x
i
ax
i
bx
2
i
=2
_
n

i=1
y
i
x
i
a
n

i=1
x
i
b
n

i=1
x
2
i
_
(4.9)
Igualando a cero y colocando a y

b en lugar de a y b tenemos: de (4.8)


n

i=1
y
i
na

b
n

i=1
x
i
=0
na +

b
n

i=1
x
i
=
n

i=1
y
i
(4.10)
y de (4.9)
n

i=1
y
i
x
i
a
n

i=1
x
i

b
n

i=1
x
2
i
= 0
a
n

i=1
x
i
+

b
n

i=1
x
2
i
=
n

i=1
y
i
x
i
(4.11)
despejando a de (4.10) y (4.11) e igualando tenemos
y

bx =

x
i
y
i

x
2
i
x

de donde, multiplicando miembro a miembro por x

= nx tenemos
nxy

bnx
2
=

x
i
y
i

x
2
i

x
2
i

bnx
2
=

x
i
y
i
nxy
50 CAP

ITULO 4. MODELOS DE REGRESI

ON
factorizando

b y despejando nos queda

b =

x
i
y
i
nxy

x
2
i
nx
2
=

(x
i
x)(y
i
y)

(x
i
x)
2
(4.12)
una vez se tiene el estimador de b se puede calcular a a partir de (4.10) as
a = y

bx (4.13)
Le queda al estudiante demostrar que a y

b en realidad minimizan en lugar de maximizar la


suma de cuadrados del error.
Ejemplo 4.1. La resistencia a la tension de un producto de papel esta relacionada con la
cantidad de bra en la pulpa, en una planta piloto se toman las 5 muestras, cuyos datos y
algunos calculos se muestran en la tabla 4.1.
Muestra Resistencia Porcentaje
i y x x
2
xy
1 160 10 100 1600
2 171 13 169 2223
3 175 15 225 2625
4 182 20 400 3640
5 184 22 484 4048
Sumas 872 80 1378 14136
Tabla 4.1: Datos del ejemplo 4.1
De los datos se tiene que y = 174,4, x = 16 n = 5 luego

b =
14136 5 16 174,4
1378 5 16
2
=
184
98
= 1, 877
a =174,4 1, 877 16 = 144, 359
La ecuacion de regresion estimada corresponde a

E(y
i
) = a +

bx
i
= 143,359 + 1,877x
i
Supongamos que en el estudio del ingreso anual y a nos de escolaridad tambien consideramos
la edad de las personas como un factor que afecta el ingreso. El modelo se extiende entonces
a
E(y) = a + b
1
x
1
+ b
2
x
2
donde x
1
representa los a nos de escolaridad y x
2
la edad. Para el iesimo individuo tenemos
y
i
= a + b
1
x
i1
+ b
2
x
i2
+ e
i
si en lugar de a escribimos b
0
y entonces para b
0
escribimos b
0
x
i0
con x
i0
= 1 para todo i nos
queda
y
i
= b
0
x
i0
+ b
1
x
i1
+ b
2
x
i2
+ e
i
para i = 1, 2, , n
4.2. M

ETODOS DE ESTIMACI

ON 51
Denimos las siguientes matrices y vectores
X =
_

_
x
10
x
11
x
12
x
20
x
21
x
22
.
.
.
.
.
.
.
.
.
x
n0
x
n1
x
n2
_

_
, y =
_

_
y
1
y
2
.
.
.
y
n
_

_
, e =
_

_
e
1
e
2
.
.
.
e
n
_

_
y b =
_
_
b
0
b
1
b
2
_
_
El conjunto completo de ecuaciones es:
y = Xb +e con E(y) = Xb (4.14)
La extension a mas de dos variables es clara, para k variables
X =
_

_
x
10
x
11
x
1k
x
20
x
21
x
2k
.
.
.
.
.
.
.
.
.
x
n0
x
n1
x
nk
_

_
n(k+1)
y b =
_

_
b
1
b
2
.
.
.
b
k
_

_
(k+1)1
las ecuaciones (4.14) representan el modelo sin importar cuantas variables hay, digamos k
con tal que hayan menos variables que observaciones esto es k < n.
La especicacion completa del modelo requiere que sean denidas propiedades distribuciona-
les del vector e, por ahora todo lo que se necesita es el valor esperado y varianza; se asume
que
E(e) = 0 y Var(e) = E[e E(e)][e E(e)]

= E(e

e) =
2
I
n
(4.15)
La forma exacta de la distribucion de e se especicara mas tarde cuando sean consideradas
las pruebas de hipotesis y los intervalos de conanza para los parametros.
La derivacion del estimador mnimos cuadrados para

b sigue el mismo procedimiento usado en


el caso del modelo lineal simple, esto es: minimizar la suma de cuadrados de las desviaciones
de las observaciones a su valor esperado (e = y Xb). Los detalles de este y otros metodos
se muestran en la siguiente seccion.
4.2. Metodos de estimacion
Para una conveniente referencia resumimos cuatro metodos comunes de estimacion los cuales,
aunque dieren en los conceptos basicos, bajo ciertas suposiciones usadas frecuentemente,
conducen al mismo estimador.
Todos los 4 metodos son resumidos en terminos de modelos de rango completo, donde en
y = Xb +e, X tiene rango columna completo, E(y) = Xb y E(e) = 0
4.2.1. Mnimos cuadrados ordinarios
Este metodo escoge a

b como el valor de b que minimice la suma de cuadrados de las
desviaciones de las observaciones a su valor esperado, esto es: escoger

b como aquel valor de
52 CAP

ITULO 4. MODELOS DE REGRESI

ON
b que minimiza
e

e = (y Xb)

(y Xb) =
n

i=1
_
y
i
E(y
i
)

2
= (y

)(y Xb) = y

y y

Xb b

y +b

Xb
la matriz y

Xb es simetrica dado que es de orden 1 1 (un n umero) luego la podemos


reemplazar por su traspuesta quedando as
e

e = y

y b

y b

y +b

Xb
= y

y 2b

y +b

Xb
derivando con respecto a b se tiene ( recuerde las reglas de derivacion de matrices )
e

e
b
= 2X

y + 2X

Xb
Igualando a cero tenemos
X

y +X

b = 0
de donde
X

b = X

y (4.16)
Las ecuaciones 4.16 se conocen con el nombre de ecuaciones normales, suponiendo que
(X

X)
1
existe ellas tienen solucion unica para

b dada por

b = (X

X)
1
X

y (4.17)
Aqu es donde se aplica la descripcion de modelos de rango completo. Cuando X

X es de
rango completo hay solucion unica

b = (X

X)
1
X

y. Por otra parte, cuando existe (X

X)
1
no existe, una solucion puede ser escrita en terminos de una inversa generalizada de X

X
La matriz X

X es cuadrada de orden k + 1 con k el n umero de variables explicativas. Sus


elementos son sumas de cuadrados y productos internos de las columnas de X
Ejemplo 4.2. Para el modelo de regresion simple del ejemplo 4.1 tenemos
X =
_

_
1 10
1 13
1 15
1 20
1 22
_

_
con X

X =
_
5 80
80 1378
_
=
_
n

x
i

x
i

x
2
i
_
ademas
X

y =
_
1 1 1 1 1
10 13 15 20 22
_
_

_
160
171
175
182
184
_

_
=
_
872
14136
_
=
_
y
i

x
i
y
i
_
Por ultimo se tiene

=
1
490
_
1378 80
80 5
_ _
872
14136
_
=
_
144,359
1,877
_
4.2. M

ETODOS DE ESTIMACI

ON 53
En el caso de 2 variables explicativas y n observaciones se tiene
X =
_

_
1 x
11
x
12
1 x
21
x
22
.
.
.
.
.
.
.
.
.
1 x
n1
x
n2
_

_
con X

X =
_
_
n

x
i1

x
i2

x
i1

x
2
i1

x
i1
x
i2

x
i2

x
i1
x
i2

x
2
i2
_
_
y X

y =
_
_

y
i

x
i1
y
i

x
i2
y
i
_
_
Ejemplo 4.3. Consideremos el caso de dos variables explicativas y calculemos

, los datos
para este ejemplo se muestran en la tabla 4.2 Organizamos los datos en las matrices X y y
y x
1
x
2
81 1 150
89 1 180
83 2 150
91 2 180
79 1 150
87 1 180
84 2 150
90 2 180
Tabla 4.2: Datos para el ejemplo 4.3
y tenemos
X

X =
_
_
8 12 1320
12 20 1980
1320 1980 219600
_
_
y X

y =
_
_
684
1032
113310
_
_
la inversa de X

X es
(X

X)
1
=
1
1800
_
_
29475 1350 165
1350 900 0
165 0 1
_
_
y

=
1
4
_
_
159
12
1
_
_
4.2.2. Mnimos cuadrados generalizados
Este metodo asume que la matriz de varianza covarianza de e es Var(e) =
2
V y se debe
minimizar (y Xb)V
1
(y Xb)

. El modelo bajo consideracion es


y = Xb +e , con E(e) = 0 y Var(e) =
2
V
Dado que V es simetrica y denida positiva, el lema 3.4 garantiza que se puede hallar una
matriz simetrica no singular tal que P

P = PP = P
2
= V . Sea f = P
1
e entonces
E(f) = P
1
E(e) = P
1
0 = 0
por lo que
Var(f) = E
_
f E(f)
_
(f E(f)

= E(ff

) = E(P
1
ee

P
1
) = P
1
(
2
V )P
1
=
2
I
54 CAP

ITULO 4. MODELOS DE REGRESI

ON
se tiene entonces que E(f) = 0 y Var(f) =
2
I, si premultiplicamos el modelo por P
1
tenemos
P
1
y = P
1
X +P
1
e
z = Q +f (4.18)
donde z = P
1
y y Q = P
1
X. Como el modelo 4.18 cumple los supuestos E(f) = 0 y
Var(f) =
2
I, se pueden aplicar los resultados del procedimiento de mnimos cuadrados
ordinarios, a saber:

= (Q

Q)
1
Q

z
=
_
(P
1
X)

P
1
X

1
(P
1
X)

P
1
y
=
_
(X

P
1
P
1
X

1
X

P
1
P
1
y

=
_
X

V
1
X

1
X

V
1
y (4.19)
La formula 4.19 nos da el estimador por mnimos cuadrados generalizados para . Cabe
destacar que si V =
2
I el estimador de mnimos cuadrados generalizados coincide con el
estimador de mnimos cuadrados ordinarios
4.2.3. Maxima Verosimilitud
Con la estimacion de mnimos cuadrados no se hace ninguna suposicion acerca de la forma de
la distribucion de los terminos de error aleatorios en el modelo. Con la estimacion de maxima
verosimilitud se hace alguna suposicion acerca de esta distribucion (a menudo que es normal)
y se maximiza la verosimilitud de las observaciones muestrales representadas por los datos.
Asumiendo que e N(0, V ), la verosimilitud es:
L =
1
(2)
n/2
|V |
1/2
exp
_

1
2
e

V
1
e

=
exp
_

1
2
(y X)

V
1
(y X)

(2)
n/2
|V |
1/2
Maximizar esta funcion con respecto a es equivalente a resolver (ln L)/
ln(L) =
1
2
(y X)

V
1
(y X) ln
_
(2)
n/2
|V |
1/2

=
1
2
(y X)

V
1
(y X) ln[C]
=
1
2
(y

V
1
y 2

V
1
y +

V
1
X) ln[C]
Derivando con respecto a se obtiene
(ln L)

=
1
2
(2X

V
1
y + 2X

V
1
X)
= X

V
1
y X

V
1
X)
4.2. M

ETODOS DE ESTIMACI

ON 55
Si igualamos (ln L)/ a cero y colocamos

en lugar de tenemos
X

V
1
X

= X

V
1
y
de donde asumiendo que X

X es de rango completo, se obtiene

= (X

V
1
X)
1
X

V
1
y
notese que si V =
2
I el estimador coincide con el de mnimos cuadrados ordinarios (MCO)
4.2.4. Mejor estimador lineal insesgado
Para cualquier vector la t conformable con b, el escalar t

b es una funcion lineal de los


elementos del vector de parametros b. Un cuarto metodo de estimacion genera el mejor
estimador lineal insesgado de t

b.
Las tres caractersticas del estimador, inherentes en la denicion conducen a su derivacion.
i. Linealidad. El estimador debe ser una funcion lineal de las observaciones y. Sea el esti-
mador

y, donde

es un vector la de orden n.

es determinado de manera unica


por las otras dos caractersticas de la denicion.
ii. Insesgamiento.

y debe ser un estimador insesgado de t

b es decir E

y = t

b esto es

E(y) =

Xb = t

b
ya que esto debe ser cierto para todo b entonces se tiene

X = t

(4.20)
iii. El mejor estimador. Mejor signica que en la clase de los estimadores lineales e insesgados
de t

b, el que buscamos debe tener la menor varianza. Este es el criterio para determinar
. Supongamos que Var(y) = V entonces v(

y) =

V . Debemos escoger que mini-


mice

V sujeto a la restriccion

X = t

. Usando 2 como vector de multiplicadores


de Lagrange minimizamos
w =

V 2

(X

t) (4.21)
derivando w con respecto a tenemos
w

= 0 2(X

t)
de donde igualando a cero obtenemos (4.20). Para derivar con respecto a , por como-
didad escribimos w =

V 2(

X t

) con lo cual se tiene


w

= 2V 2(X)
56 CAP

ITULO 4. MODELOS DE REGRESI

ON
si
w

= 0 entonces V X = 0 por lo que V = X de donde se tiene


= V
1
X (4.22)
usando (4.20) y (4.22) tenemos
t

X = (V
1
X)

X =

V
1
X
de esta ultima ecuacion, postmultiplicando por (X

V
1
X)
1
se tiene

= t

(X

V
1
X)
1
(4.23)
reemplazando (4.23) en (4.22) tenemos

V
1
= t

(X

V
1
X)
1
X

V
1
por tanto el mejor estimador lineal insesgado (M.E.L.I) para t

b es

b = t

(X

V
1
X)
1
X

V
1
y (4.24)
y su varianza es
v(

b) = t

(X

V
1
X)
1
t (4.25)
4.3. Propiedades del estimador de .
En esta seccion se discuten las propiedades de

= (X

X)
1
X

y y las consecuencias de dicha


estimacion. Los topicos tratados en esta seccion estan basados en dos propiedades atribuidas
a e, a saber, E(e) = 0 y Var(e) =
2
I. En la siguiente seccion consideraremos propiedades
distribucionales basadas en la suposicion de normalidad de los errores
Insesgamiento.

es un estimador insesgado de . En efecto


E(

) = E
_
(X

X)
1
X

= (X

X)
1
X

E(y) = (X

X)
1
X

X =
Varianza.
Por denicion, la matriz de varianza covarianza de

es
Var(

) = E[

E(

)][

E(

)]

= E[

][

pero recordemos que



= (X

X)
1
X

y y ademas podemos escribir = (X

X)
1
(X

X)
as que
4.3. PROPIEDADES DEL ESTIMADOR DE . 57
Var(

) = E[(X

X)
1
X

y (X

X)
1
(X

X)][(X

X)
1
X

y (X

X)
1
(X

X)]

= (X

X)
1
X

E[y X][y X]

X(X

X)
1
= (X

X)
1
X

E[e][e]

X(X

X)
1
= (X

X)
1
X

(
2
I)X(X

X)
1
=
2
(X

X)
1
Otra forma de obtener la varianza de

es recordando que si y = Ax entonces Var(y) =
AVar(x)A

, por tanto como



= (X

X)
1
X

y se tiene que
Var(

) = (X

X)
1
X

Var(y)X(X

X)
1
= (X

X)
1
X

(
2
I)X(X

X)
1
=
2
(X

X)
1
Estimando E(y).
El estimador

puede usarse para estimar E(y). Analogo al modelo
E(y) =
0
+
1
x
1
+ +
k
x
k
tenemos

E(y) =

0
+

1
x
1
+ +

k
x
k
Si x

0
=
_
x
00
x
01
x
0k

es un conjunto de valores x

s, con x
00
= 1, para el que deseamos
estimar el correspondiente valor de E(y), dicho estimador es

E(y) =

0
x
00
+

1
x
01
+ +

k
x
0k
= x

el cual se conoce como el valor esperado de y estimado, correspondiente al conjunto de valores


x

s. Cuando este conjunto de valores es uno de los datos, x


0
es una la de X, en ese caso
x

es un elemento de X

. Correspondiente a E(y) = X tenemos por tanto como caso


especial

E(y) = X

que son los valores esperados de y estimados correspondientes a los n valores observados de
los datos. Algunas veces estos son llamados valores ajustados o valores y estimados
Varianza de E(y).
Veamos a que es igual la varianza de E(y).
Var[E(y)] = Var[X

] = XVar[

]X

=
2
X(X

X)
1
X

Si x
0
es una la de la matriz X entonces el valor esperado de y
0
= x
0
+e
0
es E(y
0
) = x
0

y su estimador es

E(y
0
) = x

, veamos cual es su varianza


v(

E(y
0
)) = v(x

) = x

0
Var(

)x
0
=
2
x

0
(X

X)
1
x
0
58 CAP

ITULO 4. MODELOS DE REGRESI

ON
Consideremos una observacion futura, digamos y
f
correspondiente a alg un vector de valores
x

s, digamos x
f
entonces, por el modelo
y
f
= x

f
+ e
f
la mejor prediccion disponible de y
f
, que llamaremos y
f
es
y
f
= x

As, x

puede usarse como prediccion de una observacion futura correspondiente a x

f
o
como un estimador del valor esperado E(y
f
) correspondiente a x

f
.
Con el primero de los usos nos debemos preguntar como varia una observacion futura alre-
dedor de su prediccion y
f
= x

, para ver eso consideremos la desviacion de cualquier y


f
de
y
f
y
f
y
f
= x

f
+ e
f
x

= x

f
(

) + e
f
como y
f
es una observacion obtenida independientemente de los datos usados para obtener

, tenemos que

y e
f
son independientes, as que Cov(

, e
f
) = 0 luego
v(y
f
y
f
) =v[x

f
(

)] + v[e
f
]
=x

f
Var(

)x
f
+
2
=x

f
Var(

)x
f
+
2
=
2
x

f
(X

X)
1
x
f
+
2
=
2
[x

f
(X

X)
1
x
f
+ 1]
En resumen, el valor esperado estimado de y correspondiente a una observacion futura x
f
es

E(y
f
) = x
f

con varianza
2
x

f
(X

X)
1
x
f
y la prediccion de una observacion correspon-
diente a x
f
es el mismo valor, x
f

, siendo la varianza de las desviaciones de los valores y


(correspondientes a x
f
) de su prediccion, igual a
2
[x

f
(X

X)
1
x
f
+ 1] esos resultados son
ciertos para cualquier valor de x
f
Suma de cuadrados del error
Usaremos y para simbolizar

E(y), el vector de valores esperados estimados correspondientes
al vector de observaciones y esto es
y =

E(y) = X

el vector de desviaciones de los y

s observados de sus correspondientes predichos (predicted)


es por tanto
y y = y X

= y X(X

X)
1
X

y = [I
n
X(X

X)
1
X

]y (4.26)
El vector dado por (4.26) se conoce como vector de residuales. Queda como ejercicio para el
estudiante vericar las siguientes propiedades
4.3. PROPIEDADES DEL ESTIMADOR DE . 59
i) La matriz I
n
X(X

X)
1
X

es simetrica e idempotente.
ii) [I
n
X(X

X)
1
X

]X = 0
np
iii) X

[I
n
X(X

X)
1
X

] = 0
pn
La suma de cuadrados de las desviaciones de los y observados de su valor esperado se conoce
como la suma de cuadrados del error, para la cual usaremos la sigla SCE
SCE =
n

i=1
(y
i
y)
2
= (y y)

(y y)
Usando (4.2) junto con las propiedades de la matriz I
n
X(X

X)
1
X

se verica que
SCE =y

[I
n
X(X

X)
1
X

][I
n
X(X

X)
1
X

]y (4.27)
=y

[I
n
X(X

X)
1
X

]y
=y

y y

[X(X

X)
1
X

]y (4.28)
=y

y (4.29)
El termino y

y en (4.29) es la suma de cuadrados de las observaciones y usaremos el smbolo


SCT y

y se conoce como la suma de cuadrados de la regresion (o del modelo) y usaremos


el smbolo SCR para referirnos a ella.
Estimador para la varianza del error
Para construir intervalos de conanza y probar hipotesis con respecto a los parametros del
modelo se supone que el vector de errores, e tiene distribucion normal con vector de medias
cero y matriz de varianza covarianza
2
I
n
, en otras palabras e
i
(0,
2
) para todo i =
1, 2 , n y Cov(e
i
, e
j
) = 0 para todo i = j.
El valor de es desconocido y necesitamos estimarlo, se demostrara a continuacion que a
partir de la SCE se puede obtener un estimador insesgado para
2
, para eso examinamos
que es E(SCE).
A Partir de (4.27) es claro que SCE es una forma cuadratica en y y sabemos que y
(X,
2
I) entonces
E(SCE) = Tr
_
(I
n
X(X

X)
1
X

)
2

[I
n
X(X

X)
1
X

]X
=
2
Tr(I
n
X(X

X)
1
X

)
=
2
_
Tr(I
n
) Tr(X(X

X)
1
X

=
2
_
n Tr(X

X(X

X)
1
)

=
2
_
n Tr(I
p
)

=
2
_
n p

as que
E(SCE)
np
=
2
por tanto un estimador insesgado para
2
es

2
=
SCE
n p
(4.30)
60 CAP

ITULO 4. MODELOS DE REGRESI

ON
4.4. Particion de la suma de cuadrados total.
A partir de (4.29) tenemos que y

y =

y + SCE , escrito de otra forma


SCT = SCR + SCE
la diferencia SCR = SCT SCE =

y representa la porcion de la suma de cuadrados


total atribuible al ajuste del modelo de regresion y por eso se llama suma de cuadrados debido
a la regresion o reduccion en la suma de cuadrados debido al ajuste del modelo. Esta particion
de la SCT se resume un una forma tal que sirve como fundamento para la tradicional tabla
de analisis de varianza.
SCR

y
SCE y

y
SCT y

y
Si suponemos que el modelo no tiene variables x

s, es decir y
i
=
0
+ e
i
entonces

0
= y y
la suma de cuadrados del modelo seria ny
2
, esta ultima expresion se conoce como correccion
por la media o factor de correccion y usamos el smbolo SCM. Es claro que podemos escribir
SCT = SCM + (SCR SCM) + SCE
escribiremos SCR
m
= SCRSCM =

y ny
2
, de esta manera podemos particionar la
suma de cuadrados total as
SCM ny
2
SCR
m

y ny
2
SCE y

y
SCT y

y
SCR
m
se conoce como la suma de cuadrados de la regresion corregida por la media. Similar-
mente SCT SCM = y

y ny
2
se conoce como la suma de cuadrados total corregida por
la media la cual notaremos por SCT
m
y se puede particionar as: SCT
m
= SCR
m
+ SCE
escrita en forma de tabla nos queda
SCR
m

y ny
2
SCE y

y
SCT
m
y

y ny
2
este formato es identico al de la primera particion, solo aqu se usan sumas de cuadrados
corregidas.
Correlacion m ultiple.
Una medida de la bondad de ajuste de la regresion es el coeciente de correlacion m ultiple
el cual se denota con R y se calcula seg un
R
2
=
SCR
SCT
4.5. PROPIEDADES DISTRIBUCIONALES 61
para el modelo sin intercepto y por
R
2
=
SCR
m
SCT
m
para el modelo con intercepto. Este valor representa la proporcion de la suma de cuadrados
que es explicada por el ajuste del modelo.
Ejemplo 4.4. Continuando con el ejemplo 4.3 se verica que
y =

E(y) =
1
4
_

_
1 1 150
1 1 180
1 2 150
1 2 180
1 1 150
1 1 180
1 2 150
1 2 180
_

_
_
_
159
12
1
_
_
=
_

_
80,25
87,75
83,25
90,75
80,25
87,75
83,25
90,75
_

_
el vector de residuales o errores estimados es
e = y y = [I
n
X(X

X)
1
X

]y =
_

_
0,75
1,25
0,25
0,25
1,25
0,75
0,75
0,75
_

_
la suma de cuadrados total es SCT = y

y = 58618 la suma de cuadrados del error es


SCE = e

e = y

[I
n
X(X

X)
1
X

]y = 5,5, la suma de cuadrados de la regresion es


SCR =

y = 58612,5 el factor de correccion SCM = ny


2
= 58482, el estimador para la
varianza del error es
2
=
5,5
83
= 1,1 estos resultados se resumen en la siguiente tabla.
Particion 1 Particion 2 Particion 3
SCM = 58482
SCR = 58612,5 SCR
m
= 130,5 SCR
m
= 130,5
SCE = 5,5 SCE = 5,5 SCE = 5,5
SCT = 58618 SCT = 58618 SCT
m
= 136
4.5. Propiedades distribucionales
Se asume que e N(0,
2
I) y se deduce la distribucion de las estadsticas.
62 CAP

ITULO 4. MODELOS DE REGRESI

ON
y es normal
Sabemos que si x es normal con vector de medias y matriz de varianza covarianza
x
entonces y = Ax + b tiene distribucion normal con vector de medias A + b y matriz de
varianza covarianza
y
= A

x
A (propiedad de linealidad). En nuestro caso y = X +e o
lo que es lo mismo y = e +X aplicando la propiedad de linealidad con A = I
n
y b = X
tenemos que
y N(X,
2
I)

es normal
Tenemos que

= (X

X)
1
X

y con y N(X,
2
I) aplicando la propiedad de linealidad,
con A = (X

X)
1
X

y b = 0 tenemos que

es normal con media (X

X)
1
X

X = y
matriz de varianza covarianza (X

X)
1
X

(
2
I)X(X

X)
1
=
2
(X

X)
1
es decir

N(,
2
(X

X)
1
)

y
2
son independientes
Sabemos que
2
=
SCE
np
con SCE = y

[I
n
X(X

X)
1
X

]
. .
A
y la cual es una forma cuadratica
en y y

= (X

X)
1
X

. .
B
y es una forma lineal en y el cual tiene distribucion N(X,
2
I
..
V
).
Tenemos que
(X

X)
1
X

(
2
I)[I
n
X(X

X)
1
X

] =
2
(X

X)
1
X

[I
n
X(X

X)
1
X

] = 0
pn
as que por el teorema 3.3

y
2
son independientes
SCE

2
tiene distribucion
2
central
Tenemos que SCE/
2
= y

2
[I
n
X(X

X)
1
X

]y
. .
A
es una forma cuadratica en y, con
y N(X,
2
I
..
V
)
AV =
1

2
[I
n
X(X

X)
1
X

]
2
I = I
n
X(X

X)
1
X

que es una matriz idempotente, as que por el teorema 3.2 se tiene que
SCE

2

2

[r(I
n
X(X

X)
1
X

),

(I
n
X(X

X)
1
X

)X]

[r(I
n
X(X

X)
1
X

), 0]

2
r(InX(X

X)
1
X

2
np
4.5. PROPIEDADES DISTRIBUCIONALES 63
el paso de distribucion no central a central se justica por el parametro de no centralidad
igual a cero.
1
para justicar que r(I
n
X(X

X)
1
X

) = n p usamos un resultado de
algebra lineal que establece que el rango se una matriz idempotente es igual a su traza y
ademas se usa la propiedad Tr(AB) = Tr(BA).
SCR

2
,
SCM

2
y
SCR
m

2
tienen distribucion
2
no central
Sabemos que
SCR

2
=
1

y =
1

2
y

[X(X

X)
1
X

]y que es una forma cuadratica en y,


el cual tiene distribucion N(X,
2
I), ademas
1

2
[X(X

X)
1
X

][
2
I] = X(X

X)
1
X

que es una matriz idempotente, as que aplicando el teorema 3.2,


SCR

2
tiene distribucion
2
no central con r[X(X

X)
1
X

] = n p grados de libertad y parametro de no centralidad

[X(X

X)
1
X

]X =

[X

X] es decir
SCR

2

2

[n p,

[X

X]]
queda como ejercicio para el estudiante demostrar lo mismo para SCR
m
/sigma
2
y SCM/
2
.
Veanse los ejercicios ?? y ??
SCR

2
,
SCM

2
y
SCR
m

2
son independientes de SCE
Tenemos que SCR = y

[X(X

X)
1
X

]y y SCE = y

[I
n
X(X

X)
1
X

]y son formas
cuadraticas en y y
[X(X

X)
1
X

][
2
I][I
n
X(X

X)
1
X

] = 0
luego por el teorema 3.4 podemos concluimos que SCR y SCE con independientes. Queda
como ejercicio al estudiante demostrar que SCR
m
y SCM son independientes de SCE:
Veanse los ejercicios ?? y ??
Distribuciones F
Recordemos que si u
1
es una variable aleatoria con distribucion
2
no central con n
1
grados
de libertad y parametro de no centralidad
1
y u
2
tiene distribucion
2
central con n
2
grados
de libertad independiente de u
1
entonces el cociente v =
u
1
/n
1
u
2
/n
2
tiene distribucion F no
central con n
1
grados de libertad en el numerados, n
2
grados de libertad en el denominador
y parametro de no centralidad , aplicando ese resultado podemos concluir:
1
Cuando el par ametro de no centralidad es cero, la distribuci on es central
64 CAP

ITULO 4. MODELOS DE REGRESI

ON
i. Como SCR/
2

2

[p,

[X

X]
2
2
], SCE/
2

2
np
y son independientes, entonces
F(R) =
SCR/
2
p
SCE/
2
np
=
SCR/p
SCE/(n p)
F

_
p, n p,

[X

X]
2
2
_
ii. Con argumentos similares se demuestra que
F(R
m
) =
SCR
m
/(p 1)
SCE/(n p)
tiene distribucion F no central con n 1 grados de libertad en el numerador y n p
grados de libertad en el denominador, Cual es el parametro de no centralidad?.
iii. De igual manera
F(SCM) =
SCM
SCE/(n p)
F

_
1, n p,
(1

X)
2
2n
2
_
El calculo de las estadsticas anteriores se resume en lo que se conoce como una tabla de
analisis de varianza. Cada una de las particiones de la suma de cuadrados que se mostro en
la seccion 4.4 proporciona una tabla de analisis de varianza, las cuales se muestran en las
tablas 6.3, 6.4 y 6.5.
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion p SCR =

y CMR =
SCR
p
F(R) =
CMR
CME
Error n p SCE = y

y CME =
SCE
np
Total n SCT = y

y
Tabla 4.3: Analisis de varianza a partir de la particion 1
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Media SCM = ny
2
Regresion p SCR =

y CMR =
SCR
p
F(R) =
CMR
CME
Error n p SCE = y

y CME =
SCE
np
Total n SCT = y

y
Tabla 4.4: Analisis de varianza a partir de la particion 2
4.6. PRUEBAS DE HIP

OTESIS 65
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion (c.p.m) p 1 SCR
m
=

y ny
2
CMR
m
=
SCR
p
F(R
m
) =
CMRm
CME
Error n p SCE = y

y CME =
SCE
np
Total(c.p.m) n 1 SCT = y

y ny
2
Tabla 4.5: Analisis de varianza a partir de la particion 3
4.6. Pruebas de hipotesis
Prueba basada en F(R)
la tabla 6.3 muestra el estadstico F(R) que esta distribuido como una F no central con
parametro de no centralidad

[X

X]
2
2
el cual es cero bajo la hipotesis nula H
0
: = 0.
Cuando la hipotesis = 0 es cierta entonces F(R) tiene una distribucion F central con n
y n p grados de libertad y por tanto puede ser comparado con los valores tabulados de la
distribucion F y
Rechace H
0
: = 0 si F(R) F
n,np,
Cuando F(R) es signicante (me lleva a rechazar la hipotesis) se concluye que hay concor-
dancia de los datos con la suposicion del modelo, es decir, el modelo explica una porcion
signicante de la variacion de y
Prueba basada en F(M)
El parametro de no centralidad de la estadstica F(M) de la tabla de analisis de varianza 6.4
es (1

X)
2
/2n
2
pero
1

X = 1

E(y) = E(1

y) = E(ny) = nE(y)
luego podemos escribir el parametro de no centralidad como
nE(y)
2
2
2
el cual es cero bajo la hipotesis nula H
0
: E(y) = 0, por tanto, el estadstico F(M) tendra
una distribucion F central con 1 y np grados de libertad y puede usarse para probar dicha
hipotesis, usualmente se reere a esta hipotesis como probando la media.
Otra forma de ver la prueba proporcionada por F(M) es basandose en el modelo y
i
=
0
+e
i
(o E(y
i
) =
0
). La reduccion el la suma de cuadrados debido a ajustar este modelo es
SCM. Usando el supuesto E(y
i
) =
0
se demuestra que el parametro de no centralidad de la
distribucion de F(M) es
n
2
0
2
2
que es cero cuando
0
= 0, por tanto este estadstico se puede usar para probar si el modelo
y
i
=
0
+ e
i
explica la variacion de la y
66 CAP

ITULO 4. MODELOS DE REGRESI

ON
Prueba basada en F(R
m
)
Usando la prueba basada en F(R) estamos contrastando la hipotesis que todos los

i
s, inclu-
yendo
0
son simultaneamente iguales a cero. Sin embargo , si queremos probar la hipotesis
H
0
:
1
= 0, donde
1
representa el vector de parametros sin el termino de intercepto
0
,
debemos usar F(R
m
). Se puede demostrar que el parametro de no centralidad de esta es-
tadstica es cero cuando asumimos que
1
= 0 (ver ejercicio ??), en cuyo caso F(R
m
) tendra
una distribucion F central con p 1 y n p grados de libertad. As que F(R
m
) proporciona
una prueba para la hipotesis H
0
:
1
= 0
Se rechaza H
0
:
1
= 0 si F(R
m
) > F
p1,np,
En caso de rechazar H
0
no debe tomarse como evidencia que todos los elementos de
1
son
distintos de cero, sino que al menos uno lo es
Ejemplo 4.5. Continuando con el ejemplo 4.3 el la tabla , se resume el calculo de de la
estadstica F(R), el valor obtenido de la tabla de la distribucion F con 3 grados de libertad
en el numerador y 5 grados de libertad en el denominador con = 0,05 es F
3,5,0,05
= 5,409
que es menor que el valor calculado a partir del analisis de varianza por tanto rechazamos la
hipotesis H
0
: = 0
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion 3 58612.5 19537.5 17761.364
Error 5 5.5 1.1
Total 8 58618
Tabla 4.6: Analisis de varianza (particion 1), usando los datos del ejemplo 4.3
La tabla 4.7 muestra el calculo de F(R
m
) y de F(M). El valor de la tabla de la distribucion
F con 1 y 5 grados de libertad es 6.607 como F(M) es mayor que este valor se rechaza
la hipotesis H
0
: E(y) = 0, o equivalentemente podemos armar que el modelo y
i
=
0
+ e
i
explica una considerable porcion de la variacion de y. F(R
m
) es mayor que el valor de la tabla
de la distribucion F
2,5
con = 0,05 (5.786) por tanto rechazamos la hipotesis H
0
:
1
= 0, es
decir alguno de los parametros del modelo,
1
o
2
o ambos son estadsticamente diferentes
de cero. La tabla 4.8 muestra el analisis de varianza de acuerdo con la particion 3. Esta tabla
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Media 1 58482 58482 53165.455
Regresion 2 130.5 65.25 59.318
Error 5 5.5 1.1
Total 8 58618
Tabla 4.7: Analisis de varianza (particion 2), usando los datos del ejemplo 4.3
es la que presenta el procedimiento REG de S.A.S

y la mayoria de los paquetes estadsticos.


4.7. ERROR PURO Y ERROR POR FALTA DE AJUSTE 67
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion 2 130.5 65.25 59.318
Error 5 5.5 1.1
Total 8 58618
Tabla 4.8: Analisis de varianza (particion 3), usando los datos del ejemplo 4.3
X Y X Y
4,0 27,5 5,0 32,3
4,0 25,0 5,0 30,9
4,0 28,5 5,0 31,3
4,5 31,4 5,5 33,6
4,5 25,2 5,5 34,6
4,5 29,7 5,5 33,5
Tabla 4.9: Datos con medidas x

s repetidas
4.7. Error puro y error por falta de ajuste
Los datos algunas veces tienen la caracterstica que el conjunto de valores x

s correspondientes
a varios y

s son los mismos, como ocurre con los datos de la tabla 4.9, estos se conocen datos
con medidas x

s repetidas, y su presencia provee una particion de la SCE en dos terminos


uno de los cuales representa el error puro, es decir
SCE = SCE
p
+ SCE
FA
SCE
p
tiene n r grados de libertad y SCE
FA
r p, donde p es el numero de parametros y
r es el numero de x

s que estan repetidos.


SCE
p
/n r, conocido como cuadrado medio del error puro proporciona una estimacion de
que no depende del modelo escogido. SCE
FA
/r p se conoce como cuadrado medio del
error por falta de ajuste del modelo y el cociente
F(FA) =
CME
FA
CME
p
tiene una distribucion F con r p y n r grados de libertad, el cual se compara contra
F
rp,nr,
, si F(FA) > F
rp,nr,
indica que el modelo es inadecuado
Ejemplo 4.6. Consideremos los datos de la tabla 4.9. El analisis de varianza se muestra a
continuacion
FV GL SC CM F
Regresion 1 82.36 82.36817 28.054
Error 10 29.36 2.93610
FA 2 0.5534 0,276 0.076
EP 8 28.8066 3,600
C Total 11 111.72
68 CAP

ITULO 4. MODELOS DE REGRESI

ON
Para particionar la suma de cuadrados del error debemos calcular las varianzas para cada
valor de X. Realizados los calculos tenemos S
2
1
= 3,25, S
2
2
= 10,2633, S
3
= 0,520 , S
2
4
= 0,37
y la suma de cuadrados del error puro es
SCEP = 2 3,25 + 2 10,2633 + 2 0,520 + 2 0,37 = 28,8066
por tanto la suma de cuadrados del error por falta de ajuste es
SCEFA = SCE SCEP = 29,36 28,8066 = 0,5534
observese que el valor de F(FA) no es signicante por lo tanto concluimos que el modelo es
apropiado.
4.8. Intervalos de conanza
Vimos que bajo el supuesto de normalidad de los errores

tiene distribucion normal con
media y matriz de varianza covarianza (X

X)
1
de modo que

a
ii

2
N(0, 1)
para i = 0, 1, 2, , p 1, donde a
ii
es el (i +1)esimo elemento de la diagonal de la matriz
(X

X)
1
, ademas
(n p)
2

2

2
np
independiente de

i
por lo tanto
(

i
)/

a
ii

/
=

a
ii

t
np
donde t
np
representa la distribucion t de student con n p grados de libertad. Un intervalo
de conanza al 100(1 ) % para
i
esta dado por

i
t
np,/2

a
ii
Un intervalo de conanza para la combinacion lineal q

se construye de manera similar. Si

es normal entonces
q

N(q

,
2
q

(X

X)
1
q)
por tanto
q

_
q

(X

X)
1
q
N(0, 1)
con un razonamiento similar al anterior se demuestra que
q


_
q

(X

X)
1
q
t
np
4.9. HIP

OTESIS LINEAL GENERAL 69


por lo tanto un intervalo de conanza para q

es
q

t
np,

_
q

(X

X)
1
q
Para probar la hipotesis
H
0
:
i
= 0
H
1
:
i
= 0
usamos el estadstico
t =

a
ii
y rechazamos la hipotesis nula H
0
en favor de la alternativa H
1
, con un nivel de signicacion
si |t| > t
np,/2
. Similarmente, para probar la hipotesis
H
0
: q

= 0
H
1
: q

= 0
Usamos el estadstico de prueba
t =
q


_
q

(X

X)
1
q
y rechazamos H
0
en favor de H
1
, con un nivel de signicacion si |t| > t
np,/2
Ejemplo 4.7. Como una continuacion del ejemplo 4.3 recordemos que

=
1
4
_
_
159
12
1
_
_
con (X

X)
1
=
1
1800
_
_
29475 1350 165
1350 900 0
165 0 1
_
_
y del analisis de varianza tenemos que
2
= 1,1 as que = 1,0488 estamos interesados
en estimar el parametro
1
con un intervalo al 95 % de conanza. En ese caso tenemos:
a
11
=
900
1800
=
1
2
(el segundo elemento de la diagonal de la matriz (X

X)
1
) y en la tabla
t
5,0,025
= 2,5706, as que
3 2,5706 1,0488
_
1
2
4.9. Hipotesis lineal general
En modelos lineales abundan diferentes clases de hipotesis que podran ser de interes para el
investigador en diferentes capos de aplicacion. Cuatro hipotesis de interes son:
i. H : = 0, la hipotesis que todos los elementos de son cero.
ii. H : =
0
, la hipotesis que
i
=
i0
para i = 0, 1, 2 , k
70 CAP

ITULO 4. MODELOS DE REGRESI

ON
iii. H :

= m, la hipotesis que alguna combinacion lineal de los elementos de beta es


igual a alguna constante especca.
iv. H :
q
= 0, la hipotesis que q de los
i
son ceros q < p
estas hipotesis pueden ser manipuladas por un procedimiento universal. La hipotesis lineal
que consideraremos
H : K

= m
donde K

es cualquier matriz de s las y p columnas y mes un vector de constantes especicas


de orden s.
La unica limitacion es que K

debe ser de rango la completo, es decir r(K

) = s, esto signica
que las funciones lineales de la hipotesis deben ser linealmente independientes. El hecho que
K

sea de rango la completo garantiza que las ecuaciones K

= m son consistentes
para cualquier vector m. Ahora desarrollaremos el estadstico F para probar la hipotesis
H : K

= m. Recordemos que
y N(X,
2
I)

= (X

X)

1X

N[, X

X)

1
2
]
4.10. Ejemplo (Hipotesis lineal general)
Hipotesis K

b = m
Consideremos los siguientes datos
y x
1
x
2
x
3
6,68 32,6 4,78 1092
6,31 33,4 4,62 1029
7,13 33,2 3,72 511
5,81 31,2 3,29 518
5,68 31.0 3,25 582
7,66 31,8 7,35 509
7,30 26,4 4,92 942
6,19 26,2 4,02 952
7,31 26,6 5,47 792
Tabla 4.10: Datos para el ejemplo
para ajustar el modelo
y = b
0
+ b
1
x
1
+ b
2
x
2
+ b
3
x
3
+
tenemos
X

X =
_

_
9 272,4 41,42 6927
272,4 8317,2 1251,482 208201,2
41,42 1251,482 203,728 32005,45
6927 208201,2 32005,45 5799487
_

_
4.10. EJEMPLO (HIP

OTESIS LINEAL GENERAL) 71


y
X

X
1
=
1
8962
_

_
19,1704 0,4906 0,4028 0,0031
0,4906 0,0148 0,0020 0,0000
0,4028 0,0020 0,0768 0,0000
0,0031 0,0000 0,0000 0,0000
_

_
el vector de parametros estimados es

b =
_
5,6980 0,0280 0,4415 0,0003

la tabla de
analisis de varianza es:
Fuente GL SC CM F
Modelo Completo 4 403.58 100.89
Error 5 1.43 0.286
Total 9 405.01
para probar la hipotesis H
0
: b
1
+ b
2
= 1 hacemos K

=
_
0 1 1 0

, m =
_
1

por lo tanto
K

b = 0,413 y K

bm = 0,587 ademas K

(X

X)
1
K = 0,0955 y [K

(X

X)
1
K]
1
=
10,471 reemplazado estos valores en la formula de Q se tiene Q = 3,60 por lo tanto, el
estadstico F(H) para probar la hipotesis es
F(H) =
Q
s
2
=
3,60
1 0,286
= 12,58
como F
1,5,0,05
= 6,61 rechazamos H
0
Un modelo reducido, derivado al reemplazar b
2
por 1 b
1
sera
y x
2
= b
0
+ b
1
(x
1
x
2
) + b
3
x
3
+
para el cual los datos son:
y
1
= y x
2
x

1
= x
1
x
2
x
3
1.90 27.82 1092
1.69 28.78 1029
3.41 29.48 511
2.52 27.91 518
2.43 27.75 582
0.31 24.45 509
2.38 21.48 942
2.17 22.18 952
1.84 21.13 792
Tabla 4.11: Datos para ajustar el modelo reducido y x
2
= b
0
+ b
1
(x
1
x
2
) + b
3
x
3
+
para el modelo reducido, con los datos de la tabla 4.11, el an alisis de varianza es
Fuente GL SC
Modelo Reducido 3 39.17
Error 6 5.03
Total 9 44.20
72 CAP

ITULO 4. MODELOS DE REGRESI

ON
notese que SCE(Reducido) = SCE(Completo) + Q = 1,43 + 3,6 = 5,03.
El estimador de b bajo la hipotesis nula es

b =
_

_
5,6980
0,0280
0,4415
0,0003
_

10,471 0,587
8962
_

_
19,1704 0,4906 0,4028 0,0031
0,4906 0,0148 0,0020 0,0000
0,4028 0,0020 0,0768 0,0000
0,0031 0,0000 0,0000 0,0000
_

_
_

_
0
1
1
0
_

_
=
_

_
0,2131
0,0748
0,9252
0,0001
_

_
notese que

b
1
+

b
2
= 1 tal como lo impone la restriccion.
Hipotesis K

b = 0
Para probar la hipotesis del tipo K

b = 0, por ejemplo H
0
: b
1
= b
3
= 0, que es equivalente
a probar
_
H
0
: b
1
b
3
= 0 y
H
0
: b
1
= 0
(4.31)
tomamos
K

=
_
0 1 0 1
0 1 0 0
_
y m =
_
0
0
_
En este caso s = 2 ademas, Q = 0,0688 y como
2
= 0,286 se tiene que F(H) =
0,0688/2
10,286
= 0,12
es este caso es posible particionar la suma de cuadrados de la regresion en dos componentes;
una correspondiente a la hipotesis y otra correspondiente al modelo reducido, as
Fuente GL SC CM F
Modelo Completo 4 403,58 100,89 352,52
Hipotesis 2 Q = 0,0688 0,0344 0,1203
Modelo reducido 2 403,5117
Error 5 1,43 0,286
Total 9 405,01
El estimador de b bajo la hipotesis nula es:

b =
_

_
4,6332
0,0000
0,4435
0,0000
_

_
notese nuevamente

b
1
=

b
3
= 0 como lo impone la hipotesis.
Para ver que efectivamente la suma de cuadrados del modelo reducido es la que se muestra
en la tabla anterior, introducimos explcitamente la hip otesis en el modelo y = b
0
+ b
1
x
1
+
b
2
x
2
+ b
3
x
3
+ para obtener el modelo reducido
y = b
0
+ b
2
x
2
+
4.10. EJEMPLO (HIP

OTESIS LINEAL GENERAL) 73


cuya tabla de analisis de varianza es
Fuente GL SC
Modelo Reducido 2 403.5117
Error 7 1.4999
Total 9 405.0117
Notese que con esta hipotesis la suma de cuadrado total del modelo reducido coincide
con la del modelo completo, ademas SCE(Completo) + Q = 1, 43 + 0,0688 = 1,5687 =
SCE(Reducido) y observe tambien que SCR(Completo) = SCR(Reducido) + Q
74 CAP

ITULO 4. MODELOS DE REGRESI

ON
4.11. Ejercicios
1. Sea x N
k
(, ) donde = 1
k
y =
2
[(1 )I
k
+ 1
k
1

k
], 0 < 1
a) Cual es la distribucion de X =

k
i=1
X
i
_
k
b) Cual es la distribucion de Q =

k
i=1
(X
i
X)
2
_

2
(1 )
c) Demuestre que X y Q son independientes.
2. Sea x N
k
(,
2
) donde es una matriz simetrica de rango k,
2
> 0 y es un
vector jo. Sea B =
1

1
1
k
(1

1
1
k
)
1
1

1
a) Cual es la distribucion de y = Bx ?
b) Que distribucion tiene y

y
Sugerencia: antes de intentar cualquier otra cosa, demuestre que B es simetrica y que
B es idempotente, eso facilitara los calculos.
3. Sea y
n1
N(, V ) donde V es de rango completo.
a) Demuestre que U = (y )

V
1
(y ) tiene distribucion
2
n
(chi cuadrado con
n grados de libertad)
b) Obtenga E(U). Justique
c) Cual es la distribucion de y

V
1
y ? Justique
4. Considere el modelo lineal general y = Xb + con los supuestos usuales, E() = 0,
Var() =
2
I
n
y ademas N(0,
2
I
n
)
a) Demuestre que y N(Xb,
2
I
n
)
b) Demuestre que y

y/
2

2

[n,
1
2
b

Xb]
5. Pruebe los siguientes resultados para e
a) Cov(e, y) =
2
P donde P = I X(X

X)
1
X

b) Cov(e, y) = 0
nn
c) Cov(e,

) = 0
np
d) Cov(e,

) =
2
X(X

X)
1
e)
n

i=1
e
i
y
i
= SCE
f )
n

i=1
e
i
y
i
= 0
6. Obtenga la matriz Q tal que SCR
m
= y

Qy, demuestre que Q es idempotente y


tiene producto nulo con I X(X

X)
1
X

. Cuales son las consecuencias de estas


propiedades?
4.11. EJERCICIOS 75
7. Demuestre que la suma de los parametros de no centralidad de las distribuciones
2
no centrales de SCM, SCR
m
y SCE es igual a el parametro de no centralidad de la
distribucion de SCT
8. Sabemos que
y

y (SCE + Q) = SCR Q
=

y (K

b m)

[K

(X

X)
1
K]
1
(K

b m)
pruebe que si m = 0 entonces y

y (SCE + Q) es igual a
y

{X(X

X)
1
X

X(X

X)
1
K[K

(X

X)
1
K]
1
K

X(X

X)
1
}y
y que
y

y (SCE + Q)

2
tiene distribucion
2
no central independiente de SCE.
9. Suponga que
2
= 200 y

b

=
_
3 5 2

donde
v(

b
1
) = 28 v(

b
2
) = 24 v(

b
3
) = 18

Cov(

b
1
,

b
2
) = 16

Cov(

b
1
,

b
3
) = 14

Cov(

b
2
,

b
3
) = 12
muestre que el estadstico F para probar la hipotesis b
1
= b
2
+ 4 = b
3
+ 7 es igual a 1.
Calcule el estimador de b bajo la hipotesis nula.
10. Una compa na de seguros desea determinar el grado de relacion que existe entre el
ingreso familiar x y el monto del seguro de vida y del jefe de familia. Con base en
una muestra aleatoria de 18 familias, se obtuvo la siguiente informacion (en miles de
dolares).
Ingreso 45 20 40 40 47 30 25 20 15
Seguro 70 50 60 50 90 55 55 35 40
Ingreso 35 40 55 50 60 15 30 35 45
Seguro 65 75 105 110 120 30 40 65 80
(a) Realice el analisis de varianza usual.
(b) Estime b
0
y b
1
con un intervalo de conanza al 95 %
(c) Pruebe la hipotesis b
1
= 0 contra la alternativa b
1
= 0
(d) Pruebe la hipotesis b
0
+ b
1
= 5
11. Suponga que le son dadas las siguientes matrices calculadas para un analisis de regresion
X

X =
_

_
9 139 296 260
136 2114 4176 3583
269 4176 8257 7104
260 3583 7104 12276
_

_
, X

Y =
_

_
45
648
1283
1821
_

_
76 CAP

ITULO 4. MODELOS DE REGRESI

ON
X

X
1
=
_

_
9,610932 ,0085878 ,2791475 ,0445217
,0085878 ,5099641 ,2588636 ,0007765
,2791475 ,2588636 ,1395 ,0007396
,0445217 ,0007765 ,0007396 ,0003698
_

_
(X

X)
1
X

Y =
_

_
1,163461
,135270
,019950
,121954
_

_
, Y

Y = 285
(a) Complete la tabla de analisis de varianza.
(b) Muestre la ecuacion de regresion y los errores estandar de los coecientes de regre-
sion.
(c) Use una prueba t para probar la hipotesis simple que cada coeciente de regresion
es igual a cero. De sus conclusiones, use = 0,05.
(d) Dena K

y m para probar la hipotesis compuesta


0
= 0,
1
=
3
y
2
= 0. Cual
es el rango de K

? Cuantos grados de libertad estan asociados a esta prueba?


(e) Descomponga la suma de cuadrados de la regresion en suma de cuadrados de la
hipotesis y suma de cuadrados del modelo reducido.
(f) Cual es el estimador de b bajo la hipotesis del punto 11d.
(g) Escriba el modelo reducido para la hipotesis compuesta del punto 11d.
12. Un analisis de regresion usando un intercepto y un variable independiente dio
y
i
= 1,841246 + 0,10934x
i1
y la matriz de varianza covarianza para

b fue

Cov(

b) =
_
,1240363 ,002627
,002627 ,0000909
_
con s
2
= 1,6360, los datos tenan n = 34 observaciones
a) Obtenga un intervalo de conanza al 95 % para b
1
b) Obtenga y para x
1
= 4. Calcule la varianza de y si este esta siendo usado para
estimar la media de y cuando x
1
= 4
c) Obtenga la varianza de y si esta siendo usado para para predecir una observacion
futura cuando en x
1
= 4.
Captulo 5
Introduccion a los modelos de
clasicacion
5.1. Regresion en variables Dummy
Supongamos que estamos interesado en estudiar el efecto del nivel educativo en la inversion
que hacen los cabezas de hogares en productos durables (Electrodomesticos, muebles, etc )
y tenemos los datos que se muestran en la tabla 5.1 Estamos interesados en que tanto estan
Nivel Educativo
Universidad Universidad
Incompleto Graduado Posgrado
y
11
y
21
y
31
y
12
y
22
y
13
Tabla 5.1: Datos de inversion de los hogares
asociadas las categoras con la inversion.
5.1.1. Factores y niveles
La palabra factor denota lo que hasta ahora hemos llamado una variable; as, educacion es
un factor, ocupacion es otro factor.
Las categoras en que se divide cada factor se conoce como nivel del factor. Universidad
incompleta es un nivel del factor educacion. Empleado independiente es un nivel del factor
ocupacion, se pueden usar los n umeros 1, 2, 3, 4, para indicar los niveles del factor, en
nuestro ejemplo queremos investigar el efecto de cada uno de los tres niveles del factor edu-
cacion sobre la inversion, para eso efectuamos una regresion en tres variables independientes
x
1
, x
2
y x
3
y
i
= b
0
+ b
1
x
i1
+ b
2
x
i2
+ b
3
x
i3
+
i
(5.1)
77
78 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
donde y
i
es la inversion,
i
y b
0
son, respectivamente, los terminos de error y contante en el
analisis de regresion.
Correspondiente a los x

s estan los coecientes de regresion. Por la manera en que se denen


las x, esos coecientes conducen a estimar las diferencias entre los efectos en la inversion de
los niveles del factor educacion. Las x

s se denen de la siguiente manera:


x
ij
=
_
1 si el individuo j esta en el nivel i del factor ,
0 en otro caso .
Una persona con ttulo de pregado estara en el nivel 2 de educacion, por tanto x
2j
= 1 y
x
1j
= x
3j
= 0. Se puede asignar valores 0s y 1s a todas las x

s para cada persona en los


datos y sobre esos valores se lleva a cabo un analisis de regresion.
Debido a que x es 1 cuando la observacion cae en el correspondiente nivel y cero en otro
caso, las x

s se describen como variables (0, 1), y como ellas no son verdaderas variables
en el sentido estricto de regresion, son llamadas variables Dummy
1
. A pesar de todo, los
procedimientos formales de regresion se llevan a cabo con consecuencias de gran interes.
Ejemplo 5.1. El la tabla 5.1 y
ij
es la inversion de la jesima persona en el iesimo nivel
del estado educativo, escribimos las observaciones de la tabla, de acuerdo con el modelo (5.1),
como sigue
y
11
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
11
(5.2a)
y
12
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
12
(5.2b)
y
13
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
13
(5.2c)
y
21
= b
0
+ b
1
(0) +b
2
(1) +b
3
(0) +
21
(5.2d)
y
22
= b
0
+ b
1
(0) +b
2
(1) +b
3
(0) +
22
(5.2e)
y
31
= b
0
+ b
1
(0) +b
2
(0) +b
3
(1) +
31
(5.2f)
los unos y ceros son los valores de las variables dummy. En forma matricial podemos escribir
las ecuaciones (5.2) as
_

_
y
11
y
12
y
13
y
21
y
22
y
13
_

_
. .
y
=
_

_
1 1 0 0
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 0 1
_

_
. .
X
_

_
b
0
b
1
b
2
b
3
_

_
. .
b
+
_

11

12

13

21

22

23
_

_
. .
e
(5.3)
la cual tiene la forma familiar
y = Xb +e (5.4)
1
Dummy = cticio
5.1. REGRESI

ON EN VARIABLES DUMMY 79
La denicion de los terminos de error es exactamente como en regresion a saber; e (0,
2
I).
El metodo de mnimos cuadrados aplicados al modelo 5.4 conduce a las ecuaciones normales
(X

X)
1

b = X

y (5.5)
como X no tiene rango columna completo, el modelo (5.4) se le conoce como modelo de
rango incompleto
2
. Como X no tiene rango columna completo, (X

X)
1
no existe y 5.5 no
se puede solucionar como

b = (X

X)
1
X

y. Sin embargo usando una inversa generalizada


de X

X se pueden hallar soluciones.


Ejemplo 5.2. Se realizo un experimento para investigar el efecto sobre la produccion de
tratamientos fertilizantes aplicados a diferentes variedades de una especie. Supongamos que
tenemos datos de 6 plantas que representan tres variedades probadas en combinacion con 2
tratamientos fertilizantes, como se muestra en la tabla 5.2. Se pretende escribir la ecuacion
de regresion para y
ijk
Tratamientos
Variedad 1 2
1 y
111
y
112
y
121
2 y
211
y
221
3 y
311
Tabla 5.2: Produccion de 6 plantas
y
ijk
representa la produccion de la kesima planta de la variedad i que recibio el tratamiento
j. Escribimos las observaciones usando 5 variables dummy y 6 coecientes de regresion, los
coecientes para las variedades los notaremos por
1
,
2
y
3
, para los tratamientos usaremos

1
y
2
, el termino de intercepto lo escribiremos como , por tanto el vector de parametros
sera b

=
_

1

2

3

1

2

la ecuacion de regresion para y


ijk
es
y
ijk
= +
1
x
ijk,1
+
2
x
ijk,2
+
3
x
ijk,3
+
1
x

ijk,1
+
2
x

ijk,2
+
ijk
(5.6)
donde las xs y las x

s son variables dummy (0,1) que se denen de la siguiente forma


x
ijk,v
=
_
1 si y
ijk
pertenece a la variedad v,
0 en otro caso
para v = 1, 2, 3
x

ijk,t
=
_
1 si y
ijk
pertenece al tratamiento t,
0 en otro caso .
para t = 1, 2. Como y
121
pertenece a la variedad 1 entonces x
121,1
= 1 y x
121,2
= x
121,3
= 0
y como pertenece al tratamiento 2 x

121,1
= 0 y x

121,2
= 1 luego las ecuaciones de regresion (
2
model not of full rank
80 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
seg un el modelo (5.6) ) para cada observacion es
y
111
= +
1
(1) +
2
(0) +
3
(0) +
1
(1) +
2
(0) +
111
(5.7a)
y
112
= +
1
(1) +
2
(0) +
3
(0) +
1
(1) +
2
(0) +
112
(5.7b)
y
121
= +
1
(1) +
2
(0) +
3
(0) +
1
(0) +
2
(1) +
121
(5.7c)
y
211
= +
1
(0) +
2
(1) +
3
(0) +
1
(1) +
2
(0) +
211
(5.7d)
y
221
= +
1
(0) +
2
(1) +
3
(0) +
1
(0) +
2
(1) +
221
(5.7e)
y
311
= +
1
(0) +
2
(0) +
3
(1) +
1
(1) +
2
(0) +
311
(5.7f)
las ecuaciones 5.7 escritas en forma matricial quedan
_

_
y
111
y
112
y
121
y
211
y
221
y
311
_

_
=
_

_
1 1 0 0 1 0
1 1 0 0 1 0
1 1 0 0 0 1
1 0 1 0 1 0
1 0 1 0 0 1
1 0 0 1 1 0
_

_
_

2
_

_
+
_

111

112

121

211

221

311
_

_
(5.8)
que a su vez podemos escribir como y = Xb +e que es la ecuacion de un modelo lineal que
no es de rango completo.
En general, la matriz X de 5.7 y de 5.3 que tiene todos sus elementos ceros y
unos, se conoce como matriz de incidencia o matriz dise no.
5.2. Descripcion de modelos lineales
5.2.1. Una va de clasicacion
Consideremos nuevamente las ecuaciones (5.2) de la pagina 78, estas pueden ser escritas as
y
11
= b
0
+ b
1
+
11
(5.9a)
y
12
= b
0
+ b
1
+
12
(5.9b)
y
13
= b
0
+ b
1
+
13
(5.9c)
y
21
= b
0
+ b
2
+
21
(5.9d)
y
22
= b
0
+ b
2
+
22
(5.9e)
y
31
= b
0
+ b
3
+
31
(5.9f)
notese que en cada ecuacion anterior, el subndice de b corresponde exactamente al primer
subndice de y, es decir b
1
se encuentra en y
11
, y
12
y en y
13
, b
2
en y
21
y en y
22
por tanto las
ecuaciones pueden escribirse as
y
ij
= + b
i
+
ij
(5.10)
para los diferentes valores que i y j toman en los datos. En este caso i = 1, 2, 3 y el lmite
superior de j en la iesima clase es el n umero de observaciones en dicha clase, denotando
este numero por n
i
tenemos j = 1, , n
i
donde n
1
= 3, n
2
= 2 y n
3
= 1 .
5.2. DESCRIPCI

ON DE MODELOS LINEALES 81
Nos referiremos a (5.10) como la ecuacion de un modelo lineal general para tres clases;
para a clases es la misma ecuacion, solo que i = 1, 2 , a
Ya que gura en todas las ecuaciones (5.10) este se describe como una media general de la
poblacion, y que es com un a todos los niveles del factor.
b
1
gura solo en aquellas ecuaciones pertenecientes a indices de inversion de personas con
nivel educativo 1, a saber: 5.9a, 5.9b y 5.9c. Similarmente, para b
2
; este gura solo en las
ecuaciones para personas en nivel educativo 2, o sea en 5.9d y 5.9e, lo mismo para b
3
el cual
solo aparece en 5.9f que es la observacion correspondiente a la inversion de una persona con
nivel educativo 3. Por lo tanto b
i
de interpreta como el efecto sobre la inversion
debido al nivel educativo i

ij
se dene como

ij
= y
ij
E(y
ij
)
por lo tanto si asumimos E(
ij
) = 0 entonces
E(y
ij
) = + b
i
la varianza de cada
ij
se dene como
2
, es decir
v(
ij
) = E [
ij
E(e
ij
)]
2
= E(e
2
ij
) =
2
(5.11)
para todo i y j. Ademas se asume que la covarianza entre todos los pares de diferentes

s es
cero es decir
Cov(
ij
,
i

j
) = 0 para i = i

y j = j

(5.12)
matricialmente, podemos escribir (5.11) y (5.12) as
Var (e) =
2
I (5.13)
la descripcion general del modelo de una via de clasicaci on se puede resumir como sigue:
Para y
ij
, la observacion jesima del iesimo nivel del factor, la ecuacion del modelo es
(5.10)
y
ij
= + b
i
+ e
ij
(5.10)
es la media general, b
i
es el efecto sobre y
ij
debido al iesimo nivel del factor y
ij
es un
termino de error particular a y
ij
con e (0,
2
I). Para a niveles del factor i = 1, 2, , a y
j = 1, 2, , n
i
para el iesimo nivel del factor.
5.2.2. Dos vas de clasicacion
Regresemos a las ecuaciones (5.7) en la pagina 80, ellas se pueden escribir as:
y
111
= +
1
+
1
+
111
(5.14a)
y
112
= +
1
+
1
+
112
(5.14b)
y
121
= +
1
+
2
+
121
(5.14c)
y
211
= +
2
+
1
+
211
(5.14d)
y
221
= +
2
+
2
+
221
(5.14e)
y
311
= +
3
+
1
+
311
(5.14f)
82 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
En cada ecuacion, los subndices en y corresponden, respectivamente a los dos primeros
en y.
1
y
1
se encuentran en y
111
y y
112
,
2
y
1
estan en y
211
y as sucesivamente, por lo
tanto las ecuaciones en (5.14) pueden ser escritas as:
y
ijk
= +
i
+
j
+
ijk
(5.15)
en este caso i = 1, 2, 3, j = 1, 2 y el lmite superior de k es el n umero de observaciones de
la iesima variedad que recibe el tratamiento j, se denota este por n
ij
, as que en general
k = 1, , n
ij
con n
11
= 2, n
12
= n
21
= n
22
= n
31
= 1 y n
32
= 0.
se describe como la media general de la poblacion ( produccion ),
i
es el efecto sobre la
produccion debido a la variedad i, similarmente
j
es el efecto sobre la produccion del nivel
j del tratamiento, en forma general, el modelo de dos vias de clasicacion con a niveles del
primer factor y b niveles del otro es como sigue
y
ijk
= +
i
+
j
+
ijk
_

_
i = 1, 2, , a
j = 1, 2, , b
k = 1, 2, , n
ij
(5.16)
los terminos de error del modelo se asumen con las mismas propiedades que en modelo de
una via; asumimos que e (0,
2
I), posteriormente cuando se requiera probar hipotesis y
construir intervalos de conanza se asume normalidad para los errores.
5.2.3. Tres vas de clasicacion
Deseamos estimar el efecto sobre una respuesta y de de tres factores en estudio, digamos
A, B y C, con a, b, y c niveles, respectivamente, entonces podramos usar el modelo cuya
ecuacion es
y
ijkh
= +
i
+
j
+
k
+
ijkh
_

_
i = 1, 2, , a
j = 1, 2, , b
k = 1, 2, , c
h = 1, 2, , n
ijk
(5.17)
donde y
ijkh
es la respuesta de la hesima unidad en el nivel i del factor A, nivel j del factor
B y nivel k del factor C. es la media general,
i
es el efecto sobre y del iesimo nivel
del factor A,
j
es el efecto del jesimo nivel del factor B y
k
es el efecto del kesimo
nivel del factor C.
ijkh
es el termino de error aleatorio; al igual que con los otros modelos,
e (0,
2
I). n
ijk
es el numero de observaciones en la respectiva celda.
5.2.4. Efectos principales e interacciones
Efectos que no interactuan
Cada uno de los

s,

s y

s de los modelos precedentes representan el efecto sobre la


variable respuesta (y) de un nivel de un factor. As
i
de la ecuacion (5.15) es el efecto sobre
la produccion del iesimo nivel del factor variedad.
j
en la misma ecuacion se reere al
efecto sobre la produccion del nivel j de tratamiento. Efectos de esa naturaleza, que tienen
5.2. DESCRIPCI

ON DE MODELOS LINEALES 83
que ver con un nivel simple de un factor se llaman efectos principales, porque son los efectos
de interes principal para el investigador. Por tanto los elementos del modelo que corresponden
a ellos se les llama efectos principales del modelo.
El valor esperado de y
ijk
es
E(y
ijk
) = +
i
+
j
(5.18)
esto signica que el efecto total de la variedad i con el tratamiento j en la produccion esperada
es la suma de los dos efectos individuales
i
y
j
, por esa razon se dice que los efectos son
aditivos.
El modelo tambien implica que el efecto de la variedad i es el mismo sin importar que
tratamiento este usando. Para todos los tratamientos, el efecto de la variedad i se asume
i
y el efecto combinado de la variedad i y el tratamiento j se asume que es
i
+
j
.
Los valores de ,
i
y
j
en la practica nunca se conocen porque son valores poblacionales que
solo pueden ser estimados a partir de los datos disponibles, sin embargo, para propositos de
ilustrar algunos aspectos de los modelos lineales es instructivo dar ciertos valores aritmeticos
a esos elementos. Supongamos que los valores de ,

i
s y

j
s son los que se muestran en la
tabla 5.3 con esos valores tenemos que
E(y
11k
) = +
1
+
1
= 4 + 1 + 4 = 9
observese que para una i y j dada E(y
ijk
) = +
i
+
j
es igual para toda k, lo que signica
= 4
1
= 1
1
= 4

2
= 3
2
= 7

3
= 2
Tabla 5.3: Valores cticios para los parametros del modelo
que el valor esperado para cada observacion de la subclase (i, j) es el mismo. Los valores
esperados para las otras subclases se muestran en la tabla 5.4 y se gracan en la gura 5.1
Tratamientos
Variedad 1 2
1 E(y
11k
) = 4 + 1 + 4 = 9 E(y
12k
) = 4 + 1 + 7 = 12
2 E(y
21k
) = 4 + 3 + 4 = 11 E(y
22k
) = 4 + 3 + 7 = 14
3 E(y
31k
) = 4 + 2 + 4 = 10 E(y
32k
) = 4 + 2 + 7 = 13
Tabla 5.4: Valores esperados calculados a partir de 5.3
En la gura 5.1 notese que la variable del eje horizontal, n umero de variedad, no es una
variable continua, por tanto las lneas que unen a E(y
ijk
) en ninguna forma indican un
cambio continuo en E(y
ijk
) de una variedad a la siguiente; las lneas se muestran solamente
para hacer enfasis en la tendencia del cambio.
Desde la gura 5.1 es claro que en el ejemplo del modelo dado en E(y
ijk
) = +
i
+
j
el efecto
de variedad es el mismo independientemente del tratamiento. Para ambos tratamientos, la
variedad dos tiene una produccion esperada 2 unidades mas grande que la variedad uno;
y para ambos tratamientos la produccion esperada de la variedad tres es una unidad mas
peque na que la de la variedad 2. Cuando eso ocurre se dice que variedad y tratamiento no
interactuan.
84 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
6
8
10
12
14
T
r
a
t
a
m
ie
n
t
o
2
T
r
a
t
a
m
ie
n
t
o
1
Sin interaccion
Variedad 1 Variedad 2 Variedad 3
E
(
y
i
j
k
)
Figura 5.1: Valores esperados de la tabla 5.4
Efectos que interactuan
Siguiendo con nuestros ejemplos hipoteticos supongamos que la produccion esperada es como
se muestra en la tabla 5.5, estos valores se representan gracamente en la gura 5.2.
Tratamientos
Variedad 1 2
1 E(y
11k
) = 8 E(y
12k
) = 13
2 E(y
21k
) = 11 E(y
22k
) = 9
3 E(y
31k
) = 8 E(y
32k
) = 10
Tabla 5.5: Valores esperados hipoteticos
La diferencia entre esta y la gura 5.1 es obvia, las lneas de los dos tratamientos no son
paralelas, esto indica que el efecto de variedad no es el mismo para los diferentes tratamientos.
Con el tratamiento 1 produccion esperada de la variedad 2 es tres unidades mas grande que
con la variedad 1 en el mismo tratamiento, pero para el tratamiento 2, la produccion esperada
de la variedad 2 es cuatro unidades mas peque na que la variedad 1. As, en el segundo ejemplo
hipotetico las variedades act uan en forma diferente de acuerdo con el tratamiento usado. En
este caso decimos que las variedades interactuan con los tratamientos. La cantidad para la
cual ellas no act uan en la misma manera para cada tratamiento es lo que se conoce como
una interaccion. La discusion puede hacerse de otra forma, en la gura 5.1 la diferencia entre
tratamiento es la misma para cada variedad, esto se evidencia por el paralelismo de las lneas
de la gura. Por otra parte la falta de paralelismo en la gura 5.2 indica que las diferencias
entre tratamientos no son las mismas de variedad a variedad. La diferencia tratamiento 1
menos tratamiento 2 es 5, +2 y 2 para las tres variedades respectivamente, mientras que
en la gura 1 es tres para cada variedad. Esta diferencia entre los dos ejemplos hipoteticos
se ilustra ampliamente cuando se gracan como en las guras 5.3 y 5.4
Las lneas paralelas en las gracas 5.1 y 5.3 ilustra, para el primer ejemplo hipotetico la
5.2. DESCRIPCI

ON DE MODELOS LINEALES 85
6
8
10
12
14
T
r
a
t
a
m
i
e
n
t
o
2
T
r
a
t
a
m
i
e
n
t
o
1
Con interaccion
Variedad 1 Variedad 2 Variedad 3
E
(
y
i
j
k
)
Figura 5.2: Valores esperados de la tabla 5.5
6
8
10
12
14
Variedad 1
Variedad 2
Variedad 3
Sin interaccion
Tratamiento 1 Tratamiento 2
E
(
y
i
j
k
)
Figura 5.3: Valores esperados de la tabla 5.4
diferencia uniforme entre tratamiento para todas las variedades, pero en las guras 5.2 y 5.4
el efecto de tratamiento no es el mismo para todas las variedades y el efecto de variedad
no es el mismo para todos los tratamientos. Hay alg un efecto adicional aportando, por la
forma en que los tratamientos y las variedades interactuan; estos efectos se llaman efectos
de interaccion y representan la forma en que cada nivel de un efecto principal (variedad)
interactua con cada nivel del otro factor principal (tratamientos), esos efectos son tomados
en cuenta en el modelo adicionando otro termino. El efecto de interaccion entre el iesimo
nivel del efecto y el jesimo nivel del efecto se simboliza por
ij
y la ecuacion del modelo
es
E(y
ijk
) = +
i
+
j
+
ij
(5.19)
86 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
6
8
10
12
14
Variedad 1
Variedad 2
Variedad 3
Con interaccion
Tratamiento 1 Tratamiento 2
E
(
y
i
j
k
)
Figura 5.4: Valores esperados de la tabla 5.5
o equivalentemente
y
ijk
= +
i
+
j
+
ij
+
ijk
todos los otros terminos del modelo tienen el mismo signicado que se ha discutido hasta el
momento.
El segundo caso hipotetico (dibujado en las guras 5.2 y 5.4) esta basado en los mismos
valores hipoteticos para ,

s y

s dados en la tabla 5.3, con los valores hipoteticos para

ij
dados en la tabla 5.6, de esa forma los valores esperados obtenidos a partir de 5.19 son los
que se muestran en la tabla 5.5 y se gracan en las guras 5.2 y 5.4 Notacion. Una notacion

11
= 1
21
= 1

12
= 0
22
= 5

13
= 2
31
= 3
Tabla 5.6: Valores cticios para
ij
que frecuentemente se usa y ayuda a claricar la interpretacion de las interacciones se basa
en el uso del smbolo ()
ij
en lugar de
ij
. Esto indica que ()
ij
es el efecto de interaccion
entre el iesimo novel del factor y el jesimo nivel del factor . El smbolo ()
ij
en
ninguna forma indica el producto de con . Cuando un modelo incluye interacciones su
orden es el n umero de efectos principales. As, (5.19) es una ecuacion para un modelo de dos
vias de clasicacion al igual que (5.16), pero (5.19) incluye interacciones pero (5.16) no.
Clasicacion cruzada
Cuando cada nivel de cada factor se usa en combinacion cada nivel de todos los otros factores,
se dice que se tiene una clasicacion cruzada. Sus intersecciones son las subclases o celadas.
La ausencia de datos en una celda, no implica la no existencia de esa celda, solo que esta no
tiene datos. El numero de celdas en una clasicacion cruzada es el producto del numero de
niveles de los factores.
5.3. LAS ECUACIONES NORMALES 87
5.3. Las ecuaciones normales
La ecuacion del modelo lineal general es y = Xb + e, identica a la usada en analisis de re-
gresion. En regresion las ecuaciones normales para estimar b se escribieron (X

X)

b = X

y,
donde

b era el estimador de b. Las mismas ecuaciones normales pueden usarse aqu, sin em-
bargo, ahora las escribimos (X

X)b

= X

y. Lo hacemos as porque las ecuaciones no tienen


una unica solucion para b

. X

X es singular y hay innitamente muchas soluciones, ninguna


de ellas es un estimador de b en el sentido del analisis de regresion y por eso introducimos el
smbolo b

el cual representa una solucion a las ecuaciones normales pero no un estimador


de b.
Suponga que las 6 observaciones en la tabla 5.1 son
y

=
_
16 10 19 11 13 27

usamos b

=
_

1

2

3

donde es la media general y los

s son los efectos del nivel


educativo entonces con X de (5.3), las ecuaciones normales son
_

_
6 3 2 1
3 3 0 0
2 0 2 0
1 0 0 1
_

_
_

3
_

_
=
_

_
96
45
24
27
_

_
(5.20)
equivalente a
6

+ 3

1
+ 3

2
+ 3

3
= 96
3

+ 3

1
= 45
2

+ 2

2
= 24

+ 3

3
= 27
notese que la suma de las tres ultima ecuaciones es igual a la primera y por tanto el sistema
tiene innitas soluciones. Cuatro de esas soluciones se muestran en la tabla 5.7
Elemento de Soluciones
la solucion b

1
b

2
b

3
b

16 14 27 2982

1
1 1 12 2997

2
4 2 15 2994

3
11 13 0 3009
Tabla 5.7: Soluciones a las ecuaciones (5.20)
Las diferencias entre los elementos de las cuatro soluciones hace claro por que una solucion
particular b

no se puede considerar como una estimacion de b. Por esta razon siempre nos
referimos a b

como una solucion a las ecuaciones normales y no como un estimador.


Que sucede con funciones lineales de los elementos de b

? suponga por ejemplo que estamos


interesados en estimar el efecto medio sobre la inversion de los niveles 2 y 3 de educacion o
que tenemos interes en estimar la combinacion lineal (

1
+

2
+

3
)/3 los resultados
88 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
Solucion (ver tabla 5.7)
Funcion Lineal b

1
b

2
b

3
b

4
1
2
(

2
+

3
) 3.5 5.5 7,5 3001,5
(

1
+

2
+

3
)/3 7.333 8.666 0 2006
Tabla 5.8: Valores de
1
2
(

2
+

3
) y (

1
+

2
+

3
)/3
Solucion (ver tabla 5.7)
Funcion Lineal b

1
b

2
b

3
b

2
3 3 3 3

1
15 15 15 15

+
1
2
(

2
+

3
) 19.5 19.5 19.5 19.5
1
2
(

2
+

3
)

1
4.5 4.5 4.5 4.5
Tabla 5.9: Estimaciones de cuatro funciones estimables
se muestran en la tabla 5.8. Los valores de las funciones en la tabla 5.8 varan bastante de
una solucion a otra. Afortunadamente eso no siempre es verdadero para todas las funciones
lineales, consideremos las funciones de la tabla 5.9. Observese que los valores de cada una de
esas expresiones es invariante a la solucion b

usada. Ya que eso es as para cualquier solucion


b

, esas expresiones son de gran valor para el investigador, una descripcion de cada una de
ellas se da en la tabla 5.10.
Funcion Descripcion

2
: Estimador de la diferencia entre los
efectos de dos niveles

1
: Estimador de la media general mas el
efecto del nivel 1

+
1
2
(

2
+

3
): Estimador de la media general mas el
efecto medio de dos niveles
1
2
(

2
+

3
)

1
: Estimador de la superioridad del efecto
medio de dos niveles sobre el efecto de
otro nivel
Tabla 5.10: Descripcion de algunas funciones lineales
Las de la tabla 5.10 son solo 4 funciones de las muchas funciones lineales de b

que tienen la
propiedad mostrada en la tabla 5.9, otras similares son, por ejemplo,

1
,

2
,

+
1
2
(

1
+

2
), funciones como esas se conocen como estimadores de funciones estimables. Ellas
tienen la propiedad de ser invariantes a cualquiera sea la solucion obtenida a las ecuaciones
normales. Por causa de la propiedad de invariancia ellas son las unicas funciones de interes
en lo concerniente a la estimacion de parametros de un modelo lineal de rango incompleto.
5.4. EJERCICIOS 89
5.4. Ejercicios
1. La tabla siguiente muestra la altura de 7 plantas de tomate 8 semanas despues de ser
plantadas, clasicadas por el tratamiento fertilizante utilizado
Tratamientos
1 2 3
74 76 87
68 80 91
77
(a) Escriba las ecuaciones para una regresion en variables Dummy considerando el
efecto del tratamiento fertilizante.
(b) Reescriba las ecuaciones en terminos de un modelo lineal.
(c) Escriba las ecuaciones del modelo lineal general para esta situacion.
(d) Escriba la matriz de incidencia (o matriz dise no ).
(e) Escriba las ecuaciones en forma matricial.
(f) Obtenga las ecuaciones normales.
(g) Obtenga tres soluciones distintas a estas ecuaciones.
2. Repita todos los puntos del ejercicio 1 pero con los siguientes datos
Tratamientos
11 8 17 9
5 18 11 5
16 14
18
3. Suponga que estamos interesados en el efecto de dos clases de suelo en el numero de
dias para la germinacion de tres variedades de semillas de zanahorias. La tabla siguiente
muestra lo que podra ser unos datos provenientes de un experimento dise nado para tal
n.
Variedades
Suelo 1 2 3
1 6 13 14
10 15 22
11
2 12 31 18
15 9
19 12
18
90 CAP

ITULO 5. INTRODUCCI

ON A LOS MODELOS DE CLASIFICACI

ON
(a) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad no interactuan.
(b) Describa cada uno de los terminos del modelo.
(c) Escriba la matriz de incidencia para estos datos.
(d) Construya un graco similar al graco 5.2 de la pagina 85 colocando en el eje vertical
los promedios de la celda. Parece haber interaccion entre variedad y suelo?
(e) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interactuan.
4. Repita todos los puntos del ejercicio 3 pero con los siguientes datos.
Variedades
Suelo 1 2 3
1 3 9 4
7 5 8
6
2 6 8 1
3 5 1
6 8
7
Captulo 6
Modelos de rango incompleto
Ejemplo 6.1. Se esta investigando cuatro catalizadores que pueden afectar la concentracion
de un componente en una mezcla lquida. Se obtuvieron las concentraciones que se muestran
en la tabla 6.1
Catalizador
1 2 3 4
58.20 56.30 50.10 52.90
57.20 54.50 54.20 49.90
58.40 57.00 55.40 50.00
55.80 55.30 51.70
54.90
Tabla 6.1: Datos para el ejemplo 6.1
Como los datos estan clasicados por un solo criterio (tipo de catalizador) asumimos el
modelo
y
ij
= +
i
+
ij
_
i = 1, 2, 3, 4
j = 1, 2, , n
i
con n
1
= 5, n
2
= n
4
= 4 y n
3
= 3. Para mostrar las ecuaciones normales escribimos las
observaciones en terminos de la ecuacion del modelo, en la forma matricial y = Xb + e
donde la matriz X es
X =
_

_
1
5
1
5
0
5
0
5
0
5
1
4
0
4
1
4
0
4
0
5
1
3
0
3
0
3
1
3
0
3
1
4
0
4
0
4
0
4
1
4
_

_
165
y la matriz X

X es:
X

X =
_

_
16 5 4 3 4
5 5 0 0 0
4 0 4 0 0
3 0 0 3 0
4 0 0 0 4
_

_
91
92 CAP

ITULO 6. MODELOS DE RANGO INCOMPLETO


las ecuaciones normales quedaran as:
_

_
16 5 4 3 4
5 5 0 0 0
4 0 4 0 0
3 0 0 3 0
4 0 0 0 4
_

_
_

4
_

_
=
_

_
871,8
284,5
223,1
159,7
204,5
_

_
una inversa generalizada de X

X es
G =
1
240
_

_
60 60 60 60 0
60 108 60 60 0
60 60 120 60 0
60 60 60 140 0
0 0 0 0 0
_

_
con H =
_

_
1 0 0 0 1
0 1 0 0 1
0 0 1 0 1
0 0 0 1 1
0 0 0 0 0
_

_
luego, una solucion a las ecuaciones normales es
b

=
_

4
_

_
= GX

y =
_

_
51,1250
5,7750
4,6500
2,1083
0,0000
_

_
la tabla 6.2 muestra las tres descomposiciones de la suma de cuadrados total.
Particion 1 Particion 2 Particion 3
SCM=47502.203
SCR=47587.88 SCR
m
= 85.676 SCR
m
= 85.676
SCE= 34.562 SCE= 34.562 SCE= 34.562
SCT=47622.44 SCT=47622.44 SCT
m
=120.238
Tabla 6.2: Descomposicion de la suma de cuadrados total
93
Ejemplo 6.2 (Analisis de varianza). En las tablas 6.3, 6.4 y 6.5 se presentan las tres tablas
de analisis de varianza para el ejemplo 6.1
Fuente GL SC CM F Pr
Modelo 4 47587.878 11896.97 4130.693 0.0000
Error 12 34.562 2.880
Total 16 47622.44
Tabla 6.3: Analisis de varianza 2
Fuente GL SC CM F Pr
Media 1 47502.203 47502.203 16493.025 0.0000
Modelo 3 85.676 28.558 9.920 0.0014
Error 12 34.562 2.880
Total 16 47622.44
Tabla 6.4: Analisis de varianza 2
Fuente GL SC CM F Pr
Modelo 3 85.676 28.558 9.92 0.0014
Error 12 34.562 2.880
Total (c.p.m) 15 120.238
Tabla 6.5: Analisis de varianza 3
Ejemplo 6.3 (m.e.l.i de q

b ). Cuando denimos funcion estimable mostramos que


1

2
es estimable. Ademas

2
=
_
0 1 1 0 0

4
_

_
= q

b
por lo tanto

2
= q

= 5,7750 4,6500 = 1,125


con varianza
v(

2
) = q

Gq
2
= 0,45
2
un intervalo de conanza al 95 % para
1

2
es
1,125 2,880 2,179
_
0,45
de donde se obtiene L
i
= 3,0846 y L
S
= 5,3346
94 CAP

ITULO 6. MODELOS DE RANGO INCOMPLETO


Notese que este intervalo contiene a cero lo que signica que no hay evidencia que
1

2
sea distinto de cero, es decir, no hay evidencia muestral que el efecto del tratamiento 1 se
signicativamente distinto del efecto del tratamiento 2.
Ejemplo 6.4 (Prueba de estimabilidad). Continuando con el ejemplo 6.1, probaremos si la
funcion lineal
2
2
1
+
3
es estimable. La funcion dada se puede escribir como
q

b =
_
0 2 1 1 0

4
_

_
=
2
2
1
+
3
para probar que esta funcion es estimable, basta probar que q

H = q

, en efecto
q

H =
_
0 2 1 1 0

_
1 0 0 0 1
0 1 0 0 1
0 0 1 0 1
0 0 0 1 1
0 0 0 0 0
_

_
=
_
0 2 1 1 0

Ejemplo 6.5 (Hipotesis lineal general). Consideremos la hipotesis


1
=
2
+ 10, la cual se
puede escribir como
_
0 1 1 0 0

b = 10 se puede vericar que k

H =
_
0 1 1 0 0

H =
_
0 1 1 0 0

= k

, por tanto es una hipotesis probable. Se tiene que k

= 1,125 de
donde k

m = 1,125 10 = 8,88 ademas k

Gk = 9/10
F(H) =
(8,88)(9/10)
1
(8,88)
1 2,88
=
87,62
2,88
= 30,42
valor que es mas grande que el tabulado, por tanto se rechaza la hipotesis.
Ahora consideremos la hipotesis H
0
: +
1
= +
2
= 55, la cual se puede escribir como
K

b =
_
1 1 0 0 0
1 0 1 0 0
_
b =
_
55
55
_
en este caso F(H) = 3,55
6.1. Seleccion de ejercicios (Modelos lineales)
1. La tabla siguiente muestra la altura de 7 plantas de tomate 8 semanas despues de ser
plantadas, clasicadas por el tratamiento fertilizante utilizado
Tratamientos
1 2 3
74 76 87
68 80 91
77
6.1. SELECCI

ON DE EJERCICIOS (MODELOS LINEALES) 95


(a) Escriba las ecuaciones para una regresion en variables Dummy considerando el
efecto del tratamiento fertilizante.
(b) Reescriba las ecuaciones en terminos de un modelo lineal.
(c) Escriba las ecuaciones del modelo lineal general para esta situacion.
(d) Escriba la matriz de incidencia (o matriz dise no ).
(e) Escriba las ecuaciones en forma matricial.
(f) Obtenga las ecuaciones normales.
(g) Obtenga tres soluciones distintas a estas ecuaciones.
(h) Efectue el analisis de varianza.
(i) Calcule el R
2
(j) Pruebe la hipotesis H
0
:
1
=
2
=
3
contra la alternativa H
1
:
i
=
j
para
alg un i = j, i, j = 1, 2, 3
2. Usando los siguientes datos
Tratamientos
11 8 17 9
5 18 11 5
16 14
18
(a) Escriba las ecuaciones para una regresion en variables Dummy considerando el
efecto del tratamiento.
(b) Reescriba las ecuaciones en terminos de un modelo lineal.
(c) Escriba la matriz de incidencia (o matriz dise no ).
(d) Escriba las ecuaciones en forma matricial.
(e) Obtenga las ecuaciones normales.
(f) Obtenga tres soluciones distintas a estas ecuaciones.
(g) Efectue el analisis de varianza.
(h) Calcule el R
2
(i) Pruebe la hipotesis H
0
:
1
=
2
=
3
=
4
contra la alternativa H
1
:
i
=
j
para
alg un i = j, i, j = 1, 2, 3, 4
3. Suponga que estamos interesados en el efecto de dos clases de suelo en el numero de
dias para la germinacion de tres variedades de semillas de zanahorias. La tabla siguiente
muestra lo que podra ser unos datos provenientes de un experimento dise nado para tal
n.
96 CAP

ITULO 6. MODELOS DE RANGO INCOMPLETO


Variedades
Suelo 1 2 3
1 6 13 14
10 15 22
11
2 12 31 18
15 9
19 12
18
(a) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad no interact uan.
(b) Describa cada uno de los terminos del modelo.
(c) Escriba la matriz de incidencia para estos datos.
(d) Escriba explcitamente las ecuaciones normales.
(e) Imponga las restricciones

a
i=1

i
y

b
j=1

j
y obtenga de esa forma una solucion
a las ecuaciones normales (
i
es el efecto del tratamiento de las columnas y
j
es
el efecto del tratamiento de la ).
(f) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interact uan.
4. Con los siguientes datos.
Variedades
Suelo 1 2 3
1 3 9 4
7 5 8
6
2 6 8 1
3 5 1
6 8
7
(a) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad no interact uan.
(b) Describa cada uno de los terminos del modelo.
(c) Escriba la matriz de incidencia para estos datos.
(d) Escriba explcitamente las ecuaciones normales.
(e) Imponga las restricciones

a
i=1

i
y

b
j=1

j
y obtenga de esa forma una solucion
a las ecuaciones normales (
i
es el efecto del tratamiento de las columnas y
j
es
el efecto del tratamiento de la ).
(f) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interact uan.
6.1. SELECCI

ON DE EJERCICIOS (MODELOS LINEALES) 97


5. Considere los siguientes datos
T
1
T
2
T
3
5 6 9
4 7 7
3 8 11
4 8 12
y caracterizandose el modelo y
ij
= +
i
+ e
ij
el cual se puede escribir en forma
matricial de la forma y = X +e
a) Obtenga tres soluciones distintas para las ecuaciones normales, o sea

1
,

2
y

3
y compruebe numericamente que y = X

i
i = 1, 2, 3 es invariante a la solucion.
b) Complete la siguiente tabla de ANAVA
F de V G de L S de C C M
Media
Modelo (cpm)
Error
Total (cpm)
c) Determine cuales de las siguientes funciones parametricas son estimables. Justi-
que.
i. q

1
=
1

2
ii. q

2
=
iii. q

3
=
i
iv. q

4
=

3
i=1

i
v. q

5
= + 2
1

2
vi. q

6
= +
i
vii. q

7
= 2
1

3
d) Para cada una de las funciones que sean estimables en el punto 6c determine un
vector t tal que q

= t

E(y)
e) Para cada una de las funciones que sean estimables en el punto 6c determine el
MELI y su varianza.
6. Considere los siguientes datos
T
1
T
2
T
3
4 3 10
5 4 14
9 2 11
y caracterizandose el modelo y
ij
= +
i
+ e
ij
el cual se puede escribir en forma
matricial de la forma y = X +e
98 CAP

ITULO 6. MODELOS DE RANGO INCOMPLETO


a) Obtenga tres soluciones distintas para las ecuaciones normales, o sea

1
,

2
y

3
y compruebe numericamente que y = X

i
i = 1, 2, 3 es invariante a la solucion.
b) Complete la siguiente tabla de ANAVA
F de V G de L S de C C M
Media
Modelo (cpm)
Error
Total (cpm)
c) Determine cuales de las siguientes funciones parametricas son estimables. Justi-
que.
i. q

1
=
1

2
ii. q

2
=
iii. q

3
=
i
iv. q

4
=

3
i=1

i
v. q

5
= + 2
1

2
vi. q

6
= +
i
vii. q

7
= 2
1

3
d) Para cada una de las funciones que sean estimables en el punto 6c determine un
vector t tal que q

= t

E(y)
e) Para cada una de las funciones que sean estimables en el punto 6c determine el
MELI y su varianza.
7. Considere el modelo lineal general y = X +e, demuestre que si el rango de X
np
es
p entonces cualquier funcion lineal parametrica es estimable.
8. En el modelo y
ij
=
i
+ e
ij
pruebe que
i
es estimable y encuentre su MELI.
Captulo 7
Introduccion a SAS/IML software
7.1. Sintaxis basicas
La sintaxis basica de un programa en IML es
proc iml;
(Codigo del programa)
quit; run;
7.2. Denicion de matrices
En IML se pueden denir matrices literalmente, a partir de funciones, a partir de operaciones
y leyendolas de un archivo de datos.
7.2.1. Denicion de matrices literalemnte
Para denir matrices literalmente, los elementos deben ir encerrados con llaves, separando
con espacios las columnas y con comas las las. Veamos algunos ejemplos
Si quiero Debo digitar
Z =
_
_
1 2
3 4
5 6
_
_
z={1 2,3 4,5 6};
x =
_
1 2 3 4 5

x={1 2 3 4 5};
y =
_
_
1
2
3
_
_
y={1,2,3};
7.2.2. Matrices de caracteres
En IML se pueden denir matrices de caracteres, estas son utiles para colocar nombres a las
columnas o a las las de una matriz en la presentacion de un informe, veamos como se hace:
99
100 CAP

ITULO 7. INTRODUCCI

ON A SAS/IML SOFTWARE
Al digitar Se obtiene
a={abc defg}; a =
_
ABC DEFG

b={abc DefG}; b =
_
abc DefG

Observese que al encerrar los caracteres en comillas simples se respetan las may usculas y
min uscula, en caso contrario se imprime todo en may uscula.
Se puede asignar nuevos valores a una matriz en cualquier momento, por ejemplo si escribimos
b={2 1 1 1,
1 2 1 1,
1 1 2 1,
1 1 1 2};
se reemplaza la matriz b =
_
abc DefG

por la nueva matriz


b =
_

_
2 1 1 1
1 2 1 1
1 1 2 1
1 1 1 2
_

_
Hay que tener cuidado de asignar adecuadamente los nombres de las matrices para que no
ocurran errores en los programas.
7.2.3. Denicion de matrices con operaciones
Con SAS/IML usted puede escribir expresiones compuestas que involucren varias operaciones,
por ejemplo:
Para obtener la matriz A como la suma de las matrices X,Y y Z usted debe escribir
en su programa A=X+Y+Z;
El codigo A=X+Y*Z;, primero multiplica las matrices Y y Z seg un el producto usual,
1
despues adiciona el resultado a la matriz X y asigna la nueva matriz a A
El codigo A=X**2; multiplica la matriz X por si misma (X
2
) y lo asigna a la matriz A
El codigo A=X/Y; divide cada elemento de la matriz X entre el correspondiente de la
matriz Y y asigna el resultado a la matriz A, las matrices X y Y deben ser del mismo
orden, esto se conoce como operaciones entre elementos
2
.
Con el codigo W=3#Z; se crea la matriz W cuyos elementos son tres veces los respectivos
elementos de Z.
El codigo A=X##2; eleva cada elemento de la matriz X al cuadrado y lo asigna a la
matriz A
1
Ojo con el orden de las matrices
2
Elementwise Binary Operators
7.2. DEFINICI

ON DE MATRICES 101
El codigo A=X#Y; multiplica cada elemento de la matriz X por el correspondiente de
la matriz Y , y lo asigna a la matriz A
El codigo A=X||Y; coloca la matriz X al lado de la matriz Y y forma la nueva matriz
A. Las matrices X y Y deben tener el mismo numero de las.
El codigo A=X//Y; coloca la matriz X debajo de la matriz Y y forma la nueva matriz
A. Las matrices X y Y deben tener el mismo numero de columnas.
7.2.4. Denicion de matrices con llamadas a funciones
En tambien SAS/IML se pueden crear matrices como resultado de la llamada a una funcion.
Como ejemplos tenemos:
El codigo Y=inv(X); coloca en Y la inversa de la matriz X
3
El codigo Y=ginv(X); coloca en Y la inversa generalizada de Moore-Penrose de la
matriz X.
Los codigos n=nrow(X); y p=ncol(X); colocan en n y en p el n umero de las y de
columnas de X, respectivamente.
El codigo J=J(nrow,ncol,1); crea la matriz J que tiene nrow las, ncol columnas y
todas sus componentes son unos.
El codigo I=I(n); crea la matriz I
n
, la matriz identica de orden n.
El codigo call eigen(val,vec,b); crea dos matrices; val que contiene los valores
propios de la matriz B y vec que contiene los vectores propios, la matriz B debe ser
simetrica.
7.2.5. Denicion de matrices con a partir de un data
En SAS/IML se pueden crear matrices desde las variables y observaciones de un archivo de
datos.
Para poder acceder a un archivo de datos, este se debe habilitar para tal n. El comando
USE nobre_del_data abre el archivo nobre_del_data para acceso de lectura.
La orden read all var{x y z} into X; introduce en la matriz X las variables x, y y z
como columnas. La matriz X tiene tantas las como registros tenga en data activo
La orden READ ALL VAR{x y z} INTO X WHERE(pob=1); introduce en la matriz X las va-
riables x, y y z como columnas, pero solo con los registros que tienen la variable pob=1. La
matriz X tiene tantas las como registros tengan pob=1 en data activo.
3
La matriz X debe ser cuadrada y de rango completo, de lo contrario genera un error
102 CAP

ITULO 7. INTRODUCCI

ON A SAS/IML SOFTWARE
7.3. Ejemplos
7.3.1. Solucion de un sistema de ecuaciones lineales
Queremos solucionar el sistema de ecuaciones
3x
1
x
2
+ 2x
3
= 8
2x
1
2x
2
+ 3x
3
= 2
4x
1
+ x
2
4x
3
= 9
esas ecuaciones pueden ser escritas matricialmente de la siguiente forma
_
_
3 1 2
2 2 3
4 1 4
_
_
_
_
x
1
x
2
x
3
_
_
=
_
_
8
2
9
_
_
si la matriz de coecientes es invertible el sistema tiene solucion unica igual a x = A
1
c lo
que haremos es evaluar el determinante de la matriz A y vericar si es distinto de cero, en
caso armativo calculamos la solucion, de lo contrario emitimos un mensaje advirtiendo que
el sistema no tiene solucion unica.
el codigo del programa es el siguiente:
dm out;clear;
dm log;clear;
proc iml;
A={3 -1 2,
2 -2 3,
4 1 -4 }; /* leemos la matriz A*/
C={8,2,9}; /* leemos la matriz C*/
d=det(a); /* calculamos el determinante de A*/
print d; /* imprimimos el determinante de A con el fin de
verificar si es cero o no */
if d^=0 then x=inv(a)*c; /* si el determinante de A es distinto de
cero
calculamos x en caso contrario no hay nada que
hacer */
print x; /* imprimimos la solucion */ else; print no hay
solucion o hay infinitas soluciones; quit; run;
7.3.2. Inversa generalizada de una matriz
El siguiente programa calcula una inversa generalizada de una matriz seg un el algoritmo
propuesto en clase, usted debe conocer el rango de la matriz para poder escoger el orden del
menor que va a usar
7.3. EJEMPLOS 103
dm out;clear;
dm log;clear;
proc iml ; reset noprint nolog;
/* Este programa calcula la inversa generalizada de una matriz */
/* Usted debe conocer el rango de la matriz para poder escoger */
/* el oreden el menor que va a usar */
A={1 1 0 1,
-1 -1 1 1,
1 0 0 1,
-1 0 1 1};
F={1 3 4}; /* escriba las filas que quiere usar en el menor*/
C={1,2,3}; /* escriba las columnas que quiere usar en el menor*/
n=nrow(A); /* numero de filas de A*/ p=ncol(A); /* numero de
columnas de A*/ M=A[F,C]; /* se toma la submatriz M de A con la
filas que se indican en F*/
/* y las columnas que se indican en C*/
M1=inv(M); /*se invierte la mtriz M*/ M2=t(M1); /* se traspone
la inversa de M */ G1=J(n,p,0); /* se crea una matriz de orden n*p
de puros ceros*/ G1[F,C]=M2; /*se inserta la traspuesta de la
inversa de M en la matriz G1
en las correspondientes posiciones de los elementos de M*/
G=t(G1); /* se traspone la matriz G1*/
print G; /* se imprime la matriz A y G */
quit; run;
7.3.3. Analisis de regresion
El siguiente programa calcula el vector de parametros estimados para un modelo de regresion
lineal m ultiple, las sumas de cuadrados y los estadsticos t
dm out;clear; dm log;clear;
proc iml;
/* matriz de variables
independientes */
x={1 1 1, 1 2 4, 1 3 9, 1 4 16, 1 5 25};
y={1,5,9,23,36}; /* vector de observaciones */
n=nrow(x); /* numero de observaciones */ p=ncol(x); /* numero de
104 CAP

ITULO 7. INTRODUCCI

ON A SAS/IML SOFTWARE
parametros */
xpx=inv(t(x)*x);
b=inv(t(x)*x)*t(x)*y;
yhat=x*b; /* /* valores predichos */
r= y-yhat; /* residuales*/
sce=ssq(r); /* suma de cudrados de los residuales */
gl=n-p; /* grados de libertad del error */
cme=sce/gl; /* cuadrado medio del error */
sctc=ssq(y-sum(y)/n); /* suma de cuadrados total corregida */
rcuad=(sctc-sce)/sctc;
print, "Resultados de la regresion " ,
sce gl cme rcuad ;
eeb=sqrt(vecdiag(xpx)*cme); /* diagonal de la matriz de varianza
cov de B*/
t=b/eeb;
prob=1-probf(t#t,1,gl);
print, " Parametros
estimados ",
b eeb t prob;
run; quit;
7.4. PARTICIONES DE LA SUMA DE CUADRADOS 105
7.4. Particiones de la suma de cuadrados
El siguiente programa en IML realiza las tres particiones de la suma de cuadrados vistas para
modelos de regresion. Los datos a usar son los siguientes.
y 27.5 25.0 28.5 31.4 25.2 29.7 32.3 30.9 31.3 33.6 34.6 33.5
x 4.0 4.0 4.0 4.5 4.5 4.5 5.0 5.0 5.0 5.5 5.5 5.5
dm out;clear; dm log;clear; Para borrar el log y el output
data eje1; input y x; cards;
Para leer los datos, en la primera co-
lumna y y en la segunda x
.
.
. Aqu van los datos
; run; Se termina de leer los datos
proc iml; reset noprint nolog fuzz; Se invoca IML y algunas opciones
use eje1; Se activa eje1 para lectura
read all var{x} into x1; Valores x en la matriz X
1
read all var{y} into y; Valores y en la matriz Y
n=nrow(x1); N umero de observaciones
unos=j(n,1,1); Vector 1
n
x=unos||x1; Se construye la matriz X =
_
1
n
X
1

p=ncol(x); N umero de parametros


xpx=inv(t(x)*x) (X

X)
1
b=inv(t(x)*x)*t(x)*y;

b = (X

X)
1
X

Y
yhat=x*b;

Y = X

b Los predicted
r=(y-yhat); Residuales r = Y

Y
scr=t(b)*t(x)*y; SCR =

Y
sce=ssq(r); SCE =

2
sct=t(y)*y; SCT = Y

Y
glr=p; gle=n-p; glt=n;
Grados de libertad para regresion error
y total
fuente={Regres,Error,Total};
Esto es para darle mejor presentacion a
los resultados
ncolum={ GL sc cm}; Esto tambien
sc=scr//sce//sct; gl=glr//gle//glt;
Se colocan las sumas de cuadrados en
un solo vector, lo mismo que los gra-
dos de libertad para una mejor presen-
tacion
cm=sc/gl; Los cuadrados medios
resul=gl||sc||cm; Los resultados nales en una sola mtriz
print resul[rowname=fuente colname=ncolum format=8.2];
quit; run;
La salida de este programa, con los datos que se muestran al principio es
106 CAP

ITULO 7. INTRODUCCI

ON A SAS/IML SOFTWARE
RESUL GL SC CM
REGRES 2 11093.39 5546.69
ERROR 10 29.36 2.94
TOTAL 12 11122.75 926.90
Agregue el siguiente codigo de al nal del programa anterior (antes del quit; run; para
obtener la particion 2)
xbar=(1/n)*t(x1)*unos; Vector de medias de las xs x
ybar=(1/n)*sum(y); La media de los ys y
xcur=x1-unos*t(xbar); la matriz X cursiva X
bcur=inv(t(xcur)*xcur)*t(xcur)*y; El vector b cursivo B
scrm=t(bcur)*t(xcur)*y;
Suma de cuadrados de la regresion co-
rregida por la media
fc=n*ybar**2; Factor de correccion, ny
2
sctm=ssq(y)-fc; SCT
m
= Y

Y ny
2
fuente={Media,Regres,Error,Total};
sc=fc//scrm//sce//sct; Sumas de cuadrados en un solo vector
glm=1; glrm=p-1; glt=n; Grados de libertad
cm=sc/gl; Cuadrados medios
resul=gl||sc||cm; Resultados
print resul[rowname=fuente colname=ncolum format=8.2];
quit; run;
La salida de este programa es:
RESUL GL SC CM
MEDIA 1 11011.02 11011.02
REGRES 1 82.37 82.37
ERROR 10 29.36 2.94
TOTAL 12 11122.75 926.90
Con los calculos hechos anteriormente se puede obtener la particion 3. Queda como ejercicio
escribir el codigo permita mostrarla. La salida debe ser algo como esto:
RESUL GL SC CM
REGRES 1 82.37 82.37
ERROR 10 29.36 2.94
TOTAL 11 111.73 10.16
7.5. El proc reg
El procedimiento de S.A.S para llevar a realizar analisis de regresion es el PROC REG, el
cual ademas de realizar el analisis de varianza (partici on 3 ) y mostrar la estimacion de los
parametros con sus errores estandar y estadsticos t para probar la hipotesis H
0
: b
i
= 0,
brinda muchas otras estadsticas y herramientas de diagn ostico que facilitan el analisis de
7.5. EL PROC REG 107
regresion. Ilustrare el uso del PROC REG con un ejemplo, en los comentarios se explica que
hace cada opcion.
Los datos que usaremos para ilustrar este procedimiento son los siguientes:
78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9
0.02 0.02 0.02 0.02 0.1 0.1 0.1 0.1 0.18 0.18 0.18 0.18
1000 1100 1200 1300 1000 1100 1200 1300 1000 1100 1200 1300
La primera variable es dureza, la segunda cobre y la tercera temperatura.
dm out;clear; dm log;clear;
data eje1;
input dureza cobre temp; cards;
.
.
. ; run; Los datos
proc reg data=eje1; El proc reg en su version mas simple
model dureza=cobre temp;
run;
7.5.1. Opciones de proc reg
Despues de data=eje1 se pueden agregar entre otras, las siguientes opciones
1. CORR con la cual imprime la matriz de correlaciones para todas las variables listadas
en el modelo.
2. GRAPHICS The GRAPHICS option species that scatter plots generated by PROC
REG be produced on a high-resolution graphics device.
3. OUTEST= SAS-data-set The OUTEST= option requests that parameter estimates and
optionally the estimated covariance matrix be output to this SAS data set.
4. OUTSSCP= SAS-data-set The OUTSSCP= option requests that the sums of squares
and crossproducts matrix be output to this TYPE= SSCP data set.
5. ALL The ALL option requests many printouts. Using ALL in the PROC REG statement
is equivalent to specifying ALL in every MODEL statement. ALL also implies SIMPLE,
USSCP, and CORR.
Por ejemplo, si escribimos proc reg data=eje1 corr; SAS nos entrega el analisis basico de
regresion y ademas imprime la matriz de correlaciones entre las variables en el modelo.
7.5.2. Opciones en el modelo
Las siguientes son algunas opciones disponibles para el modelo.
1. Si escribimos model dureza=cobre temp /INFLUENCE; SAS nos proporciona un anali-
sis detallado de la inuencia de cada observacion sobre los parametros estimados y los
predicted.
108 CAP

ITULO 7. INTRODUCCI

ON A SAS/IML SOFTWARE
2. Si escribimos model dureza=cobre temp /DW; SAS nos proporciona el estadstico de
Durbin-Watson para probar si los errores estan correlacionados.
3. Si escribimos model dureza=cobre temp /I; SAS nos imprime la matriz X

X
1
4. ALL Especica todas las opciones disponibles.
Tenganse en cuanta que tanto en proc como model se pueden combinar varias opciones.
Bibliografa
[1] Searle S. R. Matrix Algebra Useful for Statistics, John Wiley & Sons, New York 1982.
[2] Searle S. R. Linear Models, John Wiley & Sons, New York 1971.
[3] Searle S. R. Linear Models for Unbalanced Data, John Wiley & Sons, New York 1987.
[4] Montgomery, D. Dise no y analisis de experimentos, Grupo Editorial Iberoamerica, Mejico
1991.
[5] Magnus, J and Neudecker, H. Matrix Dierential Calculus with Applications in Statistics
and Econometrics, John Wiley & Sons, New York 1995.
109

También podría gustarte