Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Indice general
1. Introduccion a matrices 5
1.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1. Propiedades de la suma . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2. Propiedades del producto . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Matrices especiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1. Transpuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Matrices Simetricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Matriz particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Traza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1. Propiedades de la traza . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Todos iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1. Propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1. Condiciones de existencia . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2. Propiedades de la inversa . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.3. Matrices ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7. Diferenciacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9. Procesamiento de datos con R . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9.1. Creacion de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9.2. Funciones para manipulacion de matrices . . . . . . . . . . . . . . . . 18
2. Inversa Generalizada 19
2.1. Denicion y existencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Un algoritmo para calcular A
. . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Solucionando ecuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Ecuaciones consistentes. . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Obteniendo soluciones. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Matrices Simetricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1. Propiedades de una IG . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5. Procesamiento de datos con R . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2
INDICE GENERAL 3
3. Distribuciones y formas cuadraticas 31
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Matrices simetricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3. Matrices denidas positivas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1. Funciones de distribucion multivariadas . . . . . . . . . . . . . . . . . 34
3.4.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.3. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.4. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.5. f.g.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.6. Distribucion normal univariada . . . . . . . . . . . . . . . . . . . . . 38
3.4.7. Distribucion normal multivariada . . . . . . . . . . . . . . . . . . . . 38
3.4.8.
2
, F y t centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.9.
2
no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4.10. F no central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.11. Otras distribuciones no centrales . . . . . . . . . . . . . . . . . . . . 43
3.5. Distribucion de formas cuadraticas . . . . . . . . . . . . . . . . . . . . . . . 43
3.5.1. Valores esperados y varianzas . . . . . . . . . . . . . . . . . . . . . . 44
3.5.2. Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4. Modelos de regresion 47
4.1. Modelo de regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.1. Estimacion por mnimos cuadrados . . . . . . . . . . . . . . . . . . . 48
4.2. Metodos de estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1. Mnimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . . . . . 51
4.2.2. Mnimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . 53
4.2.3. Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2.4. Mejor estimador lineal insesgado . . . . . . . . . . . . . . . . . . . . 55
4.3. Propiedades del estimador de . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4. Particion de la suma de cuadrados total. . . . . . . . . . . . . . . . . . . . . 60
4.5. Propiedades distribucionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6. Pruebas de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.7. Error puro y error por falta de ajuste . . . . . . . . . . . . . . . . . . . . . . 67
4.8. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.9. Hipotesis lineal general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.10. Ejemplo (Hipotesis lineal general) . . . . . . . . . . . . . . . . . . . . . . . . 70
4.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5. Introduccion a los modelos de clasicacion 77
5.1. Regresion en variables Dummy . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.1. Factores y niveles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2. Descripcion de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.1. Una va de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4
INDICE GENERAL
5.2.2. Dos vas de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.3. Tres vas de clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2.4. Efectos principales e interacciones . . . . . . . . . . . . . . . . . . . . 82
5.3. Las ecuaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6. Modelos de rango incompleto 91
6.1. Seleccion de ejercicios (Modelos lineales) . . . . . . . . . . . . . . . . . . . . 94
7. Introduccion a SAS/IML software 99
7.1. Sintaxis basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2. Denicion de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.1. Denicion de matrices literalemnte . . . . . . . . . . . . . . . . . . . 99
7.2.2. Matrices de caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.3. Denicion de matrices con operaciones . . . . . . . . . . . . . . . . . 100
7.2.4. Denicion de matrices con llamadas a funciones . . . . . . . . . . . . 101
7.2.5. Denicion de matrices con a partir de un data . . . . . . . . . . . . . 101
7.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.3.1. Solucion de un sistema de ecuaciones lineales . . . . . . . . . . . . . . 102
7.3.2. Inversa generalizada de una matriz . . . . . . . . . . . . . . . . . . . 102
7.3.3. Analisis de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.4. Particiones de la suma de cuadrados . . . . . . . . . . . . . . . . . . . . . . 105
7.5. El proc reg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.5.1. Opciones de proc reg . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.5.2. Opciones en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Captulo 1
Introduccion a matrices
Se pretende recordar algunas deniciones y propiedades referentes a matrices. Asumo que el
estudiante esta familiarizado con las operaciones basicas como la trasposicion, suma, multipli-
cacion de un escalar por una matriz, multiplicacion de dos matrices entre otras. Los teoremas
se dan sin demostracion, los interesados en esos detalles pueden remitirse a la bibliografa
recomendada.
1.1. Propiedades de la suma y producto
1.1.1. Propiedades de la suma
Teorema 1.1. Sean A, B y C matrices de tama no mn y c y d escalares, entonces:
a. (A+B) +C = A+ (B +C)
b. A+B = B +A
c. A+0 = A ( 0 la matriz nula)
d. A+ (A) = 0
e. c(A+B) = cA+ cB
f. (c + d)A = cA+ dA
g. 1A = A
La matriz que tiene todos sus elementos iguales a cero se denomina matriz nula (o matriz
cero ) y la denotaremos por 0
1.1.2. Propiedades del producto
Recordemos que la multiplicacion de una matriz A por una matriz B solamente se dene
cuando el n umero de columnas de A es igual al n umerode las de B. Hay tres situaciones
con respecto al producto de dos matrices A y B. Si A es de orden r c
5
6 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
a. AB existe solo si B tiene c las.
b. BA existe solo si B tiene r columnas.
c. Ambas, AB y BA existen solo si B es de orden c r
De las situaciones anteriores se desprende que AA = A
2
existe solo cuando A es cuadrada;
AB y BA siempre existen y son del mismo orden cuando A y B son cuadradas del mismo
orden. Tenganse en cuenta que en general AB = BA
Cuando se hace el producto AB se dice que A es postmultiplicada por B o que A es
multiplicada a derecha por B. Tambien se puede decir que B es premultiplicada por A o
que B es multiplicada a izquierda por A
Teorema 1.2. Al suponer que A, B y C son conformables con las operaciones indicadas y
que c y d son escalares; entonces
a. c(dA) = (cd)A
b. cAB = (cA)B = A(cB)
c. A(BC) = (AB)C
d. IA = A y BI = B
e. A(B +C) = AB +AC
f. (A+B)C = AC +BC
En el teorema 1.2, I es la matriz identidad, la cual es una matriz cuadrada que tiene todos
los elementos diagonales iguales a 1 y todos los demas componentes iguales a cero. Para
simbolizar la matriz identidad de orden n usaremos I
n
o simplemente I cuando en el contexto
este claro el orden de la matriz.
1.2. Algunos tipos especiales de matrices
1.2.1. Transpuesta
Denicion 1.1. Sea A una matriz de orden mn la matriz A
de tama no n m obtenida
de A al intercambiar las las y las columnas, se denomina la transpuesta de A
Teorema 1.3. Si A y B son matrices conformables para las operaciones indicadas y si c es
un escalar, se tiene:
a. (A
= A
b. (cA)
= cA
c. (A+B)
= A
+B
d. (AB)
= B
= C
El producto interno de dos vectores y una matriz postmultiplicada por un vector columna
son casos especiales del producto de matrices:
a. Un vector la postmultiplicado por un vector columna es un escalar
a
1c
b
c1
= p
11
b. Un vector columna postmultiplicado por un vector la es una matriz
b
c1
a
1c
= P
cc
c. Una matriz postmultiplicada por un vector columna es un vector columna
A
rc
b
c1
= p
r1
d. Un vector la postmultiplicado por una matriz es un vector la
a
1c
B
cr
= p
1r
Si a
=
_
a
1
a
2
a
n
y x =
_
_
x
1
x
2
.
.
.
x
n
_
_
el producto interno de a y x es
a
x = a
1
x
1
+ a
2
x
2
+ + a
n
x
n
=
n
i=1
a
i
x
i
el producto interno solo esta denido cuando los vectores son del mismo orden. En particular
cuando a
= x
se tiene
x
x =
n
i=1
x
2
i
1.2.2. Matrices Simetricas
Denicion 1.2. Una matriz cuadrada A se denomina simetrica si A = A
y antisimetrica
si A = A
y
B = B
= (B
) = BA
ya que AB generalmente no es lo mismo que BA tenemos que AB generalmente no es
simetrica.
8 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
El producto de una matriz por su traspuesta siempre existe y es una matriz simetrica
(AA
= (A
= AA
y
(A
A)
= A
(A
= A
A
ambos productos existen y son matrices simetricas pero no necesariamente iguales.
Los elementos de AA
son el producto interno de las las de A con ellas mismas y con cada
una de las otras las.
Denicion 1.3. En una matriz cuadrada A, la diagonal principal es el conjunto ordenado
de elementos diagonales y se denota diag(A)
diag(A) = {a
11
, a
22
, , a
nn
}
El iesimo elemento de la digonal de AA
x
2
i
= 0 implica que x
1
= x
2
= = x
n
= 0. Esa
es la base para probar que
A
= QXX
implica que PX = QX
El producto interno de dos vectores es un escalar y por lo tanto simetrico
x
y = (x
y)
= y
x
en contraste, el producto externo no es necesariamente simetrico
Denicion 1.4 (Matriz diagonal). Una matriz cuadrada en la que los elementos no diago-
nales son todos ceros, se denomina matriz diagonal.
Denicion 1.5 (Matriz escalar). Una matriz diagonal que tiene todos sus elementos diago-
nales iguales, se denomina matriz escalar.
Denicion 1.6 (Matriz triangular superior). Una matriz cuadrada en la que los elementos
por debajo de la diagonal principal son ceros, se denomina triangular superior.
Denicion 1.7 (Matriz triangular inferior). Una matriz cuadrada en la que los elementos
por encima de la diagonal principal son ceros, se denomina triangular inferior.
Denicion 1.8. Sea A una matiz cuadrada
a. Si AA
= A
_
1 6 8 9 3 8
2 4 1 6 1 1
4 3 6 1 2 1
9 1 4 6 8 7
6 8 1 4 3 2
_
_
Suponga que dibujamos lneas punteadas entre ciertas las y columnas como en
B =
_
_
1 6 8 9 | 3 8
2 4 1 6 | 1 1
4 3 6 1 | 2 1
+
9 1 4 6 | 8 7
6 8 1 4 | 3 2
_
_
(1.2)
Cada uno de los arreglos de numeros de las cuatro secciones de B engendrados por las lneas
punteadas es una matriz:
B
11
=
_
_
1 6 8 9
2 4 1 6
4 3 6 1
_
_
B
12
=
_
_
3 8
1 1
2 1
_
_
(1.3)
B
21
=
_
9 1 4 6
6 8 1 4
_
B
21
=
_
8 7
3 2
_
Usando las matrices en (1.3) podemos ahora escribir la matriz B de (1.2) como una matriz
de matrices:
B =
_
B
11
B
12
B
21
B
22
_
(1.4)
Esta especicacion de B se llama una partici on de B, y se dice que las matrices B
11
, B
12
,
B
21
y B
22
son submatrices de B; ademas, B de (1.4) se llama matriz particionada.
Notese que B
11
y B
21
tienen el mismo n umerode columnas, as como B
12
y B
22
. Similarmente
B
11
y B
12
tienen el mismo n umerode las, como tambien B
21
y B
22
. El caso general de una
matriz particionada es:
A
rc
=
_
K
pq
L
p(cq)
M
(rp)q
N
(rp)(cq)
_
(1.5)
donde K, L, M y N son las submatrices con su orden como se muestra en los subndices.
10 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
1.3. Traza de una matriz
Denicion 1.9. La suma de los elementos de la diagonal de una matriz cuadrada se le conoce
como su traza y se simboliza por Tr(A). Para A = (a
ij
) con i, j = 1, 2, , n
Tr(A) = a
11
+ a
11
+ + a
nn
=
n
i=1
a
ii
Cuando A no es cuadrada la traza no esta denida
1.3.1. Propiedades de la traza
La traza de una matriz cuadrada A tiene las siguientes propiedades
a. Tr(A) = Tr(A
)
b. Si escribimos un escalar como una matriz 1 1 tenemos Tr(Escalar) = Escalar
c. Tr(A+B) = Tr(A) + Tr(B)
d. Tr(A) = Tr(A)
e. Tr(AB) = Tr(BA)
f. Tr(ABC) = Tr(BCA) = Tr(CAB) (dado que las matrices son conformables para las
operaciones indicadas)
g. Tr(AA
) = Tr(A
A)
h. Tr(A
A) = 0 implica que A = 0
1.4. Matrices con todos sus elementos iguales
Los vectores que tienen todos sus elementos iguales a uno se pueden usar para expresar una
suma de numeros en notacion matricial, como un producto interno
1
.
El producto interno de un vector sumador con el mismo es un escalar, el orden del vector
1
n
1
n
= n
los productos externos son matrices con todos los elementos iguales a 1. En general 1
r
1
s
es
una matriz de orden r s y se denota con el smbolo J
rs
o simplemente J cuando sea claro
el orden
1
r
1
s
= J
rs
claramente J tiene todos sus elementos iguales a . Son particularmente utiles las matrices
J cuadradas, J
n
= 1
n
1
n
. Denimos
J
n
=
1
n
J
n
1
Searle [1] les llama summing vectors, que podramos traducirlo como vectores sumadores
1.5. INVERSA 11
Denimos
C
n
= I J
n
= I
1
n
J
n
La matriz se le conoce como matriz centradora
2
.
1.4.1. Propiedades.
Las siguientes propiedades son muy utiles y sencillas de probar
a. J
rs
J
st
= sJ
rt
b. 1
r
J
rs
= r1
s
c. J
rs
1
s
= s1
r
d. C = C
= C
2
e. C1 = 0
f. CJ = JC = 0
g. x
C = x
x1
= {x
i
x} (por eso el nombre de matriz centradora)
h. x
Cx = x
x nx
2
=
n
i=1
(x
i
x)
2
1.5. Inversa de una matriz
Denicion 1.10. Sea A una matriz cuadrada de tama no n n. Se dice que A es invertible
o no singular si existe una matriz cuadrada X de tama no n n, tal que
AX = XA = I
n
y X se denomina la inversa de A
Denicion 1.11. El menor ij denotado por M
ij
, es el determinante
3
que resulta de suprimir
la la i y la columna j de un determinante
Ejemplo 1.1. Para
a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33
el menor 32 es
M
32
=
a
11
a
13
a
21
a
23
= a
11
a
23
a
21
a
13
2
centering matrix
3
Para la teora sobre determinantes se remite al estudiante al captulo 4 Searle 1982 [1]
12 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
Denicion 1.12. El cofactor ij denotado por c
ij
, se dene por
c
ij
= (1)
i+j
M
ij
Ejemplo 1.2. En
a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33
el cofactor 32 es
c
32
= (1)
3+2
M
32
= (1)(a
11
a
23
a
21
a
13
)
Denicion 1.13. Sea A una matriz cuadrada de orden n n. Si formamos la matriz con
los cofactores de los elementos del determinante de A y tomamos su traspuesta. La matriz
as formada se llama la adjunta de A y se simboliza por adj(A)
Teorema 1.4. Si |A| = 0, la inversa de la matriz A es:
A
1
=
1
|A|
adj(A)
El teorema 1.4 nos proporciona un metodo para hallar la inversa de una matriz, sin embargo
este metodo es extenso especialmente si la matriz es de gran tama no. Otro metodo para hallar
la inversa de una matriz es por medio de las operaciones elementales de la (o columna), se
ilustrara este con un ejemplo
Ejemplo 1.3. Hallar la inversa (si existe) de la matriz
A =
_
_
1 1 1
0 2 3
1 1 3
_
_
Partimos de la matriz ampliada
_
_
1 1 1 | 1 0 0
0 2 3 | 0 1 0
1 1 3 | 0 0 1
_
_
y efectuamos operaciones elementales de la hasta conseguir en el bloque de la izquierda la
matriz I
3
. La matriz resultante en el bloque de la derecha es la inversa de A. El estudiante
puede comprobar que esto se consigue con las siguientes operaciones elementales de la F
1
+
F
3
, F
2
+ F
3
, 2F
1
, F
2
+ F
1
, 5F
1
, F
3
+ F
1
,
3
5
F
3
+ F
2
,
1
10
F
1
,
1
2
F
2
,
1
5
F
3
, y se obtiene
_
_
1 0 0 |
9
10
4
10
1
10
0 1 0 |
3
10
2
10
3
10
0 0 1 |
1
5
1
5
1
5
_
_
1.5.1. Condiciones de existencia
a. A
1
puede existir solo cuando A es cuadrada.
b. A
1
existe solo si |A| = 0
1.5. INVERSA 13
1.5.2. Propiedades de la inversa
Si A es una matriz cuadrada no singular su inversa A
1
, tiene las siguientes propiedades:
a. Si A tiene inversa, es unica. Por eso podemos hablar de la inversa de A
b. La inversa conmuta con A. Ambos productos siendo la matriz identidad:
A
1
A = AA
1
= I
c. El determinante de la inversa de A, es el recproco del determinante de A: |A
1
| = 1/|A|
d. La matriz inversa es no singular.
e. La inversa de A
1
es A:
_
A
1
_
1
= A
f. La inversa de la traspuesta es la traspuesta de la inversa:
(A
)
1
=
_
A
1
_
= A, entonces
_
A
1
_
= A
1
h. La inversa de un producto es el producto de las inversas tomado en reversa, dado que A
1
y B
1
existen:
(AB)
1
= B
1
A
1
1.5.3. Matrices ortogonales
Recordemos de la denicion 1.8 que una matriz cuadrada P es ortogonal cuando P
P =
PP
= I
d. Sus columnas son ortonormales, esto es P
P = I
Cualquier combinacion de (a) o (b) con (c) o (d) es necesaria y suciente para las otras dos.
4
Ortonormal signica que el producto interno de cualquier par de ellas es cero y que su norma es uno. La
norma de un vector se dene como x =
x =
_
n
i=1
x
2
i
_1
2
14 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
1.6. El rango de una matriz
5
Un conjunto de vectores x
1
, x
2
, , x
n
son linealmente independientes si
i
x
i
= 0, im-
plica que
i
= 0 para todo i. Si x
1
, x
2
, , x
n
no son linealmente independientes, se dice
que son linealmente dependientes.
Denicion 1.14. Sea A una matriz de orden m n. El rango columna de A es el n ume-
romaximo de columnas linealmente independientes que esta contiene. El rango la de A es
el n umeromaximo de las linealmente independientes que esta contiene.
Se puede demostrar que el rango columna de A es igual al rango la, por lo tanto el concepto
de rango no es ambiguo. Denotamos el rango de A por
r(A)
es claro que
r(A) mn(m, n)
Denicion 1.15. Si A es una matriz de orden m n y r(A) = m, decimos que A es de
rango la completo. Si r(A) = n, decimos que A tiene rango columna completo
Tenemos los siguientes resultados importantes concernientes al rango:
a. r(A) = r(A
) = r(A
A) = r(AA
).
b. r(AB) mn(r(A), r(B)).
c. r(AB) = r(A) si B es cuadrada de rango completo.
d. r(CA) = r(A) si C es cuadrada de rango completo.
e. Si B y C son no singulares, r(BAC) = r(A).
f. r(A+B) r(A) + r(B)
g. Si A es una matriz mn y Ax = 0 para alg un x = 0 entonces r(A) n 1
h. Si A es una matriz cuadrada de orden n, A
1
existe si y solo si r(A) = n.
i. Si A es idempotente, r(A) = Tr(A)
1.7. Diferenciacion
Los siguientes resultados con respecto a la diferenciacion de matrices seran utiles para el
desarrollo de nuestro curso.
a.
(x
a)
x
= a
b.
(x
A)
x
= A
c.
(x
)
x
= A
d.
(x
Ax)
x
= Ax +A
Ax)
x
= 2Ax
5
Tomado de [5]
1.8. EJERCICIOS 15
1.8. Ejercicios
1. Encuentre el rango de cada una de las siguientes matrices. Cuales matrices son de
rango completo?
A =
_
_
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 0 0 0 1
_
_
B =
_
_
1 1 0 0
1 0 1 0
1 0 0 1
_
_
C =
_
_
1 1 0 0
1 0 1 0
1 0 0 1
1 1 1 1
_
_
2. Use la matriz B en el ejercicio 1 para calcular D = B(B
B)
1
B
. Determine si D es
idempotente. Caul es el rango de D?
3. Encuentre a
ij
para que la siguiente matriz sea simetrica
A =
_
_
1 2 a
13
4
2 1 0 a
24
6 0 a
32
2
a
41
8 2 3
_
_
4. Encuentre b
41
tal que a y b sean ortogonales.
a =
_
_
2
0
1
3
_
_
b =
_
_
6
1
3
b
41
_
_
5. Halle la inversa de la siguiente matriz,
A =
_
_
5 0 0
0 10 2
0 2 3
_
_
6. Sea
X
=
_
_
1 1 1 1 1 1 1 1
,2 ,4 ,6 ,8 ,2 ,4 ,6 ,8
0 0 0 0 ,1 ,1 ,1 ,1
_
_
Y
=
_
242 240 236 230 239 238 231 226
_
a) Calcule X
X y X
ITULO 1. INTRODUCCI
ON A MATRICES
b) Tiene X rango columna completo? Cual es el rango de X
X?
c) Obtenga (X
X)
1
. Cual es el rango de (X
X)
1
?
d) Calcule P = X(X
X)
1
X
a > 0. Denimos a =
a
(a
)
1/2
y A = aa
.
Demuestre que A es simetrica e idempotente.
8. Sean a y b dos vectores de orden m 1 que son ortogonales uno al otro. Denimos
A = aa
y B = bb
_
1 1 2
1 2 4
1 1 2
1 3 6
_
_
Matrices especiales
Suponga que necesitamos una matriz de 3 4 cuyos elementos sean todos unos, eso se logra
en R as:
U<-matrix(1,nrow=3,ncol=4)
La matriz identica de orden 5 se crea mediante la funcion diag()
I5<-diag(5) %# crea la matriz identica de orden 5
Atencion: La funcion diag() como muchas (por no decir todas), las funciones en R tiene
un comportamiento que depende del argumento que ella reciba, si ejecutamos la orden
d<-diag(A)
en d se asigna la diagonal principal de la matriz A y si ejecutamos la orden
D<-diag(b)
en D se asigna una matriz diagonal cuyos elementos en la diagonal son los elementos del
vector b. Si necesitamos una matriz escalar kI cuyo orden en el n umero de las de A
D1<-diag(5,nrow(A))
Creacion de matrices a partir de un data frame
Podemos crear una matriz usando las columnas de un marco de datos (data frame). Para
el ejemplo usaremos el marco de datos women, de los datos de ejemplo de R
6
data(women)
W<-as.matrix(women)
head(W)
6
Para tener un listado y una corta descripcion de los marcos de datos disponibles en el paquete (librera)
datasets de R, use el comando data(), si quiere un listado de los marcos de datos de ejemplo de todas las
libreras instaladas use data(package = .packages(all.available = TRUE))
18 CAP
ITULO 1. INTRODUCCI
ON A MATRICES
1.9.2. Funciones para manipulacion de matrices
En esta seccion se presenta una serie de funciones de uso frecuente para calculos con matrices.
nrow(X) %# numero de filas
ncol(X) %# numero de columnas
t(X) %# traspone una matriz
det(A) %# calcula el determinante
una funcion de uso frecuente cuando manipulamos matrices es la funcion solve() que permite
calcular la inversa de una matriz invertible y la solucion de sistemas de ecuaciones lineales.
solve(A) %# calcula la inversa de una matriz
solve(A,b) %# solucion para el sistema Ax=b con A invertible
nuevamente, observese como la funcion solve() tiene dos usos dependiendo del argumento:
si solo le entrega la matriz invertible A, la funcion regresa su inversa; si se entrega una matriz
invertible y un vector b, la funcion regresa A
1
b, la solucion al sistema. Tenga en cuenta que
si la matriz A no es invertible se genera un error.
Si queremos ver la respuesta en formato de fraccionarios se puede usar la funcion fractions()
de la librera MAS
library(MASS)
fractions(solve(A)) %# la inversa de A en formato de fracciones
Captulo 2
Matrices inversas generalizadas
2.1. Denicion y existencia
Denicion 2.1. Sea A
pq
una matriz, una inversa generalizada de A se dene como cual-
quier matriz G que satisface
AGA = A (2.1)
Para denotar una inversa generalizada de la matriz A se usa el smbolo A
. Otros nombres
para una matriz G que cumpla 2.1 son: inversa condicional, pseudoinversa o ginversa. En la
denicion 2.1 se dice una inversa generalizada y no la inversa generalizada, esto es as porque
para una matriz dada A la matriz G no es unica.
Ejemplo 2.1. Una inversa generalizada de la matriz
A =
_
_
2 3 1 1
5 8 0 1
1 2 2 3
_
_
es G
1
=
_
_
0 0 0
0 0 0
1 1 0
0 1 0
_
_
y otra es G
2
=
_
_
0 1 4
0
1
2
5
2
0 0 0
0 0 0
_
_
, le queda como ejercicio al estudiante
comprobar que G
1
y G
2
cumplen con (2.1), es decir AG
1
A = A y AG
2
A = A
En general, la existencia de G para una matriz cualquiera A se garantiza escribiendo esta
ultima como en su forma diagonal equivalente; dada una matriz A
pq
de rango r siempre es
posible hallar matrices P
pp
y Q
qq
tales que
PAQ = =
_
D
r
0
r(qr)
0
(pr)r
0
(pr)(qr)
_
pq
(2.2)
donde la matriz D
r
es una matriz diagonal de orden r, las matrices P y Q surgen de
operaciones elementales de la y columna sobre la matriz identica respectivamente, lo que
garantiza que ellas son no singulares y por tanto podemos escribir A = P
1
Q
1
.
19
20 CAP
como
=
_
D
1
r
0
0 0
_
qp
(2.3)
El estudiante puede comprobar que
= , esto es,
P
. .
G
P
1
Q
1
. .
A
= P
1
. .
Q
1
= P
1
Q
1
= A
Ejemplo 2.2. Para la matriz A del ejemplo 2.1 se tiene una forma diagonal equivalente
usando
1
P =
_
_
0 0 1
0
1
2
5
2
1
1
2
1
2
_
_
y
2
Q =
_
_
1 2 8 11
0 1 5 7
0 0 1 0
0 0 0 1
_
_
de tal forma que PAQ = =
_
_
1 0 0 0
0 1 0 0
0 0 0 0
_
_
con D
2
=
_
1 0
0 1
_
= I
2
luego D
1
2
= D
2
y por tanto
=
_
_
1 0 0
0 1 0
0 0 0
0 0 0
_
_
34
el estudiante puede vericar que G = Q
P =
_
_
0 1 4
0
1
2
5
2
0 0 0
0 0 0
_
_
43
La matriz G no es unica debido a que P y Q no son unicas.
2.2. Un algoritmo para calcular A
Para hallar una inversa generalizada de una matriz A siga los siguientes pasos
(i) En A de rango r halle un menor no singular de orden r, llame a este M.
(ii) Invierta M y transponga la inversa:
_
M
1
_
.
(iii) En A reemplace cada elemento de M por el correspondiente elemento de
_
M
1
_
.
(iv) Reemplace todos los otros elementos de A por cero.
(v) Transponga la matriz resultante.
(vi) El resultado es A
21
Ejemplo 2.3. Se ilustrara el uso del algoritmo para obtener la matriz G
1
del ejemplo 2.1
Paso (i) La matriz A tiene rango r = 2 por eso se toma un menor de orden 2, en este caso
se tomo
_
_
2 3 1 1
5 8 0 1
1 2 2 3
_
_
M
es decir
M =
_
a
13
a
14
a
23
a
24
_
=
_
1 1
0 1
_
Paso (ii) La inversa de M es M
1
=
_
1 1
0 1
_
y la transpuesta de la inversa es
(M
1
)
=
_
1 0
1 1
_
Pasos (iii) y (iv) Reemplazando en A cada elemento de M por el correspondiente de M
1
y reemplazando todos los demas elementos de A por cero nos queda
_
_
0 0 1 0
0 0 1 1
0 0 0 0
_
_
Paso (v) Trasponiendo esta ultima matriz obtenemos
G =
_
_
0 0 0
0 0 0
1 1 0
0 1 0
_
_
que es una inversa generalizada de A.
El hecho que A tenga una inversa generalizada a un si esta es singular o rectangular tiene
aplicaciones en el problema de solucion de ecuaciones, por ejemplo, solucionar Ax = y
cuando A es singular o rectangular. En situaciones de esta naturaleza, el uso de una inversa
generalizada A
= X
y donde la matriz X
X es singular.
La solucion no puede ser escrita (X
X)
1
X
_
7 3 2 2
3 3 0 0
2 0 2 0
2 0 0 2
_
_
_
_
x
1
x
2
x
3
x
4
_
_
=
_
_
553
219
156
178
_
_
(2.5)
Una inversa generalizada para A es (vericarlo)
G =
_
_
1
2
1
2
1
2
0
1
2
5
6
1
2
0
1
2
1
2
1 0
0 0 0 0
_
_
y el conjunto solucion, seg un (2.4) es:
x =
_
_
89
16
11
0
_
_
+
_
_
_
_
1 0 0 1
0 1 0 1
0 0 1 1
0 0 0 0
_
_
I
_
_
_
_
z
1
z
2
z
3
z
4
_
_
=
_
_
89
16
11
0
_
_
+
_
_
0 0 0 1
0 0 0 1
0 0 0 1
0 0 0 1
_
_
_
_
z
1
z
2
z
3
z
4
_
_
=
_
_
89 +z
4
16 z
4
11 z
4
z
4
_
_
(2.6)
donde z
4
es arbitrario, si tomamos z
4
= 0 entonces se obtiene
x
1
=
_
89 16 11 0
(2.7)
y si z
4
= 1 se tiene
x
2
=
_
88 15 10 1
(2.8)
La matriz G usada previamente no es la unica inversa generalizada de A, otra es es
G =
_
_
0 0 0 0
0
1
3
0 0
0 0
1
2
0
0 0 0
1
2
_
_
(2.9)
24 CAP
x =
_
_
0
73
78
89
_
_
+
_
_
_
_
0 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
_
_
I
_
_
_
_
z
1
z
2
z
3
z
4
_
_
=
_
_
0
73
78
89
_
_
+
_
_
1 0 0 0
1 0 0 0
1 0 0 0
1 0 0 0
_
_
_
_
z
1
z
2
z
3
z
4
_
_
=
_
_
z
1
73 +z
1
78 +z
1
89 +z
1
_
_
si hacemos z
1
= 0 obtenemos
x
3
=
_
0 73 78 89
(2.10)
Lema 2.1. Sea H = GA donde el rango de A, denotado por r(A) es r, esto es, r(A) = r
y A tiene q columnas, entonces H es idempotente con rango r y r(I H) = q r
Teorema 2.3. Cuando A es una matriz de q columnas y rango r y cuando y en un vector
no nulo, el numero de soluciones linealmente independientes a las ecuaciones consistentes
Ax = y es q r + 1
Este teorema signica que x = Gy y x = Gy + (H I)z para q r vectores z linealmen-
te independientes, son soluciones linealmente independientes de Ax = y. Todas las otras
soluciones seran combinacion lineal de aquellas que forman un conjunto de soluciones lineal-
mente independientes. Una forma de construir soluciones como combinacion lineal de otras
soluciones, esta contenida en el siguiente teorema.
Teorema 2.4. Si x
1
, x
2
, , x
s
son cualquier conjunto de s soluciones de las ecuaciones
consistentes Ax = y, para las cuales y = 0, entonces cualquier combinacion lineal de esas
soluciones x
i
x
i
es tambien una solucion de las ecuaciones si y solo si
i
= 1
Ejemplo 2.5. El rango de la matriz A denida en 2.5 es 3 por tanto existen 4 3 + 1 = 2
soluciones linealmente independientes para la ecuacion. x
1
de (2.7) y x
2
de (2.8) son dos
soluciones linealmente independientes, por tanto cualquier otra solucion puede ser expresada
como combinacion lineal de ellas. La solucion
_
0 73 78 89
ETRICAS. 25
La importancia de este teorema es que uno solo necesita derivar una inversa generalizada de
A para generar todas las soluciones a Ax = y. No hay otras soluciones distintas a las que
pueden generarse desde x.
Un teorema nal, relacionado con la propiedad de invariancia de los elementos de una solu-
cion, importante en el estudio de modelos lineales porque esta relacionado con el concepto
de estimabilidad.
Teorema 2.6. El valor de k
H = k
, donde H = GA y AGA = A
Ejemplo 2.6. Con la matriz
G de (2.9) se verica que
H =
_
_
0 0 0 0
1 1 0 0
1 0 1 0
1 0 0 1
_
_
=
GA
para k
=
_
0 1 1 0
se verica que k
H = k
por tanto k
x
1
= 0 89 + 1 (16) + (1) (11) + 0 0 = 5
k
x
2
= 0 88 + 1 (15) + (1) (10) + 0 1 = 5
k
x
3
= 0 0 + 1 73 + (1) (78) + 0 89 = 5
en general usando (2.6)
k
x = 0 (89 +z
4
) + 1 (16 z
4
) + (1) (11 z
4
) + 0 z
4
= 16 z
4
+ 11 +z
4
= 5
Hay por supuesto, muchos valores de k
que satisfacen k
H = k
x es invariante a la solucion x que escojamos; esto es, para dos de tales vectores, digamos
k
1
y k
2
, k
1
x y k
2
x son diferentes pero cada uno tiene un valor que es el mismo para todos
los valores de x
2.4. Matrices Simetricas.
El estudio de modelos lineales frecuentemente conduce a ecuaciones de la forma X
= x
y
que tienen que ser solucionadas para
b. Por tanto hay que poner especial atencion a una
inversa generalizada de la matriz simetrica X
X.
2.4.1. Propiedades de una Inversa Generalizada de X
X
Cuatro propiedades de una inversa generalizada de X
X, entonces
26 CAP
X
ii. XGX
X = X esto es, GX
es invariante a G
iv. XGX
es simetrica, lo sea G o no
Corolario. Aplicando la parte (i) del teorema 2.7 a sus otras partes mostrar que:
i. XG
X = X
ii. X
XGX
= X
iii. X
XG
= X
iv. XG
= XGX
v. XG
es simetrica
2.5. Procesamiento de datos con R
Se ingresan las matrices A, G
1
y G
2
del ejemplo 2.1 y se verica que efectivamente AG
i
A =
A
A<-matrix(c( 2 , 3,1,-1 ,
5, 8 ,0 ,1 ,
1 , 2 ,-2 ,3),nrow=3,byrow=T )
G1<-matrix(c(0,0,0 ,
0,0,0 ,
1,1,0 ,
0,1,0),nrow=4,byrow=T)
G2<-matrix(c(0,1,-4 ,
0,-1/2,5/2 ,
0,0,0 ,
0,0,0) ,nrow=4,byrow=T)
A%*%G1%*%A-A # el resuldato debe ser cero
A%*%G2%*%A-A # el resuldato debe ser cero
Se ingresan las matrices P y Q del ejemplo 2.2, se verica que efectivamente PAQ = y
A = P
1
Q
1
2.5. PROCESAMIENTO DE DATOS CON R 27
P<-matrix( c(0,0,1 ,
0,-1/2,5/2 ,
1,-1/2,1/2),nrow=3,byrow=T )
Q<-matrix(c( 1,-2,-8 ,11,
0,1,5,-7 ,
0,0,1,0,
0,0,0,1),nrow=4,byrow=T)
Delta<-P%*%A%*%Q
solve(P)%*%Delta%*%solve(Q)
Se calcula una inversa generalizada de A tal como se hace en el ejemplo 2.3
# rango de A igual a dos
qr(A)$rank
# Menor no singular
M<-A[1:2,3:4]
# transpuesta de la inversa del menor
Mi<-t(solve(M))
# matriz de ceros del mismo tama~no de A
A0<-matrix(0,nrow=nrow(A),ncol=ncol(A))
A0[1:2,3:4]<-Mi
G<-t(A0) # la inversa generalizada de A
Se desarrolla el ejemplo 2.4.
# ejemplo 2.4
A<-matrix(c(7,3,2,2,
3,3,0,0,
2,0,2,0,
2,0,0,2),nrow=4,byrow=T)
y<-matrix(c(553,219,156,178))
G<-diag(c(0,1/3,1/2,1/2))
# una solucion
G%*%y
# identica de orden 4
I<-diag(1,4,4)
G%*%A-I
# multiplique esta ultima por un vector z arbitrario y sumele G%*%y y tiene
# todas las soluciones posibles.
28 CAP
_
1 2 3 1
4 5 6 2
7 8 10 7
2 1 1 6
_
_
a la forma diagonal y hallar una inversa generalizada de cada una.
2. Hallar una inversa generalizada de A y B del ejercicio anterior, invirtiendo un menor no
singular.
3. Demuestre que las ecuaciones Ax = y son consistentes donde
A =
_
_
1 2
3 3
5 7
_
_
y y =
_
_
6
9
21
_
_
4. Verique que
G =
1
18
_
10 16 4
8 11 5
_
es una inversa generalizada para la matriz A del ejercicio 3
5. Verique que
G =
_
_
1
10
2
10
4
9
0 0
1
9
1
10
2
10
2
9
_
_
es una inversa generalizada de la matriz
A =
_
_
1 2 3
2 4 6
3 3 3
_
_
6. Use la inversa generalizada del ejercicio 5 para obtener una solucion a las ecuaciones
Ax = y, donde A es la denida en el mismo ejercicio y y =
_
6 12 9
_
14
23
32
5
_
_
2.6. EJERCICIOS 29
8. Hallar una inversa generalizada para las matrices A
1
=
_
_
4 1 2 0
1 1 5 15
3 1 3 5
_
_
A
2
=
_
_
2 2 6
2 3 8
6 8 22
_
_
A
3
=
_
_
1 2 3 2
3 7 11 4
4 9 14 6
_
_
A
4
=
_
_
2 3 5 1
5 8 13 3
1 2 3 1
_
_
9. Sea
X =
_
_
1 1 0 0
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
_
_
a. Cual es el rango de X? Explique.
b. Halle X
X.
c. Cual es el rango de X
X? Explique.
d. Halle una inversa generalizada de X
X
10. Sea Y
=
_
8 10 7 6 9 8 7 8 9
Xb
0
= X
Y
11. Hallar una inversa generalizada de cada una de las siguientes matrices (A es una matriz
cualquiera de orden p q y el orden de las otras matrices es tal que el producto de puede
efectuar)
a. PAQ cuando P y Q son no singulares.
b. GA cuando G es una inversa generalizada de A.
c. kA cuando k es un escalar.
d. ABA cuando ABA es idempotente.
e. J cuando J es cuadrada con todos los elementos iguales a 1.
12. Demuestre que B
ABB
es
idempotente.
13. Construya una inversa generalizada en terminos de X
s
Ejemplo 3.1.
x
Ax =
_
x
1
x
2
x
3
_
_
1 2 3
4 7 6
2 2 5
_
_
_
_
x
1
x
2
x
3
_
_
al multiplicar obtenemos
x
Ax = x
2
1
+ 7x
2
2
+ x
2
3
+ 6x
1
x
2
+ 5x
1
x
3
+ 4x
2
x
3
esta es una funcion cuadratica de las x
Ax se puede expresar as
x
Ax = x
2
1
+ 7x
2
2
+ x
2
3
+ (3 + 3)x
1
x
2
+
_
5
2
+
5
2
_
x
1
x
3
+ (2 + 2)x
2
x
3
=
_
x
1
x
2
x
3
_
_
1 3
5
2
3 7 2
5
2
2 5
_
_
_
_
x
1
x
2
x
3
_
_
31
32 CAP
ATICAS
donde la matriz involucrada B =
1
2
(A+A
_
_
1 3 a
5
2
+ b
3 +a 7 2 +c
5
2
b 2 c 5
_
_
_
_
x
1
x
2
x
3
_
_
para valores cualquiera a, b y c pero solo cuando a = b = c = 0 la matriz involucrada es
simetrica. esto signica que para cualquier forma cuadratica particular hay una y solo una
matriz tal que la forma cuadratica puede ser escrita como x
Ax =
_
x
1
x
2
x
3
_
_
2 2 1
2 5 1
1 1 2
_
_
_
_
x
1
x
2
x
3
_
_
= 2x
2
1
+ 5x
2
2
+ 2x
2
3
+ 4x
1
x
2
+ 2x
1
x
3
+ 2x
2
x
3
= (x
1
+ 2x
2
)
2
+ (x
1
+ x
3
)
2
+ (x
2
+ x
3
)
2
es positiva para cualquier valor (real) de las x
s excepto para x
1
= x
2
= x
3
= 0 esto es, excepto
para x = 0 (en cuyo caso x
Ax es semidenida
positiva, es decir, cuando
x
Ax = 0 para al menos un x = 0
x
Ax =
_
x
1
x
2
x
3
_
_
37 2 24
2 13 3
24 3 17
_
_
_
_
x
1
x
2
x
3
_
_
= (6x
1
4x
3
)
2
+ (x
1
2x
2
)
2
+ (3x
2
x
3
)
2
3.3. MATRICES DEFINIDAS POSITIVAS 33
es cero cuando x
=
_
2 1 3
por tanto x
y = y
Iy =
y
2
i
es denida positiva porque es cero solo cuando y = 0, pero
y
y ny
2
= y
(I
1
n
J
n
)y
es una forma cuadratica semidenida positiva porque es cero cuando y = 0 y tambien cuando
todos los elementos de y son iguales, esto es cuando y = 1
Seguidamente se dan lemas concernientes a matrices (semi)denidas positivas ((s)dp) que
seran subsecuentemente utilizados.
Lema 3.1. La matriz simetrica A es denida positiva si y solo si todos sus menores princi-
pales tienen determinante positivo.
Corolario. las matrices denidas positivas son no singulares.
El recproco de este corolario no es cierto: las matrices no singulares no son, en general,
denidas positivas.
Lema 3.2. para P no singular, P
P
para P no singular.
Lema 3.5. A
L donde
L es de orden n r de rango r; es decir, L es de rango columna completo.
Lema 3.8. Una matriz simetrica que tiene sus valores propios iguales a 0 y 1 es idempotente
Lema 3.9. Si A y V son simetricas y V es denida positiva, entonces si AV tiene valores
propios 0 y 1 implica que AV es idempotente.
34 CAP
ATICAS
3.4. Distribuciones
3.4.1. Funciones de distribucion multivariadas
Considerando n variables aleatorias X
1
, X
2
, , X
n
para las cuales x
1
, x
2
, , x
n
es un con-
junto de realizaciones escribimos la funcion de densidad acumulativa como
P(X
1
x
1
, X
2
x
2
, , X
n
x
n
) = F(x
1
, x
2
, , x
n
) (3.1)
entonces la funcion de densidad es
f(x
1
, x
2
, , x
n
) =
n
x
1
x
2
x
n
F(x
1
, x
2
, , x
n
) (3.2)
Las propiedades que debe cumplir la funcion de densidad son
i. f(x
1
, x
2
, , x
n
) 0 para < x
i
< para todo i
ii.
f(x
1
, x
2
, , x
n
)dx
1
dx
2
dx
n
= 1
La funcion de densidad marginal de x
k+1
, , x
n
es
g(x
k+1
, , x
n
) =
f(x
1
, , x
k
, x
k+1
, , x
n
)dx
1
dx
k
(3.3)
la distribucion condicional de las primeras k x
s, esto es
f(x
1
, , x
k
/x
k+1
, , x
n
) =
f(x
1
, x
2
, , x
n
)
g(x
k+1
, , x
n
)
(3.4)
3.4.2. Momentos
El kesimo momento alrededor de cero de la iesima variable aleatoria es E(x
k
i
), el valor
esperado de la kesima potencia de x
i
:
(k)
x
i
= E(x
k
i
) =
x
k
i
g(x
i
)dx
i
(3.5)
y sustituyendo desde (3.3) tenemos
(k)
x
i
=
x
k
i
f(x
1
, x
2
, , x
n
)dx
1
dx
2
dx
n
(3.6)
en particular, cuando k = 1, el superndice (k) se omite y se escribe
i
en lugar de
(1)
i
3.4. DISTRIBUCIONES 35
La covarianza entre la iesima y la jesima variable, para i, j = 1, 2, , n es
ij
=E(x
i
i
)(x
j
j
)
=
(x
i
i
)(x
j
j
)g(x
i
, x
j
)dx
i
dx
j
=
(x
i
i
)(x
j
j
)f(x
1
, x
2
, , x
n
)dx
1
dx
n
(3.7)
analogamente, la varianza de la iesima variable es
ii
=
2
i
= E(x
i
i
)
2
=
(x
i
i
)
2
g(x
i
)dx
i
=
(x
i
i
)
2
f(x
1
, x
2
, , x
n
)dx
1
dx
n
(3.8)
La varianza de, y covarianza entre las variables en un vector
_
x
1
x
2
x
n
son dadas en
(3.8) y (3.7). Arreglando esas varianzas y covarianzas en una matriz, obtenemos asi la matriz
de varianzas y covarianzas de las x
s
3.4.3. Distribuciones
Notacion: La varianza de una variable aleatoria escalar sera escrita v(x) mientras que la
matriz de varianza covarianza de un vector de variables aleatorias sera denotada por Var(x).
El vector de medias correspondiente a x es
E(x
) =
_
1
2
n
] = V
ademas, ya que la correlacion entre la variable i y la variable j es
ij
/
i
j
, la matriz de
correlaciones es
R =
_
ij
j
_
= D{1/
i
} V D{1/
i
} (3.9)
donde las D son matrices diagonales con elementos 1/
i
para i = 1, 2, , n claramente, los
elementos diagonales de R son unos y R es simetrica.
La matriz V es denida no negativa ya que para alg un vector no nulo t, v(t
x) = t
V t, que
es positiva (por denicion de varianza) a menos que t
ATICAS
3.4.4. Transformaciones lineales
Cuando las variables x son transformadas a variables y por la transformacion lineal y = Tx,
los momentos son faciles de derivar por ejemplo
y
= T
x
y Var (y) = TV T
cuando hacemos una transformacion de esta naturaleza que involucra una matriz no singular
T, se puede hallar la funcion de densidad de las y por
h(y
1
, y
2
, , y
n
) =
f(T
1
y)
T
(3.10)
donde T es el valor absoluto del determinante de T
Ejemplo 3.5. Si
y
1
= 3x
1
2x
2
y
2
= 5x
1
4x
2
es la transformacion y = Tx con
T =
_
3 2
5 4
_
T = |3 (4) 5 (2)| = | 2| = 2 y
T
1
=
1
2
_
4 2
5 3
_
por tanto
x =
_
x
1
x
2
_
= T
1
y =
1
2
_
4 2
5 3
_ _
y
1
y
2
_
es decir
x
1
= 2y
1
y
2
x
2
=
5
2
y
1
3
2
y
2
por lo que
h(y
1
, y
2
) =
f(T
1
y)
T
=
1
2
f(2y
1
y
2
,
5
2
y
1
3
2
y
2
)
3.4.5. Funcion generadora de momentos
Los momentos y las relaciones entre distribuciones son a menudo derivadas a partir de la
funcion generadora de momentos (f.g.m). En el caso univariado la f.g.m de una variable
3.4. DISTRIBUCIONES 37
aleatoria x escrita como una funcion de t es
M
x
(t) = E
_
e
tx
_
=
e
tx
f(x)dx
=
(1 +tx + (t
2
/2)x
2
+ (t
3
/3!)x
3
)f(x)dx
= (1 +t
(1)
x
+ (t
2
/2)
(2)
x
+ (t
3
/3!)
(3)
x
+ ) (3.11)
por tanto
(k)
x
=
k
M
x
(t)
t
k
t=0
(3.12)
esto es, el kesimo momento de x es la kesima derivada parcial de la f.g.m con respecto a
t evaluada en el punto t = 0. Analogamente para una funcion de x, digamos h(x) la f.g.m es
M
h(x)
(t) = E
_
e
th(x)
_
=
e
th(x)
f(x)dx
y el kesimo momento de la distribucion al rededor de cero es
k
h(x)
=
k
M
h(x)
(t)
t
k
t=0
(3.13)
En situaciones multivariadas se siguen resultados similares. La f.g.m de la distribucion con-
junta de n variables utiliza un vector de parametros t
=
_
t
1
t
2
t
n
:
M
x
(t) = E
_
e
(t
1
x
1
+t
2
x
2
++tnxn)
_
= E
_
e
t
x
_
=
e
t
x
f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
(3.14)
y la f.g.m de una funcion escalar de elementos de x, digamos la forma cuadratica es
M
x
Ax
(t) = E
_
e
tx
Ax
_
=
e
tx
Ax
f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
Ademas de generar los momentos de una distribucion la f.g.m. tambien tiene otros dos im-
portantes usos
Primero: Si dos variables aleatorias tienen la misma f.g.m entonces tienen la misma funcion
de densidad.
Segundo: Dos variables aleatorias son independientes si su f.g.m conjunta se puede factorizar
en el producto de sus dos f.g.m separadas, esto signica que si
M
(x
1
,x
2
)
(t
1
, t
2
) = M
x
1
(t
1
)M
x
2
(t
2
)
entonces x
1
y x
2
son independientes
38 CAP
ATICAS
3.4.6. Distribucion normal univariada
Cuando una variable aleatoria X tiene una distribucion normal con media y varianza
2
,
escribimos x es N(,
2
) o x N(,
2
) la funcion de densidad de x es entonces
f(x) =
1
2
e
1
2
(
x
)
2
, para < x <
de acuerdo con (3.11) se puede demostrar que
M
x
(t) = e
t+
1
2
t
2
2
(3.15)
y desde (3.12) es facil establecer que
(1)
x
= y
(2)
x
=
2
+
2
as que v(x) = E(x )
2
=
(2)
x
2
=
2
3.4.7. Distribucion normal multivariada
Funcion de densidad
Cuando las variables aleatorias en x
=
_
x
1
x
2
x
n
1
2
(x)
V
1
(x)
(2)
1
2
n
|V |
1
2
(3.16)
Integral de Aitken
Un resultado en calculo general que es particularmente aplicable a cualquier discusion de la
normal multivariada es la integral de Aitken. Esta es como sigue: para una matriz simetrica
A denida positiva de orden n
1
2
x
Ax
dx
1
dx
n
= (2)
1
2
n
|A|
1
2
(3.17)
la aplicacion directa de este resultado a (3.16) demuestra que
f(x
1
, x
2
, , x
n
)dx
1
, dx
2
, , dx
n
=
(2)
1
2
n
|V
1
|
1
2
(
2)
n
|V |
1
2
= 1
3.4. DISTRIBUCIONES 39
Funcion generadora de momentos
La f.g.m de la normal multivariada es
M
x
(t) = e
t
+
1
2
t
V t
(3.18)
derivando esta a la manera de (3.12) se muestra que el vector de medias es y la matriz de
varianza y covarianzas es V
Distribuciones marginales
La denicion de la distribucion marginal de x
1
, x
2
, , x
k
es, de acuerdo con (3.3)
g(x
1
, x
2
, , x
k
) =
f(x
1
, x
2
, , x
n
)dx
k+1
, , dx
n
la funcion generadora de momentos de esta distribucion es, por (3.14)
M
x
1
, ,x
k
(t) =
e
t
1
x
1
++t
k
x
k
g(x
1
, , x
k
)dx
1
dx
k
y sustituyendo para g(x
1
, x
2
, , x
k
) se tiene
M
x
1
, ,x
k
(t) =
e
t
1
x
1
++t
k
x
k
f(x
1
, , x
n
)dx
1
, , dx
n
= f.g.m de x
1
, x
2
, , x
n
, con t
k+1
= = t
n
= 0
= e
t
+
1
2
t
V t
con t
k+1
= = t
k
= 0 (3.19)
para hacer las sustituciones t
k+1
= = t
n
= 0 particionamos x, , V y t deniendo
x
1
=
_
x
1
x
2
x
k
y x
2
=
_
x
k+1
x
n
as que
x =
_
x
1
x
=
_
, t
=
_
t
1
t
y V =
_
V
11
V
12
V
12
V
22
_
ahora colocando t
2
= 0 en (3.19) obtenemos
M
x
1
, ,x
k
(t
1
) = e
t
1
1+
1
2
t
1
V11t1
por analoga con (3.18) y (3.16) tenemos por tanto la funci on de densidad marginal como
g(x
1
) =
exp
_
1
2
(x
1
1
)
V
1
11
(x
1
1
)
(2)
1
2
k
|V
11
|
1
2
(3.20)
40 CAP
ATICAS
se observa que g(x
1
) es una funcion de densidad normal multivariada. Similarmente
g(x
2
) =
exp
_
1
2
(x
2
2
)
V
1
22
(x
2
2
)
(2)
1
2
(nk)
|V
22
|
1
2
(3.21)
As vemos que las densidades marginales de la distribucion normal multivariada son tambien
normales multivariadas.
Ya que V es denida positiva, tambien lo son V
11
y V
22
, ademas en esas expresiones podemos
usar la forma particionada de V . As, si
V
1
=
_
V
11
V
12
V
12
V
22
_
1
=
_
W
11
W
12
W
12
W
22
_
entonces V
1
11
= W
11
W
12
W
1
22
W
12
y V
1
22
= W
22
W
12
W
1
11
W
12
Distribuciones condicionales
Denotamos por f(x) la funcion de densidad marginal de todas las n x
s entonces la ecuacion
(3.4) da la distribucion condicional de las primeras k x
s como
f(x
1
|x
2
) =
f(x)
g(x
2
)
se puede demostrar que la distribucion condicional tambien es normal:
x
1
|x
2
N[
1
+V
12
V
1
22
(x
2
2
), W
1
11
]
Independencia
Supongamos que el vector x
=
_
x
1
x
2
x
n
es particionado en p subvectores x
=
_
x
1
x
2
x
entonces una condicion necesaria y suciente para que los vectores sean
mutuamente independientes es, en la correspondiente particion de V = {V
ij
} para i, j =
1, 2, , p que V
ij
= 0 para i = j. La prueba de esto se establece como sigue: La f.g.m de x
es, por (3.18),
M
x
(t) = e
t
+
1
2
t
V t
exp
_
p
i=1
t
i
+
1
2
p
i=1
p
j=1
t
i
V
ij
t
i
_
y si V
ij
= 0 para i = j esta se reduce a
M
x
(t) = exp
_
p
i=1
_
t
i
+
1
2
t
i
V
ii
t
i
_
_
=
p
i=1
exp
_
t
i
+
1
2
t
i
V
ii
t
i
_
invocando la propiedad que la f.g.m de la distribucion conjunta de un grupo de variables
independientes es el producto de sus funciones generadoras de momento, concluimos que las
3.4. DISTRIBUCIONES 41
x
s son independientes. Recprocamente, si ellas son independientes, cada una con su matriz
de varianza covarianza, digamos K
ii
entonces la f.g.m de la distribucion conjunta es
p
i=1
exp
_
t
i
+
1
2
t
i
K
ii
t
i
_
= exp
p
i=1
(t
i
+
1
2
t
i
K
ii
t
i
)
= exp(t
+
1
2
t
V t)
donde V = diag{K
11
, K
22
, , K
pp
} por tanto V
ij
= 0 para i = j
3.4.8.
2
, F y t centrales
cuando x es N(0, I) entonces
x
2
i
tiene distribucion
2
con n grados de libertad. As, cuando
x es N(0, I) y u =
n
i=1
x
2
i
= x
x entonces u
2
n
la funcion de densidad es
f(u) =
u
1
2
n1
e
1
2
u
2
1
2
n
(
1
2
n)
para u > 0 (3.22)
donde (
1
2
n)
1
es la funcion gamma con argumento
1
2
n [para un entero positivo n, (n) =
(n 1)!] la funcion generadora de momentos correspondiente a (3.22) es
M
u
(t) = (1 2t)
1
2
n
(3.23)
la media y la varianza de u son n y 2n respectivamente (ejercicio). La aplicacion mas com un
de la distribucion
2
es que cuando
x es N(1,
2
I) entonces
(x
i
x)
2
/
2
es
2
n1
Dos variables independientes con distribucion
2
i
forman la base de la distribucion F. As, si
u
1
es
2
n
1
y u
2
es
2
n
2
entonces v =
u
1
/n
1
u
2
/n
2
F
n
1
,n
2
la media de la distribucion es n
2
/(n
2
2) y la varianza es
2n
2
2
[1 + (n
2
2)/n
1
]
(n
2
2)
2
(n
2
4)
nalmente, la razon de una variable aleatoria distribuida normalmente a una que tiene dis-
tribucion
2
n
es la base de la distribucion t de student. As, cuando x es N(0, 1) y u es
2
n
,
independiente de x entonces
t = x/
_
u/n (3.24)
1
(n) =
_
0
u
n1
exp(u)du
42 CAP
ATICAS
esta distribuida como t
n
, la distribucion t con n grados de libertad. Su funcion de densidad
es
f(t) =
(
1
2
n +
1
2
)
n(
1
2
n)
_
1 +
t
2
n
_
1
2
(n+1)
para < t < (3.25)
la distribucion t tine media cero y varianza n/(n2) una aplicacion frecuente de esta distri-
bucion es que si x es N(1,
2
I) entonces
x
S/
n
tiene distribucion t
n1
Se puede establecer una relacion entre t
n
y F
1,n
. Para t descrito en 3.24 consideremos
t
2
=
x
2
u/n
x
2
es claramente
2
1
y u es
2
n
por tanto t
2
es F
1,n
, esto es: cuando una variable tiene distri-
bucion t
n
su cuadrado esta distribuido F
1,n
.
3.4.9.
2
no central
Previamente hemos visto que cuando x es N(0, I
n
), la distribucion de x
x =
x
2
i
se conoce
como
2
central. Ahora consideramos la distribucion de u = x
x se conoce
como una
2
no central. Como con la
2
central, la
2
no central involucra los grados de
libertad, n. Esta tambien involucra el parametro
1
2
=
1
2
2
i
conocido como parametro
de no centralidad, para el cual se usa el smbolo , esto es
=
1
2
(n, ), la
2
no central con n grados
de libertad y parametro de no centralidad , cuando = 0 entonces = 0 y la distribucion
no central se reduce a la distribucion central.
La funcion de densidad de la distribucion
2
(n, ) es
f(u) = e
k=0
k
k!
u
1
2
n+k1
e
1
2
u
2
1
2
n+k
_
1
2
n + k
_ (3.26)
la funcion generadora de momentos de la distribucion
2
1
2
n
e
[1(12t)
1
]
(3.27)
la media y la varianza de la distribucion
2
(n
i
,
i
) e independientes entonces
i
2
(
k
i=1
n
i
,
k
i=1
i
)
3.5. DISTRIBUCI
ON DE FORMAS CUADR
ATICAS 43
3.4.10. F no central
Analogamente a la distribucion
2
no central hay una distribucion F no central. Esta se
especica como sigue. Si u
1
y u
2
son independientes donde u
1
es
2
(n
1
, ) y u
2
es
2
n
2
entonces
v =
1
/n
1
2
/n
2
esta distribuido como F
(n
1
, n
2
, ).
Cuando = 0 la distribucion F no central se reduce a la distribucion central. La media y la
varianza de la distribucion F no central son
E(v) =
n
2
n
2
2
_
1 +
2
n
1
_
v(v) =
2n
2
2
n
2
1
(n
2
2)
_
(n
1
+ 2)
2
(n
2
2)(n
2
4)
+
n
1
+ 4
n
2
4
_
3.4.11. Otras distribuciones no centrales
En el contexto de las distribuciones no centrales pueden mencionarse otras dos: la distribucion
t no central y la distribucion F doblemente no central. Si x es N(, 1) y si independientemente
de x, u es
2
n
entonces x/
_
u/n tiene la distribucion t no central, t
(n
1
,
1
) y u
2
es
2
(n
2
,
2
) entonces v = n
2
u
1
/n
1
u
2
esta distribuida como F
(n
1
, n
2
,
1
,
2
), la distribucion F doblemente no central.
3.5. Distribucion de formas cuadraticas
Discutiremos aqu la distribucion de una forma cuadratica x
Ax cuando x es N(, V ).
La mayor parte de la discusion es dedicada al caso en que V es no singular aunque son
dados algunos resultados pertinentes a V singular. Tratando con el caso general cuando
x es N(, V ) podemos considerar casos de interes especial tales como x siendo N(0, I) o
N(1, I) o N(, I).
En todos los teoremas se hace uso de la traza de una matriz, tr(A), la suma de los elementos
de la diagonal de A. Recordemos que tr(A) es igual a la suma de los valores propios de A y
que cuando A es idempotente tr(A) = r(A). Ademas, bajo la operacion de tomar la traza
el producto es cclicamente conmutativo:
tr(ABC) = tr(BCA) = tr(CAB)
tambien, ya que una forma cuadratica es un escalar, esta es igual a su propia traza y por
tanto
x
Ax = tr(x
Ax) = tr(Axx
)
esas propiedades de la traza son usadas muchas veces en lo que sigue sin explcita referencia
se advierte por tanto al lector que debe estar familiarizado con ellas.
Todos los teoremas dados estan relacionados a x siendo N(, V ), con una excepcion, la
primera parte del teorema 3.1, que es verdadero para x siendo (, V )n normal o no.
44 CAP
ATICAS
3.5.1. Valores esperados y varianzas
Teorema 3.1. Cuando x es N(, V )
i.) E(x
Ax) = tr(AV ) +
Ax) = 2tr(AV )
2
+ 4
AV A
iii.) La covarianza de x con x
Ax es
Cov(x, x
Ax) = 2V A
Corolario. Cuando = 0
E(x
Ax) = tr(AV )
y bajo normalidad
Cov(x, x
Ax) = 0
Corolario. Cuando x N(, V ) entonces
v(x
Ax) = 2tr(AV )
2
3.5.2. Distribuciones
Teorema 3.2. Cuando x es N(, V ) entonces x
Ax es
2
_
r(A),
1
2
si y solo si AV
es idempotente.
Operacionalmente, la parte mas importante de este teorema es la condicion de suciencia, a
saber, que si AV es idempotente entonces x
Ax es
2
r
si y solo si A es idempotente de rango r
Corolario. Si x es N(0, V ) entonces x
Ax es
2
r
si y solo si AV es idempotente de rango
r
Corolario. Si x es N(,
2
I
n
) entonces x
x es
2
(n,
1
2
/
2
)
Corolario. Si x es N(, I) entonces x
Ax es
2
(r,
1
2
2
) si y solo si A es idempotente
de rango r
3.5.3. Independencia
En esta seccion consideraremos la independencia de: 1. Una forma cuadratica y una forma
lineal, 2. Dos formas cuadraticas y 3. conjuntos de formas cuadraticas. Hay un teorema para
cada caso. Considerando la independencia recordamos que cuando dos variables aleatorias
estan distribuidas independientemente es siempre cero. Pero el hecho que dos variables tengan
covarianza cero no siempre implica independencia.
Teorema 3.3. Cuando x N(, V ) entonces x
Ax y x
Bx estan distribui-
das independientemente si y solo si AV B = 0 (o equivalentemente AV B = 0)
Notese que la forma de la distribucion de x
Ax y x
Bx no es especicada en el teorema.
Este se aplica sin importar que distribucion siguen esas formas cuadraticas, solo se exige que
x sea un vector de variables normales. En la practica los teoremas se aplican usualmente en
situaciones donde las formas cuadraticas tienen distribucion
2
pero esta no es una exigencia
Teorema 3.5. Sea dado lo siguiente:
x, de orden n 1, distribuido N(, V );
A
i
, de orden n n, simetrica de rango k
i
, para i = 1, 2, , p;
y A =
p
i=1
A
i
, la cual es simetrica, con rango k
entonces
1. x
A
i
x es
2
(k
i
,
1
2
A),
2. Los x
A
i
x son independientes por pares y
3. x
Ax es
2
(k,
1
2
A) si y solo si
I: Cualquiera 2 de
a) A
i
V es idempotente, para todo i
b) A
i
V A
j
= 0 para todo i < j
c) AV es idempotente
son verdaderas, o
II: c) es verdadera y d), k =
p
i=1
k
i
, o
III: c) es verdadera y e), A
1
V , , A
p1
V son idempotentes y A
p
V es denida no negativa
Corolario (Teorema de Cochran). Cuando x es N(0, I
n
) y A
i
es simetrica de rango r
i
para
i = 1, , p con
p
i=1
A
i
= I
n
entonces las x
A
i
x estan distribuidas independientemente como
2
r
i
si y solo si
n
i=1
r
i
= n
3.6. Ejercicios
1. Demuestre todos los corolarios del teorema 3.2.
2. Demuestre todos los corolarios del teorema 2.7.
46 CAP
ATICAS
3. Sea X
1
, X
2
, , X
n
variables aleatorias normales independientes e identicamente dis-
tribuidas con media y varianza
2
demuestre que
n
i=1
(X
i
X)
2
2
tiene una distribucion chicuadrado con n1 grados de libertad. [sugerencia: Organice
las variables en un vector columna y escriba su distribucion en version multivariada,
luego escriba
n
i=1
(X
i
X)
2
2
como una forma cuadratica en x y use el teorema 3.2]
4. Con las mismas condiciones del ejercicio 3 demuestre que X y
n
i=1
(X
i
X)
2
son
independientes [sugerencia: Use el teorema 3.3]
5. Si una variable aleatoria tiene distribucion
2
?
7. Suponga que Y N
4
(; V ) con
=
_
10 12 14 16
y ademas V =
_
_
2 1 1 1
1 2 1 1
1 1 2 1
1 1 1 2
_
_
obtenga la distribucion de Z = CY donde C =
_
1 1 1 1
1 1 1 1
_
8. Sea una poblacion con distribucion
_
X
Y
_
N
2
__
0
0
_
;
_
1 0,5
0,5 1
__
y suponga que (X
1
, Y
1
)
, (X
2
, Y
2
)
, , (X
n
, Y
n
)
ON
La ecuacion 4.1 es nuestro modelo, en este caso el modelo como el ingreso promedio se
relaciona con los a nos de escolaridad.
Los parametros a y b nunca son conocidos, en el mejor de los casos lo que se puede hacer es
obtener una estimacion de ellos a partir de los datos, los cuales asumimos que es una muestra
aleatoria de una poblacion a la cual nosotros conjeturamos que se aplica nuestra ecuacion.
El modelo se le conoce como modelo de regresion y como la ecuacion es lineal, mas con-
cretamente se le llama modelo de regresion lineal. A y se le conoce como variable dependiente
y a x como variable independiente.
Al tomar los datos, el ingreso de cada hombre con x a nos no sera exactamente a + bx (a
y b siendo los mismos para todos los hombres), este hecho ha sido reconocido al escribir el
modelo como E(y) = a + bx en lugar de y = a + bx. Si y
i
es el ingreso de un hombre con x
i
a nos de escolaridad escribimos
E(y
i
) = a + bx
i
donde E(y
i
) no es lo mismo que y
i
. La diferencia y
i
E(y
i
) representa la desviacion del valor
observado al valor esperado y lo escribimos como
e
i
= y
i
E(y
i
) = y
i
a bx
i
(4.2)
por tanto
y
i
= a + bx
i
+ e
i
(4.3)
lo que tomamos como la ecuacion del modelo. e
i
representa cuanto una observacion diere de
su valor esperado. Los e
i
recogen, por ejemplo, errores de medicion, deciencias en el modelo
(variables distintas al nivel de escolaridad que pueden afectar el ingreso, por ejemplo la edad).
Los e
i
se consideran como variables aleatorias y se llaman usualmente errores aleatorios o
residuales aleatorios.
Para completar la ecuacion del modelo en terminos de la ecuacion y
i
= a +bx
i
+e
i
se deben
especicar las caractersticas de e
i
. Los que se supone usualmente es que el valor esperado
de e
i
es cero y su varianza
2
para todo i y que la covarianza para cualquier par e
i
y e
j
es
cero. en smbolos
E(e
i
) =0 (4.4)
Var(e
i
) =E[e
i
E(e
i
)]
2
= E[e
2
i
] =
2
(4.5)
Cov(e
i
, e
j
) =E
_
e
i
E(e
i
)
_
e
j
E(e
j
)
= E
_
e
i
e
j
= 0 (4.6)
4.1.1. Estimacion por mnimos cuadrados
La estimacion por mnimos cuadrados involucra minimizar de la suma de cuadrados de las
desviaciones de los valores observados y su valor esperado es decir minimizar
e
e =
n
i=1
e
2
i
=
n
i=1
_
y
i
E(y
i
)
2
=
n
i=1
(y
i
a bx
i
)
2
(4.7)
aunque a y b son valores jos (aunque desconocidos), por el momento pensamos en ellos
como variables, entonces esos valores de ellos que minimizan e
ON LINEAL SIMPLE 49
cuadrados de a y b, los cuales seran denotados por a y
e)
a
=
a
n
i=1
(y
i
a bx
i
)
2
=
n
i=1
a
(y
i
a bx
i
)
2
=2
n
i=1
(y
i
a bx
i
) = 2
n
i=1
y
i
na b
n
i=1
x
i
(4.8)
(e
e)
b
=
b
n
i=1
(y
i
a bx
i
)
2
=
n
i=1
b
(y
i
a bx
i
)
2
=2
n
i=1
(y
i
a bx
i
)(x
i
) = 2
n
i=1
(y
i
x
i
ax
i
bx
2
i
=2
_
n
i=1
y
i
x
i
a
n
i=1
x
i
b
n
i=1
x
2
i
_
(4.9)
Igualando a cero y colocando a y
i=1
y
i
na
b
n
i=1
x
i
=0
na +
b
n
i=1
x
i
=
n
i=1
y
i
(4.10)
y de (4.9)
n
i=1
y
i
x
i
a
n
i=1
x
i
b
n
i=1
x
2
i
= 0
a
n
i=1
x
i
+
b
n
i=1
x
2
i
=
n
i=1
y
i
x
i
(4.11)
despejando a de (4.10) y (4.11) e igualando tenemos
y
bx =
x
i
y
i
x
2
i
x
= nx tenemos
nxy
bnx
2
=
x
i
y
i
x
2
i
x
2
i
bnx
2
=
x
i
y
i
nxy
50 CAP
ON
factorizando
b =
x
i
y
i
nxy
x
2
i
nx
2
=
(x
i
x)(y
i
y)
(x
i
x)
2
(4.12)
una vez se tiene el estimador de b se puede calcular a a partir de (4.10) as
a = y
bx (4.13)
Le queda al estudiante demostrar que a y
b =
14136 5 16 174,4
1378 5 16
2
=
184
98
= 1, 877
a =174,4 1, 877 16 = 144, 359
La ecuacion de regresion estimada corresponde a
E(y
i
) = a +
bx
i
= 143,359 + 1,877x
i
Supongamos que en el estudio del ingreso anual y a nos de escolaridad tambien consideramos
la edad de las personas como un factor que afecta el ingreso. El modelo se extiende entonces
a
E(y) = a + b
1
x
1
+ b
2
x
2
donde x
1
representa los a nos de escolaridad y x
2
la edad. Para el iesimo individuo tenemos
y
i
= a + b
1
x
i1
+ b
2
x
i2
+ e
i
si en lugar de a escribimos b
0
y entonces para b
0
escribimos b
0
x
i0
con x
i0
= 1 para todo i nos
queda
y
i
= b
0
x
i0
+ b
1
x
i1
+ b
2
x
i2
+ e
i
para i = 1, 2, , n
4.2. M
ETODOS DE ESTIMACI
ON 51
Denimos las siguientes matrices y vectores
X =
_
_
x
10
x
11
x
12
x
20
x
21
x
22
.
.
.
.
.
.
.
.
.
x
n0
x
n1
x
n2
_
_
, y =
_
_
y
1
y
2
.
.
.
y
n
_
_
, e =
_
_
e
1
e
2
.
.
.
e
n
_
_
y b =
_
_
b
0
b
1
b
2
_
_
El conjunto completo de ecuaciones es:
y = Xb +e con E(y) = Xb (4.14)
La extension a mas de dos variables es clara, para k variables
X =
_
_
x
10
x
11
x
1k
x
20
x
21
x
2k
.
.
.
.
.
.
.
.
.
x
n0
x
n1
x
nk
_
_
n(k+1)
y b =
_
_
b
1
b
2
.
.
.
b
k
_
_
(k+1)1
las ecuaciones (4.14) representan el modelo sin importar cuantas variables hay, digamos k
con tal que hayan menos variables que observaciones esto es k < n.
La especicacion completa del modelo requiere que sean denidas propiedades distribuciona-
les del vector e, por ahora todo lo que se necesita es el valor esperado y varianza; se asume
que
E(e) = 0 y Var(e) = E[e E(e)][e E(e)]
= E(e
e) =
2
I
n
(4.15)
La forma exacta de la distribucion de e se especicara mas tarde cuando sean consideradas
las pruebas de hipotesis y los intervalos de conanza para los parametros.
La derivacion del estimador mnimos cuadrados para
ON
b que minimiza
e
e = (y Xb)
(y Xb) =
n
i=1
_
y
i
E(y
i
)
2
= (y
)(y Xb) = y
y y
Xb b
y +b
Xb
la matriz y
e = y
y b
y b
y +b
Xb
= y
y 2b
y +b
Xb
derivando con respecto a b se tiene ( recuerde las reglas de derivacion de matrices )
e
e
b
= 2X
y + 2X
Xb
Igualando a cero tenemos
X
y +X
b = 0
de donde
X
b = X
y (4.16)
Las ecuaciones 4.16 se conocen con el nombre de ecuaciones normales, suponiendo que
(X
X)
1
existe ellas tienen solucion unica para
b dada por
b = (X
X)
1
X
y (4.17)
Aqu es donde se aplica la descripcion de modelos de rango completo. Cuando X
X es de
rango completo hay solucion unica
b = (X
X)
1
X
X)
1
no existe, una solucion puede ser escrita en terminos de una inversa generalizada de X
X
La matriz X
_
1 10
1 13
1 15
1 20
1 22
_
_
con X
X =
_
5 80
80 1378
_
=
_
n
x
i
x
i
x
2
i
_
ademas
X
y =
_
1 1 1 1 1
10 13 15 20 22
_
_
_
160
171
175
182
184
_
_
=
_
872
14136
_
=
_
y
i
x
i
y
i
_
Por ultimo se tiene
=
1
490
_
1378 80
80 5
_ _
872
14136
_
=
_
144,359
1,877
_
4.2. M
ETODOS DE ESTIMACI
ON 53
En el caso de 2 variables explicativas y n observaciones se tiene
X =
_
_
1 x
11
x
12
1 x
21
x
22
.
.
.
.
.
.
.
.
.
1 x
n1
x
n2
_
_
con X
X =
_
_
n
x
i1
x
i2
x
i1
x
2
i1
x
i1
x
i2
x
i2
x
i1
x
i2
x
2
i2
_
_
y X
y =
_
_
y
i
x
i1
y
i
x
i2
y
i
_
_
Ejemplo 4.3. Consideremos el caso de dos variables explicativas y calculemos
, los datos
para este ejemplo se muestran en la tabla 4.2 Organizamos los datos en las matrices X y y
y x
1
x
2
81 1 150
89 1 180
83 2 150
91 2 180
79 1 150
87 1 180
84 2 150
90 2 180
Tabla 4.2: Datos para el ejemplo 4.3
y tenemos
X
X =
_
_
8 12 1320
12 20 1980
1320 1980 219600
_
_
y X
y =
_
_
684
1032
113310
_
_
la inversa de X
X es
(X
X)
1
=
1
1800
_
_
29475 1350 165
1350 900 0
165 0 1
_
_
y
=
1
4
_
_
159
12
1
_
_
4.2.2. Mnimos cuadrados generalizados
Este metodo asume que la matriz de varianza covarianza de e es Var(e) =
2
V y se debe
minimizar (y Xb)V
1
(y Xb)
P = PP = P
2
= V . Sea f = P
1
e entonces
E(f) = P
1
E(e) = P
1
0 = 0
por lo que
Var(f) = E
_
f E(f)
_
(f E(f)
= E(ff
) = E(P
1
ee
P
1
) = P
1
(
2
V )P
1
=
2
I
54 CAP
ON
se tiene entonces que E(f) = 0 y Var(f) =
2
I, si premultiplicamos el modelo por P
1
tenemos
P
1
y = P
1
X +P
1
e
z = Q +f (4.18)
donde z = P
1
y y Q = P
1
X. Como el modelo 4.18 cumple los supuestos E(f) = 0 y
Var(f) =
2
I, se pueden aplicar los resultados del procedimiento de mnimos cuadrados
ordinarios, a saber:
= (Q
Q)
1
Q
z
=
_
(P
1
X)
P
1
X
1
(P
1
X)
P
1
y
=
_
(X
P
1
P
1
X
1
X
P
1
P
1
y
=
_
X
V
1
X
1
X
V
1
y (4.19)
La formula 4.19 nos da el estimador por mnimos cuadrados generalizados para . Cabe
destacar que si V =
2
I el estimador de mnimos cuadrados generalizados coincide con el
estimador de mnimos cuadrados ordinarios
4.2.3. Maxima Verosimilitud
Con la estimacion de mnimos cuadrados no se hace ninguna suposicion acerca de la forma de
la distribucion de los terminos de error aleatorios en el modelo. Con la estimacion de maxima
verosimilitud se hace alguna suposicion acerca de esta distribucion (a menudo que es normal)
y se maximiza la verosimilitud de las observaciones muestrales representadas por los datos.
Asumiendo que e N(0, V ), la verosimilitud es:
L =
1
(2)
n/2
|V |
1/2
exp
_
1
2
e
V
1
e
=
exp
_
1
2
(y X)
V
1
(y X)
(2)
n/2
|V |
1/2
Maximizar esta funcion con respecto a es equivalente a resolver (ln L)/
ln(L) =
1
2
(y X)
V
1
(y X) ln
_
(2)
n/2
|V |
1/2
=
1
2
(y X)
V
1
(y X) ln[C]
=
1
2
(y
V
1
y 2
V
1
y +
V
1
X) ln[C]
Derivando con respecto a se obtiene
(ln L)
=
1
2
(2X
V
1
y + 2X
V
1
X)
= X
V
1
y X
V
1
X)
4.2. M
ETODOS DE ESTIMACI
ON 55
Si igualamos (ln L)/ a cero y colocamos
en lugar de tenemos
X
V
1
X
= X
V
1
y
de donde asumiendo que X
= (X
V
1
X)
1
X
V
1
y
notese que si V =
2
I el estimador coincide con el de mnimos cuadrados ordinarios (MCO)
4.2.4. Mejor estimador lineal insesgado
Para cualquier vector la t conformable con b, el escalar t
b.
Las tres caractersticas del estimador, inherentes en la denicion conducen a su derivacion.
i. Linealidad. El estimador debe ser una funcion lineal de las observaciones y. Sea el esti-
mador
y, donde
es un vector la de orden n.
b es decir E
y = t
b esto es
E(y) =
Xb = t
b
ya que esto debe ser cierto para todo b entonces se tiene
X = t
(4.20)
iii. El mejor estimador. Mejor signica que en la clase de los estimadores lineales e insesgados
de t
b, el que buscamos debe tener la menor varianza. Este es el criterio para determinar
. Supongamos que Var(y) = V entonces v(
y) =
V sujeto a la restriccion
X = t
V 2
(X
t) (4.21)
derivando w con respecto a tenemos
w
= 0 2(X
t)
de donde igualando a cero obtenemos (4.20). Para derivar con respecto a , por como-
didad escribimos w =
V 2(
X t
= 2V 2(X)
56 CAP
ON
si
w
X = (V
1
X)
X =
V
1
X
de esta ultima ecuacion, postmultiplicando por (X
V
1
X)
1
se tiene
= t
(X
V
1
X)
1
(4.23)
reemplazando (4.23) en (4.22) tenemos
V
1
= t
(X
V
1
X)
1
X
V
1
por tanto el mejor estimador lineal insesgado (M.E.L.I) para t
b es
b = t
(X
V
1
X)
1
X
V
1
y (4.24)
y su varianza es
v(
b) = t
(X
V
1
X)
1
t (4.25)
4.3. Propiedades del estimador de .
En esta seccion se discuten las propiedades de
= (X
X)
1
X
) = E
_
(X
X)
1
X
= (X
X)
1
X
E(y) = (X
X)
1
X
X =
Varianza.
Por denicion, la matriz de varianza covarianza de
es
Var(
) = E[
E(
)][
E(
)]
= E[
][
X)
1
X
X)
1
(X
X)
as que
4.3. PROPIEDADES DEL ESTIMADOR DE . 57
Var(
) = E[(X
X)
1
X
y (X
X)
1
(X
X)][(X
X)
1
X
y (X
X)
1
(X
X)]
= (X
X)
1
X
E[y X][y X]
X(X
X)
1
= (X
X)
1
X
E[e][e]
X(X
X)
1
= (X
X)
1
X
(
2
I)X(X
X)
1
=
2
(X
X)
1
Otra forma de obtener la varianza de
es recordando que si y = Ax entonces Var(y) =
AVar(x)A
X)
1
X
y se tiene que
Var(
) = (X
X)
1
X
Var(y)X(X
X)
1
= (X
X)
1
X
(
2
I)X(X
X)
1
=
2
(X
X)
1
Estimando E(y).
El estimador
puede usarse para estimar E(y). Analogo al modelo
E(y) =
0
+
1
x
1
+ +
k
x
k
tenemos
E(y) =
0
+
1
x
1
+ +
k
x
k
Si x
0
=
_
x
00
x
01
x
0k
es un conjunto de valores x
s, con x
00
= 1, para el que deseamos
estimar el correspondiente valor de E(y), dicho estimador es
E(y) =
0
x
00
+
1
x
01
+ +
k
x
0k
= x
es un elemento de X
E(y) = X
que son los valores esperados de y estimados correspondientes a los n valores observados de
los datos. Algunas veces estos son llamados valores ajustados o valores y estimados
Varianza de E(y).
Veamos a que es igual la varianza de E(y).
Var[E(y)] = Var[X
] = XVar[
]X
=
2
X(X
X)
1
X
Si x
0
es una la de la matriz X entonces el valor esperado de y
0
= x
0
+e
0
es E(y
0
) = x
0
y su estimador es
E(y
0
) = x
E(y
0
)) = v(x
) = x
0
Var(
)x
0
=
2
x
0
(X
X)
1
x
0
58 CAP
ON
Consideremos una observacion futura, digamos y
f
correspondiente a alg un vector de valores
x
s, digamos x
f
entonces, por el modelo
y
f
= x
f
+ e
f
la mejor prediccion disponible de y
f
, que llamaremos y
f
es
y
f
= x
As, x
f
o
como un estimador del valor esperado E(y
f
) correspondiente a x
f
.
Con el primero de los usos nos debemos preguntar como varia una observacion futura alre-
dedor de su prediccion y
f
= x
f
+ e
f
x
= x
f
(
) + e
f
como y
f
es una observacion obtenida independientemente de los datos usados para obtener
, tenemos que
y e
f
son independientes, as que Cov(
, e
f
) = 0 luego
v(y
f
y
f
) =v[x
f
(
)] + v[e
f
]
=x
f
Var(
)x
f
+
2
=x
f
Var(
)x
f
+
2
=
2
x
f
(X
X)
1
x
f
+
2
=
2
[x
f
(X
X)
1
x
f
+ 1]
En resumen, el valor esperado estimado de y correspondiente a una observacion futura x
f
es
E(y
f
) = x
f
con varianza
2
x
f
(X
X)
1
x
f
y la prediccion de una observacion correspon-
diente a x
f
es el mismo valor, x
f
f
(X
X)
1
x
f
+ 1] esos resultados son
ciertos para cualquier valor de x
f
Suma de cuadrados del error
Usaremos y para simbolizar
E(y), el vector de valores esperados estimados correspondientes
al vector de observaciones y esto es
y =
E(y) = X
= y X(X
X)
1
X
y = [I
n
X(X
X)
1
X
]y (4.26)
El vector dado por (4.26) se conoce como vector de residuales. Queda como ejercicio para el
estudiante vericar las siguientes propiedades
4.3. PROPIEDADES DEL ESTIMADOR DE . 59
i) La matriz I
n
X(X
X)
1
X
es simetrica e idempotente.
ii) [I
n
X(X
X)
1
X
]X = 0
np
iii) X
[I
n
X(X
X)
1
X
] = 0
pn
La suma de cuadrados de las desviaciones de los y observados de su valor esperado se conoce
como la suma de cuadrados del error, para la cual usaremos la sigla SCE
SCE =
n
i=1
(y
i
y)
2
= (y y)
(y y)
Usando (4.2) junto con las propiedades de la matriz I
n
X(X
X)
1
X
se verica que
SCE =y
[I
n
X(X
X)
1
X
][I
n
X(X
X)
1
X
]y (4.27)
=y
[I
n
X(X
X)
1
X
]y
=y
y y
[X(X
X)
1
X
]y (4.28)
=y
y (4.29)
El termino y
X)
1
X
)
2
[I
n
X(X
X)
1
X
]X
=
2
Tr(I
n
X(X
X)
1
X
)
=
2
_
Tr(I
n
) Tr(X(X
X)
1
X
=
2
_
n Tr(X
X(X
X)
1
)
=
2
_
n Tr(I
p
)
=
2
_
n p
as que
E(SCE)
np
=
2
por tanto un estimador insesgado para
2
es
2
=
SCE
n p
(4.30)
60 CAP
ON
4.4. Particion de la suma de cuadrados total.
A partir de (4.29) tenemos que y
y =
y
SCE y
y
SCT y
y
Si suponemos que el modelo no tiene variables x
s, es decir y
i
=
0
+ e
i
entonces
0
= y y
la suma de cuadrados del modelo seria ny
2
, esta ultima expresion se conoce como correccion
por la media o factor de correccion y usamos el smbolo SCM. Es claro que podemos escribir
SCT = SCM + (SCR SCM) + SCE
escribiremos SCR
m
= SCRSCM =
y ny
2
, de esta manera podemos particionar la
suma de cuadrados total as
SCM ny
2
SCR
m
y ny
2
SCE y
y
SCT y
y
SCR
m
se conoce como la suma de cuadrados de la regresion corregida por la media. Similar-
mente SCT SCM = y
y ny
2
se conoce como la suma de cuadrados total corregida por
la media la cual notaremos por SCT
m
y se puede particionar as: SCT
m
= SCR
m
+ SCE
escrita en forma de tabla nos queda
SCR
m
y ny
2
SCE y
y
SCT
m
y
y ny
2
este formato es identico al de la primera particion, solo aqu se usan sumas de cuadrados
corregidas.
Correlacion m ultiple.
Una medida de la bondad de ajuste de la regresion es el coeciente de correlacion m ultiple
el cual se denota con R y se calcula seg un
R
2
=
SCR
SCT
4.5. PROPIEDADES DISTRIBUCIONALES 61
para el modelo sin intercepto y por
R
2
=
SCR
m
SCT
m
para el modelo con intercepto. Este valor representa la proporcion de la suma de cuadrados
que es explicada por el ajuste del modelo.
Ejemplo 4.4. Continuando con el ejemplo 4.3 se verica que
y =
E(y) =
1
4
_
_
1 1 150
1 1 180
1 2 150
1 2 180
1 1 150
1 1 180
1 2 150
1 2 180
_
_
_
_
159
12
1
_
_
=
_
_
80,25
87,75
83,25
90,75
80,25
87,75
83,25
90,75
_
_
el vector de residuales o errores estimados es
e = y y = [I
n
X(X
X)
1
X
]y =
_
_
0,75
1,25
0,25
0,25
1,25
0,75
0,75
0,75
_
_
la suma de cuadrados total es SCT = y
e = y
[I
n
X(X
X)
1
X
ON
y es normal
Sabemos que si x es normal con vector de medias y matriz de varianza covarianza
x
entonces y = Ax + b tiene distribucion normal con vector de medias A + b y matriz de
varianza covarianza
y
= A
x
A (propiedad de linealidad). En nuestro caso y = X +e o
lo que es lo mismo y = e +X aplicando la propiedad de linealidad con A = I
n
y b = X
tenemos que
y N(X,
2
I)
es normal
Tenemos que
= (X
X)
1
X
y con y N(X,
2
I) aplicando la propiedad de linealidad,
con A = (X
X)
1
X
y b = 0 tenemos que
es normal con media (X
X)
1
X
X = y
matriz de varianza covarianza (X
X)
1
X
(
2
I)X(X
X)
1
=
2
(X
X)
1
es decir
N(,
2
(X
X)
1
)
y
2
son independientes
Sabemos que
2
=
SCE
np
con SCE = y
[I
n
X(X
X)
1
X
]
. .
A
y la cual es una forma cuadratica
en y y
= (X
X)
1
X
. .
B
y es una forma lineal en y el cual tiene distribucion N(X,
2
I
..
V
).
Tenemos que
(X
X)
1
X
(
2
I)[I
n
X(X
X)
1
X
] =
2
(X
X)
1
X
[I
n
X(X
X)
1
X
] = 0
pn
as que por el teorema 3.3
y
2
son independientes
SCE
2
tiene distribucion
2
central
Tenemos que SCE/
2
= y
2
[I
n
X(X
X)
1
X
]y
. .
A
es una forma cuadratica en y, con
y N(X,
2
I
..
V
)
AV =
1
2
[I
n
X(X
X)
1
X
]
2
I = I
n
X(X
X)
1
X
que es una matriz idempotente, as que por el teorema 3.2 se tiene que
SCE
2
2
[r(I
n
X(X
X)
1
X
),
(I
n
X(X
X)
1
X
)X]
[r(I
n
X(X
X)
1
X
), 0]
2
r(InX(X
X)
1
X
2
np
4.5. PROPIEDADES DISTRIBUCIONALES 63
el paso de distribucion no central a central se justica por el parametro de no centralidad
igual a cero.
1
para justicar que r(I
n
X(X
X)
1
X
) = n p usamos un resultado de
algebra lineal que establece que el rango se una matriz idempotente es igual a su traza y
ademas se usa la propiedad Tr(AB) = Tr(BA).
SCR
2
,
SCM
2
y
SCR
m
2
tienen distribucion
2
no central
Sabemos que
SCR
2
=
1
y =
1
2
y
[X(X
X)
1
X
2
[X(X
X)
1
X
][
2
I] = X(X
X)
1
X
2
tiene distribucion
2
no central con r[X(X
X)
1
X
[X(X
X)
1
X
]X =
[X
X] es decir
SCR
2
2
[n p,
[X
X]]
queda como ejercicio para el estudiante demostrar lo mismo para SCR
m
/sigma
2
y SCM/
2
.
Veanse los ejercicios ?? y ??
SCR
2
,
SCM
2
y
SCR
m
2
son independientes de SCE
Tenemos que SCR = y
[X(X
X)
1
X
]y y SCE = y
[I
n
X(X
X)
1
X
]y son formas
cuadraticas en y y
[X(X
X)
1
X
][
2
I][I
n
X(X
X)
1
X
] = 0
luego por el teorema 3.4 podemos concluimos que SCR y SCE con independientes. Queda
como ejercicio al estudiante demostrar que SCR
m
y SCM son independientes de SCE:
Veanse los ejercicios ?? y ??
Distribuciones F
Recordemos que si u
1
es una variable aleatoria con distribucion
2
no central con n
1
grados
de libertad y parametro de no centralidad
1
y u
2
tiene distribucion
2
central con n
2
grados
de libertad independiente de u
1
entonces el cociente v =
u
1
/n
1
u
2
/n
2
tiene distribucion F no
central con n
1
grados de libertad en el numerados, n
2
grados de libertad en el denominador
y parametro de no centralidad , aplicando ese resultado podemos concluir:
1
Cuando el par ametro de no centralidad es cero, la distribuci on es central
64 CAP
ON
i. Como SCR/
2
2
[p,
[X
X]
2
2
], SCE/
2
2
np
y son independientes, entonces
F(R) =
SCR/
2
p
SCE/
2
np
=
SCR/p
SCE/(n p)
F
_
p, n p,
[X
X]
2
2
_
ii. Con argumentos similares se demuestra que
F(R
m
) =
SCR
m
/(p 1)
SCE/(n p)
tiene distribucion F no central con n 1 grados de libertad en el numerador y n p
grados de libertad en el denominador, Cual es el parametro de no centralidad?.
iii. De igual manera
F(SCM) =
SCM
SCE/(n p)
F
_
1, n p,
(1
X)
2
2n
2
_
El calculo de las estadsticas anteriores se resume en lo que se conoce como una tabla de
analisis de varianza. Cada una de las particiones de la suma de cuadrados que se mostro en
la seccion 4.4 proporciona una tabla de analisis de varianza, las cuales se muestran en las
tablas 6.3, 6.4 y 6.5.
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion p SCR =
y CMR =
SCR
p
F(R) =
CMR
CME
Error n p SCE = y
y CME =
SCE
np
Total n SCT = y
y
Tabla 4.3: Analisis de varianza a partir de la particion 1
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Media SCM = ny
2
Regresion p SCR =
y CMR =
SCR
p
F(R) =
CMR
CME
Error n p SCE = y
y CME =
SCE
np
Total n SCT = y
y
Tabla 4.4: Analisis de varianza a partir de la particion 2
4.6. PRUEBAS DE HIP
OTESIS 65
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion (c.p.m) p 1 SCR
m
=
y ny
2
CMR
m
=
SCR
p
F(R
m
) =
CMRm
CME
Error n p SCE = y
y CME =
SCE
np
Total(c.p.m) n 1 SCT = y
y ny
2
Tabla 4.5: Analisis de varianza a partir de la particion 3
4.6. Pruebas de hipotesis
Prueba basada en F(R)
la tabla 6.3 muestra el estadstico F(R) que esta distribuido como una F no central con
parametro de no centralidad
[X
X]
2
2
el cual es cero bajo la hipotesis nula H
0
: = 0.
Cuando la hipotesis = 0 es cierta entonces F(R) tiene una distribucion F central con n
y n p grados de libertad y por tanto puede ser comparado con los valores tabulados de la
distribucion F y
Rechace H
0
: = 0 si F(R) F
n,np,
Cuando F(R) es signicante (me lleva a rechazar la hipotesis) se concluye que hay concor-
dancia de los datos con la suposicion del modelo, es decir, el modelo explica una porcion
signicante de la variacion de y
Prueba basada en F(M)
El parametro de no centralidad de la estadstica F(M) de la tabla de analisis de varianza 6.4
es (1
X)
2
/2n
2
pero
1
X = 1
E(y) = E(1
y) = E(ny) = nE(y)
luego podemos escribir el parametro de no centralidad como
nE(y)
2
2
2
el cual es cero bajo la hipotesis nula H
0
: E(y) = 0, por tanto, el estadstico F(M) tendra
una distribucion F central con 1 y np grados de libertad y puede usarse para probar dicha
hipotesis, usualmente se reere a esta hipotesis como probando la media.
Otra forma de ver la prueba proporcionada por F(M) es basandose en el modelo y
i
=
0
+e
i
(o E(y
i
) =
0
). La reduccion el la suma de cuadrados debido a ajustar este modelo es
SCM. Usando el supuesto E(y
i
) =
0
se demuestra que el parametro de no centralidad de la
distribucion de F(M) es
n
2
0
2
2
que es cero cuando
0
= 0, por tanto este estadstico se puede usar para probar si el modelo
y
i
=
0
+ e
i
explica la variacion de la y
66 CAP
ON
Prueba basada en F(R
m
)
Usando la prueba basada en F(R) estamos contrastando la hipotesis que todos los
i
s, inclu-
yendo
0
son simultaneamente iguales a cero. Sin embargo , si queremos probar la hipotesis
H
0
:
1
= 0, donde
1
representa el vector de parametros sin el termino de intercepto
0
,
debemos usar F(R
m
). Se puede demostrar que el parametro de no centralidad de esta es-
tadstica es cero cuando asumimos que
1
= 0 (ver ejercicio ??), en cuyo caso F(R
m
) tendra
una distribucion F central con p 1 y n p grados de libertad. As que F(R
m
) proporciona
una prueba para la hipotesis H
0
:
1
= 0
Se rechaza H
0
:
1
= 0 si F(R
m
) > F
p1,np,
En caso de rechazar H
0
no debe tomarse como evidencia que todos los elementos de
1
son
distintos de cero, sino que al menos uno lo es
Ejemplo 4.5. Continuando con el ejemplo 4.3 el la tabla , se resume el calculo de de la
estadstica F(R), el valor obtenido de la tabla de la distribucion F con 3 grados de libertad
en el numerador y 5 grados de libertad en el denominador con = 0,05 es F
3,5,0,05
= 5,409
que es menor que el valor calculado a partir del analisis de varianza por tanto rechazamos la
hipotesis H
0
: = 0
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Regresion 3 58612.5 19537.5 17761.364
Error 5 5.5 1.1
Total 8 58618
Tabla 4.6: Analisis de varianza (particion 1), usando los datos del ejemplo 4.3
La tabla 4.7 muestra el calculo de F(R
m
) y de F(M). El valor de la tabla de la distribucion
F con 1 y 5 grados de libertad es 6.607 como F(M) es mayor que este valor se rechaza
la hipotesis H
0
: E(y) = 0, o equivalentemente podemos armar que el modelo y
i
=
0
+ e
i
explica una considerable porcion de la variacion de y. F(R
m
) es mayor que el valor de la tabla
de la distribucion F
2,5
con = 0,05 (5.786) por tanto rechazamos la hipotesis H
0
:
1
= 0, es
decir alguno de los parametros del modelo,
1
o
2
o ambos son estadsticamente diferentes
de cero. La tabla 4.8 muestra el analisis de varianza de acuerdo con la particion 3. Esta tabla
Fuente de Grados de Sumas de Cuadrados Estadstico
Variacion libertad Cuadrados medios F
Media 1 58482 58482 53165.455
Regresion 2 130.5 65.25 59.318
Error 5 5.5 1.1
Total 8 58618
Tabla 4.7: Analisis de varianza (particion 2), usando los datos del ejemplo 4.3
es la que presenta el procedimiento REG de S.A.S
s repetidas
4.7. Error puro y error por falta de ajuste
Los datos algunas veces tienen la caracterstica que el conjunto de valores x
s correspondientes
a varios y
s son los mismos, como ocurre con los datos de la tabla 4.9, estos se conocen datos
con medidas x
ON
Para particionar la suma de cuadrados del error debemos calcular las varianzas para cada
valor de X. Realizados los calculos tenemos S
2
1
= 3,25, S
2
2
= 10,2633, S
3
= 0,520 , S
2
4
= 0,37
y la suma de cuadrados del error puro es
SCEP = 2 3,25 + 2 10,2633 + 2 0,520 + 2 0,37 = 28,8066
por tanto la suma de cuadrados del error por falta de ajuste es
SCEFA = SCE SCEP = 29,36 28,8066 = 0,5534
observese que el valor de F(FA) no es signicante por lo tanto concluimos que el modelo es
apropiado.
4.8. Intervalos de conanza
Vimos que bajo el supuesto de normalidad de los errores
tiene distribucion normal con
media y matriz de varianza covarianza (X
X)
1
de modo que
a
ii
2
N(0, 1)
para i = 0, 1, 2, , p 1, donde a
ii
es el (i +1)esimo elemento de la diagonal de la matriz
(X
X)
1
, ademas
(n p)
2
2
2
np
independiente de
i
por lo tanto
(
i
)/
a
ii
/
=
a
ii
t
np
donde t
np
representa la distribucion t de student con n p grados de libertad. Un intervalo
de conanza al 100(1 ) % para
i
esta dado por
i
t
np,/2
a
ii
Un intervalo de conanza para la combinacion lineal q
es normal entonces
q
N(q
,
2
q
(X
X)
1
q)
por tanto
q
_
q
(X
X)
1
q
N(0, 1)
con un razonamiento similar al anterior se demuestra que
q
_
q
(X
X)
1
q
t
np
4.9. HIP
es
q
t
np,
_
q
(X
X)
1
q
Para probar la hipotesis
H
0
:
i
= 0
H
1
:
i
= 0
usamos el estadstico
t =
a
ii
y rechazamos la hipotesis nula H
0
en favor de la alternativa H
1
, con un nivel de signicacion
si |t| > t
np,/2
. Similarmente, para probar la hipotesis
H
0
: q
= 0
H
1
: q
= 0
Usamos el estadstico de prueba
t =
q
_
q
(X
X)
1
q
y rechazamos H
0
en favor de H
1
, con un nivel de signicacion si |t| > t
np,/2
Ejemplo 4.7. Como una continuacion del ejemplo 4.3 recordemos que
=
1
4
_
_
159
12
1
_
_
con (X
X)
1
=
1
1800
_
_
29475 1350 165
1350 900 0
165 0 1
_
_
y del analisis de varianza tenemos que
2
= 1,1 as que = 1,0488 estamos interesados
en estimar el parametro
1
con un intervalo al 95 % de conanza. En ese caso tenemos:
a
11
=
900
1800
=
1
2
(el segundo elemento de la diagonal de la matriz (X
X)
1
) y en la tabla
t
5,0,025
= 2,5706, as que
3 2,5706 1,0488
_
1
2
4.9. Hipotesis lineal general
En modelos lineales abundan diferentes clases de hipotesis que podran ser de interes para el
investigador en diferentes capos de aplicacion. Cuatro hipotesis de interes son:
i. H : = 0, la hipotesis que todos los elementos de son cero.
ii. H : =
0
, la hipotesis que
i
=
i0
para i = 0, 1, 2 , k
70 CAP
ON
iii. H :
= m
donde K
) = s, esto signica
que las funciones lineales de la hipotesis deben ser linealmente independientes. El hecho que
K
= m son consistentes
para cualquier vector m. Ahora desarrollaremos el estadstico F para probar la hipotesis
H : K
= m. Recordemos que
y N(X,
2
I)
= (X
X)
1X
N[, X
X)
1
2
]
4.10. Ejemplo (Hipotesis lineal general)
Hipotesis K
b = m
Consideremos los siguientes datos
y x
1
x
2
x
3
6,68 32,6 4,78 1092
6,31 33,4 4,62 1029
7,13 33,2 3,72 511
5,81 31,2 3,29 518
5,68 31.0 3,25 582
7,66 31,8 7,35 509
7,30 26,4 4,92 942
6,19 26,2 4,02 952
7,31 26,6 5,47 792
Tabla 4.10: Datos para el ejemplo
para ajustar el modelo
y = b
0
+ b
1
x
1
+ b
2
x
2
+ b
3
x
3
+
tenemos
X
X =
_
_
9 272,4 41,42 6927
272,4 8317,2 1251,482 208201,2
41,42 1251,482 203,728 32005,45
6927 208201,2 32005,45 5799487
_
_
4.10. EJEMPLO (HIP
X
1
=
1
8962
_
_
19,1704 0,4906 0,4028 0,0031
0,4906 0,0148 0,0020 0,0000
0,4028 0,0020 0,0768 0,0000
0,0031 0,0000 0,0000 0,0000
_
_
el vector de parametros estimados es
b =
_
5,6980 0,0280 0,4415 0,0003
la tabla de
analisis de varianza es:
Fuente GL SC CM F
Modelo Completo 4 403.58 100.89
Error 5 1.43 0.286
Total 9 405.01
para probar la hipotesis H
0
: b
1
+ b
2
= 1 hacemos K
=
_
0 1 1 0
, m =
_
1
por lo tanto
K
b = 0,413 y K
bm = 0,587 ademas K
(X
X)
1
K = 0,0955 y [K
(X
X)
1
K]
1
=
10,471 reemplazado estos valores en la formula de Q se tiene Q = 3,60 por lo tanto, el
estadstico F(H) para probar la hipotesis es
F(H) =
Q
s
2
=
3,60
1 0,286
= 12,58
como F
1,5,0,05
= 6,61 rechazamos H
0
Un modelo reducido, derivado al reemplazar b
2
por 1 b
1
sera
y x
2
= b
0
+ b
1
(x
1
x
2
) + b
3
x
3
+
para el cual los datos son:
y
1
= y x
2
x
1
= x
1
x
2
x
3
1.90 27.82 1092
1.69 28.78 1029
3.41 29.48 511
2.52 27.91 518
2.43 27.75 582
0.31 24.45 509
2.38 21.48 942
2.17 22.18 952
1.84 21.13 792
Tabla 4.11: Datos para ajustar el modelo reducido y x
2
= b
0
+ b
1
(x
1
x
2
) + b
3
x
3
+
para el modelo reducido, con los datos de la tabla 4.11, el an alisis de varianza es
Fuente GL SC
Modelo Reducido 3 39.17
Error 6 5.03
Total 9 44.20
72 CAP
ON
notese que SCE(Reducido) = SCE(Completo) + Q = 1,43 + 3,6 = 5,03.
El estimador de b bajo la hipotesis nula es
b =
_
_
5,6980
0,0280
0,4415
0,0003
_
10,471 0,587
8962
_
_
19,1704 0,4906 0,4028 0,0031
0,4906 0,0148 0,0020 0,0000
0,4028 0,0020 0,0768 0,0000
0,0031 0,0000 0,0000 0,0000
_
_
_
_
0
1
1
0
_
_
=
_
_
0,2131
0,0748
0,9252
0,0001
_
_
notese que
b
1
+
b
2
= 1 tal como lo impone la restriccion.
Hipotesis K
b = 0
Para probar la hipotesis del tipo K
b = 0, por ejemplo H
0
: b
1
= b
3
= 0, que es equivalente
a probar
_
H
0
: b
1
b
3
= 0 y
H
0
: b
1
= 0
(4.31)
tomamos
K
=
_
0 1 0 1
0 1 0 0
_
y m =
_
0
0
_
En este caso s = 2 ademas, Q = 0,0688 y como
2
= 0,286 se tiene que F(H) =
0,0688/2
10,286
= 0,12
es este caso es posible particionar la suma de cuadrados de la regresion en dos componentes;
una correspondiente a la hipotesis y otra correspondiente al modelo reducido, as
Fuente GL SC CM F
Modelo Completo 4 403,58 100,89 352,52
Hipotesis 2 Q = 0,0688 0,0344 0,1203
Modelo reducido 2 403,5117
Error 5 1,43 0,286
Total 9 405,01
El estimador de b bajo la hipotesis nula es:
b =
_
_
4,6332
0,0000
0,4435
0,0000
_
_
notese nuevamente
b
1
=
b
3
= 0 como lo impone la hipotesis.
Para ver que efectivamente la suma de cuadrados del modelo reducido es la que se muestra
en la tabla anterior, introducimos explcitamente la hip otesis en el modelo y = b
0
+ b
1
x
1
+
b
2
x
2
+ b
3
x
3
+ para obtener el modelo reducido
y = b
0
+ b
2
x
2
+
4.10. EJEMPLO (HIP
ON
4.11. Ejercicios
1. Sea x N
k
(, ) donde = 1
k
y =
2
[(1 )I
k
+ 1
k
1
k
], 0 < 1
a) Cual es la distribucion de X =
k
i=1
X
i
_
k
b) Cual es la distribucion de Q =
k
i=1
(X
i
X)
2
_
2
(1 )
c) Demuestre que X y Q son independientes.
2. Sea x N
k
(,
2
) donde es una matriz simetrica de rango k,
2
> 0 y es un
vector jo. Sea B =
1
1
1
k
(1
1
1
k
)
1
1
1
a) Cual es la distribucion de y = Bx ?
b) Que distribucion tiene y
y
Sugerencia: antes de intentar cualquier otra cosa, demuestre que B es simetrica y que
B es idempotente, eso facilitara los calculos.
3. Sea y
n1
N(, V ) donde V es de rango completo.
a) Demuestre que U = (y )
V
1
(y ) tiene distribucion
2
n
(chi cuadrado con
n grados de libertad)
b) Obtenga E(U). Justique
c) Cual es la distribucion de y
V
1
y ? Justique
4. Considere el modelo lineal general y = Xb + con los supuestos usuales, E() = 0,
Var() =
2
I
n
y ademas N(0,
2
I
n
)
a) Demuestre que y N(Xb,
2
I
n
)
b) Demuestre que y
y/
2
2
[n,
1
2
b
Xb]
5. Pruebe los siguientes resultados para e
a) Cov(e, y) =
2
P donde P = I X(X
X)
1
X
b) Cov(e, y) = 0
nn
c) Cov(e,
) = 0
np
d) Cov(e,
) =
2
X(X
X)
1
e)
n
i=1
e
i
y
i
= SCE
f )
n
i=1
e
i
y
i
= 0
6. Obtenga la matriz Q tal que SCR
m
= y
X)
1
X
y (SCE + Q) = SCR Q
=
y (K
b m)
[K
(X
X)
1
K]
1
(K
b m)
pruebe que si m = 0 entonces y
y (SCE + Q) es igual a
y
{X(X
X)
1
X
X(X
X)
1
K[K
(X
X)
1
K]
1
K
X(X
X)
1
}y
y que
y
y (SCE + Q)
2
tiene distribucion
2
no central independiente de SCE.
9. Suponga que
2
= 200 y
b
=
_
3 5 2
donde
v(
b
1
) = 28 v(
b
2
) = 24 v(
b
3
) = 18
Cov(
b
1
,
b
2
) = 16
Cov(
b
1
,
b
3
) = 14
Cov(
b
2
,
b
3
) = 12
muestre que el estadstico F para probar la hipotesis b
1
= b
2
+ 4 = b
3
+ 7 es igual a 1.
Calcule el estimador de b bajo la hipotesis nula.
10. Una compa na de seguros desea determinar el grado de relacion que existe entre el
ingreso familiar x y el monto del seguro de vida y del jefe de familia. Con base en
una muestra aleatoria de 18 familias, se obtuvo la siguiente informacion (en miles de
dolares).
Ingreso 45 20 40 40 47 30 25 20 15
Seguro 70 50 60 50 90 55 55 35 40
Ingreso 35 40 55 50 60 15 30 35 45
Seguro 65 75 105 110 120 30 40 65 80
(a) Realice el analisis de varianza usual.
(b) Estime b
0
y b
1
con un intervalo de conanza al 95 %
(c) Pruebe la hipotesis b
1
= 0 contra la alternativa b
1
= 0
(d) Pruebe la hipotesis b
0
+ b
1
= 5
11. Suponga que le son dadas las siguientes matrices calculadas para un analisis de regresion
X
X =
_
_
9 139 296 260
136 2114 4176 3583
269 4176 8257 7104
260 3583 7104 12276
_
_
, X
Y =
_
_
45
648
1283
1821
_
_
76 CAP
ON
X
X
1
=
_
_
9,610932 ,0085878 ,2791475 ,0445217
,0085878 ,5099641 ,2588636 ,0007765
,2791475 ,2588636 ,1395 ,0007396
,0445217 ,0007765 ,0007396 ,0003698
_
_
(X
X)
1
X
Y =
_
_
1,163461
,135270
,019950
,121954
_
_
, Y
Y = 285
(a) Complete la tabla de analisis de varianza.
(b) Muestre la ecuacion de regresion y los errores estandar de los coecientes de regre-
sion.
(c) Use una prueba t para probar la hipotesis simple que cada coeciente de regresion
es igual a cero. De sus conclusiones, use = 0,05.
(d) Dena K
Cov(
b) =
_
,1240363 ,002627
,002627 ,0000909
_
con s
2
= 1,6360, los datos tenan n = 34 observaciones
a) Obtenga un intervalo de conanza al 95 % para b
1
b) Obtenga y para x
1
= 4. Calcule la varianza de y si este esta siendo usado para
estimar la media de y cuando x
1
= 4
c) Obtenga la varianza de y si esta siendo usado para para predecir una observacion
futura cuando en x
1
= 4.
Captulo 5
Introduccion a los modelos de
clasicacion
5.1. Regresion en variables Dummy
Supongamos que estamos interesado en estudiar el efecto del nivel educativo en la inversion
que hacen los cabezas de hogares en productos durables (Electrodomesticos, muebles, etc )
y tenemos los datos que se muestran en la tabla 5.1 Estamos interesados en que tanto estan
Nivel Educativo
Universidad Universidad
Incompleto Graduado Posgrado
y
11
y
21
y
31
y
12
y
22
y
13
Tabla 5.1: Datos de inversion de los hogares
asociadas las categoras con la inversion.
5.1.1. Factores y niveles
La palabra factor denota lo que hasta ahora hemos llamado una variable; as, educacion es
un factor, ocupacion es otro factor.
Las categoras en que se divide cada factor se conoce como nivel del factor. Universidad
incompleta es un nivel del factor educacion. Empleado independiente es un nivel del factor
ocupacion, se pueden usar los n umeros 1, 2, 3, 4, para indicar los niveles del factor, en
nuestro ejemplo queremos investigar el efecto de cada uno de los tres niveles del factor edu-
cacion sobre la inversion, para eso efectuamos una regresion en tres variables independientes
x
1
, x
2
y x
3
y
i
= b
0
+ b
1
x
i1
+ b
2
x
i2
+ b
3
x
i3
+
i
(5.1)
77
78 CAP
ITULO 5. INTRODUCCI
ON
donde y
i
es la inversion,
i
y b
0
son, respectivamente, los terminos de error y contante en el
analisis de regresion.
Correspondiente a los x
s se describen como variables (0, 1), y como ellas no son verdaderas variables
en el sentido estricto de regresion, son llamadas variables Dummy
1
. A pesar de todo, los
procedimientos formales de regresion se llevan a cabo con consecuencias de gran interes.
Ejemplo 5.1. El la tabla 5.1 y
ij
es la inversion de la jesima persona en el iesimo nivel
del estado educativo, escribimos las observaciones de la tabla, de acuerdo con el modelo (5.1),
como sigue
y
11
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
11
(5.2a)
y
12
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
12
(5.2b)
y
13
= b
0
+ b
1
(1) +b
2
(0) +b
3
(0) +
13
(5.2c)
y
21
= b
0
+ b
1
(0) +b
2
(1) +b
3
(0) +
21
(5.2d)
y
22
= b
0
+ b
1
(0) +b
2
(1) +b
3
(0) +
22
(5.2e)
y
31
= b
0
+ b
1
(0) +b
2
(0) +b
3
(1) +
31
(5.2f)
los unos y ceros son los valores de las variables dummy. En forma matricial podemos escribir
las ecuaciones (5.2) as
_
_
y
11
y
12
y
13
y
21
y
22
y
13
_
_
. .
y
=
_
_
1 1 0 0
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 0 1
_
_
. .
X
_
_
b
0
b
1
b
2
b
3
_
_
. .
b
+
_
11
12
13
21
22
23
_
_
. .
e
(5.3)
la cual tiene la forma familiar
y = Xb +e (5.4)
1
Dummy = cticio
5.1. REGRESI
ON EN VARIABLES DUMMY 79
La denicion de los terminos de error es exactamente como en regresion a saber; e (0,
2
I).
El metodo de mnimos cuadrados aplicados al modelo 5.4 conduce a las ecuaciones normales
(X
X)
1
b = X
y (5.5)
como X no tiene rango columna completo, el modelo (5.4) se le conoce como modelo de
rango incompleto
2
. Como X no tiene rango columna completo, (X
X)
1
no existe y 5.5 no
se puede solucionar como
b = (X
X)
1
X
1
y
2
, el termino de intercepto lo escribiremos como , por tanto el vector de parametros
sera b
=
_
1
2
3
1
2
ijk,1
+
2
x
ijk,2
+
ijk
(5.6)
donde las xs y las x
ijk,t
=
_
1 si y
ijk
pertenece al tratamiento t,
0 en otro caso .
para t = 1, 2. Como y
121
pertenece a la variedad 1 entonces x
121,1
= 1 y x
121,2
= x
121,3
= 0
y como pertenece al tratamiento 2 x
121,1
= 0 y x
121,2
= 1 luego las ecuaciones de regresion (
2
model not of full rank
80 CAP
ITULO 5. INTRODUCCI
ON
seg un el modelo (5.6) ) para cada observacion es
y
111
= +
1
(1) +
2
(0) +
3
(0) +
1
(1) +
2
(0) +
111
(5.7a)
y
112
= +
1
(1) +
2
(0) +
3
(0) +
1
(1) +
2
(0) +
112
(5.7b)
y
121
= +
1
(1) +
2
(0) +
3
(0) +
1
(0) +
2
(1) +
121
(5.7c)
y
211
= +
1
(0) +
2
(1) +
3
(0) +
1
(1) +
2
(0) +
211
(5.7d)
y
221
= +
1
(0) +
2
(1) +
3
(0) +
1
(0) +
2
(1) +
221
(5.7e)
y
311
= +
1
(0) +
2
(0) +
3
(1) +
1
(1) +
2
(0) +
311
(5.7f)
las ecuaciones 5.7 escritas en forma matricial quedan
_
_
y
111
y
112
y
121
y
211
y
221
y
311
_
_
=
_
_
1 1 0 0 1 0
1 1 0 0 1 0
1 1 0 0 0 1
1 0 1 0 1 0
1 0 1 0 0 1
1 0 0 1 1 0
_
_
_
2
_
_
+
_
111
112
121
211
221
311
_
_
(5.8)
que a su vez podemos escribir como y = Xb +e que es la ecuacion de un modelo lineal que
no es de rango completo.
En general, la matriz X de 5.7 y de 5.3 que tiene todos sus elementos ceros y
unos, se conoce como matriz de incidencia o matriz dise no.
5.2. Descripcion de modelos lineales
5.2.1. Una va de clasicacion
Consideremos nuevamente las ecuaciones (5.2) de la pagina 78, estas pueden ser escritas as
y
11
= b
0
+ b
1
+
11
(5.9a)
y
12
= b
0
+ b
1
+
12
(5.9b)
y
13
= b
0
+ b
1
+
13
(5.9c)
y
21
= b
0
+ b
2
+
21
(5.9d)
y
22
= b
0
+ b
2
+
22
(5.9e)
y
31
= b
0
+ b
3
+
31
(5.9f)
notese que en cada ecuacion anterior, el subndice de b corresponde exactamente al primer
subndice de y, es decir b
1
se encuentra en y
11
, y
12
y en y
13
, b
2
en y
21
y en y
22
por tanto las
ecuaciones pueden escribirse as
y
ij
= + b
i
+
ij
(5.10)
para los diferentes valores que i y j toman en los datos. En este caso i = 1, 2, 3 y el lmite
superior de j en la iesima clase es el n umero de observaciones en dicha clase, denotando
este numero por n
i
tenemos j = 1, , n
i
donde n
1
= 3, n
2
= 2 y n
3
= 1 .
5.2. DESCRIPCI
ON DE MODELOS LINEALES 81
Nos referiremos a (5.10) como la ecuacion de un modelo lineal general para tres clases;
para a clases es la misma ecuacion, solo que i = 1, 2 , a
Ya que gura en todas las ecuaciones (5.10) este se describe como una media general de la
poblacion, y que es com un a todos los niveles del factor.
b
1
gura solo en aquellas ecuaciones pertenecientes a indices de inversion de personas con
nivel educativo 1, a saber: 5.9a, 5.9b y 5.9c. Similarmente, para b
2
; este gura solo en las
ecuaciones para personas en nivel educativo 2, o sea en 5.9d y 5.9e, lo mismo para b
3
el cual
solo aparece en 5.9f que es la observacion correspondiente a la inversion de una persona con
nivel educativo 3. Por lo tanto b
i
de interpreta como el efecto sobre la inversion
debido al nivel educativo i
ij
se dene como
ij
= y
ij
E(y
ij
)
por lo tanto si asumimos E(
ij
) = 0 entonces
E(y
ij
) = + b
i
la varianza de cada
ij
se dene como
2
, es decir
v(
ij
) = E [
ij
E(e
ij
)]
2
= E(e
2
ij
) =
2
(5.11)
para todo i y j. Ademas se asume que la covarianza entre todos los pares de diferentes
s es
cero es decir
Cov(
ij
,
i
j
) = 0 para i = i
y j = j
(5.12)
matricialmente, podemos escribir (5.11) y (5.12) as
Var (e) =
2
I (5.13)
la descripcion general del modelo de una via de clasicaci on se puede resumir como sigue:
Para y
ij
, la observacion jesima del iesimo nivel del factor, la ecuacion del modelo es
(5.10)
y
ij
= + b
i
+ e
ij
(5.10)
es la media general, b
i
es el efecto sobre y
ij
debido al iesimo nivel del factor y
ij
es un
termino de error particular a y
ij
con e (0,
2
I). Para a niveles del factor i = 1, 2, , a y
j = 1, 2, , n
i
para el iesimo nivel del factor.
5.2.2. Dos vas de clasicacion
Regresemos a las ecuaciones (5.7) en la pagina 80, ellas se pueden escribir as:
y
111
= +
1
+
1
+
111
(5.14a)
y
112
= +
1
+
1
+
112
(5.14b)
y
121
= +
1
+
2
+
121
(5.14c)
y
211
= +
2
+
1
+
211
(5.14d)
y
221
= +
2
+
2
+
221
(5.14e)
y
311
= +
3
+
1
+
311
(5.14f)
82 CAP
ITULO 5. INTRODUCCI
ON
En cada ecuacion, los subndices en y corresponden, respectivamente a los dos primeros
en y.
1
y
1
se encuentran en y
111
y y
112
,
2
y
1
estan en y
211
y as sucesivamente, por lo
tanto las ecuaciones en (5.14) pueden ser escritas as:
y
ijk
= +
i
+
j
+
ijk
(5.15)
en este caso i = 1, 2, 3, j = 1, 2 y el lmite superior de k es el n umero de observaciones de
la iesima variedad que recibe el tratamiento j, se denota este por n
ij
, as que en general
k = 1, , n
ij
con n
11
= 2, n
12
= n
21
= n
22
= n
31
= 1 y n
32
= 0.
se describe como la media general de la poblacion ( produccion ),
i
es el efecto sobre la
produccion debido a la variedad i, similarmente
j
es el efecto sobre la produccion del nivel
j del tratamiento, en forma general, el modelo de dos vias de clasicacion con a niveles del
primer factor y b niveles del otro es como sigue
y
ijk
= +
i
+
j
+
ijk
_
_
i = 1, 2, , a
j = 1, 2, , b
k = 1, 2, , n
ij
(5.16)
los terminos de error del modelo se asumen con las mismas propiedades que en modelo de
una via; asumimos que e (0,
2
I), posteriormente cuando se requiera probar hipotesis y
construir intervalos de conanza se asume normalidad para los errores.
5.2.3. Tres vas de clasicacion
Deseamos estimar el efecto sobre una respuesta y de de tres factores en estudio, digamos
A, B y C, con a, b, y c niveles, respectivamente, entonces podramos usar el modelo cuya
ecuacion es
y
ijkh
= +
i
+
j
+
k
+
ijkh
_
_
i = 1, 2, , a
j = 1, 2, , b
k = 1, 2, , c
h = 1, 2, , n
ijk
(5.17)
donde y
ijkh
es la respuesta de la hesima unidad en el nivel i del factor A, nivel j del factor
B y nivel k del factor C. es la media general,
i
es el efecto sobre y del iesimo nivel
del factor A,
j
es el efecto del jesimo nivel del factor B y
k
es el efecto del kesimo
nivel del factor C.
ijkh
es el termino de error aleatorio; al igual que con los otros modelos,
e (0,
2
I). n
ijk
es el numero de observaciones en la respectiva celda.
5.2.4. Efectos principales e interacciones
Efectos que no interactuan
Cada uno de los
s,
s y
ON DE MODELOS LINEALES 83
que ver con un nivel simple de un factor se llaman efectos principales, porque son los efectos
de interes principal para el investigador. Por tanto los elementos del modelo que corresponden
a ellos se les llama efectos principales del modelo.
El valor esperado de y
ijk
es
E(y
ijk
) = +
i
+
j
(5.18)
esto signica que el efecto total de la variedad i con el tratamiento j en la produccion esperada
es la suma de los dos efectos individuales
i
y
j
, por esa razon se dice que los efectos son
aditivos.
El modelo tambien implica que el efecto de la variedad i es el mismo sin importar que
tratamiento este usando. Para todos los tratamientos, el efecto de la variedad i se asume
i
y el efecto combinado de la variedad i y el tratamiento j se asume que es
i
+
j
.
Los valores de ,
i
y
j
en la practica nunca se conocen porque son valores poblacionales que
solo pueden ser estimados a partir de los datos disponibles, sin embargo, para propositos de
ilustrar algunos aspectos de los modelos lineales es instructivo dar ciertos valores aritmeticos
a esos elementos. Supongamos que los valores de ,
i
s y
j
s son los que se muestran en la
tabla 5.3 con esos valores tenemos que
E(y
11k
) = +
1
+
1
= 4 + 1 + 4 = 9
observese que para una i y j dada E(y
ijk
) = +
i
+
j
es igual para toda k, lo que signica
= 4
1
= 1
1
= 4
2
= 3
2
= 7
3
= 2
Tabla 5.3: Valores cticios para los parametros del modelo
que el valor esperado para cada observacion de la subclase (i, j) es el mismo. Los valores
esperados para las otras subclases se muestran en la tabla 5.4 y se gracan en la gura 5.1
Tratamientos
Variedad 1 2
1 E(y
11k
) = 4 + 1 + 4 = 9 E(y
12k
) = 4 + 1 + 7 = 12
2 E(y
21k
) = 4 + 3 + 4 = 11 E(y
22k
) = 4 + 3 + 7 = 14
3 E(y
31k
) = 4 + 2 + 4 = 10 E(y
32k
) = 4 + 2 + 7 = 13
Tabla 5.4: Valores esperados calculados a partir de 5.3
En la gura 5.1 notese que la variable del eje horizontal, n umero de variedad, no es una
variable continua, por tanto las lneas que unen a E(y
ijk
) en ninguna forma indican un
cambio continuo en E(y
ijk
) de una variedad a la siguiente; las lneas se muestran solamente
para hacer enfasis en la tendencia del cambio.
Desde la gura 5.1 es claro que en el ejemplo del modelo dado en E(y
ijk
) = +
i
+
j
el efecto
de variedad es el mismo independientemente del tratamiento. Para ambos tratamientos, la
variedad dos tiene una produccion esperada 2 unidades mas grande que la variedad uno;
y para ambos tratamientos la produccion esperada de la variedad tres es una unidad mas
peque na que la de la variedad 2. Cuando eso ocurre se dice que variedad y tratamiento no
interactuan.
84 CAP
ITULO 5. INTRODUCCI
ON
6
8
10
12
14
T
r
a
t
a
m
ie
n
t
o
2
T
r
a
t
a
m
ie
n
t
o
1
Sin interaccion
Variedad 1 Variedad 2 Variedad 3
E
(
y
i
j
k
)
Figura 5.1: Valores esperados de la tabla 5.4
Efectos que interactuan
Siguiendo con nuestros ejemplos hipoteticos supongamos que la produccion esperada es como
se muestra en la tabla 5.5, estos valores se representan gracamente en la gura 5.2.
Tratamientos
Variedad 1 2
1 E(y
11k
) = 8 E(y
12k
) = 13
2 E(y
21k
) = 11 E(y
22k
) = 9
3 E(y
31k
) = 8 E(y
32k
) = 10
Tabla 5.5: Valores esperados hipoteticos
La diferencia entre esta y la gura 5.1 es obvia, las lneas de los dos tratamientos no son
paralelas, esto indica que el efecto de variedad no es el mismo para los diferentes tratamientos.
Con el tratamiento 1 produccion esperada de la variedad 2 es tres unidades mas grande que
con la variedad 1 en el mismo tratamiento, pero para el tratamiento 2, la produccion esperada
de la variedad 2 es cuatro unidades mas peque na que la variedad 1. As, en el segundo ejemplo
hipotetico las variedades act uan en forma diferente de acuerdo con el tratamiento usado. En
este caso decimos que las variedades interactuan con los tratamientos. La cantidad para la
cual ellas no act uan en la misma manera para cada tratamiento es lo que se conoce como
una interaccion. La discusion puede hacerse de otra forma, en la gura 5.1 la diferencia entre
tratamiento es la misma para cada variedad, esto se evidencia por el paralelismo de las lneas
de la gura. Por otra parte la falta de paralelismo en la gura 5.2 indica que las diferencias
entre tratamientos no son las mismas de variedad a variedad. La diferencia tratamiento 1
menos tratamiento 2 es 5, +2 y 2 para las tres variedades respectivamente, mientras que
en la gura 1 es tres para cada variedad. Esta diferencia entre los dos ejemplos hipoteticos
se ilustra ampliamente cuando se gracan como en las guras 5.3 y 5.4
Las lneas paralelas en las gracas 5.1 y 5.3 ilustra, para el primer ejemplo hipotetico la
5.2. DESCRIPCI
ON DE MODELOS LINEALES 85
6
8
10
12
14
T
r
a
t
a
m
i
e
n
t
o
2
T
r
a
t
a
m
i
e
n
t
o
1
Con interaccion
Variedad 1 Variedad 2 Variedad 3
E
(
y
i
j
k
)
Figura 5.2: Valores esperados de la tabla 5.5
6
8
10
12
14
Variedad 1
Variedad 2
Variedad 3
Sin interaccion
Tratamiento 1 Tratamiento 2
E
(
y
i
j
k
)
Figura 5.3: Valores esperados de la tabla 5.4
diferencia uniforme entre tratamiento para todas las variedades, pero en las guras 5.2 y 5.4
el efecto de tratamiento no es el mismo para todas las variedades y el efecto de variedad
no es el mismo para todos los tratamientos. Hay alg un efecto adicional aportando, por la
forma en que los tratamientos y las variedades interactuan; estos efectos se llaman efectos
de interaccion y representan la forma en que cada nivel de un efecto principal (variedad)
interactua con cada nivel del otro factor principal (tratamientos), esos efectos son tomados
en cuenta en el modelo adicionando otro termino. El efecto de interaccion entre el iesimo
nivel del efecto y el jesimo nivel del efecto se simboliza por
ij
y la ecuacion del modelo
es
E(y
ijk
) = +
i
+
j
+
ij
(5.19)
86 CAP
ITULO 5. INTRODUCCI
ON
6
8
10
12
14
Variedad 1
Variedad 2
Variedad 3
Con interaccion
Tratamiento 1 Tratamiento 2
E
(
y
i
j
k
)
Figura 5.4: Valores esperados de la tabla 5.5
o equivalentemente
y
ijk
= +
i
+
j
+
ij
+
ijk
todos los otros terminos del modelo tienen el mismo signicado que se ha discutido hasta el
momento.
El segundo caso hipotetico (dibujado en las guras 5.2 y 5.4) esta basado en los mismos
valores hipoteticos para ,
s y
ij
dados en la tabla 5.6, de esa forma los valores esperados obtenidos a partir de 5.19 son los
que se muestran en la tabla 5.5 y se gracan en las guras 5.2 y 5.4 Notacion. Una notacion
11
= 1
21
= 1
12
= 0
22
= 5
13
= 2
31
= 3
Tabla 5.6: Valores cticios para
ij
que frecuentemente se usa y ayuda a claricar la interpretacion de las interacciones se basa
en el uso del smbolo ()
ij
en lugar de
ij
. Esto indica que ()
ij
es el efecto de interaccion
entre el iesimo novel del factor y el jesimo nivel del factor . El smbolo ()
ij
en
ninguna forma indica el producto de con . Cuando un modelo incluye interacciones su
orden es el n umero de efectos principales. As, (5.19) es una ecuacion para un modelo de dos
vias de clasicacion al igual que (5.16), pero (5.19) incluye interacciones pero (5.16) no.
Clasicacion cruzada
Cuando cada nivel de cada factor se usa en combinacion cada nivel de todos los otros factores,
se dice que se tiene una clasicacion cruzada. Sus intersecciones son las subclases o celadas.
La ausencia de datos en una celda, no implica la no existencia de esa celda, solo que esta no
tiene datos. El numero de celdas en una clasicacion cruzada es el producto del numero de
niveles de los factores.
5.3. LAS ECUACIONES NORMALES 87
5.3. Las ecuaciones normales
La ecuacion del modelo lineal general es y = Xb + e, identica a la usada en analisis de re-
gresion. En regresion las ecuaciones normales para estimar b se escribieron (X
X)
b = X
y,
donde
b era el estimador de b. Las mismas ecuaciones normales pueden usarse aqu, sin em-
bargo, ahora las escribimos (X
X)b
= X
. X
=
_
16 10 19 11 13 27
usamos b
=
_
1
2
3
_
6 3 2 1
3 3 0 0
2 0 2 0
1 0 0 1
_
_
_
3
_
_
=
_
_
96
45
24
27
_
_
(5.20)
equivalente a
6
+ 3
1
+ 3
2
+ 3
3
= 96
3
+ 3
1
= 45
2
+ 2
2
= 24
+ 3
3
= 27
notese que la suma de las tres ultima ecuaciones es igual a la primera y por tanto el sistema
tiene innitas soluciones. Cuatro de esas soluciones se muestran en la tabla 5.7
Elemento de Soluciones
la solucion b
1
b
2
b
3
b
16 14 27 2982
1
1 1 12 2997
2
4 2 15 2994
3
11 13 0 3009
Tabla 5.7: Soluciones a las ecuaciones (5.20)
Las diferencias entre los elementos de las cuatro soluciones hace claro por que una solucion
particular b
no se puede considerar como una estimacion de b. Por esta razon siempre nos
referimos a b
1
+
2
+
3
)/3 los resultados
88 CAP
ITULO 5. INTRODUCCI
ON
Solucion (ver tabla 5.7)
Funcion Lineal b
1
b
2
b
3
b
4
1
2
(
2
+
3
) 3.5 5.5 7,5 3001,5
(
1
+
2
+
3
)/3 7.333 8.666 0 2006
Tabla 5.8: Valores de
1
2
(
2
+
3
) y (
1
+
2
+
3
)/3
Solucion (ver tabla 5.7)
Funcion Lineal b
1
b
2
b
3
b
2
3 3 3 3
1
15 15 15 15
+
1
2
(
2
+
3
) 19.5 19.5 19.5 19.5
1
2
(
2
+
3
)
1
4.5 4.5 4.5 4.5
Tabla 5.9: Estimaciones de cuatro funciones estimables
se muestran en la tabla 5.8. Los valores de las funciones en la tabla 5.8 varan bastante de
una solucion a otra. Afortunadamente eso no siempre es verdadero para todas las funciones
lineales, consideremos las funciones de la tabla 5.9. Observese que los valores de cada una de
esas expresiones es invariante a la solucion b
, esas expresiones son de gran valor para el investigador, una descripcion de cada una de
ellas se da en la tabla 5.10.
Funcion Descripcion
2
: Estimador de la diferencia entre los
efectos de dos niveles
1
: Estimador de la media general mas el
efecto del nivel 1
+
1
2
(
2
+
3
): Estimador de la media general mas el
efecto medio de dos niveles
1
2
(
2
+
3
)
1
: Estimador de la superioridad del efecto
medio de dos niveles sobre el efecto de
otro nivel
Tabla 5.10: Descripcion de algunas funciones lineales
Las de la tabla 5.10 son solo 4 funciones de las muchas funciones lineales de b
que tienen la
propiedad mostrada en la tabla 5.9, otras similares son, por ejemplo,
1
,
2
,
+
1
2
(
1
+
2
), funciones como esas se conocen como estimadores de funciones estimables. Ellas
tienen la propiedad de ser invariantes a cualquiera sea la solucion obtenida a las ecuaciones
normales. Por causa de la propiedad de invariancia ellas son las unicas funciones de interes
en lo concerniente a la estimacion de parametros de un modelo lineal de rango incompleto.
5.4. EJERCICIOS 89
5.4. Ejercicios
1. La tabla siguiente muestra la altura de 7 plantas de tomate 8 semanas despues de ser
plantadas, clasicadas por el tratamiento fertilizante utilizado
Tratamientos
1 2 3
74 76 87
68 80 91
77
(a) Escriba las ecuaciones para una regresion en variables Dummy considerando el
efecto del tratamiento fertilizante.
(b) Reescriba las ecuaciones en terminos de un modelo lineal.
(c) Escriba las ecuaciones del modelo lineal general para esta situacion.
(d) Escriba la matriz de incidencia (o matriz dise no ).
(e) Escriba las ecuaciones en forma matricial.
(f) Obtenga las ecuaciones normales.
(g) Obtenga tres soluciones distintas a estas ecuaciones.
2. Repita todos los puntos del ejercicio 1 pero con los siguientes datos
Tratamientos
11 8 17 9
5 18 11 5
16 14
18
3. Suponga que estamos interesados en el efecto de dos clases de suelo en el numero de
dias para la germinacion de tres variedades de semillas de zanahorias. La tabla siguiente
muestra lo que podra ser unos datos provenientes de un experimento dise nado para tal
n.
Variedades
Suelo 1 2 3
1 6 13 14
10 15 22
11
2 12 31 18
15 9
19 12
18
90 CAP
ITULO 5. INTRODUCCI
ON
(a) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad no interactuan.
(b) Describa cada uno de los terminos del modelo.
(c) Escriba la matriz de incidencia para estos datos.
(d) Construya un graco similar al graco 5.2 de la pagina 85 colocando en el eje vertical
los promedios de la celda. Parece haber interaccion entre variedad y suelo?
(e) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interactuan.
4. Repita todos los puntos del ejercicio 3 pero con los siguientes datos.
Variedades
Suelo 1 2 3
1 3 9 4
7 5 8
6
2 6 8 1
3 5 1
6 8
7
Captulo 6
Modelos de rango incompleto
Ejemplo 6.1. Se esta investigando cuatro catalizadores que pueden afectar la concentracion
de un componente en una mezcla lquida. Se obtuvieron las concentraciones que se muestran
en la tabla 6.1
Catalizador
1 2 3 4
58.20 56.30 50.10 52.90
57.20 54.50 54.20 49.90
58.40 57.00 55.40 50.00
55.80 55.30 51.70
54.90
Tabla 6.1: Datos para el ejemplo 6.1
Como los datos estan clasicados por un solo criterio (tipo de catalizador) asumimos el
modelo
y
ij
= +
i
+
ij
_
i = 1, 2, 3, 4
j = 1, 2, , n
i
con n
1
= 5, n
2
= n
4
= 4 y n
3
= 3. Para mostrar las ecuaciones normales escribimos las
observaciones en terminos de la ecuacion del modelo, en la forma matricial y = Xb + e
donde la matriz X es
X =
_
_
1
5
1
5
0
5
0
5
0
5
1
4
0
4
1
4
0
4
0
5
1
3
0
3
0
3
1
3
0
3
1
4
0
4
0
4
0
4
1
4
_
_
165
y la matriz X
X es:
X
X =
_
_
16 5 4 3 4
5 5 0 0 0
4 0 4 0 0
3 0 0 3 0
4 0 0 0 4
_
_
91
92 CAP
_
16 5 4 3 4
5 5 0 0 0
4 0 4 0 0
3 0 0 3 0
4 0 0 0 4
_
_
_
4
_
_
=
_
_
871,8
284,5
223,1
159,7
204,5
_
_
una inversa generalizada de X
X es
G =
1
240
_
_
60 60 60 60 0
60 108 60 60 0
60 60 120 60 0
60 60 60 140 0
0 0 0 0 0
_
_
con H =
_
_
1 0 0 0 1
0 1 0 0 1
0 0 1 0 1
0 0 0 1 1
0 0 0 0 0
_
_
luego, una solucion a las ecuaciones normales es
b
=
_
4
_
_
= GX
y =
_
_
51,1250
5,7750
4,6500
2,1083
0,0000
_
_
la tabla 6.2 muestra las tres descomposiciones de la suma de cuadrados total.
Particion 1 Particion 2 Particion 3
SCM=47502.203
SCR=47587.88 SCR
m
= 85.676 SCR
m
= 85.676
SCE= 34.562 SCE= 34.562 SCE= 34.562
SCT=47622.44 SCT=47622.44 SCT
m
=120.238
Tabla 6.2: Descomposicion de la suma de cuadrados total
93
Ejemplo 6.2 (Analisis de varianza). En las tablas 6.3, 6.4 y 6.5 se presentan las tres tablas
de analisis de varianza para el ejemplo 6.1
Fuente GL SC CM F Pr
Modelo 4 47587.878 11896.97 4130.693 0.0000
Error 12 34.562 2.880
Total 16 47622.44
Tabla 6.3: Analisis de varianza 2
Fuente GL SC CM F Pr
Media 1 47502.203 47502.203 16493.025 0.0000
Modelo 3 85.676 28.558 9.920 0.0014
Error 12 34.562 2.880
Total 16 47622.44
Tabla 6.4: Analisis de varianza 2
Fuente GL SC CM F Pr
Modelo 3 85.676 28.558 9.92 0.0014
Error 12 34.562 2.880
Total (c.p.m) 15 120.238
Tabla 6.5: Analisis de varianza 3
Ejemplo 6.3 (m.e.l.i de q
2
es estimable. Ademas
2
=
_
0 1 1 0 0
4
_
_
= q
b
por lo tanto
2
= q
2
) = q
Gq
2
= 0,45
2
un intervalo de conanza al 95 % para
1
2
es
1,125 2,880 2,179
_
0,45
de donde se obtiene L
i
= 3,0846 y L
S
= 5,3346
94 CAP
b =
_
0 2 1 1 0
4
_
_
=
2
2
1
+
3
para probar que esta funcion es estimable, basta probar que q
H = q
, en efecto
q
H =
_
0 2 1 1 0
_
1 0 0 0 1
0 1 0 0 1
0 0 1 0 1
0 0 0 1 1
0 0 0 0 0
_
_
=
_
0 2 1 1 0
H =
_
0 1 1 0 0
H =
_
0 1 1 0 0
= k
= 1,125 de
donde k
Gk = 9/10
F(H) =
(8,88)(9/10)
1
(8,88)
1 2,88
=
87,62
2,88
= 30,42
valor que es mas grande que el tabulado, por tanto se rechaza la hipotesis.
Ahora consideremos la hipotesis H
0
: +
1
= +
2
= 55, la cual se puede escribir como
K
b =
_
1 1 0 0 0
1 0 1 0 0
_
b =
_
55
55
_
en este caso F(H) = 3,55
6.1. Seleccion de ejercicios (Modelos lineales)
1. La tabla siguiente muestra la altura de 7 plantas de tomate 8 semanas despues de ser
plantadas, clasicadas por el tratamiento fertilizante utilizado
Tratamientos
1 2 3
74 76 87
68 80 91
77
6.1. SELECCI
a
i=1
i
y
b
j=1
j
y obtenga de esa forma una solucion
a las ecuaciones normales (
i
es el efecto del tratamiento de las columnas y
j
es
el efecto del tratamiento de la ).
(f) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interact uan.
4. Con los siguientes datos.
Variedades
Suelo 1 2 3
1 3 9 4
7 5 8
6
2 6 8 1
3 5 1
6 8
7
(a) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad no interact uan.
(b) Describa cada uno de los terminos del modelo.
(c) Escriba la matriz de incidencia para estos datos.
(d) Escriba explcitamente las ecuaciones normales.
(e) Imponga las restricciones
a
i=1
i
y
b
j=1
j
y obtenga de esa forma una solucion
a las ecuaciones normales (
i
es el efecto del tratamiento de las columnas y
j
es
el efecto del tratamiento de la ).
(f) Escriba un modelo lineal para describir estas observaciones suponiendo que suelo
y variedad interact uan.
6.1. SELECCI
1
,
2
y
3
y compruebe numericamente que y = X
i
i = 1, 2, 3 es invariante a la solucion.
b) Complete la siguiente tabla de ANAVA
F de V G de L S de C C M
Media
Modelo (cpm)
Error
Total (cpm)
c) Determine cuales de las siguientes funciones parametricas son estimables. Justi-
que.
i. q
1
=
1
2
ii. q
2
=
iii. q
3
=
i
iv. q
4
=
3
i=1
i
v. q
5
= + 2
1
2
vi. q
6
= +
i
vii. q
7
= 2
1
3
d) Para cada una de las funciones que sean estimables en el punto 6c determine un
vector t tal que q
= t
E(y)
e) Para cada una de las funciones que sean estimables en el punto 6c determine el
MELI y su varianza.
6. Considere los siguientes datos
T
1
T
2
T
3
4 3 10
5 4 14
9 2 11
y caracterizandose el modelo y
ij
= +
i
+ e
ij
el cual se puede escribir en forma
matricial de la forma y = X +e
98 CAP
1
,
2
y
3
y compruebe numericamente que y = X
i
i = 1, 2, 3 es invariante a la solucion.
b) Complete la siguiente tabla de ANAVA
F de V G de L S de C C M
Media
Modelo (cpm)
Error
Total (cpm)
c) Determine cuales de las siguientes funciones parametricas son estimables. Justi-
que.
i. q
1
=
1
2
ii. q
2
=
iii. q
3
=
i
iv. q
4
=
3
i=1
i
v. q
5
= + 2
1
2
vi. q
6
= +
i
vii. q
7
= 2
1
3
d) Para cada una de las funciones que sean estimables en el punto 6c determine un
vector t tal que q
= t
E(y)
e) Para cada una de las funciones que sean estimables en el punto 6c determine el
MELI y su varianza.
7. Considere el modelo lineal general y = X +e, demuestre que si el rango de X
np
es
p entonces cualquier funcion lineal parametrica es estimable.
8. En el modelo y
ij
=
i
+ e
ij
pruebe que
i
es estimable y encuentre su MELI.
Captulo 7
Introduccion a SAS/IML software
7.1. Sintaxis basicas
La sintaxis basica de un programa en IML es
proc iml;
(Codigo del programa)
quit; run;
7.2. Denicion de matrices
En IML se pueden denir matrices literalmente, a partir de funciones, a partir de operaciones
y leyendolas de un archivo de datos.
7.2.1. Denicion de matrices literalemnte
Para denir matrices literalmente, los elementos deben ir encerrados con llaves, separando
con espacios las columnas y con comas las las. Veamos algunos ejemplos
Si quiero Debo digitar
Z =
_
_
1 2
3 4
5 6
_
_
z={1 2,3 4,5 6};
x =
_
1 2 3 4 5
x={1 2 3 4 5};
y =
_
_
1
2
3
_
_
y={1,2,3};
7.2.2. Matrices de caracteres
En IML se pueden denir matrices de caracteres, estas son utiles para colocar nombres a las
columnas o a las las de una matriz en la presentacion de un informe, veamos como se hace:
99
100 CAP
ITULO 7. INTRODUCCI
ON A SAS/IML SOFTWARE
Al digitar Se obtiene
a={abc defg}; a =
_
ABC DEFG
b={abc DefG}; b =
_
abc DefG
Observese que al encerrar los caracteres en comillas simples se respetan las may usculas y
min uscula, en caso contrario se imprime todo en may uscula.
Se puede asignar nuevos valores a una matriz en cualquier momento, por ejemplo si escribimos
b={2 1 1 1,
1 2 1 1,
1 1 2 1,
1 1 1 2};
se reemplaza la matriz b =
_
abc DefG
_
2 1 1 1
1 2 1 1
1 1 2 1
1 1 1 2
_
_
Hay que tener cuidado de asignar adecuadamente los nombres de las matrices para que no
ocurran errores en los programas.
7.2.3. Denicion de matrices con operaciones
Con SAS/IML usted puede escribir expresiones compuestas que involucren varias operaciones,
por ejemplo:
Para obtener la matriz A como la suma de las matrices X,Y y Z usted debe escribir
en su programa A=X+Y+Z;
El codigo A=X+Y*Z;, primero multiplica las matrices Y y Z seg un el producto usual,
1
despues adiciona el resultado a la matriz X y asigna la nueva matriz a A
El codigo A=X**2; multiplica la matriz X por si misma (X
2
) y lo asigna a la matriz A
El codigo A=X/Y; divide cada elemento de la matriz X entre el correspondiente de la
matriz Y y asigna el resultado a la matriz A, las matrices X y Y deben ser del mismo
orden, esto se conoce como operaciones entre elementos
2
.
Con el codigo W=3#Z; se crea la matriz W cuyos elementos son tres veces los respectivos
elementos de Z.
El codigo A=X##2; eleva cada elemento de la matriz X al cuadrado y lo asigna a la
matriz A
1
Ojo con el orden de las matrices
2
Elementwise Binary Operators
7.2. DEFINICI
ON DE MATRICES 101
El codigo A=X#Y; multiplica cada elemento de la matriz X por el correspondiente de
la matriz Y , y lo asigna a la matriz A
El codigo A=X||Y; coloca la matriz X al lado de la matriz Y y forma la nueva matriz
A. Las matrices X y Y deben tener el mismo numero de las.
El codigo A=X//Y; coloca la matriz X debajo de la matriz Y y forma la nueva matriz
A. Las matrices X y Y deben tener el mismo numero de columnas.
7.2.4. Denicion de matrices con llamadas a funciones
En tambien SAS/IML se pueden crear matrices como resultado de la llamada a una funcion.
Como ejemplos tenemos:
El codigo Y=inv(X); coloca en Y la inversa de la matriz X
3
El codigo Y=ginv(X); coloca en Y la inversa generalizada de Moore-Penrose de la
matriz X.
Los codigos n=nrow(X); y p=ncol(X); colocan en n y en p el n umero de las y de
columnas de X, respectivamente.
El codigo J=J(nrow,ncol,1); crea la matriz J que tiene nrow las, ncol columnas y
todas sus componentes son unos.
El codigo I=I(n); crea la matriz I
n
, la matriz identica de orden n.
El codigo call eigen(val,vec,b); crea dos matrices; val que contiene los valores
propios de la matriz B y vec que contiene los vectores propios, la matriz B debe ser
simetrica.
7.2.5. Denicion de matrices con a partir de un data
En SAS/IML se pueden crear matrices desde las variables y observaciones de un archivo de
datos.
Para poder acceder a un archivo de datos, este se debe habilitar para tal n. El comando
USE nobre_del_data abre el archivo nobre_del_data para acceso de lectura.
La orden read all var{x y z} into X; introduce en la matriz X las variables x, y y z
como columnas. La matriz X tiene tantas las como registros tenga en data activo
La orden READ ALL VAR{x y z} INTO X WHERE(pob=1); introduce en la matriz X las va-
riables x, y y z como columnas, pero solo con los registros que tienen la variable pob=1. La
matriz X tiene tantas las como registros tengan pob=1 en data activo.
3
La matriz X debe ser cuadrada y de rango completo, de lo contrario genera un error
102 CAP
ITULO 7. INTRODUCCI
ON A SAS/IML SOFTWARE
7.3. Ejemplos
7.3.1. Solucion de un sistema de ecuaciones lineales
Queremos solucionar el sistema de ecuaciones
3x
1
x
2
+ 2x
3
= 8
2x
1
2x
2
+ 3x
3
= 2
4x
1
+ x
2
4x
3
= 9
esas ecuaciones pueden ser escritas matricialmente de la siguiente forma
_
_
3 1 2
2 2 3
4 1 4
_
_
_
_
x
1
x
2
x
3
_
_
=
_
_
8
2
9
_
_
si la matriz de coecientes es invertible el sistema tiene solucion unica igual a x = A
1
c lo
que haremos es evaluar el determinante de la matriz A y vericar si es distinto de cero, en
caso armativo calculamos la solucion, de lo contrario emitimos un mensaje advirtiendo que
el sistema no tiene solucion unica.
el codigo del programa es el siguiente:
dm out;clear;
dm log;clear;
proc iml;
A={3 -1 2,
2 -2 3,
4 1 -4 }; /* leemos la matriz A*/
C={8,2,9}; /* leemos la matriz C*/
d=det(a); /* calculamos el determinante de A*/
print d; /* imprimimos el determinante de A con el fin de
verificar si es cero o no */
if d^=0 then x=inv(a)*c; /* si el determinante de A es distinto de
cero
calculamos x en caso contrario no hay nada que
hacer */
print x; /* imprimimos la solucion */ else; print no hay
solucion o hay infinitas soluciones; quit; run;
7.3.2. Inversa generalizada de una matriz
El siguiente programa calcula una inversa generalizada de una matriz seg un el algoritmo
propuesto en clase, usted debe conocer el rango de la matriz para poder escoger el orden del
menor que va a usar
7.3. EJEMPLOS 103
dm out;clear;
dm log;clear;
proc iml ; reset noprint nolog;
/* Este programa calcula la inversa generalizada de una matriz */
/* Usted debe conocer el rango de la matriz para poder escoger */
/* el oreden el menor que va a usar */
A={1 1 0 1,
-1 -1 1 1,
1 0 0 1,
-1 0 1 1};
F={1 3 4}; /* escriba las filas que quiere usar en el menor*/
C={1,2,3}; /* escriba las columnas que quiere usar en el menor*/
n=nrow(A); /* numero de filas de A*/ p=ncol(A); /* numero de
columnas de A*/ M=A[F,C]; /* se toma la submatriz M de A con la
filas que se indican en F*/
/* y las columnas que se indican en C*/
M1=inv(M); /*se invierte la mtriz M*/ M2=t(M1); /* se traspone
la inversa de M */ G1=J(n,p,0); /* se crea una matriz de orden n*p
de puros ceros*/ G1[F,C]=M2; /*se inserta la traspuesta de la
inversa de M en la matriz G1
en las correspondientes posiciones de los elementos de M*/
G=t(G1); /* se traspone la matriz G1*/
print G; /* se imprime la matriz A y G */
quit; run;
7.3.3. Analisis de regresion
El siguiente programa calcula el vector de parametros estimados para un modelo de regresion
lineal m ultiple, las sumas de cuadrados y los estadsticos t
dm out;clear; dm log;clear;
proc iml;
/* matriz de variables
independientes */
x={1 1 1, 1 2 4, 1 3 9, 1 4 16, 1 5 25};
y={1,5,9,23,36}; /* vector de observaciones */
n=nrow(x); /* numero de observaciones */ p=ncol(x); /* numero de
104 CAP
ITULO 7. INTRODUCCI
ON A SAS/IML SOFTWARE
parametros */
xpx=inv(t(x)*x);
b=inv(t(x)*x)*t(x)*y;
yhat=x*b; /* /* valores predichos */
r= y-yhat; /* residuales*/
sce=ssq(r); /* suma de cudrados de los residuales */
gl=n-p; /* grados de libertad del error */
cme=sce/gl; /* cuadrado medio del error */
sctc=ssq(y-sum(y)/n); /* suma de cuadrados total corregida */
rcuad=(sctc-sce)/sctc;
print, "Resultados de la regresion " ,
sce gl cme rcuad ;
eeb=sqrt(vecdiag(xpx)*cme); /* diagonal de la matriz de varianza
cov de B*/
t=b/eeb;
prob=1-probf(t#t,1,gl);
print, " Parametros
estimados ",
b eeb t prob;
run; quit;
7.4. PARTICIONES DE LA SUMA DE CUADRADOS 105
7.4. Particiones de la suma de cuadrados
El siguiente programa en IML realiza las tres particiones de la suma de cuadrados vistas para
modelos de regresion. Los datos a usar son los siguientes.
y 27.5 25.0 28.5 31.4 25.2 29.7 32.3 30.9 31.3 33.6 34.6 33.5
x 4.0 4.0 4.0 4.5 4.5 4.5 5.0 5.0 5.0 5.5 5.5 5.5
dm out;clear; dm log;clear; Para borrar el log y el output
data eje1; input y x; cards;
Para leer los datos, en la primera co-
lumna y y en la segunda x
.
.
. Aqu van los datos
; run; Se termina de leer los datos
proc iml; reset noprint nolog fuzz; Se invoca IML y algunas opciones
use eje1; Se activa eje1 para lectura
read all var{x} into x1; Valores x en la matriz X
1
read all var{y} into y; Valores y en la matriz Y
n=nrow(x1); N umero de observaciones
unos=j(n,1,1); Vector 1
n
x=unos||x1; Se construye la matriz X =
_
1
n
X
1
X)
1
b=inv(t(x)*x)*t(x)*y;
b = (X
X)
1
X
Y
yhat=x*b;
Y = X
b Los predicted
r=(y-yhat); Residuales r = Y
Y
scr=t(b)*t(x)*y; SCR =
Y
sce=ssq(r); SCE =
2
sct=t(y)*y; SCT = Y
Y
glr=p; gle=n-p; glt=n;
Grados de libertad para regresion error
y total
fuente={Regres,Error,Total};
Esto es para darle mejor presentacion a
los resultados
ncolum={ GL sc cm}; Esto tambien
sc=scr//sce//sct; gl=glr//gle//glt;
Se colocan las sumas de cuadrados en
un solo vector, lo mismo que los gra-
dos de libertad para una mejor presen-
tacion
cm=sc/gl; Los cuadrados medios
resul=gl||sc||cm; Los resultados nales en una sola mtriz
print resul[rowname=fuente colname=ncolum format=8.2];
quit; run;
La salida de este programa, con los datos que se muestran al principio es
106 CAP
ITULO 7. INTRODUCCI
ON A SAS/IML SOFTWARE
RESUL GL SC CM
REGRES 2 11093.39 5546.69
ERROR 10 29.36 2.94
TOTAL 12 11122.75 926.90
Agregue el siguiente codigo de al nal del programa anterior (antes del quit; run; para
obtener la particion 2)
xbar=(1/n)*t(x1)*unos; Vector de medias de las xs x
ybar=(1/n)*sum(y); La media de los ys y
xcur=x1-unos*t(xbar); la matriz X cursiva X
bcur=inv(t(xcur)*xcur)*t(xcur)*y; El vector b cursivo B
scrm=t(bcur)*t(xcur)*y;
Suma de cuadrados de la regresion co-
rregida por la media
fc=n*ybar**2; Factor de correccion, ny
2
sctm=ssq(y)-fc; SCT
m
= Y
Y ny
2
fuente={Media,Regres,Error,Total};
sc=fc//scrm//sce//sct; Sumas de cuadrados en un solo vector
glm=1; glrm=p-1; glt=n; Grados de libertad
cm=sc/gl; Cuadrados medios
resul=gl||sc||cm; Resultados
print resul[rowname=fuente colname=ncolum format=8.2];
quit; run;
La salida de este programa es:
RESUL GL SC CM
MEDIA 1 11011.02 11011.02
REGRES 1 82.37 82.37
ERROR 10 29.36 2.94
TOTAL 12 11122.75 926.90
Con los calculos hechos anteriormente se puede obtener la particion 3. Queda como ejercicio
escribir el codigo permita mostrarla. La salida debe ser algo como esto:
RESUL GL SC CM
REGRES 1 82.37 82.37
ERROR 10 29.36 2.94
TOTAL 11 111.73 10.16
7.5. El proc reg
El procedimiento de S.A.S para llevar a realizar analisis de regresion es el PROC REG, el
cual ademas de realizar el analisis de varianza (partici on 3 ) y mostrar la estimacion de los
parametros con sus errores estandar y estadsticos t para probar la hipotesis H
0
: b
i
= 0,
brinda muchas otras estadsticas y herramientas de diagn ostico que facilitan el analisis de
7.5. EL PROC REG 107
regresion. Ilustrare el uso del PROC REG con un ejemplo, en los comentarios se explica que
hace cada opcion.
Los datos que usaremos para ilustrar este procedimiento son los siguientes:
78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9
0.02 0.02 0.02 0.02 0.1 0.1 0.1 0.1 0.18 0.18 0.18 0.18
1000 1100 1200 1300 1000 1100 1200 1300 1000 1100 1200 1300
La primera variable es dureza, la segunda cobre y la tercera temperatura.
dm out;clear; dm log;clear;
data eje1;
input dureza cobre temp; cards;
.
.
. ; run; Los datos
proc reg data=eje1; El proc reg en su version mas simple
model dureza=cobre temp;
run;
7.5.1. Opciones de proc reg
Despues de data=eje1 se pueden agregar entre otras, las siguientes opciones
1. CORR con la cual imprime la matriz de correlaciones para todas las variables listadas
en el modelo.
2. GRAPHICS The GRAPHICS option species that scatter plots generated by PROC
REG be produced on a high-resolution graphics device.
3. OUTEST= SAS-data-set The OUTEST= option requests that parameter estimates and
optionally the estimated covariance matrix be output to this SAS data set.
4. OUTSSCP= SAS-data-set The OUTSSCP= option requests that the sums of squares
and crossproducts matrix be output to this TYPE= SSCP data set.
5. ALL The ALL option requests many printouts. Using ALL in the PROC REG statement
is equivalent to specifying ALL in every MODEL statement. ALL also implies SIMPLE,
USSCP, and CORR.
Por ejemplo, si escribimos proc reg data=eje1 corr; SAS nos entrega el analisis basico de
regresion y ademas imprime la matriz de correlaciones entre las variables en el modelo.
7.5.2. Opciones en el modelo
Las siguientes son algunas opciones disponibles para el modelo.
1. Si escribimos model dureza=cobre temp /INFLUENCE; SAS nos proporciona un anali-
sis detallado de la inuencia de cada observacion sobre los parametros estimados y los
predicted.
108 CAP
ITULO 7. INTRODUCCI
ON A SAS/IML SOFTWARE
2. Si escribimos model dureza=cobre temp /DW; SAS nos proporciona el estadstico de
Durbin-Watson para probar si los errores estan correlacionados.
3. Si escribimos model dureza=cobre temp /I; SAS nos imprime la matriz X
X
1
4. ALL Especica todas las opciones disponibles.
Tenganse en cuanta que tanto en proc como model se pueden combinar varias opciones.
Bibliografa
[1] Searle S. R. Matrix Algebra Useful for Statistics, John Wiley & Sons, New York 1982.
[2] Searle S. R. Linear Models, John Wiley & Sons, New York 1971.
[3] Searle S. R. Linear Models for Unbalanced Data, John Wiley & Sons, New York 1987.
[4] Montgomery, D. Dise no y analisis de experimentos, Grupo Editorial Iberoamerica, Mejico
1991.
[5] Magnus, J and Neudecker, H. Matrix Dierential Calculus with Applications in Statistics
and Econometrics, John Wiley & Sons, New York 1995.
109