Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Preliminares
1.1 Resultados algebraicos
Consideraremos habitualmente matrices con coeficientes en R y, ocasionalmente, en C. Denotaremos
por ai j a los elementos de una matriz A, donde el subı́ndice i indica la fila y el j la columna donde se
sitúa dicho elemento.
Diremos que A es de orden m × n si tiene m filas y n columnas. A se dice cuadrada de orden n si es de
orden n × n. Los elementos de Rn serán considerados como matrices columna, es decir, de orden n × 1:
x1
x ∈ Rn si y sólo si x = ...
xn
A lo largo del texto tanto los vectores como las matrices aparecerán escritos en letra negrita.
Si A = (ai j ) denotaremos At a la matriz traspuesta de A (At = (a ji )). Una matriz cuadrada A es simétrica
si A = At .
La suma de las matrices A = (ai j ) y B = (bi j ) es la matriz A + B = (ai j + bi j ). El producto de la matriz
A = (ai j ) por el escalar k es la matriz kA = (kai j ).
Una matriz cuadrada D = (di j ) se dice diagonal si di j = 0 para todo i , j. A la matriz diagonal, que
verifica dii = 1 para todo i se le denomina matriz identidad (la denotaremos por I ó In si queremos
especificar su orden). La matriz nula 0 es aquella cuyos elementos son todos iguales a 0.
El producto de las matrices A = (ai j ) de orden m × n y B = (bi j ) de orden n × p es la matriz AB = (ci j ),
P
de orden m × p, cuyo elemento (i, j) es ci j = nk=1 aik bk j .
Una matriz cuadrada A es invertible o no singular si existe otra matriz A−1 de modo que AA−1 = A−1 A =
I. En caso contrario se dice que A es singular. Una matriz cuadrada A es ortogonal si su traspuesta y su
inversa coinciden, es decir, si AAt = At A = I.
Denotaremos por |A| ó det(A) al determinante de la matriz cuadrada A.
Veamos algunas propiedades de las matrices:
• (At )t = A , (AB)t = Bt At
• At A = 0 si y sólo si A=0
• (A−1 )−1 = A , (AB)−1 = B−1 A−1
• (At )−1 = (A−1 )t
• kA = Ak para todo escalar k.
• AI = IA = A
• Si AB = 0 (A y B cuadradas) entonces A = 0 ó B = 0 ó ambas son singulares.
Traza
La traza de una matriz cuadrada de orden n, A = (ai j ), es la suma de los elementos de su diagonal
P
principal, es decir, tr(A) = ni=1 aii . Algunas propiedades de la traza:
• tr(A + B) = tr(A) + tr(B) , tr(kA) = k tr(A) siendo k escalar.
• tr(A) = tr(At )
• tr(In ) = n
1
• tr(AB) = tr(BA)
• tr(ABC) = tr(CAB) = tr(BCA) (que no tienen por qué ser iguales a tr(ACB))
• si P invertible tr(A) = tr(P−1 AP)
Rango
El rango de una matriz A es el máximo número de filas o columnas linealmente independientes. Lo
denotaremos por r(A). Algunas propiedades del rango son:
• r(AB) ≤ min{r(A), r(B)}
• r(A + B) ≤ r(A) + r(B)
• Si A, C invertibles, entonces r(AB) = r(BC) = r(B)
• Si A y B son matrices cuadradas de orden n y rangos r y s, respectivamente, entonces r(AB) ≥
r+s−n
• r(At A) = r(AAt ) = r(A) = r(At )
• Una matriz cuadrada de orden n, A, es invertible si y sólo si r(A) = n si y sólo si |A| , 0.
Autovalores y autovectores
Sea A una matriz cuadrada de orden n. Diremos que un escalar λ es un valor propio ó autovalor de A si
existe un vector X = (x1 , . . . , xn )t , 0 tal que AX = λX. Diremos que X es un vector propio ó autovector
de la matriz A.
Llamaremos polinomio caracterı́stico de la matriz A al determinante χA (x) = |xIn − A|. Este polinomio
tiene algunas propiedades interesantes:
• El grado de χA (x) es n. Además el coeficiente principal de χA (x) es igual a 1.
• El coeficiente del monomio de grado n − 1 de χA (x) es igual a la traza de A.
• El término independiente de χA (x) es igual a | − A| = (−1)n |A|. En consecuencia, A es invertible si
y sólo si 0 no es autovalor de A.
• Si P es invertible, entonces χA (x) = χP−1 AP (x).
• Si A es una matriz de orden n con n autovalores1 (no necesariamente distintos), entonces el deter-
minante de A es igual al producto de dichos autovalores y la traza de A es igual a la suma de los
mismos. Es decir, si A tiene orden n y λ1 , . . . , λn son los autovalores de A, entonces
|A| = λ1 · · · · · λn tr(A) = λ1 + · · · + λn
Diremos que una matriz cuadrada de orden n, A, es diagonalizable si existe otra matriz P invertible tal
que P−1 AP = D, siendo D una matriz diagonal. Los elementos de la diagonal de D son los autovalores
de A. Las columnas de la matriz P son n autovectores de A linealmente independientes. (La matriz P,
en general, no es única)
Toda matriz simétrica A es diagonalizable. Además podemos encontrar una base ortonormal de autovec-
tores de A, es decir, existe una matriz ortogonal P tal que Pt AP = D, con D diagonal. (Los autovectores
ortonormales son los que forman las columnas de P. No necesariamente son los primeros que vamos
a encontrar. Una forma de obtener P, podrı́a ser hallar primero una base cualquiera de autovectores y
ortonormalizarla por el método de Gramm-Schmidt)
1 Esto ocurre, por ejemplo, para cualquier matriz con coeficientes en C.
2
Matrices y formas cuadráticas definidas positivas.
Si A es una matriz cuadrada de orden n, x ∈ Rn , se denomina forma cuadrática a cualquier expresión del
tipo
Xn
xt Ax = ai j xi x j
i, j=1
Matrices distintas pueden tener asociada la misma forma cuadrática. Ası́ por ejemplo es sencillo com-
probar que si B = (A + At )/2, entonces
xt Ax = xt Bx
Pero a diferencia de A, B es simétrica, y además es la única matriz simétrica cuya forma cuadrática
asociada es xt Bx. De este modo, cuando tengamos una forma cuadrática xt Ax, siempre supondremos
que A es la matriz simétrica asociada a dicha forma.
Diremos que una forma cuadrática xt Ax es definida positiva si
xt Ax ≥ 0 ∀ x ∈ Rn ; xt Ax = 0 ⇐⇒ x = 0
3
Matrices idempotentes.
Una matriz cuadrada P se dice idempotente si P2 = P. Es sencillo verificar que si P es una matriz
idempotente entonces sus únicos posibles autovalores, tanto reales como complejos, son 0 y/ó 1. Veamos
algunas propiedades de las matrices idempotentes:
• Si P idempotente entonces (si y sólo si) I − P idempotente.
• Si P es una matriz simétrica de orden n entonces P es idempotente de rango r si y sólo si P tiene
el autovalor 1 con multiplicidad r y el 0 con multiplicidad n − r.
• Si P simétrica idempotente entonces r(P) = tr(P).
• Si P simétrica idempotente entonces es semidefinida positiva.
• Sean A y V matrices simétricas y V definida positiva. Si AV tiene como únicos autovalores 0 y 1
entonces AV es idempotente.
Producto de Kronecker
Si A = (ai j ) y B = (bi j ) son matrices de dimensiones m × n y p × q, respectivamente, el producto de
Kronecker de A con B es otra matriz de dimensión mp × nq definida mediante la expresión:
a11 B a12 B . . . a1n B
. .. .. ..
A ⊗ B = .. . . .
am1 B a12 B . . . amn B
El producto de Kronecker tiene cierta relación con la “vectorización” de una matriz. Dada una matriz
A = (ai j ) de orden m × n denotamos por vec(A) al vector de Rmn definido por
Se verifica que
vec(AZB + H) = (A ⊗ Bt ) vec(Z) + vec(H)
4
Desigualdades de matrices y maximización
• (desigualdad de Cauchy-Schwarz) Si a, b son dos vectores p-dimensionales entonces
xt Bx
min = λp y se alcanza sobre x = e p
x,0 xt x
Además, para k = 2, . . . , p − 1
xt Bx
max = λk y se alcanza sobre x = ek
x⊥e1 ,...,ek−1 xt x
5
1.2 Distribución Normal Multivariante y distribuciones relacionadas.
Sea V = (σi j ) una matriz cuadrada de orden n, con coeficientes reales, simétrica y semidefinida positiva;
y sea µ = (µ1 , . . . , µn )t ∈ Rn
D́. Diremos que el vector aleatorio (v.a.) n-dimensional X = (X1 , . . . , Xn )t sigue distribución
Normal n-dimensional de parámetros µ y V si su función caracterı́stica es
1
ϕX (s) = exp{ist µ − st Vs} , s ∈ Rn
2
En tal caso lo denotaremos X ∼ Nn (µ, V).
P:
siendo V11 como en el punto anterior. La distribución del vector X1 = (X1 , . . . , Xk )t condicionada
a Xk+1 = xk+1 , . . . , Xn = xn es normal k dimensional de media µ1 + V12 V−1 22 (x2 − µ2 ) y matriz de
covarianzas V11 − V12 V−1 V t
22 12 , siendo x2 = (x k+1 , . . . , xn ) t
y µ 2 = (µk+1 , . . . , µ n )t
• Sea X ∼ Nn (µ, V) e Y = AX + β, donde A es una matriz k × n de rango k (k ≤ n) y β un vector
k × 1. Entonces Y = (Y1 , . . . , Yk )t ∼ Nk (Aµ + β, AVAt ).
• Si Xt = (Xt1 , Xt2 ) con X1 = (X1 , . . . , Xk )t y X2 = (Xk+1 , . . . , Xn )t entonces
6
Distribución Chi-cuadrado no central
D́. Si X ∼ Nn (µ, In ), llamaremos Chi-cuadrado no central con n grados de libertad y pa-
rámetro de descentralización µ∗ a la distribución de la variable aleatoria Y = Xt X y escribiremos
Y ∼ χ2 (n, µ∗ ).
P:
• Y tiene función de densidad
X
∞
µ∗k x 2 −1 exp{− 2 }
x n+2k
∗
f (x) = exp{−µ } si x > 0; 0 si x ≤ 0 ,
k=0
k! Γ( n+2k )2 n+2k
2
2
siendo µ∗ = 12 µt µ.
• La función generatriz de momentos de Y es
1
MY (s) = (1 − 2s)−n/2 exp{−µ∗ (1 − )} , s en un entorno de 0
1 − 2s
• χ2 (n, 0) ≡ χ2 (n).
X
k X
k X
k
Yi ∼ χ2 ( ni , µi )
i=1 i=1 i=1
Ó:
• F(n1 , n2 , 0) ≡ F(n1 , n2 ).
• Si Y ∼ t(n) entonces Y 2 ∼ F(1, n)
7
1.3 Modelo Lineal Normal univariante.
D́. Sea Y = (Y1 , . . . , Yn )t un vector aleatorio n-dimensional y X una matriz de orden n × p
(p < n) de constantes conocidas. Diremos que Y satisface un Modelo Lineal si
E[Y] = Xβ,
Y = Xβ + E, (1)
donde E = (E1 , . . . , En )t es un vector aleatorio no observable con E[E] = 0. La relación (1) se conoce
como Modelo Lineal General.
En este resumen supondremos que el modelo es de rango completo, es decir r(X) = p, y que es
normal, es decir E ∼ Nn (0, σ2 In ).
Buscamos los estimadores de máxima verosimilitud, es decir, los valores de β y σ2 que hagan máxima
L(β, σ2 ).
a) Estimador de β: b
β = (Xt X)−1 Xt Y
b) Estimador de σ2 : σ e2 = n1 (Y − Xb
β)t (Y − Xbβ).
e2 , corregimos dicho estimador por sesgo, obteniéndose como
Al no ser insesgado el estimador σ
estimador insesgado para σ2
n 1
σ2 =
b e2 =
σ (Y − Xb
β)t (Y − Xb
β)
n− p n− p
• b
β ∼ N p (β, σ2 (Xt X)−1 ).
• (n − p)b
σ2 /σ2 ∼ χ2 (n − p).
• b
βyb
σ2 son independientes.
8
Intervalos de confianza en el Modelo Lineal Normal.
|λtb
β|
p t ≥ tn−p,α/2
σ λ (Xt X)−1 λ
b
El Modelo original: Y = Xβ + E ; b
β = (Xt X)−1 Xt Y
El Modelo reducido por H0 : Y = X2 γ2 + E γ2 = (Xt2 X2 )−1 Xt2 Y
; b
Rechazamos H0 al nivel de significación α si
Q1 /k
≥ Fk,n−p,α
Q0 /(n − p)
t t
siendo Q0 = Yt Y − b
β Xt Y y Q1 = b γt2 Xt2 Y.
β Xt Y − b
9
1.4 Caracterización de datos en el análisis multivariante
En este curso trataremos del análisis de datos que se corresponden con más de una variable o carac-
terı́stica, Y1 , . . . , Y p . La forma habitual de presentar cada una de las mediciones de las variables de
interés es un vector. Ası́ si el número de variables de interés es p, cada medición de las variables nos
dará un vector p dimensional. Si tenemos n de estas mediciones Y1 , . . . , Yn , lo usual es colocarlas en
una matriz de datos Y que queda definida por
t
Y1 Y11 . . . Y1p
. . .. ..
Y = .. = .. . .
t
Yn Yn1 . . . Ynp
En esta matriz cada fila representa una medición sobre un mismo individuo de las p variables. Cada
columna representa las n mediciones de una misma variable. A partir de aquı́ podemos calcular los
distintos parámetros muestrales:
• la media muestral de la variable j ( j = 1, . . . , p):
1X
n
Yj = Yi j
n i=1
1 X
n
s jk = (Yi j − Y j )(Yik − Y k )
n − 1 i=1
Estos estadı́sticos descriptivos pueden ser organizados en vectores y matrices y, aún más, calculados
mediante fórmulas matriciales:
• El vector de medias
Y1
1 t Xn
Y = .. = Y 1n = 1 Yi
. n n i=1
Yp
• La matriz de covarianzas
s11 . . . s1p
1 X
n
1 1
S = ... ..
.
..
. = Yt (In − 1n )Y = (Yi − Y) (Yi − Y)t
n − 1 n n − 1 i=1
s p1 . . . s pp
• La matriz de correlaciones
r11 . . . r1p s1 ... 0
R = ... ..
.
..
. = D−1 −1
s SD s con D s = ..
.
..
.
..
.
r p1 . . . r pp 0 ... sp
10