Está en la página 1de 10

Tema 1.

Preliminares
1.1 Resultados algebraicos
Consideraremos habitualmente matrices con coeficientes en R y, ocasionalmente, en C. Denotaremos
por ai j a los elementos de una matriz A, donde el subı́ndice i indica la fila y el j la columna donde se
sitúa dicho elemento.
Diremos que A es de orden m × n si tiene m filas y n columnas. A se dice cuadrada de orden n si es de
orden n × n. Los elementos de Rn serán considerados como matrices columna, es decir, de orden n × 1:
 
 x1 
 
x ∈ Rn si y sólo si x =  ... 
 
xn

A lo largo del texto tanto los vectores como las matrices aparecerán escritos en letra negrita.
Si A = (ai j ) denotaremos At a la matriz traspuesta de A (At = (a ji )). Una matriz cuadrada A es simétrica
si A = At .
La suma de las matrices A = (ai j ) y B = (bi j ) es la matriz A + B = (ai j + bi j ). El producto de la matriz
A = (ai j ) por el escalar k es la matriz kA = (kai j ).
Una matriz cuadrada D = (di j ) se dice diagonal si di j = 0 para todo i , j. A la matriz diagonal, que
verifica dii = 1 para todo i se le denomina matriz identidad (la denotaremos por I ó In si queremos
especificar su orden). La matriz nula 0 es aquella cuyos elementos son todos iguales a 0.
El producto de las matrices A = (ai j ) de orden m × n y B = (bi j ) de orden n × p es la matriz AB = (ci j ),
P
de orden m × p, cuyo elemento (i, j) es ci j = nk=1 aik bk j .
Una matriz cuadrada A es invertible o no singular si existe otra matriz A−1 de modo que AA−1 = A−1 A =
I. En caso contrario se dice que A es singular. Una matriz cuadrada A es ortogonal si su traspuesta y su
inversa coinciden, es decir, si AAt = At A = I.
Denotaremos por |A| ó det(A) al determinante de la matriz cuadrada A.
Veamos algunas propiedades de las matrices:
• (At )t = A , (AB)t = Bt At
• At A = 0 si y sólo si A=0
• (A−1 )−1 = A , (AB)−1 = B−1 A−1
• (At )−1 = (A−1 )t
• kA = Ak para todo escalar k.
• AI = IA = A
• Si AB = 0 (A y B cuadradas) entonces A = 0 ó B = 0 ó ambas son singulares.

Traza
La traza de una matriz cuadrada de orden n, A = (ai j ), es la suma de los elementos de su diagonal
P
principal, es decir, tr(A) = ni=1 aii . Algunas propiedades de la traza:
• tr(A + B) = tr(A) + tr(B) , tr(kA) = k tr(A) siendo k escalar.
• tr(A) = tr(At )
• tr(In ) = n

1
• tr(AB) = tr(BA)
• tr(ABC) = tr(CAB) = tr(BCA) (que no tienen por qué ser iguales a tr(ACB))
• si P invertible tr(A) = tr(P−1 AP)

Rango
El rango de una matriz A es el máximo número de filas o columnas linealmente independientes. Lo
denotaremos por r(A). Algunas propiedades del rango son:
• r(AB) ≤ min{r(A), r(B)}
• r(A + B) ≤ r(A) + r(B)
• Si A, C invertibles, entonces r(AB) = r(BC) = r(B)
• Si A y B son matrices cuadradas de orden n y rangos r y s, respectivamente, entonces r(AB) ≥
r+s−n
• r(At A) = r(AAt ) = r(A) = r(At )
• Una matriz cuadrada de orden n, A, es invertible si y sólo si r(A) = n si y sólo si |A| , 0.

Autovalores y autovectores
Sea A una matriz cuadrada de orden n. Diremos que un escalar λ es un valor propio ó autovalor de A si
existe un vector X = (x1 , . . . , xn )t , 0 tal que AX = λX. Diremos que X es un vector propio ó autovector
de la matriz A.
Llamaremos polinomio caracterı́stico de la matriz A al determinante χA (x) = |xIn − A|. Este polinomio
tiene algunas propiedades interesantes:
• El grado de χA (x) es n. Además el coeficiente principal de χA (x) es igual a 1.
• El coeficiente del monomio de grado n − 1 de χA (x) es igual a la traza de A.
• El término independiente de χA (x) es igual a | − A| = (−1)n |A|. En consecuencia, A es invertible si
y sólo si 0 no es autovalor de A.
• Si P es invertible, entonces χA (x) = χP−1 AP (x).
• Si A es una matriz de orden n con n autovalores1 (no necesariamente distintos), entonces el deter-
minante de A es igual al producto de dichos autovalores y la traza de A es igual a la suma de los
mismos. Es decir, si A tiene orden n y λ1 , . . . , λn son los autovalores de A, entonces
|A| = λ1 · · · · · λn tr(A) = λ1 + · · · + λn

Diremos que una matriz cuadrada de orden n, A, es diagonalizable si existe otra matriz P invertible tal
que P−1 AP = D, siendo D una matriz diagonal. Los elementos de la diagonal de D son los autovalores
de A. Las columnas de la matriz P son n autovectores de A linealmente independientes. (La matriz P,
en general, no es única)
Toda matriz simétrica A es diagonalizable. Además podemos encontrar una base ortonormal de autovec-
tores de A, es decir, existe una matriz ortogonal P tal que Pt AP = D, con D diagonal. (Los autovectores
ortonormales son los que forman las columnas de P. No necesariamente son los primeros que vamos
a encontrar. Una forma de obtener P, podrı́a ser hallar primero una base cualquiera de autovectores y
ortonormalizarla por el método de Gramm-Schmidt)
1 Esto ocurre, por ejemplo, para cualquier matriz con coeficientes en C.

2
Matrices y formas cuadráticas definidas positivas.

Si A es una matriz cuadrada de orden n, x ∈ Rn , se denomina forma cuadrática a cualquier expresión del
tipo
Xn
xt Ax = ai j xi x j
i, j=1

Matrices distintas pueden tener asociada la misma forma cuadrática. Ası́ por ejemplo es sencillo com-
probar que si B = (A + At )/2, entonces
xt Ax = xt Bx
Pero a diferencia de A, B es simétrica, y además es la única matriz simétrica cuya forma cuadrática
asociada es xt Bx. De este modo, cuando tengamos una forma cuadrática xt Ax, siempre supondremos
que A es la matriz simétrica asociada a dicha forma.
Diremos que una forma cuadrática xt Ax es definida positiva si

xt Ax ≥ 0 ∀ x ∈ Rn ; xt Ax = 0 ⇐⇒ x = 0

Diremos xt Ax es semidefinida positiva si xt Ax ≥ 0 para todo x ∈ Rn . La matriz A es (semi)definida


positiva si su forma cuadrática asociada lo es.
Un criterio sencillo para determinar si una forma cuadrática es definida positiva es el criterio de
Sylvester: una matriz simétrica es definida positiva si y sólo si sus menores principales son mayores
estrictamente que 0. En consecuencia todas las matrices definidas positivas son no singulares. Si los
menores principales son mayores o iguales que 0, entonces la matriz es semidefinida positiva. Veamos
algunas propiedades de estas matrices:
• Si P es una matriz no singular y A simétrica, entonces A es (semi)definida positiva si y sólo si
Pt AP es (semi)definida positiva.
• Si A es definida positiva entonces existe una matriz no singular P tal que Pt AP = I. A es definida
positiva si y sólo si existe Q no singular tal que A = Qt Q (Q = P−1 ).
• Los autovalores de una matriz definida positiva son mayores estrictamente que 0. Si la matriz es
semidefinida positiva sus autovalores son no negativos, aunque pueden ser 0.
A partir de matrices no cuadradas se pueden obtener matrices definidas positivas. En efecto, si A es
una matriz de orden m × n, entonces se verifica que tanto At A como AAt son matrices semidefinidas
positivas. Ahora bien,
• Si r(A) = m entonces AAt es definida positiva.
• Si r(A) = n entonces At A es definida positiva.
Por último, también tiene interés el siguiente resultado:
Si A es una matriz simétrica de orden n y rango r con coeficientes reales entonces existe una
matriz L de orden n × r (con coeficientes complejos) tal que A = LLt .
Si además A es semidefinida positiva entonces L tiene coeficientes reales.
Por último, si A es definida positiva entonces L es cuadrada y no singular. Además podemos
tomar L simétrica y definida positiva. En este último caso denotaremos a L como A1/2 , es
decir la matriz “raı́z cuadrada” de la matriz A. Una interesante propiedad es que (A1/2 )−1 =
(A−1 )1/2 . A esta última matriz la denotaremos A−1/2 .

3
Matrices idempotentes.
Una matriz cuadrada P se dice idempotente si P2 = P. Es sencillo verificar que si P es una matriz
idempotente entonces sus únicos posibles autovalores, tanto reales como complejos, son 0 y/ó 1. Veamos
algunas propiedades de las matrices idempotentes:
• Si P idempotente entonces (si y sólo si) I − P idempotente.
• Si P es una matriz simétrica de orden n entonces P es idempotente de rango r si y sólo si P tiene
el autovalor 1 con multiplicidad r y el 0 con multiplicidad n − r.
• Si P simétrica idempotente entonces r(P) = tr(P).
• Si P simétrica idempotente entonces es semidefinida positiva.
• Sean A y V matrices simétricas y V definida positiva. Si AV tiene como únicos autovalores 0 y 1
entonces AV es idempotente.

Producto de Kronecker
Si A = (ai j ) y B = (bi j ) son matrices de dimensiones m × n y p × q, respectivamente, el producto de
Kronecker de A con B es otra matriz de dimensión mp × nq definida mediante la expresión:
 
 a11 B a12 B . . . a1n B 
 . .. .. .. 
A ⊗ B =  .. . . . 
 
am1 B a12 B . . . amn B

Enumeramos a continuación algunas propiedades importantes:


• (λA) ⊗ B = A ⊗ (λB) = λ(A ⊗ B), λ escalar
• (A + B) ⊗ C = A ⊗ C + B ⊗ C y A ⊗ (B + C) = A ⊗ B + A ⊗ C
• A ⊗ (B ⊗ C) = (A ⊗ B) ⊗ C
• (A ⊗ B)(C ⊗ D) = (AC) ⊗ (BD)
• (A ⊗ B)t = At ⊗ Bt
• Si A y B son cuadradas tr(A ⊗ B) = tr(A) tr(B)
• Si A y B son cuadradas de órdenes m y n, respectivamente, entonces

det(A ⊗ B) = det(A)n det(B)m

• Si A y B son cuadradas y no singulares entonces (A ⊗ B)t también es no singular y

(A ⊗ B)−1 = A−1 ⊗ B−1

El producto de Kronecker tiene cierta relación con la “vectorización” de una matriz. Dada una matriz
A = (ai j ) de orden m × n denotamos por vec(A) al vector de Rmn definido por

vec(A) = (a11 , . . . , a1n , a21 , . . . , am1 , . . . , amn )t

Se verifica que
vec(AZB + H) = (A ⊗ Bt ) vec(Z) + vec(H)

4
Desigualdades de matrices y maximización
• (desigualdad de Cauchy-Schwarz) Si a, b son dos vectores p-dimensionales entonces

(at b)2 ≤ (at a)(bt b)

y se da la igualdad si y sólo si a, b son linealmente dependientes


• (desigualdad de Cauchy-Schwarz extendida) Si a, b son dos vectores p-dimensionales y B es una
matriz cuadrada de orden p definida positiva entonces

(at b)2 ≤ (at Ba)(bt B−1 b)

• (lema de maximización) Si a es un vector p-dimensional y B es una matriz cuadrada de orden p


definida positiva entonces
(xt a)2
max t = at B−1 a
x,0 x Bx

y se alcanza sobre x = λB−1 a para cualquier constante λ , 0.


• (maximización de formas cuadráticas sobre la esfera unidad) Sea B una matriz de orden p definida
positiva con autovalores λ1 ≥ λ2 ≥ · · · ≥ λ p > 0 y autovectores ortonormales e1 , e2 , . . . , e p
asociados. Entonces
xt Bx
max t = λ1 y se alcanza sobre x = e1
x,0 x x

xt Bx
min = λp y se alcanza sobre x = e p
x,0 xt x
Además, para k = 2, . . . , p − 1

xt Bx
max = λk y se alcanza sobre x = ek
x⊥e1 ,...,ek−1 xt x

5
1.2 Distribución Normal Multivariante y distribuciones relacionadas.
Sea V = (σi j ) una matriz cuadrada de orden n, con coeficientes reales, simétrica y semidefinida positiva;
y sea µ = (µ1 , . . . , µn )t ∈ Rn
D́. Diremos que el vector aleatorio (v.a.) n-dimensional X = (X1 , . . . , Xn )t sigue distribución
Normal n-dimensional de parámetros µ y V si su función caracterı́stica es
1
ϕX (s) = exp{ist µ − st Vs} , s ∈ Rn
2
En tal caso lo denotaremos X ∼ Nn (µ, V).

P:

• Si V es definida positiva, la función de densidad de X es


1 1
f (x) = exp{− (x − µ)t V−1 (x − µ)} , x = (x1 , . . . , xn )t ∈ Rn .
(2π)n/2 |V|1/2 2

• El vector de medias de X es µ y su matriz de covarianzas es V.


• Las distribuciones marginales de una distribución Normal Multivariante son Normales. Concreta-
mente, la distribución marginal del vector X1 = (X1 , . . . , Xk )t k < n es una Normal k-dimensional
de media µ1 y matriz de covarianzas V11 , donde
 
 σ11 ... σ1k 
 
µ1 = (µ1 , . . . , µk )t y V11 =  ... ..
.
..
. 
 
σk1 ... σkk

• Supongamos que dividimos la matriz de covarianzas V de la forma


!
V11 V12
V=
Vt12 V22

siendo V11 como en el punto anterior. La distribución del vector X1 = (X1 , . . . , Xk )t condicionada
a Xk+1 = xk+1 , . . . , Xn = xn es normal k dimensional de media µ1 + V12 V−1 22 (x2 − µ2 ) y matriz de
covarianzas V11 − V12 V−1 V t
22 12 , siendo x2 = (x k+1 , . . . , xn ) t
y µ 2 = (µk+1 , . . . , µ n )t
• Sea X ∼ Nn (µ, V) e Y = AX + β, donde A es una matriz k × n de rango k (k ≤ n) y β un vector
k × 1. Entonces Y = (Y1 , . . . , Yk )t ∼ Nk (Aµ + β, AVAt ).
• Si Xt = (Xt1 , Xt2 ) con X1 = (X1 , . . . , Xk )t y X2 = (Xk+1 , . . . , Xn )t entonces

X1 y X2 son independientes si y sólo si σi j = Cov(Xi , X j ) = 0 para todo i = 1, . . . , k y


j = k + 1, . . . , n
• X = (X1 . . . , Xn )t ∼ Nn (µ, V) si y sólo si toda combinación lineal de X1 . . . , Xn sigue distribución
Normal (i.e. para todo λ ∈ Rn , λt X ∼ N(λt µ, λt Vλ)).

6
Distribución Chi-cuadrado no central
D́. Si X ∼ Nn (µ, In ), llamaremos Chi-cuadrado no central con n grados de libertad y pa-
rámetro de descentralización µ∗ a la distribución de la variable aleatoria Y = Xt X y escribiremos
Y ∼ χ2 (n, µ∗ ).
P:
• Y tiene función de densidad
X

µ∗k x 2 −1 exp{− 2 }
x n+2k


f (x) = exp{−µ } si x > 0; 0 si x ≤ 0 ,
k=0
k! Γ( n+2k )2 n+2k
2
2

siendo µ∗ = 12 µt µ.
• La función generatriz de momentos de Y es
1
MY (s) = (1 − 2s)−n/2 exp{−µ∗ (1 − )} , s en un entorno de 0
1 − 2s

• χ2 (n, 0) ≡ χ2 (n).

• Si X ∼ Nn (µ, σ2 In ), entonces Xt X/σ2 ∼ χ2 (n, µ∗ ), siendo µ∗ = 1


2σ2
µt µ.

• Sean Yi ∼ χ2 (ni , µi ), i = 1, . . . , k, variables aleatorias independientes. Entonces

X
k X
k X
k
Yi ∼ χ2 ( ni , µi )
i=1 i=1 i=1

Distribución F-Snedecor no central


D́. Si Y1 ∼ χ2 (n1 , µ) e Y2 ∼ χ2 (n2 , 0) son v.a. independientes, se denomina distribución F de
Snedecor no central con n1 , n2 grados de libertad y parámetro de descentralización µ a la distribución
de la v.a.
Y1 /n1
Z=
Y2 /n2
y escribiremos Z ∼ F(n1 , n2 , µ).

Z tiene función de densidad


n1 +2k
X

−µ µ
k ( nn12 ) 2 Γ( n1 +n22 +2k ) n1 +2k n1 − n1 +n2 +2k
f (x) = e x 2 −1 (1 + x) 2 si x > 0; 0 si x ≤ 0
k=0
k! Γ( n1 +2k n2
2 )Γ( 2 )
n2

O́:
• F(n1 , n2 , 0) ≡ F(n1 , n2 ).
• Si Y ∼ t(n) entonces Y 2 ∼ F(1, n)

7
1.3 Modelo Lineal Normal univariante.
D́. Sea Y = (Y1 , . . . , Yn )t un vector aleatorio n-dimensional y X una matriz de orden n × p
(p < n) de constantes conocidas. Diremos que Y satisface un Modelo Lineal si

E[Y] = Xβ,

donde β = (β1 , . . . , β p )t es un vector de parámetros desconocidos. Es conveniente escribir

Y = Xβ + E, (1)

donde E = (E1 , . . . , En )t es un vector aleatorio no observable con E[E] = 0. La relación (1) se conoce
como Modelo Lineal General.
En este resumen supondremos que el modelo es de rango completo, es decir r(X) = p, y que es
normal, es decir E ∼ Nn (0, σ2 In ).

Estimación puntual en el Modelo Lineal Normal Univariante.


Función de verosimilitud del Modelo Lineal Normal:
( )
1 1
L(β, σ2 ) = exp − (Y − Xβ) t
(Y − Xβ)
(2π)n/2 σn 2σ2

Buscamos los estimadores de máxima verosimilitud, es decir, los valores de β y σ2 que hagan máxima
L(β, σ2 ).

a) Estimador de β: b
β = (Xt X)−1 Xt Y
b) Estimador de σ2 : σ e2 = n1 (Y − Xb
β)t (Y − Xbβ).
e2 , corregimos dicho estimador por sesgo, obteniéndose como
Al no ser insesgado el estimador σ
estimador insesgado para σ2
n 1
σ2 =
b e2 =
σ (Y − Xb
β)t (Y − Xb
β)
n− p n− p

Propiedades de los estimadores:


• b
βyb
σ2 son los estimadores insesgados de mı́nima varianza de β y σ2 respectivamente.

• b
β ∼ N p (β, σ2 (Xt X)−1 ).
• (n − p)b
σ2 /σ2 ∼ χ2 (n − p).
• b
βyb
σ2 son independientes.

8
Intervalos de confianza en el Modelo Lineal Normal.

a) Intervalo de confianza al nivel 1 − α para σ2 :


 
 (n − p)b σ2 (n − p)bσ2 
 , 
χ2n−p,α/2 χ2n−p,1−α/2 

b) Intervalo de confianza al nivel 1 − α para βi :


h √ √ i
b σ cii tn−p,α/2 , b
βi − b βi + b
σ cii tn−p,α/2 , i = 1, . . . , p ,

siendo (Xt X)−1 = (ci j )


c) Intervalo de confianza al nivel 1 − α para λt β:
" q q #
tb t −1 tb t −1
λβ−b σ λ (X X) λ tn−p,α/2 , λ β + b
t σ λ (X X) λ tn−p,α/2 ,
t

Contraste de Hipótesis en el Modelo Lineal Normal Univariante


a) Contraste de H0 : β = β0 (β0 vector de constantes conocidas).
Rechazamos H0 al nivel de significación α si
Q1 /p
≥ F p,n−p,α
Q0 /(n − p)
t
siendo Q0 = Yt Y − b
β Xt Y y Q1 = (b
β − β0 )t (Xt X)−1 (b
β − β0 ).
b) Contraste de H0 : λt β = 0.
Rechazamos H0 al nivel de significación α si

|λtb
β|
p t ≥ tn−p,α/2
σ λ (Xt X)−1 λ
b

c) Contraste de la hipótesis H0 : β1 = . . . = βk = 0 (k < p).


Partimos X = (X1 , X2 ) siendo X1 la matriz que contiene a las k primeras columnas de X y X2
la que contiene las p − k últimas. También dividimos βt = (γt1 , γt2 ), siendo γt1 = (β1 , . . . , βk ) y
γt2 = (βk+1 , . . . , β p ). De esta forma tenemos dos Modelos Lineales de Rango Completo:

El Modelo original: Y = Xβ + E ; b
β = (Xt X)−1 Xt Y
El Modelo reducido por H0 : Y = X2 γ2 + E γ2 = (Xt2 X2 )−1 Xt2 Y
; b
Rechazamos H0 al nivel de significación α si
Q1 /k
≥ Fk,n−p,α
Q0 /(n − p)
t t
siendo Q0 = Yt Y − b
β Xt Y y Q1 = b γt2 Xt2 Y.
β Xt Y − b

9
1.4 Caracterización de datos en el análisis multivariante
En este curso trataremos del análisis de datos que se corresponden con más de una variable o carac-
terı́stica, Y1 , . . . , Y p . La forma habitual de presentar cada una de las mediciones de las variables de
interés es un vector. Ası́ si el número de variables de interés es p, cada medición de las variables nos
dará un vector p dimensional. Si tenemos n de estas mediciones Y1 , . . . , Yn , lo usual es colocarlas en
una matriz de datos Y que queda definida por
 t   
 Y1   Y11 . . . Y1p 
 .   . .. .. 
Y =  ..  =  .. . . 
 t   
Yn Yn1 . . . Ynp
En esta matriz cada fila representa una medición sobre un mismo individuo de las p variables. Cada
columna representa las n mediciones de una misma variable. A partir de aquı́ podemos calcular los
distintos parámetros muestrales:
• la media muestral de la variable j ( j = 1, . . . , p):
1X
n
Yj = Yi j
n i=1

• la covarianza muestral entre las variables j y k ( j, k = 1, . . . , p):

1 X
n
s jk = (Yi j − Y j )(Yik − Y k )
n − 1 i=1

• la varianza muestral de la variable j ( j = 1, . . . , p): s2j = s j j


• la correlación muestral entre las variables j y k ( j, k = 1, . . . , p):
s jk s jk
r jk = = √ (r j j = 1)
s j sk s j j skk

Estos estadı́sticos descriptivos pueden ser organizados en vectores y matrices y, aún más, calculados
mediante fórmulas matriciales:
• El vector de medias  
 Y1 
  1 t Xn
Y =  ..  = Y 1n = 1 Yi
 .  n n i=1
Yp
• La matriz de covarianzas
 
 s11 . . . s1p 
1 X
n
  1 1
S =  ... ..
.
..
.  = Yt (In − 1n )Y = (Yi − Y) (Yi − Y)t
  n − 1 n n − 1 i=1
s p1 . . . s pp

• La matriz de correlaciones
   
 r11 . . . r1p   s1 ... 0 
   
R =  ... ..
.
..
.  = D−1 −1
s SD s con D s =  ..
.
..
.
..
. 
   
r p1 . . . r pp 0 ... sp

10

También podría gustarte