Está en la página 1de 13

Bases matemáticas para

modelos estadı́sticos lineales


Guido del Pino M.

1 Espacio vectorial
1.1 Definición general
En su versión más general un espacio vectorial V es una estructura algebraica
cuyos elementos se llaman vectores, junto con otros elementos que se denom-
inan escalares. Para simplificar la lectura y evitar confusiones escribiremos
los vectores con negritas y a los escalares con letras griegas. En un espacio
vectorial hay dos operaciones, la suma , denotada por + y la multiplicación
por un escalar, denotada por ×. Es importante recalcar que las operaciones
+ y × en un espacio vectorial no corresponden a la suma y el producto en
IR. Los axiomas de un espacio vectorial V son los siguientes:
Axiomas de la suma.
(a) conmutatividad: v + w = w + v.
(b) Asociatividad: (v + w) + z = v + (w + z).
(c) Existencia de 0. Existe 0 ∈ V , tal que v + 0 = v para todo v ∈ V.
(d) Existencia del vector negativo Para todo v ∈ V existeun vector w, tal
que v + w0, al cual denotamos por −v.

Axiomas de multiplicación por un escalar


(a) Asociatividad: α × (βv) = (αβ) × v.
(b) Distributividad I: α × (v + w) = α × v + β × v.
(c) Distributividad II: (α + β) × v = α × v + β × v.
(d) Existencia de la unidad multiplicativa. Existe un escalar α0 , al que
denotamos por 1, tal que 1 × v = v para todo v ∈ V.
En la práctica, la multiplicación se deja implicita, eliminando ×. Los axiomas
se escriben, entonces, como

1
(a) α(βv) = (αβ)v.

(b) α(v + w) = αv + βv.

(c) (α + β)v = αv + βv.

(d) Existe el valor, que denotamos por 1, tal que 1v = v, para todo v ∈ V.

En estas notas, el conjunto de los escalares será siempre IR.


Tres ejemplos
1. Espacio euclidiano de dimensión n: V = IR n . Los vectores en IR n
tienen la forma x = (x1 , x2 , . . . , xn ). Para dos vectores v y w ∈ IR n
dfinimos su suma por (v + w)i = v i + wi . La multiplicación por un
escalar α ∈ IR se define por αv)i = αv i .

2. Espacios funcionales. Sea V el conjunto FΩ de todas las funciones


real valoradas con dominio Ω. La suma y la multiplicación se definen
punto a punto, es decir,

(i) h = f + g si h(x) = f (x) + g(x) para todo x ∈ Ω.


(ii) h = αf si h(x) = αf (x) para todo x ∈ Ω.

3. Intuitivamente, si X e Y son variables aleatorias X +Y y αX también lo


son. En la teorı́a avanzada de la probabilidad, las variables aleatorias se
representan por funciones medibles y es fácil demostrar que son cerradas
bajo sumas y multiplicaciones por un número real.
Nota: Eligiendo Ω = {1, 2, . . . , n} podemos identificar la función f con el
vector v = (f (1), f (2), . . . , f (n)) en IRn . De este modo, el espacio euclidiano
se puede identificar con un espacio vectorial funcional muy simple. En ciertas
aplicaciones conviene definir Ω = {x1 , x2 , . . . , xn }, donde los xi son distintos,
en cuyo caso v = (f (x1 ), f (x2 ), . . . , f (xn )).

2 Subespacios
2.1 Definición de subespacio y ejemplos
Se dice que un subconjunto M es un subespacio de V que satisface las condi-
ciones

2
(i) v ∈ M y w ∈ M implica v + w ∈ M.

(ii) v ∈ M implica αv ∈ M, para cualquier número real α.

Se dice que el subespacio M es cerrado bajo sumas y bajo multiplicación por


un escalar, lo que equivale a ser cerrado bajo combinaciones lineales. En la
práctica, resulta trivial verificar que se cumple (ii), de modo que el problema
se reduce a que M sea cerrado bajo sumas. Cuando V es el espacio de todas
las funciones real valoradas h con dominio Ω, el subconjunto H es un sube-
spacio si h1 , h2 ∈ H implica que h(ω) = αh1 (ω) + βh2 (ω) para todo ω ∈ Ω.
Es fácil demostrar que los siguientes subconjuntos son cerrados bajo sumas
y multiplicación por un escalar: (a) Dominio con n elementos, (b) número
finito de valores, (c) acotadas,(d) continuas, (e) continuas por pedazos, (f)
diferenciables, (g) continuas para las cuales el valor en un punto x0 es 0 (h)
Rb
dominio [a, b], tales que a f (x)dx existe.
Existen ejemplos para los cuales la condición de subespacio esRmás difı́cil e de-

mostrar. Sea Lp el conjunto de todas las funciones h tales que ∞ |f (x)|p dx <
∞, donde p ≥ 1. La demostración de que esto se cumple se deduce de la
denominada desigualdad de Minkowsky. Para p = 1 la demostración es
inmediata, mientras que para p = 2 se puede usar la desigualdad de Cauchy-
Schwartz, que se discute más adelante.

2.2 Conceptos relativos a un subespacio


Conjunto generador de M
Si existe una colección de vectores {v 1 , v 2 , . . . , v k } tales que todo v en el
subespacio es una combinación lineal de los vectores v j . El subespacio M se
pude denotar por span{v 1 , v 2 , . . . , v k }. Si esto no puede ocurrir para nigún
número finito k, se dice que M tiene dimensión infinita. En este apunte solo
trabajaremos con subespacios de dimensión finita.

• Independencia lineal Si v = kj=1 βj v j = 0 implica que todos los


P
coeficientes βj son iguales a 0, se dice que estos vectores son linealmemte
independientes. Esta condición equivale a
k
X k
X
βj v j = αj , entonces αj = βj , paratodoj
j=1 j=1

3
• Base: Se dice que B = {v 1 , v 2 , . . . , v k } es una base de M si M =
span{v 1 , v 2 , . . . , v k y si estos vectores son linealmente independientes.

• Dimensión Se puede demostrar que el número r de cualquier base es


siempre el mismo y se lo denomina dimensión de M.

3 Espacio de producto interno


3.1 Definición
El producto interno es una función con dominio V × V y valores en IR, que
se denota por < , > que satisface las siguientes propiedades:

1. Conmutatividad < v, w >=< w, v > .

2. Bilinealidad

< α1 v 1 + α2 v 2 , w >= α1 < v 1 , w > +α2 < v 2 , w > .

3. < x , x > es no negativa.

4. < x , x >= 0 implica x = 0.

Ejemplos:

(a) El producto interno usual en IR n es < x , y >= xt y y la norma al


cuadrado es ||x||2 ||.

(b) Se puede demostrar que el producto interno más general en IR n es


< x , y >= xt V y, para cierta matriz V simétrica y definida positiva.
El cuadrado de la norma es la forma cuadrática xt V x, la cual es definida
positiva.

• Para variables aleatorias con media 0 y varianza finita, el producto


interno natural es < X , Y >= Cov (X, Y )y ||X||2 = Var X.

4
3.2 Desigualdad de Cauchy-Schwartz
< x , y >2 ≤ ||x||2 ||y||2

Demostración Dado que dividiendo x y y por ||x|| y ||y|| respectivamente, se


obtienen vectores unitarios, basta probar la desigualdad para ||x|| = ||y|| =
1. Por bilinealidad ||y − λx||2 = λ2 − 2cλ + 1, donde c =< x , y > .
Reemplazando λ por c y aplicando la no negatividad de la norma se obtiene
1 − c2 ≥ 0, lo que implica c2 ≤ 1.

• El vector unitario associado a un vector v es ||v1 || v y su norma es 1.


• Se dice que el ángulo θ entre dos vectores x y y es igual al ángulo entre
los vectores unitarios corpondientes, digamos c y d. El ángulo θ se
define por cos θ =< c , d >, donde 0 ≤ θ ≤ π. Esto equivale a cos θ =
<x,y
||x||||y ||
, cuyo valor que está comprendido entre −1 y 1. θ = 0 y θ = π
corresponden a y = λx, para algún λ > 0 y λ < 0, respectivamente.

En el espacio de variables aleatorias con media 0 y varianza finita, cos θ


es la correlación entre las variables X e Y.

3.3 Ortogonalidad
Definición: Se dice que v es ortogonal a w, lo que se denota por w ⊥ v, si
< v w >= 0. Se dice que un vector v es ortogonal a un subespacio M , si él
es ortogonal a todo vector z contenido en M.
Teorema de Pitagoras: Si x es ortogonal a y,

||x + y||2 = ||x||2 || + ||y||2 .

Demostración: ||x+y||2 =< x+y , x+y >. Por la bilinealidad del producto
interno esto se reduce a

||x + y||2 = ||x||2 + ||y||2 + 2 < x y >

. y la ortogonalidad implica que el último término es nulo.

Teorema Si w es ortogonal a los vectores de un un conjunto generador de M ,


ello implica que él es ortogonal a M. Demostración: Por definición, w ⊥ M

5
si, y solo si, < w v >= 0. para todo v ∈ M. Si G es un conjunto generador,
M = span(v
P r , r k= 1, . . . , k que igual al conjunto de todas las combinaciones
lineales j = 1 βj v j . La bilinealidad del producto interno implica que
k
X k
X
< βj v j y = βj < v j w >,
j=1 j=1

de donde se deduce inmediatamente la afirrmación del teorema.

4 Proyecciones ortogonales
4.1 Definición
Denominemos a los vectores en M por puntos. Teorema Dado un subespa-
cio M y un vector y, la proyección ortogonal de y sobre M es el punto x0
en M , que minimiza la distancia entre y y cualquier punto x en M. Notar
que la valdez de la demostración requiere que x0 sea único.

Demostración: Necesitamos encontrar x0 ∈ M, tal que ||y−x0 ||2 ≤ ||y−x||2 ,


para todo x ∈ M . Para aplicar el teorema de Pitágoras escribamos y − x =
(y−x0 )+(x0 −x), de lo cual se deduce que ||y−x||2 = ||y−x0 ||2 +||x0 −x||2 .
Como la norma de un vector es no negativa, se concluye la demostración.

La proyección ortogonal PM y está plenamente caracterizada y − PM y ⊥


v j para un conjunto generador {v 1 , v 2 , . . . , v k } de M, de modo que PM y =
Pk
j=1 β̂j v j , para ciertos coeficientes βj , que denotamos β̂j . El teorema XX
implica que estos valores son una solución de del sistema de ecuaciones lin-
eales
Xk
βj < v r , v j >=< v r , y > .
j=1

Sea Grj =< v r , v j >, 1r, j ≤ k y sea cr =< v r , y >, para 1r ≤ k. La
forma matricial del sistema de ecuaciones es

G β = c. (4.1)

6
G se denomina matriz gramiana de (v 1 , v 2 , . . . , v k ). Si ella es invertible, la
única solución del sistema de ecuaciones es
β̂ = G−1 c. (4.2)

La matriz gramiana contiene toda la información geométrica (distancias


y ángulos) en el subespacio M = span{v 1 , v 2 , . . . , v k }. Para V = IR n , En
IR n los vectores v j se pueden identificar con las columnas de cierta matriz
X. Cuando el producto interno es < x , y >= xt y, la matriz gramiana
es X t X y M es el subespacio col X, generado por las columnas de X. La
bilinealidad del producto interno implica que
k X
X k
||z||2 = β t Gβ = βi βj Gij ,
i=1 j=1

lo que demuestra que G es definida no negativa. El rango de G es igual a


r si, y solo si, el conjunto de todas las combinaciones lineales de los v j que
t
Pk nulas es n − r. Como ||x|| = 0 implica x = 0, β Gβ = 0 si, y solo si
son
i=1 βi v i = 0. La matriz garmiana es diagonal si los vectores bv1 , v 2 , . . . , v k
son ortogonales.
Definición: Una base ortonormal {ei , i = 1, 2, . . . r} de un subespacio M es
una base ortogonal de este subespacio, donde todos los vectores en la base
tienen norma 1.

4.2 Bases ortonormales y proyecciones


La matriz gramiana de una base ortonormal es la identidad, lo que muestra
que
X r
PM y = < ei , y > ei , (4.3)
i=1
lo que implica
||PM y||2 = sumri=1 < ei , y >2 (4.4)
1
La normalización de un vector w es ||w ||
w, que es colineal con w y
tiene norma 1. Si es una base ortogonal, la normalización genera una base
ortonormal. A partir de cualquier base {wi , i = 1, 2, . . . , r} se puede obtener
una base ortogonal mediante el siguiente procedimiento recursivo:

7
• Sea Nj = span{v i , i ≤ j y denotemos por Pi al proyector sobre Ni .

• Entonces {wi , definido por w1 = v 1 y wj = v j − Pj−1 v j , es una base


ortonormal de Nj . Para j = n se obtiene una base ortogonal de todo
el espacio. Este procedimiento recursivo recibe el nombre de Gramm-
Schmidt.

4.3 Transformaciones lineales


Definición: Sea T una función con dominio V1 y recorrido V2 , donde V1
y V2 son espacios vectoriales. Se dice que T es una transformación lineal
entre estos subespacios si ella cumple con las siguientes propiedades:

– T (x + y) = T (x) + T (y).
– T (αx) = αT (x)

para todo x, y en V y para todo número real α. Los casos más impor-
tantes son V2 = V1 = V y V2 = IR.

Un resultado importante de álgebra lineal es que cualquier transfor-


mación entre IR n y IR p se puede representar por la multiplicación de
una matriz A y un vector x, mediante T (x) = Ax. La transformación
PM que a todo y le asigna PM y, es linel y la llamamos proyector or-
togonal sobre el subespacio M

Teorema: El proyector PM es una transformación lineal.


Demostración: Necesitamos verificar que

(a) PM (x + y) = PM (x) + PM (y)


(b) PM (αy) = αPM (y),

(a) Aplicando la ortogonalidad a los casos v = x y v = y tenemos que


x − PM (x) ⊥ M y y − PM (y) ⊥ M. Sumando los dos términos se
obtiene [x − PM (x)] + [y − PM (y)] ⊥ M. Reagrupando términos:
(x + y) − [(PM (x) + PM (y)] ⊥ M. La unicidad de la proyección
lineal concluye la demostración.

8
(b) y − PM (y) ⊥ M implica que α[y − PM (y)] ⊥ M y por tanto αy −
αPM (y) ⊥ M. La unicidad de la proyección ortogonal concluye la
demostración.

4.4 Proyectores ortogonales y matrices simétricas


e idempotentes
Definiciones:

(a) Una transformación lineal T de un espacio V sobre si ismo es


idempotente si T [T (y)] = T (y) para todo y ∈ V, lo que denotamos
por T 2 = T.
(b) Una transformación T de un espacio de producto interno V sobre
si mismo es autoadjunta si < T (x) , y >=< x , T (y) > para
todo x, y ∈ V.
Teorema: PM es idempotente.
Demostración Por la definición de proyección ortogonal x = PM (y) ∈
M para todo y. Por otra parte, la distancia de x a z ∈ M es
mı́nima para z ∈ x. Por lo tanto PM (PM (y)) = PM (x) para todo
y. Denotando a T (T (y)) por T 2 (y) tenemos PM 2
(y) = PM (y) para
2
todo y. En términos de los proyectores PM = PM . Si la matriz
que representa a PM es A, esto equivale a A2 = A.
Teorema: PM es autoadjunta.

Demostración Para x y y en V , podemos escribir x = x0 + x1 y


y = y 0 + y 1 , donde x0 y y 0 están en M y x1 y y 1 son ortogonales
a M . Denotemos a PM por P.

< P (x) , y >=< P [(x0 +x1 ) , (y 0 +y 1 ) >=< (x0 +P (x1 ) , y 0 +


y 1 >=< x0 , y 0 > . Repitiendo este procedimiento para < x , PM (y) >
se llega a < y 0 , x0 >, que coincide con < x0 , y 0 > por la
simetrı́a del producto interno.

9
Nota: Si la transformación PM está representada por la matriz A, las
propiedades de PM se traducen en que A sea simétrica e idenpotentes, es
decir A2 = A.

4.5 Rango de una matriz


Se define el rango r(A) como la dimensión del subespacio col A. Por ser
A simétrica, ella es diagonalizable y por tanto existe una base ortonormal
{e1 , e2 , . . . , en } tal que Aei = λi ei , i = 1, 2, ν. de todo el espacio. Los ei sse
denominan vectores propios y los valores λi se llaman valores propios, que
no son distintos necesariamente. Eligiendo la base ortogonal de tal forma
que M = span{ei , i ≤ r. Automáticamente M ⊥ = span{ei , i < r. Las
propiedades fundamentales de los proyectores ortoginales PM se traducen en:
PM (ei ) = ei para i ≤ r y PM (ei ) = 0 para i > r. En otras palabras, 1 es un
valor propio de multiplicidad r y 0 es un valor propio se multiplicidad n − r.
En términos de la matriz A, se deduce que sus valores propios son 1 con
multiplicidad r y 1 con multiplicidad n − r, donde r es el rango de A.
La familia de vectores {e1 , e2 , . . . , er } es una base ortogonal de un subespacio
M si M = span{e1 , e2 , . . . , er } si estos vectores son ortogonales entre sı́.
Obviamente se puede imponer, sin pérdida de generalidad, que los vectores
de la base tengan largo 1, con lo cual obtenemos una base ortonormal del
subespavio M . Obviamente, si wi , i ≤ r es una base ortogonal de M , ei
definido por ||w1 i || w = ||w1 i || wi es una base ortonormal.
En muchas aplicaciones las bases ortonormales juegan un papel impor-
tante y se pueden obtenerse a partir de cualquier base por un proceso de
ortogonización denominado de Gramm-Schmidt:
• Sea Nj = span{v i , i ≤ j y denotemos por Pi al proyector sobre Ni .

• Entonces {wi , definido por w1 = v 1 y wi = v j − Pj−1 v j , para i ≤ j


genera una de Nj . Normalizando los vectores wi , es decir, ei = ||w1 i ||
es una base ortonormal.

Definición: Q es una transformación ortogonal si la matriz A satisface


la condición Q−1 = Qt .

Un hecho importante es que dadas dos bases ortonormales {ei , i =


1, . . . , n} y {ui , i = 1, . . . , n}, existe una trannsformación ortogonal
Q, tal que ei = Q(wi ) para i = 1, 2, . . . , n. Esta propiedad implica

10
la factibilidad de elegir bases ortonormales que cumplan ciertas condi-
ciones que se desee imponer.

Teorema Descomposición de valores singulares de una matriz A:

Si A tiene n filas y k columnas, existen dos transformaciones ortogo-


nales P y Q tales que A = P DQt , donde D es una matriz diagonal con
elementos positivos.

Por ser P y Q transformaciones biyectivas, el rango de A coincide con


el rango r de D, es decir, el número de elementos no nulos de D. El
mismo argumento muestra que r(At ) = r(QDP t ) = r. Por su parte
At A = (QDt P t )(P DQt ) = QD2 Qt . Como el número de elementos
positivos de D2 es igual a r y Q es biyectiva, se deduce que r(At A) =
r(A).

5 Particiones en subespacios y anidamiento


Sea {A1 , A2 , . . . , Ak } unaPpartición de I = {1, 2, . . . , n} y construya los
subespacios donde Wj = ji=1 i ∈ Aj , al cual denotamos por W (Aj ). Se
puede elegir una base {u1 , u2 , . . . , un } del espacio vectorial V. Fijando
esta base se puede definir representar Wj = W (Aj ) por span{ui , i ∈ Aj }
y claramente W (As )∩W (At ) = {0}. Se dice que la W1 +W2 +· · ·+Wk =
V es una suma directa.

Para una sucesión anidada de subconjuntos B1 ⊂ B2 ⊂ · · · Bk , W (Bs )


es un subespacio de W (Bt ) y se dice que estos subespacios están anida-
dos. Las sumas directas de subespacios están ı́ntimamente relacionadas
con los subespacios anidados usando Bj = ∪js=1 As y Aj = Bj ∩(Bj−1 )c B
La importancia de una suma directa es que w = kj=1 wj , con wj ∈
P
Wj , los vectores βj son únicos.
Eligiendo Aj = {j} se observa que la suma directa generaliza la idea
de independencia lineal entre vectores.

Cuando los subespacios Wj son ortogonales conviene elegir una base


ortonormal {ei , bf e2 , . . . , n}, la que sabemos que siempre existe. Escri-
biendo los subespacios W (Aj ) = span{ei , i ∈ Aj )} ellos son claramente

11
ortogonales y se habla de una descomposición ortogonal del espacio vec-
torial, que es un caso particular de suma directa.

6 Representaciones simbólicas y funciones


estándar
Definición: Sea g una función real valorada con dominio en 2I . Se
dice que la ella es estándar si es monótona y subaditiva, es decir,

– A ⊆ B implica g(A) ≤ g(B)


(ii) g(A ∪ B) ≤ g(A) + g(B).

Es fácil demostrar las siguientes propiedades:

– Para todo A, g(φ) ≤ g(A).


– g(A ∪ B) ≥ g(A) + g(B).
– max(g(A), g(B)) ≤ g(A ∪ B.

• gA|B) = g(A ∪ B) − g(B) es no negativa.

Ejemplos de función estándar.

(a) Sea ν(A) = dim W (A). Usando una base adecuada se verifica directa-
mente que ν es una función estándar aditiva, es decir
k
! k
X X
ν ν(Aj ) = ν(Aj ). (6.5)
j=1 j=1

(b) Para todo subespacio W (A) y un vector fijo y denotemos la proyección


ortogonal de y sobre W (B) por PB (y). La función g(B) = ||¶B (y)||2 ,
que es claramente monótona. El teorema de Pitágoras muestra que g
es aditiva si los subespacios W (Bj ) son ortogonales. En el caso general
A∪B = A+B∩Ac . Como B∩Ac es subconjunto de B, la monotonicidad
implica que g es subaditiva y, por tanto, es estándar. Si los subespacios
W (B) son ortogonales entre sı́, con lo cual están generados por bases

12
ortonormales, el teorema de Pitágoras demuestra que g es aditiva, es
decir, : !
Xk X k
g Bi ) = g(Bj ), (6.6)
i=1 j=1

lo que es una condición más fuerte que la subaditividad.

Casos particulares para unsubconjunto A dado son: B = φ, B = Ac . En


el caso anidado se puede escribir Bj = Bj−1 ∪ Aj , donde Aj = Bj ∩ Bj−1 .

6.1 Reticulados
la relación A ⊆ establece una relación de orden parcial  entre los subcon-
juntos de I. La demostración de las siguientes propiedades es directa.

• φ  A para todo A.

• A  I para todo A.

• La intersección entre los conjuntos A y B corresponde al mı́nimo. que


denotamos por A ∧ B.

• La unión entre los subconjuntos A y B es el máximo, que denotamos


por A ∨ B.

La relación  no está supeditada a que los elementos sean subconjuntos y


las cuatro propiedaes anteriores definen la estructura algebráica abstracta,
denominada reticulado (lattice en inglés).

13

También podría gustarte