Lectura MMC PDF

El Mtodo de
Mnimos Cuadrados
Sergio A. Cruces lvarez
UNIVERSIDAD DE SEVILLA
En esta segunda prueba se pretenden esbozar algunos de los

puntos ms importantes del mtodo de Mnimos Cuadrados junto
con ejemplos de su aplicacin prctica.
Este tema se circunscribe en uno de los captulos iniciales de un

curso de doctorado sobre Teora de la Estimacin Paramtrica y su
duracin real equivaldra a unas 5 horas lectivas.
Se presuponen en el alumno unos conocimientos bsicos de

lgebra, clculo vectorial y teora de probabilidad.
1
Puntos a Tratar
1. Introduccin.
2. Mnimos cuadrados determinista.
3. Mnimos cuadrados estocstico.
4. Conclusiones.
5. Referencias.
Los puntos que vamos a tratar en la exposicin son:

1. La introduccin al mtodo de Mnimos Cuadrados trata de
motivar al alumno presentando la particular historia que propici
su descubrimiento por parte de Gauss.
2. La versin determinista del mtodo que responde a un problema
de aproximacin. Una gran parte de la exposicin se dedica a este
punto pues la simplicidad en la formulacin del mtodo
determinista de mnimos cuadrados lo hace ideal para presentar de
una forma coherente y concisa muchos conceptos y sus inter-
relaciones.
3. El mtodo de Mnimos Cuadrados Estocstico responde a un
problema de estimacin. Como este mtodo posee una
complejidad ligeramente superior al anterior. Aqu no se presentan
conceptos nuevos slo examinan unos pocos aunque, eso si, con
una mayor profundidad.
4. Se repasan las principales conclusiones
5. Se comentan algunas referencias tiles para estudiar y
profundizar en el tema.
2
Introduccin
El mtodo de Mnimos Cuadrados tiene
una larga historia que se remonta a
principios del siglo XIX.
Ceres
Sol
Tierra
Carl Friedrich Gauss
[1777- 1855]
El mtodo de mnimos cuadrados tiene una larga historia que se

remonta a los principios del siglo XIX. En Junio de 1801, Zach, un
astrnomo que Gauss haba conocido dos aos antes, publicaba las
posiciones orbitales del cuerpo celeste Ceres, un nuevo pequeo
planeta descubierto por el astrnomo italiano G. Piazzi en ese
mismo ao. Desafortunadamente, Piazzi slo haba podido
observar 9 grados de su rbita antes de que este cuerpo
desapareciese tras de el sol. Zach public varias predicciones de su
posicin incluyendo una de Gauss que difera notablemente de las
dems. Cuando Ceres fue redescubierto por Zach en Diciembre de
1801 estaba casi exactamente en donde Gauss haba predicho.
Aunque todava no haba revelado su mtodo, Gauss haba
descubierto el mtodo de mnimos cuadrados. En un trabajo
brillante logr calcular la rbita de Ceres a partir de un nmero
reducido de observaciones, de hecho, el mtodo de Gauss requiere
slo un mnimo de 3 observaciones y todava es, en esencia, el
utilizado en la actualidad para calcular las rbitas.
3
Puntos a Tratar
1. Introduccin.
2.1. Interpretacin geomtrica.
2.2. Aumentando el orden de la aproximacin.
2.3. Aumentando el nmero de observaciones.
2.4. Mnimos cuadrados con restricciones.
2.5. Dependencia no lineal.
3.1. Teorema de Gauss-Markov.
3.2. Interpretacin Geomtrica.
3.3. Teorema de Aitken.
4. Conclusiones.
5. Referencias.
En este punto se describe la versin determinista del mtodo de

Mnimos Cuadrados. El orden de presentacin es el siguiente.
En primer lugar, se presentan los personajes de la pelcula, es
decir, el modelo de generacin de los datos junto con las seales y
variables implicadas.
A continuacin, se describe el criterio propuesto, su solucin para
el caso de dependencia lineal con los parmetros y, una
interpretacin geomtrica de sta que sirve para establecer el
fundamental principio de ortogonalidad.
Las soluciones recursivas del mtodo se describen en base al
concepto de innovacin (nueva informacin) para los casos de
aumentar el nmero de parmetros o el nmero de datos.
Se obtiene una solucin compacta para una situacin en la que se
consideren restricciones lineales y, finalmente, se trata el caso de
que exista una dependencia no lineal de la seal con los
parmetros que se desean estimar.
4
Mnimos Cuadrados Determinista
e[n]
Modelo de s[n] x[n] = s[n] + e[n]

Seal n = 0,, N-1.
Fig.1: Modelo de las observaciones
Notacin Vectorial.
Vector con los p parmetros de inters. = [1,, p ]T
s[n] Seal determinista dependiente de . s() = [s[0],, s[N-1] ]T
e[n] Ruido y desajustes del modelo. e() = [e[0],, e[N-1] ]T
x[n] Observaciones. x = [x[0],, x[N-1] ]T
En el mtodo de Mnimos Cuadrados deseamos minimizar la

discrepancia entre los datos observados x[n] y la seal original s[n].
Esta seal se genera a travs de un modelo que depende un conjunto
de parmetros de inters agrupados en el vector . Aunque s[n] es
completamente determinista la presencia de inexactitudes en el
modelo o ruido en los sensores hace que las observemos una versin
perturbada de sta que denotamos por x[n].
A lo largo del tema preferiremos utilizar la notacin vectorial por su
mayor simplicidad y claridad a la hora de permitir visualizar los
resultados.
5
Mnimos Cuadrados Determinista
Objetivo:
Buscar la mejor aproximacin
del sistema sobredeterminado x s( )
Minimizar J () = ||e()||2
Soluc. MCD = arg(min J ( ))

*Mtodo de aproximacin: no utiliza hiptesis probabilsticas

sobre los datos, slo su modelo de generacin (Fig.1).
Dependencia lineal s( ) = H
H = [h , , h ] matriz de observacin ( N p )
1 p
El objetivo del mtodo de Mnimos Cuadrados Determinista

(MCD) es el de elegir el parmetro que mejor aproxima la seal
original s[n] a los datos observados x[n].
El criterio de proximidad que se aplica en este caso es el que
resulta de considerar una funcin de coste o discrepancia J() que
se forma con la norma al cuadrado del error. As, el estimador de
mnimos cuadrados es aquel que minimiza esta funcin de coste.
Es importante destacar que MCD es un mtodo de aproximacin
pues no utiliza hiptesis probabilsticas sobre los datos, slo su
modelo de generacin.
El caso ms sencillo se da cuando asumimos que la dependencia
de la seal con los parmetros es lineal. La matriz por la que se
multiplican los parmetros para generar la seal recibe el nombre
de matriz de observacin y sus columnas jugarn un importante
papel en este mtodo.
6
Dependencia Lineal
Solucin ( si rango(H T H ) = p )
J()
J ( )
= 2( x H )T H = 0
T J( ) estrict.
J ( )
T
convexa.
= 2HT H > 0 (def +)
T T
nico mnimo global

22
= (H T H) 1 H T x
1
0
Seal estimada a partir de la mejor aproximacin?
-1
s = H = HH + x
-2
1
donde + 1
= (H H ) H
T T
Pseudoinve rsa de H
-2 0 2
Encontrar los parmetros que dan la solucin al problema, cuando

las columnas de la matriz de observacin son linealmente
independientes, es muy simple. Basta con calcular la derivada y la
matriz Hessiana para observar que sta ltima es siempre
estrictamente definida positiva, lo cual, garantiza que la funcin de
coste J() es estrictamente convexa y, por tanto, existe un nico
mnimo. Este se obtiene simplemente buscando el nico punto
crtico de la funcin.
Un razonamiento cualitativo conduce al mismo resultado. Basta
observar que J() es una funcin positiva con una dependencia
cuadrtica sobre los parmetros, por tanto, su grafo traza un hiper-
paraboloide p-dimensional que tiene un nico mnimo y cuyas
curvas de nivel son, en el caso ms general, hiper-elipsoides.
Una vez obtenidos los parmetros que dan la mejor aproximacin,
cmo podemos obtener nuestra mejor estima para la seal?
Slo hace falta sustituir stos en el modelo de seal para encontrar
la respuesta.
7
Dependencia Lineal
Solucin ( si rango(H T H ) < p ) J ( )

T
= 2H H 0 (semidef +)
T
T T
J() convexa (no estrictamente) J()

Subespacio de mnimos globales.
Inf. Soluciones q n
= H + x + (I H + H )q
Soluc. particular Soluc. homognea
no es identificable, aunque la seal estimada a

s = H = HH + x
partir de la mejor aproximacin sigue siendo nica
8
Cuando las columnas de la matriz de observacin son linealmente

dependientes la solucin no es tan sencilla.
El Hessiano es semidefinido positivo, lo cual implica que J()
sigue siendo una funcin convexa aunque no de forma estricta.
Todos los puntos crticos de la funcin son, por tanto, mnimos. La
expresin analtica de estos mnimos se determina igualando la
derivada de la funcin a cero y resolviendo el sistema
indeterminado resultante.
En este caso los parmetros originales no son identificables puesto

que la solucin de MCD no es nica. Lo que s es identificable es
la estima de la seal que proporciona el mtodo, pues sta resulta
ser comn para todos los parmetros solucin.
8
Ejemplo
Seal cuadrtica en ruido: x[n] = 1+ 2 n + 3 n2+e[n] 1 0 0

1 1 1
H = 1 2 22
x[n] 10
^s [n] 8
1 N N 2

6
10
4
* = 0.3
2
0.002

0
10.076
-2

= 0.299
-4
n 0.0020
0 20 40 60 80 100
s = H
9
En este ejemplo se obtienen los tres parmetros que mejor ajustan

una seal cuadrtica a las observaciones y se visualiza
grficamente la seal que proporciona el mejor ajuste segn el
mtodo de mnimos cuadrados.
9
Interpretacin Geomtrica
Principio de Ortogonalidad:
< e, h i >= 0 i = 1, , p.

El error mnimo e es ortogonal al subespacio (H) = {y : y = Hz z }
p
generado por las columnas de H.
x
h2
e M (H )
e e x
e
0
h1 s h1 h2 s
s es la proyeccin ortogonal de x sobre (H)

10
La interpretacin geomtrica de los resultados nos lleva a un

principio fundamental: el principio de ortogonalidad o teorema
de la proyeccin, que es vlido para cualquier espacio vectorial
de Hilbert y que enunciamos a continuacin:
Sea M(H) el subespacio generado por las columnas de H, la
norma del error entre un vector x arbitrario y cualquier punto de
este subespacio es mnima, si y slo si, el error es ortogonal al
subespacio. Adems, el punto del subespacio que minimiza la
norma del error (la mejor aproximacin de la seal) es nico.
El principio de ortogonalidad est ntimamente ligado a la
geometra de los espacios de Hilbert. Una de las consecuencias de
este principio es que el teorema de Pitgoras se debe cumplir en
los espacios de Hilbert.
La utilidad del principio de ortogonalidad tiene dos vertientes: por
una parte nos permite obtener la solucin del problema de una
forma muy elegante sin recurrir a calcular gradientes y derivadas,
por otra, nos proporciona una interpretacin geomtrica de los
resultados que facilita nuestra comprensin del problema y
capacidad de intuicin.
10
*Interpretacin Geomtrica
Demostracin del principio de ortogonalidad:
J ( )
= 2eT H = 0T [h1 ,, h N ]T e = [0,,0]
T =

< e, h i >= 0 i = 1, , p.
Demostracin del corolario al principio de ortogonalidad:

s = H M ( H ) < e, s >= 0 .
11
Una vez definido el espacio vectorial de Hilbert y el producto

interno entre dos vectores, la demostracin del principio de
ortogonalidad se obtiene directamente de la ecuacin que nos
facilita los puntos crticos.
11
Matrices de Proyeccin
Cmo es el operador que proyecta x sobre M(H)? y sobre M (H
)?

s = HH + x e = x s = (I HH + )x
M (H )
x x

e = PH x
0 0
s = PH x
M (H ) M (H )
Se define PH = HH + como la matriz Se define PH = I PH como la matriz

que proyecta ortogonalmente un que proyecta sobre el complemento
vector sobre M (H ) . ortogonal de M (H ) .
12
Llegado este punto nos podemos preguntar cmo es el operador

que proyecta ortogonalmente las observaciones x sobre el
subespacio generado por las columnas de H?
Como est claro que la seal estimada es el resultado de esta
proyeccin ortogonal, la respuesta a esta pregunta se obtiene
directamente identificando este operador en la expresin que nos
da la seal estimada como mejor aproximacin. As,
comprobamos que el operador buscado es un operador lineal
denominado matriz de proyeccin ortogonal.
Otra posible cuestin podra ser cmo encontrar el operador que
proyecta las observaciones sobre el complemento ortogonal del
subespacio generado por las columnas de H?
Por la estructura del problema, las componente de las
observaciones que no se puede expresar sobre M(H) es el error
mnimo. Observando la expresin del error en trminos de x
resulta fcil identificar el operador de proyeccin sobre el
complemento ortogonal al subespacio.
12
Matrices de Proyeccin
Propiedades de las matrices de proyeccin ortogonal:
1. Son simtricas PH = PHT
2. Son idempotentes PH PH = PH
3. Sus autovalores 0 si el autovector asociado q i M ( H )
i =
1 si el autovector asociado q i M ( H )
4. Son nicas para cada subespacio M (H ) M (H ' ) PH = PH '
5. Sobre subespacios ortogonales la proyeccin se desacopla
Si H = (H1 | H 2 ) donde H1 H 2 PH = PH1 + PH 2
s = PH1 x + PH 2 x
13
Las propiedades de las matrices de proyeccin ortogonal nos

permiten encontrar soluciones simples a problemas, en principio,
complicados.
Estas propiedades se obtienen directamente de la descomposicin
en valores singulares de H y de la definicin de matriz de
proyeccin ortogonal.
De entre todas ellas las propiedades 4 y 5 son las ms interesantes:
4. Las matrices de proyeccin ortogonal son nicas para cada

subespacio, es decir, que columnas de H que generen el mismo
subespacio tienen la misma matriz de proyeccin.
5. Si somos capaces de expresar el espacio generado por las

columnas de H sobre dos subespacios ortogonales el problema de
la proyeccin se desacopla de forma independiente sobre cada uno
de ellos, de forma que, la proyeccin conjunta resulta ser la suma
de las proyecciones marginales.
13
Aumentando el Orden
Sea k 1 = (H Tk 1H k 1 ) 1 H Tk 1x el estimador que nos da la mejor aproximacin
con k-1 parmetros. Cuando aadimos un nuevo parmetro tendremos
k = (H Tk H k ) 1 HTk x donde H k = [H k 1 , h k ]
Es necesario recalcular la solucin cada vez?

Existe un mtodo ms eficiente?
Existe una solucin recursiva que aprovecha k 1 para calcular k .
H +k 1h k hTk Pk1x
k = k 1 con =
hTk Pk1h k
14
En muchas situaciones el modelo de las observaciones nos es

desconocido. En esos casos uno puede plantearse el aadir ms
parmetros para mejorar la estima. Para ello, bastara volver a
resolver el problema tras ampliar la matriz de observacin con una
nueva columna por cada parmetro aadido a la estima.
Pero, existe un mtodo mejor que recalcular la solucin cada

vez?
La respuesta a esta pregunta es s. Es posible encontrar una

solucin recursiva que aprovecha la estima hecha considerando
k-1 parmetros para obtener la solucin que tiene en cuenta un
parmetro ms. Esta solucin recursiva conlleva, a medida que se
incrementa el nmero de parmetros, una reduccin en la carga
computacional total, a la vez que evita, mediante la utilizacin del
lema de inversin, la inversin explcita de matrices (operacin
que resulta muy costosa en cuanto a carga computacional).
14
Aumentando el Orden
Deduccin geomtrica:
hk
La innovacin es la componente ~
hk
de hk ortogonal a M (H k 1 ) . M ( H k 1 )
0
x
~ M (H k )
h k s k Por qu es preferible
trabajar con la innovacin?
0 s k 1 M ( H k 1 )
~
s k = s k 1 + h k
De ambas ec. se despeja la
s k = H k k soluc. recursiva para k
15
Mediante manipulaciones algebraicas de la solucin de orden k es

posible obtener directamente la solucin recursiva. No obstante, su
deduccin geomtrica resulta mucho ms ilustrativa e intuitiva.
La clave de todo est en descomponer la nueva columna de la

matriz de observacin en dos componentes. Una que contiene
informacin redundante (que ya exista en la aproximacin basada
en k-1 parmetros) y otra componente basada en la nueva
informacin que aparece al aadir un parmetro ms al modelo.
Esta ltima componente recibe el nombre de innovacin y es, por
definicin, ortogonal al subespacio generado por el resto de
columnas.
Dado que M([Hk-1, innovacin]) M(Hk) y Hk-1 es ortogonal a la

innovacin, la proyeccin total se desacopla sobre estos dos
subespacios de forma que la solucin es simplemente la suma de
las proyecciones de los datos sobre cada uno de ellos. De esta
forma, re-escribiendo las matrices de proyeccin en trminos de
las variables conocidas se llega a la solucin recursiva buscada.
15
*Aumentando el Orden
Deduccin detallada: ~ hk
h k = PHk 1 h k
M (H k 1 )
~
como M ([H k 1 , h k ]) M ([H k 1 , h k ])
h k = PH k 1 h k = H k 1.
~ ~
hk h ~
s k = P[ H ,h~ ] x = PH k 1 x + Ph~ x ~ x, ~ k = hk
k 1 k k hk hk
s k = H k 1k 1 + (h k H k 1. )
.
= (H k 1 , h k ) k 1

Hk k 16
Esta transparencia facilita un anlisis ms pormenorizado de los

pasos que llevan a la solucin.
16
Ejemplo
12
10
k=1
RE G RE S I N S E G N "K "
8
k=2
6 k=3,..,10
4
-2
-4
0 20 40 60 80 100
Aumentamos poco a poco el nmero de parmetros hasta 10.

17
Como ejemplo de este mtodo hemos obtenido de forma recursiva la

solucin al problema de regresin polinmica de una seal inmersa
en ruido. Para ello, utilizamos 100 observaciones y consideramos
desde uno hasta un total de diez coeficientes (parmetros), pasando
por todos los casos intermedios.
Las observaciones se denotan por puntos azules en la figura, mientras

que la componente de seal estimada se representa en trazo continuo
con colores que varan segn el nmero de parmetros considerados.
17
Ejemplo (continuacin)
40
COSTE MNIMO Jmin[p] 35 Constante
30
25
20 Lnea
15
Parbola
10
0
0 2 4 6 8 10
N. DE PARMETROS
El coste mnimo indica que basta con utilizar 3 parmetros.

18
El coste mnimo nos facilita una idea del nmero mnimo de

parmetros necesarios para representar las observaciones.
En nuestro caso, comprobamos que basta con utilizar 3 parmetros

(nuestra seal es aproximadamente cuadrtica). Aumentando ms el
nmero de parmetros ya no disminuye significativamente el error de
representacin, ms aun, las pequeas disminuciones en coste se
pueden deber a que utilicemos los nuevos grados de libertad que nos
proporcionan los parmetros intentar ajustar o modelar el ruido. Esto
ltimo no siempre es deseable pues, en la prctica, el modelo ms
simple que describe de forma adecuada los datos suele resultar
preferible.
18
Aumentando Observaciones
Sea [n 1] la estimacin a partir de los datos x[0], , x[n-1]. Si aadimos
un dato ms (x[n]), el nuevo estimador ser
x H[n 1]
[n] = (H T [n]H[n]) 1 H T [n]x n con x n = n 1 H[n] = T
x[ n] h [ n]
Es necesario recalcular la solucin cada vez?

Existe un mtodo ms eficiente?
Existe una solucin secuencial que ofrece una carga computacional de

O(np2) operaciones frente a las O(n3) de la solucin directa.
[n] = [n 1] + K [n] ( x[n] h T [n ][n 1])
(HT [n 1]H[n 1]) 1 h[n]

donde K [n] =
1 + hT [n](HT [n 1]H[n 1]) 1 h[n]
19
En otras situaciones, el nmero de parmetros de nuestro modelo es

constante pero los datos de los que disponemos se incrementan de
forma dinmica con el tiempo, cosa que ocurre, por ejemplo, con el
ndice de la Bolsa. Como cada vez que nos llega un dato ms, resulta
deseable aprovechar su informacin para mejorar nuestra estima
actual, se nos plantea de nuevo la pregunta: es necesario re-calcular
toda la solucin cada vez que esto ocurre?
Al igual que en el caso precedente, la respuesta es afirmativa. Existe

un mtodo secuencial que permite calcular la nueva solucin en
funcin de la que se obtuvo sin conocer ese dato adicional. De esta
forma no slo se obtienen ventajas computacionales importantes sino
que tambin se obtiene una visin clara de cul es la informacin con
la que contribuye cada nuevo dato al modelo de las observaciones.
A esta solucin secuencial se llegar mediante manipulaciones

algebraicas entre las que se utiliza el lema de inversin.
19
Aumentando Observaciones
Interpretacin de la solucin:
[n] = [n 1] + K [n] ( x[n] x[n])
Innovacin Correccin basada en

la nueva informacin.
Nuevo dato
+ + [n]
x[n] K[n]
- +
z-1
hT [n]
x[n] [n 1]
Prediccin basada en
los datos anteriores
20
La interpretacin de la solucin secuencial resulta muy ilustrativa.
A cada nuevo dato se le sustrae la prediccin de su valor en base a

los datos precedentes, de esta forma se construye la innovacin que
representa la nueva informacin aportada por el dato actual. sta se
multiplica por un factor K[n] que hace las funciones de ganancia y
que refleja nuestra confianza en esta informacin frente a la aportada
por los datos precedentes. El resultado de este producto es finalmente
la correccin de la estima previa para obtener el estima actual.
20
Ejemplo
Media de una seal en ruido: x[n] = + e[n]
1 n 1
[n] =
n + 1 k =0
x[k ] [n] = [n 1] +
n +1
( x[n] [n 1])
1.1
1.05
0.95
M E DIA
0.9
0.85
0.8
0.75
0.7
0 10 20 30 40 50 60 70 80 90 100
M UE S TRA S
21
Como ejemplo de aplicacin de la estimacin secuencial

consideramos un caso muy sencillo: el de estimacin de la media de
una seal en ruido. El estimador ptimo, que se obtiene por
resolucin directa de las ecuaciones normales, resulta coincidir para
cada conjunto de datos con su media muestral. Por otra parte, su
estimacin secuencial responde a una ecuacin equivalente en la que
se desacopla la informacin pasada y la aportada por el dato actual.
Los resultados se pueden observar en la figura. La media terica de

esta seal es la unidad. Aunque la estima aparece inicialmente muy
ruidosa por el escaso nmero de datos iniciales, la media estimada se
acerca progresivamente a la media terica a medida que el nmero de
datos aumenta.
21
Ponderacin del Error
A veces nos interesa ponderar cada error por separado:
n
J ( ) = Wii e[i ] = (x H )T W ( x H )
2
donde W diagonal def +
i =0
Solucin: cambio de variable
x = W 2x
1
J ( ) = x H
2
H = W 2H
1
+
= H x = (HT WH ) 1 HT Wx
22
Resulta fcil imaginar situaciones en las que nuestra confianza en

todos las observaciones no sea la misma. En estos casos parece
natural ponderar por separado los distintos errores para enfatizar
aquellos datos ms precisos o fiables.
La solucin matemtica de este problema es similar a la del problema

de mnimos cuadrados determinista ya estudiado, como se
comprueba realizando el cambio de variable adecuado.
22
Restricciones Lineales
Otras veces, la aproximacin debe cumplir ciertas restricciones:
min J ( ) sujeto a A = b

Solucin: multiplicadores de Lagrange
L( ) = ( x H )T (x H ) + T ( A b)
L( )
=0

A b = 0
c = (H T H) 1 AT ( A(H T H) 1 AT ) ( A b)
23
Otro planteamiento distinto consiste en imponer a la aproximacin

ptima restricciones lineales que, en muchos casos, representan
cierta informacin a priori de la que se dispone sobre el verdadero
parmetro de inters, mejorando as la estima.
La solucin a este problema con restricciones pasa primero por

derivar la funcin Lagrangiana e igualarla a cero y, en segundo lugar,
utilizar las restricciones para hallar los multiplicadores adecuados y
as encontrar la solucin.
23
Dependencia No Lineal
Qu podemos hacer cuando s( ) depende no linealmente con ?
Posibilidades:
A. Casos simples:
1. Transformacin de los parmetros.
2. Separabilidad de los parmetros.
B. Casos difciles:
3. Otros mtodos de minimizacin: NR, GN, etc.
24
Hasta ahora se ha considerado una dependencia lineal de la seal

sobre los parmetros, lo cual, nos permiti encontrar soluciones
cerradas para el estimador. En general, cuando la dependencia de la
seal sobre los parmetros es no lineal, la determinacin de
soluciones cerradas es muy difcil o imposible. Por ello, se suele
recurrir a mtodos de bsqueda en rejilla si la dimensionalidad de los
parmetros es pequea, o a mtodos iterativos de minimizacin como
el mtodo de Newton-Raphson o el mtodo de Gauss-Newton.
Una de las pocas excepciones a esta regla la constituyen los casos en

los que la transformacin de parmetros o la separacin de
parmetros es viable.
24
Transformacin de Parmetros
. = g ( )
Univoca
Si g :
s[ n] lineal en .
. = (H T H ) H T x
1
= g 1 (. )
25
El mtodo de transformacin de parmetros consiste en buscar una

transformacin unvoca de stos que haga lineal el modelo de la
seal en el nuevo espacio.
Si es posible encontrar dicha transformacin, se puede resolver el

problema de Mnimos Cuadrados directamente sobre el dominio
transformado y luego realizar la transformacin inversa para obtener
el parmetro estimado.
El problema de este mtodo radica en que, en general, la

determinacin de dicha transformacin unvoca suele ser muy difcil.
25
Ejemplo
Estimacin de la amplitud y fase de un coseno en ruido.
A cos 3
. =
x[n] = A cos(2I 0 n + 3) + e[n] A sin 3
= .1 cos 2I 0 n + .2 sin 2I 0 n + e[n] 1 0

cos 2I o sin 2I o
H=

cos 2 ( N 1) sin 2 ( N 1)
o I
o I

. = (H T H ) H T x
1
1.

A .1 + .2
2 2
2. =
3

arctan
(.. )1
2

26
En este ejemplo vamos a ver un caso de dependencia no lineal. Se

trata de estimar la amplitud y fase de un coseno, del que se conoce su
frecuencia y que se encuentra inmerso en ruido, aplicando el mtodo
de transformacin de parmetros.
Si descomponemos el coseno con fase en trminos de senos y

cosenos simples observamos que la transformacin a coordenadas
cartesianas de la amplitud y de la fase (considerando slo el
argumento principal de sta) hace lineal la dependencia de la seal
sobre este nuevo espacio, al tiempo que la transformacin es
unvoca.
De esta forma, el problema se resuelve fcilmente sobre el dominio

transformado y se obtienen los parmetros estimados sin ms que
invertir la transformacin.
26
Ejemplo (continuacin)
55
N = 100
f0 = 5Hz.
L NE S
CIO
A = 3 V.
AA
00
E
O B S ESRV
= 1 rad.
A 3.09
=
3 1.04
-5
-5
00 0.2
0.2 0.4
0.4 0.6
0.6 0.8
0.8 11
TIE
TIEM
MPPO
O
Seal [negro], observaciones [azul], estima [verde].

27
En esta figura se muestran con los puntos azules 100 observaciones

de un coseno inmerso en ruido. El coseno tiene una frecuencia
conocida de 5 Hz. y una amplitud y fase desconocidas que nos
proponemos estimar. Su componente de seal aparece dibujada en
trazo negro continuo sobre la figura.
La estima del coseno se realiza utilizando el estimador obtenido

mediante el mtodo de transformacin de parmetros y se representa
con puntos claros (verdes) en el grfico.
Sobre la figura se puede comprobar que, a pesar del pequeo tamao

de la poblacin de muestras, la estima resulta tener una gran
precisin coincidiendo prcticamente la seal estimada con la seal
existente.
27
Separabilidad de Parmetros
Sea = (. T , T ) el problema se dice separable si
T
no lineal en
s = H (. )
lineal en
(
= H T (. ) H (. ) )
1
H T (. ) x
y el problema se simplifica a la bsqueda del . que minimiza
( )
J (., ) = xT I H (. )(H T (. ) H (. ) ) H T (. ) x
1
28
Algunas veces los parmetros no son directamente transformables

aunque s existe un subconjunto de ellos sobre los que la seal
depende linealmente. En estos casos el problema de dice separable.
El problema se simplifica ya que su dimensin se reduce. La

expresin ptima de los parmetros lineales se puede encontrar
aplicando Mnimos Cuadrados en funcin del resto. De esta forma, el
problema se limita a una bsqueda del mnimo sobre los parmetros
que caracterizan la dependencia no lineal de la seal.
28
Otros mtodos
T
J
Iteracin de Newton-Raphson: busca los ceros de T

1
J J
Problemas de convergencia
T T
( k +1)
= (k )
T T T

= ( k )
Iteracin de Gauss-Newton: lineariza la dependencia de s() sobre .

s[n; ( k ) ]
s[n; ] s[n; ( k ) ] +
T
(
(k ) )
= ( k )
H ( (k ) )
(
( k +1) = ( k ) + H T ( ( k ) ) H ( ( k ) ) )
1
(
H T ( ( k ) ) x s( ( k ) ) )
29
Cuando los mtodos de transformacin de parmetros o de

separabilidad no son aplicables debemos recurrir a algoritmos de
minimizacin no lineal, que suelen consistir en mtodos de bsqueda
iterativa de la solucin. Dos de los algoritmos de este tipo ms
famosos son los mtodos de Newton-Raphson y de Gauss-Newton.
El mtodo de Newton-Rapshon es el conocido mtodo de bsqueda
de los ceros de la funcin derivada. Es un mtodo invariante (que no
depende de la base sobre la que estn expresados los parmetros) y
posee una convergencia cuadrtica cuando sta se da. Uno de sus
principales inconvenientes es que precisa el clculo explcito del
Hessiano de la funcin.
El mtodo de Gauss-Newton es propiamente un algoritmo de
minimizacin que lineariza la dependencia de la seal sobre los
parmetros entorno a su valor nominal en cada iteracin. De esta
forma, cada una de las funciones de coste resultantes de esta
secuencia es cuadrtica y se minimiza en una sla iteracin.
Desafortunadamente, ambos mtodos, pueden evidenciar problemas
de convergencia cuando la inicilizacin se encuentra muy lejos de la
solucin.
29
Puntos a Tratar
1. Introduccin.
4. Conclusiones.
5. Referencias.
30
Otra variante del mtodo de Mnimos Cuadrados se considera un

mtodo estocstico.
Esta variante presenta similitudes en su formulacin y, a la vez,

claras diferencias de interpretacin con respecto mtodo
determinista.
En este apartado plantearemos una de las variantes del problema de

Mnimos Cuadrados Estocstico en la que los parmetros del modelo
se consideran un vector determinista. Enunciaremos el teorema de
Gauss-Markov y presentaremos una interpretacin geomtrica de
ste. Para terminar exponiendo el caso ms general del teorema
precedente que se conoce bajo el nombre de teorema de Aitken.
30
Mnimos Cuadrados Estocstico
Consideremos el modelo lineal de los datos x = H + e
Ahora los elementos de x y e se

consideran v.a. frente a las
realizaciones en el caso determinista.
Mtodo de estimacin: hiptesis prob. sobre la distribucin del error.

caracterizacin parcial Ventaja frente a ML y
basada en la media y covarianza. tcnicas Bayesianas.
31
La radical diferencia entre el mtodo determinista y el mtodo

estocstico consiste en que ahora se consideran hiptesis
probabilsticas sobre la funcin de densidad de probabilidad del error
y de las observaciones. Esto hace que el mtodo de Mnimos
Cuadrados Estocstico se considere un mtodo propio de estimacin
frente a la versin determinista que se entenda como un mtodo de
aproximacin.
Ahora los elementos del error y de las observaciones son variables
aleatorias distribuidas de acuerdo con una cierta funcin densidad de
probabilidad.
El mtodo de Mnimos Cuadrados Estocstico es una de las varias
aproximaciones existentes en teora de la estimacin, siendo las
principales alternativas a ste: Mxima Verosimilitud y las tcnicas
Bayesianas. Estas otras tcnicas normalmente requieren una
descripcin estadstica completa de las variables del problema en
trminos de sus funciones de distribucin de probabilidad, mientras
que el mtodo de Mnimos Cuadrados Estocstico slo requiere una
caracterizacin parcial basada en medias y matrices de covarianza.
31
Mnimos Cuadrados Estocstico
Criterio natural del optimalidad: MSE p (i | i )
i MSE = | sesgo | 2
+ v ar
i i i
E | i i |2 = | E [i ] i | 2 + E | i E [i ] |2
i
Estimador lineal i = aTi x e insesgado E[i ] = i aTi h j = /ij
MSE = var = a Ti C e a i
i i
Objetivo:
Min

var
i i
sujeto a i lineal e insesgado i = 1, ,p
Min

a Ti C e a i
i
sujeto a a Ti h j = /ij ,p
i,j = 1,
32
Un criterio natural de optimalidad en estadstica consisten en

minimizar el error cuadrtico medio (MSE) entre el el estimador real
y su estima (que es una variable aleatoria). La justificacin de este
criterio radica en que trata de agrupar la funcin densidad de
probabilidad del estimador sobre el parmetro verdadero. El trmino
MSE se descompone en otros dos con interpretaciones muy
significativas: por una parte est el sesgo del estimador al cuadrado
mientras que, por la otra, est la varianza del estimador.
En lugar de pretender minimizar el criterio MSE de forma genrica,
el mtodo de mnimos cuadrados estocstico limita esa bsqueda a
una clase especial de estimadores, la de los estimadores lineales e
insesgados.
As, el problema de mnimos cuadrados estocstico se traduce en
minimizar la varianza de cada componente del estimador sujeto a
restricciones que garantizan que ste sea lineal e insesgado. La
formulacin matemtica de este problema resulta ser totalmente
determinista y su solucin se explicita en el siguiente teorema.
32
Teorema de Gauss-Markov
Si los datos siguen el modelo lineal y el error tiene media cero y

matriz de covarianza Ce = 1 e2 I el ptimo estimador Lineal e
Insesgado de Mmima Varianza de los parmetros es
1
y C = 1 e (H H )
T
= (H T H) 1 H T x
2
Similar a la soluc. de MCD,

aunque la interpretacin es distinta.
33
El teorema de Gauss-Markov contempla la hiptesis adicional de que

el error sea de media cero y que la matriz de covarianzas del error
tenga la estructura de la matriz identidad escalada por la varianza del
error. Bajo estas condiciones, el teorema nos proporciona la
expresin del estimador ptimo lineal e insesgado de mnima
varianza, as como tambin, la matriz de covarianza de este
estimador.
El sorprendente el hecho de que la solucin a este problema sea la

misma que la del mtodo determinista puede conducir en muchos
casos a una interpretacin errnea de este estimador.
33
Interpretacin Geomtrica
Proyeccin
Proyeccin
Oblcua.
x
s = HA x
H
(H)
La proyeccin min Cs i min C i

i
34
La interpretacin geomtrica del teorema de Gauss-Markov se

presenta en la siguiente figura. El plano denota el subespacio
generado por las columnas de la matriz de observacin. En el centro
de ste hay un punto que denota la componente de seal. Sobre la
seal se superpone la v.a. ruido que (al ser de varianza constante para
cada componente) se representa como una esfera centrada en la
componente de seal y con el radio de la desviacin tpica. La v.a.
observaciones es pues la resultante de sumar la seal ms la v.a.
ruido.
La proyeccin de la v.a. observacin sobre el plano conduce, en

general, a una superficie elptica centrada en el valor verdadero de la
seal y que representa la v.a. que estima la componente de seal. La
parte comn a todas las posibles proyecciones est dada por el rea
que proporciona la proyeccin ortogonal. Esta es, pues, la proyeccin
que garantiza una menor varianza en cada una de las componentes
del estimador lineal insesgado.
34
Teorema de Aitken
Si los datos siguen el modelo lineal y el error tiene media cero y

matriz de covarianza Ce el ptimo estimador Lineal e Insesgado de
Mmima Varianza de los parmetros es
= (HT Ce1H ) 1 H T Ce1x y C = (H T Ce1H ) 1
Similar a MCD con

ponderacin del error.
Demonstracin: cambio de variable
x = C e 2 x
1
Ce = I +
= H x = (H T Ce1H ) 1 H T Ce1x
H = C e 2 H
1
35
La versin general del estimador de mnimos cuadrados estocstico

la proporciona el teorema de Aitken. En este caso se permite al error
tener una matriz de covarianzas arbitraria salvo por el hecho de que
esta debe ser de rango completo y definida positiva.
La solucin general del problema es similar a la del mtodo

determinista con ponderacin del error cuando se utiliza como matriz
de ponderacin la inversa de la matriz de covarianzas del error.
La demostracin de este teorema se logra a travs de un sencillo

cambio de variable que haga que la nueva variable aleatoria error
cumpla las condiciones del teorema de Gauss-Markov.
35
Puntos a Tratar
1. Introduccin.
4. Conclusiones.
5. Referencias.
36
En este punto nos disponemos a presentar las conclusiones ms

importantes y algunas referencias tiles sobre el tema.
36
Conclusiones Importantes
; MC determinista mtodo de aproximacin.
+ Interpretacin geomtrica y principio de ortogonalidad.
+ Innovacin soluc. recursivas.
Dependencia no lineal tcnicas de minimizacin.
; MC estocstico mtodo de estimacin.

+ Caracterizacin parcial.
+ Equivalencia matemtica entre las soluc MCD y el MCE.
Interpretacin diferente de MCD!
; Ambos mtodos:
+ Simplicidad en las hiptesis estimador muy utilizado.
37
El mtodo de Mnimos Cuadrados Determinista es propiamente un

mtodo de aproximacin. Su interpretacin geomtrica nos
conduce a un importante principio: el principio de ortogonalidad
cuya validez es extensible a cualquier espacio de Hilbert.
Otro concepto clave es el de innovacin que nos conduce a una
interpretacin sencilla de las soluciones recursivas.
El caso ms complicado es el de dependencia no lineal en la que la
solucin al problema pocas veces adopta la forma de una
expresin cerrada.
El mtodo de Mnimos Cuadrados Estocstico es propiamente un
mtodo de estimacin. Frente a otros mtodos estadsticos ste
slo requiere una caracterizacin parcial del error.
Existe una equivalencia matemtica entre las soluciones al
problema determinista y estocstico aunque la interpretacin de
ambos difiere.
En ambos mtodos la simplicidad de sus hiptesis y formulacin
hacen que estos sean muy utilizados en la prctica para la
estimacin de los parmetros de inters.
37
Conclusiones Futuras
+ Otra versin estocstica del mtodo

Estimacin Lineal Bayesiana
de MC considera a como una v.a.
MC no posee consideraciones de optimalidad (salvo si e ~ Gauss.).
38
Algunas de las conclusiones que todava no hemos podido obtener

pero que examinaremos ms adelante en el curso, y que aparecen
directamente relacionadas con este tema, son las siguientes:
Existe otra versin estocstica del mtodo de Mnimos Cuadrados

que considera al vector de parmetros como un vector de variables
aleatorias. Esta aproximacin recibe el nombre de estimacin
Bayesiana y se suele utilizar para aadir informacin conocida a
priori sobre el vector de parmetros para, as, intentar mejorar la
estima.
El mtodo de Mnimos Cuadrados Estocstico es un mtodo de

estimacin que, en general, no posee propiedades de optimalidad
estadstica, salvo cuando el error se distribuye de acuerdo con una
funcin de probabilidad Gaussiana, puesto que, en este caso, el
estimador ptimo es una funcin lineal de las observaciones.
38
Referencias
[Kay,93] Kay, Steven M., Fundamentals of Statistical Signal Processing:
Estimation Theory, Prentice Hall, 1993. ISBN: 0-13-345711-7.
Captulos 4,6 y 8.
[Luenberger,69] Luenberger, David G., Optimization by Vector Space Methods, John
Willey & Sons, 1969. SBN: 47155359x. Captulos 3 y 4.
[Kailath,00] Kaylath, T., Sayed, A.H., Hassibi, B., Linear Estimation,
Prentice Hall, 2000. ISBN: 0-13-022464-2. Captulos 1 y 2.
[Haykin,96] Haykin, Simon, Adaptive Filter Theory, Tercera edicin, Prentice

Hall, ISBN: 0-13-397985-7. Captulos 11, 12 y 13.
[Mendel, 95] Mendel, Jerry M., Lessons in Estimation Theory for Signal Processing,
Communications and Control, Prentice Hall, 1995.
ISBN: 0-13-120981-7. Captulos 1 al 8.
[Stuard,91] Stuard, A., Ord, J.K. Kelldalls Advanced Theory of Statistics,
Quinta edicin, Volumen 2: Classical Inference and Relationship,
editorial Edward Arnold, ISBN: 0-340-52923-7. Captulos 17, 19 y 28.
39
De entre la bibliografa recomendada sobre el tema de Mnimos

Cuadrados destacamos algunos libros en especial:
Las referencias preferidas sobre el tema son [Kay,93] y

[Luemberger,69]. La primera por su claridad de exposicin y
abundante provisin de ejemplos, la segunda referencia por su
enfoque geomtrico del problema de Mnimos Cuadrados sobre
espacios vectoriales de Hilbert.
Otros libros interesantes son [Haykin,96] y [Mendel,95] que estn

pensados como libros de texto para los ltimos cursos de la carrera y,
en especial, para cursos de doctorado.
Por ltimo, dos libros para profundizar en el tema son [Kailath,00]

(que acaba de aparecer recientemente) y [Stuard,91]. Ambos tratan
de una forma mucho ms exhaustiva y detallada el problema de
estimacin lineal en sus distintas variantes.
39

Lectura MMC PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura MMC PDF

Cargado por

Copyright:

Formatos disponibles

El Mtodo de

Sergio A. Cruces lvarez

En esta segunda prueba se pretenden esbozar algunos de los

Este tema se circunscribe en uno de los captulos iniciales de un

Se presuponen en el alumno unos conocimientos bsicos de

2. Mnimos cuadrados determinista.

3. Mnimos cuadrados estocstico.

Los puntos que vamos a tratar en la exposicin son:

El mtodo de mnimos cuadrados tiene una larga historia que se

En este punto se describe la versin determinista del mtodo de

Modelo de s[n] x[n] = s[n] + e[n]

Fig.1: Modelo de las observaciones

En el mtodo de Mnimos Cuadrados deseamos minimizar la

*Mtodo de aproximacin: no utiliza hiptesis probabilsticas

Dependencia lineal s( ) = H

El objetivo del mtodo de Mnimos Cuadrados Determinista

nico mnimo global

Encontrar los parmetros que dan la solucin al problema, cuando

J() convexa (no estrictamente) J()

Soluc. particular Soluc. homognea

no es identificable, aunque la seal estimada a

Cuando las columnas de la matriz de observacin son linealmente

En este caso los parmetros originales no son identificables puesto

En este ejemplo se obtienen los tres parmetros que mejor ajustan

generado por las columnas de H.

s es la proyeccin ortogonal de x sobre (H)

La interpretacin geomtrica de los resultados nos lleva a un

Demostracin del corolario al principio de ortogonalidad:

Una vez definido el espacio vectorial de Hilbert y el producto

Se define PH = HH + como la matriz Se define PH = I PH como la matriz

Llegado este punto nos podemos preguntar cmo es el operador

4. Son nicas para cada subespacio M (H ) M (H ' ) PH = PH '

5. Sobre subespacios ortogonales la proyeccin se desacopla

Si H = (H1 | H 2 ) donde H1 H 2 PH = PH1 + PH 2

Las propiedades de las matrices de proyeccin ortogonal nos

4. Las matrices de proyeccin ortogonal son nicas para cada

5. Si somos capaces de expresar el espacio generado por las

Es necesario recalcular la solucin cada vez?

Existe una solucin recursiva que aprovecha k 1 para calcular k .

En muchas situaciones el modelo de las observaciones nos es

Pero, existe un mtodo mejor que recalcular la solucin cada

La respuesta a esta pregunta es s. Es posible encontrar una

Mediante manipulaciones algebraicas de la solucin de orden k es

La clave de todo est en descomponer la nueva columna de la

Dado que M([Hk-1, innovacin]) M(Hk) y Hk-1 es ortogonal a la

Esta transparencia facilita un anlisis ms pormenorizado de los

Aumentamos poco a poco el nmero de parmetros hasta 10.

Como ejemplo de este mtodo hemos obtenido de forma recursiva la

Las observaciones se denotan por puntos azules en la figura, mientras

El coste mnimo indica que basta con utilizar 3 parmetros.

El coste mnimo nos facilita una idea del nmero mnimo de

En nuestro caso, comprobamos que basta con utilizar 3 parmetros

Es necesario recalcular la solucin cada vez?

Existe una solucin secuencial que ofrece una carga computacional de

[n] = [n 1] + K [n] ( x[n] h T [n ][n 1])

(HT [n 1]H[n 1]) 1 h[n]

En otras situaciones, el nmero de parmetros de nuestro modelo es

Al igual que en el caso precedente, la respuesta es afirmativa. Existe

A esta solucin secuencial se llegar mediante manipulaciones

[n] = [n 1] + K [n] ( x[n] x[n])

Innovacin Correccin basada en

La interpretacin de la solucin secuencial resulta muy ilustrativa.

A cada nuevo dato se le sustrae la prediccin de su valor en base a

Dependencia lineal s( ) = H

Existe una solucin recursiva que aprovecha k 1 para calcular k .

[n] = [n 1] + K [n] ( x[n] h T [n ][n 1])

[n] = [n 1] + K [n] ( x[n] x[n])

Estimador lineal i = aTi x e insesgado E[i ] = i aTi h j = /ij

La proyeccin min Cs i min C i

= (HT Ce1H ) 1 H T Ce1x y C = (H T Ce1H ) 1