Está en la página 1de 25

Resumen terico de la materia Mtodos Numricos

Javier Gonzalo Silveira


Santiago Miguel Palladino
Facundo Matas Carreiro
1. Aritmtica de la computadora
La computadora usa aritmtica de dgitos nitos. Esto implica que todo nmero representable tiene un
nmero de dgitos jo y nito. La representacin de un nmero depende de la base elegida , la cantidad de
dgitos de la mantisa t, y los lmites l y u del exponente,
x

= (0, d
1
d
2
. . . d
t
)
e
donde 0 d
i
< , el exponente e cumple l e u y el dgito d
1
,= 0 (esta ltima condicin le da el nombre de
representacin de punto otante normalizada). El nmero 0 es tratado como un caso especial.
Para todo nmero representado vale que
l1
< m [x

[ M = (1
t
)
u
. De encontrarse fuera del
rango [m, M] entonces se dice que ocurri underow o overow. Cabe destacar que, como podemos ver en la
Figura 1, los nmeros de mquina no estn uniformemente distribuidos, se encuentran ms concentrados para
valores pequeos.
Figura 1: Nmeros normalizados cuando = 2, l = 1, u = 2.
Denicin. El error de redondeo unitario, o de la mquina, es aquel valor tal que [[ =
1
2

t+1
, siendo
aquel valor que verica x

= x(1 +). Asimismo, determina el menor nmero tal que 1 + ,= 1.


Denicin. Error relativo y absoluto de una aproximacin p

de p se denen como

r
(p) =
[p p

[
[p[

abs
(p) = [p p

[
Denicin. Se dice que el nmero p

aproxima p con t dgitos signicativos si t es el entero no negativo ms


grande para el cual
r
(p) <
1
2

t+1
.
Teorema 1.1. Todos los nmeros reales pueden ser representados con t dgitos signicativos con un error
relativo que no supera el error de redondeo unitario siendo

t+1
, si se usa truncamiento
1
2

t+1
, si se usa redondeo
Ultima revisin: 9 de septiembre de 2008.
1
Dentro de los clculos que ms problemas traen cuando trabajamos con aritmtica nita tenemos a la
sustraccin de nmeros casi iguales en (valor absoluto), conocido como cancelacin catastrca, la cual
genera la supresin de dgitos signicativos en el resultado.
Otro clculo que intenta evitarse fuertemente es la divisin por nmeros pequeos, puesto que un error
mnimo en el dividendo se traduce en uno mucho mayor en el resultado y que la falta de precisin podra
ocasionar un overow o prdida de dgitos signicativos.
Ejemplo. La estrategia de pivoteo (parcial o total) del algoritmo de eliminacin de Gauss trata de evitar este
ltimo problema buscando siempre el nmero ms grande por el que se pueda dividir. Dado que los nmeros
de punto otante estn ms concentrados cerca del cero entonces al dividir por un nmero ms grande es ms
probable conseguir una mejor aproximacin.
Otro problema comn es que sumar un nmero grande a uno pequeo puede hacer que el pequeo des-
aparezca. En ciertos casos esto no ocasiona un problema ya que, si tenemos un nmero de gran magnitud
probablemente podamos considerar al ms pequeo despreciable. Sin embargo debe tenerse mucho cuidado con
el orden de las operaciones ya que si, por ejemplo, sumamos una gran cantidad de numeros pequeos entre ellos
(que juntos tienen un peso considerable) y luego se lo sumamos a un nmero grande todo funcionar correcta-
mente pero si vamos sumando uno por uno los nmeros pequeos al grande entonces en cada paso el nmero
pequeo ser considerado despreciable y llegaremos a un resultado erroneo.
Denicin. Se dice que un algoritmo, funcin o procedimiento es inestable si pequeos errores en alguna
etapa del algoritmo (por ejemplo al principio) son ampliados en las etapas subsequentes degradando seriamente
el clculo nal.
Denicin. Se dice que un algoritmo, funcin o procedimiento est mal condicionado cuando pequeos
cambios en los datos de entrada producen grandes cambios en la salida.
Denicin. Dado un algoritmo, funcin u operacin, se puede analizar qu coecientes de condicin y es-
tabilidad tiene. Esto es interesante ya que permite saber si los errores con los que ya ingresan las variables
se amplican, mantienen o reducen al aplicar las operaciones. La forma de calcularlos para funciones de una
variable est dada por
(f(x)) =
f

(x)
f(x)
x (x) +
opf
(1)
dnde
opf
es el error intrnsico de la operacin que calcula la funcin f, los coecientes acompaando este
trmino son los llamados coecientes de estabilidad y los que acompaan al trmino (x) son los llamados
coecientes de condicin.
Observacin. Los coecientes de condicin no dependen del algoritmo si no de los errores de las variables y los
coecientes de estabilidad si dependen del algoritmo, procedimiento u orden en que se realizen las operaciones.
2. Factorizacin LU
Sea A R
n
queremos hallar, si existen, tres matrices L, U, P R
n
tal que L sea una matriz triangular
inferior, U sea una matriz triangular superior, P sea una matriz de permutacion, y que A = PLU.
La complejidad de resolver el sistema Ax = b es de O(n
3
). Si logramos obtener la factorizacion LU de A
podemos resolver el sistema equivalente en O(n
2
) tomando y = Ux y resolviendo el sistema Ly = Pb y luego
resolviendo el sistema Ux = y ambos en O(n
2
) por ser U y L matrices triangulares (se resuelve el sistema con
forward substitution primero y el segundo con back substitution). Si debemos resolver mltiples instancias de
la forma Ax = b
i
, el costo ser de O(n
3
) para la primera (para averiguar L y U), pero O(n
2
) para las siguientes
instancias.
Si se puede efectuar la eliminacin gaussiana en el sistema Ax = b sin intercambio de las, entonces es
posible factorizar A como el producto de L y U. Si se requiere intercambio de la, se puede encontrar P (matriz
de permutacin) tal que PA = LU. Para garantizar que esta factorizacin sea nica por lo general se pide que
haya unos en la diagonal de L (Doolitle) o en la de U (Crout).
2
Otra cosa buena que tiene esta factorizacin, es que si se la calcula, por ejemplo, durante el algoritmo de
eliminacion gaussiana, se puede ir almacenando los coecientes usados para poner ceros en una la en el mismo
lugar donde debera haber un nuevo cero, requiriendo as el algoritmo que calcula LU no ms memoria que para
almacenar la matriz original.
Teorema 2.1. Una matriz A no singular tiene factorizacin LU si cumple alguna de las siguientes equivalencias:
No emerge un pivote igual a cero durante la eliminacin gaussiana.
Todas las submatrices principales de A son no singulares.
Observacin. Adems, para toda matriz A no singular existe una P matriz de permutacin tal que PA tiene
factorizacin LU.
La factorizacin se realiza con U = M
(n1)
M
(n2)
. . . M
(3)
M
(2)
M
(1)
A
(1)
, donde M
k
es la k-sima matriz de
la transformacin gaussiana, formada por 1s en su diagonal, todos ceros excepto la columna k que a partir de la
la k + 1 contiene los multiplicadores (negados) usados para colocar ceros en cada la de A
(k)
. L es la inversa
del producto de las matrices M
(n1)
M
(n2)
. . . M
(3)
M
(2)
M
(1)
, lo que es igual a la matriz triangular inferior con
unos en su diagonal cuyos nicos elementos debajo de la diagonal son los multiplicadores usados para triangular
A.
Este mtodo sufre de inestabilidad numrica cuando la matriz A tiene un numero de condicin grande. Se
puede utilizar pivoteo parcial (intercambiar las para dividir por el numero de mayor modulo en la primera
columna), o pivoteo total (intercambiar las y columnas para dividir por el numero de mayor modulo en la
submatriz que aun no factorizamos), para mejorar la estabilidad numrica de este mtodo (que no es ms que
la eliminacin gaussiana).
3. Factorizacin QR
Si podemos escribir una matriz A = QR donde Q es ortonormal y R triangular superior, luego podramos
resolver el sistema Ax = b de la siguiente forma:
Ax = b QRx = b Q
t
QRx = Q
t
b Rx = Q
t
b
y como R es triangular superior, esto se puede resolver en O(n
2
). La pregunta es ahora, cmo conseguir esta
factorizacin, cmo encontrar estas Q y R?
Teorema 3.1. Si A es una matriz cuadrada en R
nn
entonces existen Q ortogonal tal que A = QR, con R
triangular superior. Si adems A es no singular, existen nicas Q y R tales que R tiene diagonal positiva.
Dado que el producto de matrices ortonormales es una matriz ortonormal, una forma razonable de encontrar
esta factorizacin es triangular superiormente a A multiplicndola por matrices ortonormales. Si pensamos en
operaciones que conservan la norma (ya que esto caracteriza las matrices ortonormales), las rotaciones y las
reexiones surgen como opciones interesantes. En esta idea se basan los dos mtodos siguientes para encontrar
la factorizacin QR de cualquier matriz A R
nn
.
Reexiones (Householder): Una reexin de householder es una tranformacin que toma un vector y lo
reeja sobre un plano. Esta tranformacin se puede construir de manera que reeje un vector de forma tal de
anular todas sus coordenadas menos una.
La idea de su uso para triangular una matriz es obtener un conjunto de matrices reectoras ortogonales
Q
(1)
Q
(2)
. . . , Q
(i)
cada una de las cuales al multiplicar a A reejan la columna i de manera de generar ceros
en a
ii
, a
i(i+1)
, . . . , a
in
. En el caso particular de i = 1, si llamamos x a la columna en la cual se quieren colocar
todos ceros excepto en la primer posicin, buscamos Q tal que Qx = y, con y
T
= (|x|
2
, 0, . . . , 0). Por haber
garantizado que |x|
2
= |y|
2
, existe un teorema que nos dice que esa reexin Q existe, es nica y tiene el
comportamiento buscado.
De hecho, tambin se puede probar que Q = I 2uu
T
tomando u =
xy
xy
2
es una forma de construir
la matriz buscada. Multiplicando A por esta matriz Q
(1)
colocamos ceros en toda la columna 1 debajo de la
3
primer la. Para el resto de las columnas se construye Q
i
de forma anloga pero analizando la submatriz inferior
derecha de la nueva A, y luego completando la matriz obtenida con la identidad para obtener la matriz Q
i
que
pone nuevos ceros en la columna i y no altera los ceros anteriores.
Si analizamos la forma de denir Q = I 2uu
T
, veremos que esta matriz de tranformacin lo que hace
es reejar todos los vectores respecto del subespacio ortogonal a u. Al construir u se puede elegir el signo del
vector y de manera de evitar una cancelacin con x y reducir los errores de clculos.
En la prctica lo ms eciente es nunca construir directamente la matriz Q, sino operar distribuyendo para
no hacer el producto uu
T
, con lo cual la factorizacin tiene complejidad O(
2
3
n
3
).
Rotaciones (Givens): Una matriz de rotacin P diere de la identidad en cuatro elementos como mximo.
Estos tienen la forma p
ii
= p
jj
= cos() y p
ij
= p
ji
= sen() para algn e i ,= j. Se puede demostrar que
con cualquier matriz de rotacin P, PA diere de A slo en las las i y j. Adems, para cualquier j ,= i se
puede elegir un ngulo tal que PA tenga un elemento cero para (PA)
ij
. Adems, toda matriz de rotacin P
es ortogonal ya que por denicin PP
T
= I.
Usando esto, para obtener cada cero que necesito debajo la diagonal de A para triangularla, multiplico por
una matriz de rotacin Q
(ik)
que rota ese vector (la columna i de A) de manera tal que coloca un cero en la
coordenada k; esto lo repito para cada coordenada que quiero anular, y a su vez para cada columna. La matriz
Q es el producto de todas las Q
(ik)
traspuesto, y sigue siendo ortogonal. R es R = Q
T
A.
Una ventaja sobre HouseHolder es que puede poner ceros en posiciones especcas de una matriz alterando
muy poco la estructura original, algo til si por ejemplo se quiere trabajar con matrices esparsas o con la forma
de Hessenberg. La complejidad del mtodo es de O(
4
3
n
3
).
Observacin. Una gran particularidad y ventaja de ambos mtodos es que son numricamente muy estables.
Ejemplo. Esta factorizacin se usa tanto en el algoritmo QR para calcular autovalores como para resolver el
problema de cuadrados mnimos trabajando con el sistema equivalente Rx Q
T
b.
4. Resolucion de sistemas con matrices especiales
En muchos casos cuando modelamos matemticamente un problema nos encontramos que por la manera
de representar los datos la matriz construida cumple con ciertas caractersticas especiales. A continuacin
nombramos algunas de ellas que, usadas correctamente, pueden ayudarnos a resolver el problema de manera
ms eciente.
Denicin: Sea A R
nn
se la llama diagonal dominante cuando cumple que
[a
ii
[
n

j=i
[a
ij
[ para todo i 1, . . . , n
o sea, en cada la, el mdulo del elemento en la diagonal es mayor o igual a la suma del mdulo del resto de
los elementos de la la. Se llama estrictamente diagonal dominante cuando la desigualdad es estricta.
Teorema 4.1. Las matrices diagonal dominantes cumplen con las siguientes propiedades
A es no singular.
Tiene factorizacin LU sin pivoteo y los clculos son estables respecto al crecimiento de los errores de
redondeo.
Jacobi y Gauss-Seidel convergen.
Ejemplo de uso: En el sistema lineal para determinar el spline cbico que interpola una serie de puntos.
Teorema 4.2. Si A tiene factorizacin LU y A es simtrica, se puede probar fcilmente que A = LDL
t
donde
D es diagonal. Si adems la diagonal es de elementos > 0, podemos escribir A = L

DL
t
= L

D(L

D)
t
=
KK
t
(llamada factorizacin de Cholesky donde K es triangular inferior con diagonal estrictamente positiva).
4
Denicin. Se dice que una matriz matriz A R
nn
es simtrica denida positiva si cumple A = A
t
y
(x R
n
, x ,= 0) x
t
Ax > 0 (o para semi-denida positiva).
Teorema 4.3. Las matrices simtricas denidas positivas cumplen con las siguientes propiedades
Sus menores principales son no singulares, luego tambin tiene factorizacin LU.
A tiene factorizacin de Cholesky ya que d
ii
> 0 para cada i 1, . . . , n.
(a
ij
)
2
< a
ii
a
jj
para cada i ,= j.
A simtrica es d.p. si y slo si sus primeras submatrices principales tienen determinante positivo.
Son aptas para el mtodo de direcciones conjugadas.
Denicin. Una matriz A R
nn
es banda-pq cuando cumple
a
ij
= 0 si j < i p j > i +q
para p, q 0, o sea: A es una matriz para la que bajo la p-sima subdiagonal tiene slo ceros y sobre la q-sima
superdiagonal tiene slo ceros. Cuando p y q son cero la matriz es diagonal.
Teorema 4.4. Las matrices banda-pq cumplen con las siguientes propiedades
Se puede ahorrar mucho espacio guardando slo los elementos de la banda sabiendo que el resto son ceros.
Si A tiene factorizacin LU entonces L es banda q y U es banda p.
Si se aprovecha esta propiedad de A, con por ejemplo A tridiagonal, se puede factorizar A en A = LU
(Crout) con slo O(5n) multiplicaciones y O(3n) sumas.
5. Inestabilidad numrica al resolver sistemas lineales
Dado un sistema lineal de la forma Ax = b, por los problemas que uno se encuentra al tratar con aritmtica
nita puede llegar a una solucin x tal que se cumpla A x =

b con [b

b[ pequeo. Puede uno suponer
que la solucin es sucientemente buena? La respuesta en general es no y la cota de error depender del
condicionamiento de la matriz.
Una matriz no singular A se dice mal condicionada cuando para el sistema Ax = b un pequeo cambio
relativo en b puede causar un cambio relativo grande en la solucin x. El grado de mal condicionamiento est
indicado por el nmero de condicin de A,
(A)
def
= |A||A
1
|
para cualquier norma consistente. Se cumple que siempre (A) 1.
Sea x la solucin aproximada hallada del sistema Ax = b, siendo A no singular; sea el residuo r = b A x =
b

b, entonces valen las siguientes cotas para el error absoluto y relativo

abs
(x)
def
= |x x| |r| |A
1
|

r
(x)
def
=
x x
x
|A| |A
1
|
r
b
= (A)
r
(b)
Un nmero de condicin elevado se debe a que la matriz tiene dos o ms columnas casi linealmente depen-
dientes, con lo que la matriz resulta casi singular, y se aproxima a tener innitas soluciones para el sistema.
Observacin. Visto geomtricamente en el plano, con A R
22
, las dos rectas determinadas por las columnas
de A son casi paralelas, con lo cual determinar el punto de interseccin se presta a mucho error. De hecho,
una perturbacin mnima en el sistema, producto de los errores, genera que el punto de interseccin se mueva
drsticamente.
Ejemplo. Sea una matriz A cuyas columnas son los vectores (1; 1,0001)
t
y (2; 2)
t
, b = (3; 3,0001)
t
. La solucin
verdadera es igual a (1; 1), mientras que por errores de redondeo se llega a (3; 0). En este caso, el nmero de
condicin de A es 60000, y el error relativo de x es igual a 2.
5
6. Mtodos iterativos para sistemas lineales
Los mtodos iterativos tienen como objetivo aproximar la solucin de un sistema de ecuaciones lineales
partiendo de un caso base inicial y generando aproximaciones sucesivas que deberan acercarse al la solucin
excta del sistema. Difcilmente se usen estos mtodos para resolver sistemas lineales chicos, ya que el tiempo
necesario para conseguir la exactitud necesaria supera a la de un mtodos directo, pero se vuelven ecientes en
el caso de sistemas grandes con un alto porcentaje de elementos ceros.
Denicin. Dada A R
nn
se dene al radio espectral de A, (A) como [[ dnde es el autovalor de A
de mayor mdulo.
Teorema 6.1. Algunos resultados de lgebra importantes en mtodos iterativos son que dada A R
nn
(A) < 1 sii lm
k
(A
k
) = 0
(A) < 1 entonces (I A) es no singular y (I A)
1
=

k=0
A
k
(A) |A| para toda norma inducida
Teorema 6.2. La sucesin x
k

k0
tal que x
k
= Tx
k1
+C converge a la solucin del sistema x = Tx+C para
cualquier x
0
inicial si y solo si (T) < 1. Su demostracin se basa en las propiedades enunciadas arriba, y lo
que nos permite probar es que para ciertos casos particulares de esa sucesin y para algunos tipos de matrices,
la sucesin converge para cualquier x
0
(se puede probar viendo nicamente que (T) < 1).
Mtodo de Jacobi: En este marco tenemos el mtodo de Jacobi, cuya idea consiste en resolver la i-sima
ecuacin de Ax = b para x
i
en funcin de las dems variables, y generar x
k+1
i
a partir de los componentes de
x
k
cuando k 1. O sea,
x
k+1
i
=
b
i

n
j=1
j=i
a
ij
x
k
j
a
ii
(2)
para i = 1, . . . , n suponiendo a
ii
,= 0. Es fcil ver la forma matricial de expresar esto. Dado Ax = b, descom-
ponemos A = (D L U) (donde D es la matriz diagonal cuya diagonal coincide con la de A y L y U las
partes estrictamente triangular inferior y superior de A. Con esta notacin queda la forma matricial de Jacobi
x
k+1
= D
1
(L +U)x
k
+D
1
b (3)
Se puede probar que si A es una matriz estrictamente diagonal dominante, tomando T
j
= D
1
(L + U) y
C
j
= D
1
b, el mtodo de Jacobi converge para todo x
0
inicial (probando que (T
j
) < 1).
Mtodo de Gauss-Seidel: Un mtodo que introduce una idea para mejorar Jacobi es el de Gauss-Seidel.
La idea detrs del mismo es, si se quiere calcular x
k
i
, como ya fueron calculados x
k
1
, . . . , x
k
i1
, usar estos nuevos
valores como mejores aproximaciones en lugar de x
k1
1
, . . . , x
k1
i1
. Matricialmente esta idea se traduce en la
siguiente iteracin
x
k+1
= (D L)
1
Ux
k
+ (D L)
1
b (4)
Nuevamente para que (D L) sea no singular basta con pedir a
ii
,= 0. Al igual que Jacobi, si A es una
matriz e.d.d. entonces, tomando T = (D L)
1
U y C = (D L)
1
b este mtodo converge. Generalmente el
mtodo de Gauss-Seidel tiene una mejor velocidad de convergencia, pero habr casos donde Jacobi converger
y este no, y viceversa (ya que recordemos que ambos tienen matrices de iteracin distintas, de las cuales una
puede cumplir las hiptesis de convergencia y la otra no). Otro hecho interesante es que a menor (A) mayor
velocidad de convergencia.
Por ltimo, est el detalle de que el algoritmo de Gauss-Seidel requiere menos memoria, ya que puede pisar
las partes de la nueva aproximacin ya calculadas. Jacobi en cambio debe guardar y hacer toda una copia.
6
7. Direcciones conjugadas
El mtodo de direcciones conjugadas se aplica para resolver sistemas Ax = b en los casos en los que la
matriz A es simtrica denida positiva. Es un mtodo iterativo que se aproxima a la solucin x

del sistema
movindose sobre direcciones A-conjugadas [2].
Esto se logra convirtiendo el problema anterior en un problema de optimizacin, que es hallar el mnimo
de una funcin Q(x). Esta funcin se elige especialmente para que sus mnimos coincidan con las soluciones de
Ax = b.
Q(x) =
1
2
x
t
Ax b
t
x (5)
Teorema 7.1. El gradiente de Q(x) es Q(x) = Ax b que es igual a cero cuando se satisface Ax = b. Es
posible armar que todos estos puntos crticos son mnimos pues al derivar nuevamente el gradiente se obtiene
A y como A es denida positiva todo punto crtico de Q(x) es un mnimo. 104 C h a p t e r 5 . C o n j u g a t e G r a d i e n t M e t h o d s
e
1
e
2
x
*
x
0
x
1
.
.
.
Figure 5.1 Successive minimizations along the coordinate directions nd the
minimizer of a quadratic with a diagonal Hessian in n iterations.
There is a simple interpretation of the properties of conjugate directions. If the matrix
A in (5.2) is diagonal, the contours of the function () are ellipses whose axes are aligned
with the coordinate directions, as illustrated in Figure 5.1. We can nd the minimizer of this
function by performing one-dimensional minimizations along the coordinate directions
e
1
, e
2
, . . . , e
n
in turn.
When A is not diagonal, its contours are still elliptical, but they are usually no longer
aligned with the coordinate directions. The strategy of successive minimization along these
directions in turn no longer leads to the solution in n iterations (or even in a nite number
of iterations). This phenomenon is illustrated in the two-dimensional example of Figure 5.2
We can recover the nice behavior of Figure 5.1 if we transform the problem to make
A diagonal and then minimize along the coordinate directions. Suppose we transform the
problem by dening new variables x as
x S
1
x, (5.8)
where S is the n n matrix dened by
S [p
0
p
1
p
n1
],
Figura 2: Paraboloide y curvas de nivel en R
2
. Minimizaciones siguiendo los vectores cannicos.
Un esquema para los algoritmos de optimizacin es una sucesin x
k+1
= x
k
+
k
d
k
que tiende a la solucin,
siendo d
k
la direccin en la que avanza el mtodo y
k
cunto avanza. El algoritmo debe determinar cmo
elegirlos.
Calculando Q(x + d) se obtiene una expresin en funcin de esos tres factores. Siendo que se pretende
minimizar Q(x), se puede derivar en funcin de y se obtiene la manera de calcularla, y siempre existe un valor
d posible para que el movimiento resulte positivo.
=
d
t
(b Ax)
d
t
Ad
Ejemplo. En el caso de R
2
, como puede verse en la Figura 2, la funcin obtenida es un paraboloide, las curvas
de nivel son elipses con centro en el origen donde se alcanza el mnimo. Si A es diagonal, los ejes de los elipses
estn alineados con los ejes de coordenadas, con lo que tomando los vectores cannicos como direcciones, en
cada iteracin obtengo la coordenada en ese eje de la solucin nal. Es decir, en cada iteracin, me acerco al
punto en esa direccin. Por lo tanto, en 2 iteraciones el mtodo converge.
Sin embargo, como sucede en la mayora de los casos, A no es diagonal y los ejes de las elipses no coinciden
con los vectores cannicos e
i
. En esos casos, utilizarlos como direcciones de movimiento puede llevar a que el
mtodo requiera ms iteraciones para converger, no necesariamente una cantidad nita. Por lo tanto, se busca
moverse en otras direcciones. Aqu es donde entran en juego las direcciones A-conjugadas.
7
Denicin. Sea A R
nn
denida positiva, los vectores d
1
, . . . , d
n
tal que d
i
,= 0 son direcciones A-
conjugadas si y slo si d
t
i
Ad
j
= 0 para todo i ,= j. Si adems se cumple que d
t
i
Ad
i
= 1, son direcciones
A-ortonormales.
Denicin. Llamaremos residuo del sistema lineal a
r(x)
def
= Q(x) = Ax b
Teorema 7.2. Sea A R
nn
simtrica denida positiva y d
1
, . . . , d
n
direcciones A-conjugadas,
Las direcciones A-conjugadas resultan linealmente independientes.
Si en la sucesin anterior se toman las direcciones A-conjugadas de la matriz A, la sucesin converge y
en a lo sumo n pasos (en la terica lo vimos slo para direcciones A-ortonormales, vale tambin para
A-conjugadas).
El residuo de una iteracin es ortogonal a todas las direcciones anteriores, es decir, si r
k
= b Ax
k
,
entonces r
t
k
d
i
= 0 para todo i 0, . . . , k 1.
Teorema 7.3. Sean d
1
, . . . , d
n
direcciones A-conjugadas y S = [d
1
, . . . , d
n
] una matriz que tiene como
columnas a las direcciones entonces se puede denir un nuevo conjunto de variables
x = S
1
x
y se dene la nueva

Q( x) como

Q( x)
def
= Q(S x) =
1
2
x
t
(S
t
AS) x (b
t
S) x
de esta forma, S
t
AS es diagonal y se vuelve al caso anterior, puesto que cada direccin e
i
en el subespacio
generado por S equivale a la direccin d
i
en el espacio cannico. Tomando cualquier conjunto de direcciones
A-conjugadas se puede aplicar el algoritmo de direcciones conjugadas.
Mtodo del gradiente conjugado: Este mtodo es es una forma particular de elegir las direcciones A-
conjugadas para luego aplicar el algoritmo anterior. Denido el residuo en el paso k como
r
k
def
= r(x
k
) = Ax
k
b
la direccin en el paso k es elegida como combinacin lineal entre la direccin de mximo descenso (el opuesto
del gradiente, que equivale al opuesto del residuo) y la direccin anterior d
k1
d
k
= r
k
+
k
d
k1
donde
k
se dene bajo el requerimiento de que d
k1
y d
k
sean A-conjugadas

k
=
r
t
k
Ad
k1
d
t
k1
Ad
k1
siendo d
0
= r
0
.
Lo interesante de este mtodo es que el clculo de cada direccin se basa solamente en la anterior, por lo
que no es necesario mantener en memoria los valores de todas las direcciones ya recorridas.
Teorema 7.4. Las direcciones as generadas verican que para todo i 0, . . . , k 1
r
0
, . . . , r
k
) = d
0
, . . . , d
k
) = r
0
, Ar
0
, . . . , A
k
r
0
)
d
t
k
Ad
i
= 0
Es decir, verican ser A-conjugadas, puesto que cada direccin generada es A-ortogonal respecto de las anteriores.
Tambin se cumple que los residuos son mutuamente ortogonales.
Denicin. El subespacio r
0
, Ar
0
, . . . , A
k
r
0
) se denomina subespacio de Krylov de grado k de r
0
.
8
Observacin. Cabe destacar que el nombre Gradiente Conjugado para el mtodo es una eleccin poco ade-
cuado, puesto que son las direcciones que se utilizan las que son A-conjugadas, y no los gradientes.
Observacin. El mtodo del gradiente conjugado puede verse tanto como un algoritmo exacto para la reso-
lucin de sistemas lineales (puesto que termina como mucho en n pasos o incluso menos dependiendo de la
distribucin de los autovalores de la matriz) o como un mtodo iterativo ya que va generando una sucesin de
aproximaciones que convergen a x

solucin del sistema.


8. Interpolacin
Muchas veces nos encontramos con un conjunto de puntos (x
i
, f(x
i
)) que provienen de una funcin descono-
cida f y nos gustara poder estimar el valor de la funcin en algn punto [x
0
, x
n
] para el cual no tenemos
datos. Otra razn para interpolar puede ser que la funcin original es demasiado complicada para tratar con ella
y queremos simplicarla tomando slo la informacin contenida en algunos puntos y sintetizando una funcin
ms simple. Las funciones interpoladoras hacen justamente lo que estamos buscando.
Es til poder interpolar con polinomios porque son una clase de funciones muy conocida, que tiene derivadas
e integrales fciles de calcular y que tambin son polinomios. Los polinomios de Taylor concentran su exactitud
alrededor del punto sobre el que estn centrados, pero a medida que se aleja del centro deja de ser una buena
aproximacin, por lo que en general no sirven para intervalos medianamente grandes.
8.1. Polinomio interpolador de Lagrange
A partir de n + 1 puntos x
0
, x
1
, . . . , x
n
podemos obtener el polinomio de menor grado que pasa por todos
ellos. Se construye un cociente L
n,k
(x) con la propiedad de que L
n,k
(x
i
) = 0 cuando i ,= k y L
n,k
(x
k
) = 1. Un
polinomio que cumple esto es el siguiente:
L
n,k
(x) =
(x x
0
)(x x
1
) (x x
k1
)(x x
k+1
) (x x
n
)
(x
k
x
0
)(x
k
x
1
) (x
k
x
k1
)(x
k
x
k+1
) (x
k
x
n
)
=
n

i=0
i=k
(x x
i
)
(x
k
x
i
)
Figura 3: Polinomio L
n,k
(x).
Teorema 8.1. Si x
0
, x
1
, . . . , x
n
son n + 1 nmeros distintos y si f es una funcin cuyos valores estn dados
en esos nmeros, entonces existe un nico polinomio P de grado a lo sumo n, con la propiedad de que
f(x
k
) = P(x
k
) para k = 0, . . . , n. Este polinomio est dado por:
P(x) =
n

k=0
f(x
i
)L
n,k
(x)
Teorema 8.2. Sean x
0
, x
1
, . . . , x
n
en [a, b], f C
n+1
[a, b] entonces para todo x en [a, b], existe en [a, b], que
depende de x, tal que:
f(x) = P(x) +
f
(n+1)
((x))
(n + 1)!
n

i=0
(x x
i
)
9
El uso de los polinomios de Lagrange plantea dos problemas inmediatos: uno es que el trmino del error es
difcil de aplicar. El otro problema es que teniendo una aproximacin de grado n, si se quiere obtener ahora la
de grado n + 1, no hay forma de aprovechar los clculos ya hechos para ahorrar trabajo en el clculo del nuevo
polinomio. Como el polinomio es nico, veremos que se puede encontrar otra forma de construirlo que permita
agregar ms puntos en el futuro sin un costo tan alto.
Denicin. Sean k nmeros enteros distintos m
1
, . . . , m
k
que cumplen 0 m
i
n para cada i, se dene a
P
m
1
,m
2
,...,m
k
(x) como el polinomio interpolante en los puntos x
m
1
, x
m
2
, . . . , x
m
k
.
Teorema 8.3. Sea f denida en n+1 puntos distintos x
0
, . . . , x
n
con x
i
y x
j
dos puntos del conjunto distintos
entre si y P(x) el polinomio de Lagrange de grado a lo sumo n que interpola a f en esos n+1 puntos, entonces
el polinomio puede expresarse como
P(x) =
(x x
j
)P
0,1,...,j1,j+1,...,n
(x) (x x
i
)P
0,1,...,i1,i+1,...,n
(x)
(x
i
x
j
)
De acuerdo con el Teorema 8.3, los polinomios interpolantes pueden generarse de manera recursiva apro-
vechando polinomios ya calculados.
8.2. Forma de Newton del polinomio interpolador
Denicin. La diferencia dividida cero de f respecto a x
i
se dene como
f[x
i
] = f(x
i
)
y la k-sima diferencia dividida relativa a x
i
, x
i+1
, . . . , x
i+k
est dada por
f[x
i
, x
i+1
, . . . , x
i+k
] =
f[x
i+1
, x
i+2
, . . . , x
i+k
] f[x
i
, x
i+1
, . . . , x
i+k1
]
x
i+k
x
i
Teorema 8.4. Se puede demostrar que el polinomio interpolador P
n
(x) se puede expresar como
P
n
(x) = a
0
+a
1
(x x
0
) +a
2
(x x
0
)(x x
1
) + +a
n
(x x
0
)(x x
1
) (x x
n1
)
donde a
k
= f[x
0
, . . . , x
k
].
Usando esta denicin se puede ir armando el polinomio interpolador de una serie de puntos de forma
incremental, de manera que para agregar un punto ms al polinomio se puede aprovechar lo ya calculado.
8.3. Splines
Los polinomios tienen una gran desventaja como interpoladores y es que cuanto mayor es el grado, ms
oscilan. Un procedimiento alternativo consiste en dividir el intervalo en una serie de subintervalos y en cada
subintervalo construir un polinomio distinto de aproximacin, basndose en la idea de que si cada intervalo usa
un polinomio de un grado pequeo, se obtendr un resultado mucho mejor que con Lagrange.
La aproximacin polinmica fragmentaria ms simple consiste en unir una serie de puntos mediante una
serie de segmentos de rectas. La aproximacin por funciones lineales ofrece una desventaja, que no se tiene la
seguridad de que haya diferenciabilidad en los extremos de los subintervalos lo cual geomtricamente signica
que la funcin interpolante no es suave en esos puntos.
El tipo ms simple de funcin de polinomio fragmentario diferenciable en un intervalo entero [x
0
, x
n
] es
la funcin obtenida al ajustar un polinomio cuadrtico entre cada par consecutivo de nodos. Esto se hace
construyendo una cuadrtica en [x
0
, x
1
] que concuerde con la funcin en x
0
y en x
1
, otra cuadrtica en [x
1
, x
2
]
que concuerde con la funcin en x
1
y en x
2
y as sucesivamente. Un polinomio cuadrtico general tiene tres
constantes arbitrarias, y nicamente se requieren dos condiciones para ajustar los datos en los extremos de cada
intervalo, por ello existe una exibilidad que permite seleccionar la cuadrtica de modo que la interpolante tenga
una derivada continua en [x
0
, x
n
]. El problema se presenta cuando hay que especicar las condiciones referentes
10
Figura 4: Diferencias divididas.
a la derivada de la interpolante en los extremos x
0
y x
n
: no hay constantes sucientes para cerciorarse de que
se satisfagan las condiciones.
La aproximacin polinmica fragmentaria ms comn utiliza polinomios de grado tres entre cada par con-
secutivo de puntos y recibe el nombre de interpolacin por trazadores cbicos (o spline cbico). Un polinomio
cbico general contiene cuatro constantes para variar, as ofrece suciente exibilidad para garantizar que el
interpolante no slo sea continuamente diferenciable en el intervalo, sino que adems tenga una segunda deri-
vada continua en el intervalo, aunque no se espera que las derivadas segundas coincidan con las de la funcin
ni siquiera en los nodos.
Denicin: Dada una funcin f denida en [a, b] y un conjunto de nodos a = x
0
< x
1
< . . . < x
n
= b un
spline cbico S para f es una funcin que cumple con las siguientes condiciones:
a. S(x) es un polinomio cbico denotado S
j
(x) en el subintervalo [x
j
, x
j+1
] para j de 0 a n 1
b. S(x
j
) = f(x
j
) para j de 0 a n
c. S
j+1
(x
j+1
) = S
j
(x
j+1
) para j de 0 a n 2
d. S

j+1
(x
j+1
) = S

j
(x
j+1
) para j de 0 a n 2
e. S

j+1
(x
j+1
) = S

j
(x
j+1
) para j de 0 a n 2
f. Se satisface una de las siguientes condiciones de frontera:
S

(x
0
) = S

(x
n
) = 0 (spline libre o natural)
S

(x
0
) = f

(x
0
) y S

(x
n
) = f

(x
n
) (spline sujeto)
Generalmente en las condiciones de frontera sujeta se logran aproximaciones ms exactas, ya que usan ms
informacin acerca de la funcin, pero se requiere tener valores de la derivada en los extremos. Existen tambin
otras condiciones de frontera posibles adems de la natural o la sujeta.
Cuando deseo interpolar un conjunto de puntos x
0
, . . . , x
n
, el planteo de todas las condiciones mencionadas
para S(x) se puede llevar a la forma de un sistema de ecuaciones tridiagonal que queda en funcin de uno de
los cuatro coecientes de cada spline y resulta ser estrictamente diagonal dominante, por lo que tiene solucin
nica, puede almacenarse usando poco espacio y resolverse relativamente rpido.
11
9. Cuadrados mnimos
Se desea aproximar el valor de una funcin de la cual se tienen puntos con cierto error pero se sospecha que
la fuente corresponde a una funcin determinada, lineal por poner un ejemplo. En este caso, lo ideal sera hallar
los valores de c y d (si se trata de una recta) para los cuales se minimiza el error, es decir, la distancia entre la
recta y = cx +d y los puntos.
Figura 5: Aproximacin de puntos por cuadrados mnimos lineales [1].
Una de las mejores forma de plantear esto es determinar los coecientes que minimicen el error dado por la
suma de los cuadrados de las diferencias entre los valores de la funcin aproximadora y los puntos dados, o sea
que minimicen
m

i=1
[f(x
i
) p(x
i
)]
2
donde m es la cantidad de puntos y p(x) = cx + d en el caso lineal. Existen otros criterios de minimizacin de
error como, por ejemplo, si minimizamos
m

i=1
[f(x
i
) p(x
i
)[
este criterio se llama desviacin absoluta. El problema que tiene es que la funcin valor absoluto no es derivable
en el cero y que no necesariamente se puede obtener la solucin. Otro de ellos se llama minimax y consta de
minimizar
max
1im
[f(x
i
) p(x
i
)[
su problema es el de no poder ser resuelto mediante mtodos elementales y darle demasiada importancia a pocos
elementos anmalos (outliers).
Algunas de las ventajas del mtodo de cuadrados mnimos es que concede mayor valor relativo al punto que
est alejado del resto de los datos, pero a su vez no permitir que ese punto domine enteramente la aproximacin.
Tambin al carecer de la funcin mdulo (que entorpece la derivabilidad) es una eleccin cmoda para trabajar.
Por ltimo, existen resultados de probabilidad y estadstica que tambin respaldan la eleccin de los cuadrados
mnimos para el objetivo planteado.
El problema general de minimizar la suma de las diferencias al cuadrado en funcin de los coecientes de la
funcin p(t) se puede resolver derivando respecto cada uno de ellos e igualando a cero las derivadas, con lo que
se llega a las llamadas ecuaciones normales, sistema de ecuaciones cuya solucin son los coecientes buscados
que minimizan el error.
12
Interpretacin Matricial [3, 4]: Si tenemos un conjunto de m mediciones de la forma (x
i
, y
i
) y queremos
aproximarlos por una funcin modelo p(t) que puede ser expresada como
p(t) =
n

j=0
a
j

j
(t)
donde
0
, . . . ,
n
es un conjunto l.i. de funciones entonces lo que se quiere es minimizar f(x) = |Ax
b|
2
2
, donde A es la matriz que tiene los nmeros multiplicando los coecientes a determinar, x contiene a los
coecientes y b a los y
i
. El sistema Ax = b queda denido como
_

0
(t
1
)
1
(t
1
)
n
(t
1
)

0
(t
2
)
1
(t
2
)
n
(t
2
)
.
.
.
.
.
.
.
.
.

0
(t
m
)
1
(t
m
)
n
(t
m
)
_

_
_

_
a
0
a
1
.
.
.
a
n
_

_
=
_

_
y
0
y
1
.
.
.
y
m
_

_
En el caso de aproximar con polinomios se puede usar
n
(t) = t
n
.
En la mayora de los casos el sistema Ax = b tal como est no tendr solucin por ser sobredeterminado.
Por lo tanto se intenta encontrar la solucin ms cercana, minimizando f. Se puede probar que f(x) = 0 si y
slo si A
t
Ax = A
t
b.
Interpretacin Geomtrica: Siguiendo con la forma matricial del mismo, buscamos
mn
x
|Ax b|
2
2
= mn
y Im(A)
|y b|
2
2
Si b Im(A) es claro que encontraremos un x tal que Ax es b y por lo tanto y b es cero, o sea, la funcin
modelo elegida para explicar los datos coincide con cada uno de ellos. En caso de que b / Im(A) lo que nos
interesar buscar es el y Im(A) ms cercano a b, y este es justamente la proyeccin ortogonal de b sobre la
imagen de A como puede verse en la Figura 6. Siguiendo este razonamiento formalmente es fcil probar que el
x buscado no es otro que el que cumple Ax = b
1
donde b
1
es la proyeccin ortogonal de b en Im(A).
dqbjV
2007/5/15
page 39
1.3. Matrix Computations 39
1
6
Ax
b r = b Ax
R(A)
Figure 1.3.1. Geometric characterization of the least squares solution.
Here Ax is the orthogonal projection onto R(A) and r = b Ax N(A
T
). This
geometric interpretation is illustrated in Figure 1.3.1. Note that although the solu-
tion x to the least squares problem may not be unique the decomposition (1.3.20)
always is unique.
We now give a necessary and sucient condition for the least squares solution
to be unique.
Theorem 1.3.2.
The matrix A
T
A is positive denite and hence nonsingular if and only if the
columns of A are linearly independent, that is, when rank (A) = n. In this case the
least squares solution x is unique and given by
x = (A
T
A)
1
A
T
b. (1.3.21)
Proof. If the columns of A are linearly independent, then x = 0 Ax = 0.
Therefore x = 0 x
T
A
T
Ax = Ax
2
2
> 0, and hence A
T
A is positive denite.
On the other hand, if the columns are linearly dependent, then for some x
0
= 0
we have Ax
0
= 0. Then x
T
0
A
T
Ax
0
= 0, and therefore A
T
A is not positive denite.
When A
T
A is positive denite it is also nonsingular and (1.3.21) follows.
Example 1.3.4.
The comet Tentax discovered in 1968 is supposed to move within the solar
system. The following observations of its position in a certain polar coordinate
system have been made
r 2.70 2.00 1.61 1.20 1.02
48

67

83

108

126

By Keplers rst law the comet should move in a plane orbit of elliptic or hyperbolic
form, if the perturbations from planets are neglected. Then the coordinates satisfy
r = p/(1 e cos ),
Figura 6: Interpretacin geomtrica de Cuadrados Mnimos [4].
Para que |b y|
2
sea mnima, con y perteneciendo a un subespacio S, entonces es necesario que b y
pertenezca al complemento ortogonal de S. Es decir, que y sea la proyeccin ortogonal de b sobre S, o, en este
caso, la imagen de A. Por lo tanto, b Ax debe pertenecer a Im(A)

= Null(A
t
). Para que eso suceda, debe
pasar que A
t
(Ax b) = 0, que es la solucin al problema de cuadrados mnimos.
Algunas observaciones que se desprenden del enfoque anterior es que el problema de cuadrados mnimos
siempre tiene solucin, esta es nica sii Null(A) = 0, y cuando Ax = b tiene una nica solucin entonces lo
mismo vale para A
t
Ax = A
t
b y ambos sistemas coinciden en ella (permitindonos tratar todos los problemas de
cuadrados mnimos con este enfoque). Tambin notemos que lo bueno de resolver A
t
Ax = A
t
b es que la matriz
A
t
A es cuadrada, simtrica y al menos semi denida positiva (cuando la solucion es nica es denida postitiva).
A pesar de las bondades del mtodo anterior, en casos donde la matriz A est mal condicionada esta
caracterstica puede empeorar an ms en el sistema con A
t
A, razn por la cual existen mtodos alternativos
numricamente ms estables para resolver el problema de cuadrados mnimos.
13
9.1. Cuadrados mnimos y QR
Si Q es una matriz ortogonal, minimizar la norma de Ax b o la de Q
t
(Ax b) es lo mismo. Por lo tanto,
se busca la descomposicion QR de la matriz A para resolver ms fcilmente el sistema. Segn el rango de la
matriz A se puede dividir en dos casos para caracterizar mejor el conjunto de soluciones.
9.1.1. Rango completo
Se plantea el nuevo sistema Q
t
Ax = Q
t
b que equivale a Rx = c, donde c son los primeros m elementos de c
y d los restantes. El residuo s resulta s = c Rx, donde los primeros m elementos de s son iguales a c

Rx y
los restantes a d. De esta forma, el cuadrado del residuo, es decir, lo que se busca minimizar, es igual a
|s|
2
2
= | c

Rx|
2
2
+|d|
2
2
(6)
Puesto que el segundo trmino, d, no depende de x, se busca minimizar el primero. Como

R era no singular,
entonces la solucin del sistema

Rx = c es nica y es la solucin de cuadrados mnimos. Cabe destacar que el
trmino |d|
2
2
es la norma del residuo asociado con la solucin obtenida.
R =
_

R
0
_
=
_

_
r
11
r
12
r
13
0 r
22
r
23
0 0 r
33
0 0 0
0 0 0
0 0 0
_

_
c =
_
c
d
_
=
_

_
c
1
c
2
c
3
d
1
d
2
d
3
_

_
Figura 7: Ejemplo de rango completo.
9.1.2. Rango incompleto
Para rango incompleto, es necesaria otra variacin de la descomposicin QR: QR con pivoteo de columnas.
Esta modicacin, en cada iteracin del algoritmo, toma la columna de mayor norma, para dejar las columnas
iguales a cero para el nal. El algoritmo encuentra ceros luego de r iteraciones, siendo r el rango de la matriz.
Resulta AP = QR, siendo P una matriz de permutacin, R una matriz con ceros debajo de la la r, y cuyo
menor principal R
r
, o R
11
es una matriz triangular superior no singular.
R =
_
R
11
R
12
0 0
_
=
_

_
r
1,1
. . . r
1,r
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 r
r,r
0 . . . 0
0 . . . 0 0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 . . . 0 0 . . . 0
_

_
Figura 8: Rango incompleto.
En este caso, resulta que los primeros r elementos del residuo s son iguales a c R
11
x
1
R
12
x
2
, siendo
x = (x
1
, x
2
)
t
, con x
1
R
r
; y los restantes iguales a d. Nuevamente se busca minimizar el primer trmino.
Se busca un x
2
cualquiera, a partir del cual hay un nico x
1
tal que R
11
x
1
= c R
12
x
2
puesto que R
11
es
no singular, y adems triangular superior, con lo que el sistema puede resolverse mediante back substitution.
Se obtienen as innitas soluciones.
De todas maneras, este mtodo es poco estable; sumado al hecho de que hallar el rango de A no siempre es
sencillo por errores de redondeo. Por eso se busca el mtodo SVD.
14
9.2. Cuadrados mnimos y SVD
Teorema 9.1. Sea A en R
mn
con Rng(A) = r, entonces existen v
1
, . . . , v
n
base ortonormal de R
n
y
u
1
, . . . , u
m
base ortonormal de R
m
, tal que U
t
AV = D diagonal con
D =
_
D
r
0
0 0
_
donde D
r
= diag(s
1
, . . . , s
r
) y s
i
son los valores singulares de A ordenados de mayor a menor. Los u
i
son los
autovectores normalizados de AA
t
, y los v
i
son los autovectores normalizados de A
t
A.
Esto implica que A = UDV
t
, o que AV = UD, siendo U y V matrices ortogonales de m m y n n
respectivamente y D una matriz diagonal de mn, misma dimensin que A. Esta descomposicin existe para
cualquier matriz A.
Con el mismo criterio que en QR, puesto que U es ortogonal, minimizar la norma de b Ax es equivalente a
minimizar la norma de U
t
(b Ax) = U
t
b DV
t
x. Tomando c = U
t
b e y = V
t
x, minimizar la norma de b Ax
equivale a minimizar la de c Dy. Calculando,
|b Ax|
2
2
= |c Dy|
2
2
=
r

i=1
[c
i
s
i
y
i
[
2
+
m

i=r+1
[c
i
[
2
Por lo tanto, la solucin del sistema es y
i
= c
i
/s
i
i = 1, . . . , r. Sin embargo, si r < m, es decir, la matriz
original A no tenia rango completo, entonces los valores y
i
para i = r + 1 . . . m no estn involucrados en la
expresin a minimizar, y se puede tomar cualquier valor para ellos. Si se busca el x de norma mnima resultante
de x = V y, entonces se toman los y
i
restantes iguales a cero.
El mtodo SVD es ms caro que el mtodo QR, independientemente de cmo se organicen los clculos. Se
pueden hacer optimizaciones, como no calcular nunca la matriz U sino aplicar solamente los reectores sobre
b, o calcular solamente las primeras r columnas de V que sern las necesarias para resolver x = V y, con los y
i
i > r iguales a cero. De todas formas, la estabilidad de SVD en casos de rango incompleto lo hace preferible
por sobre QR.
Teorema 9.2. La estabilidad de la solucion de cuadrados minimos lineales esta dada por la siguiente cota,
siendo x la solucin al problema de cuadrados mnimos y

b el proyector sobre la imagen de A,

r
( x) (A)
r
(

b)
Donde (A) = |A|
2
|(A
t
A)
1
|
2
es una generalizacin del nmero de condicin, cuando A no tiene necesaria-
mente inversa.
10. Sistemas de inecuaciones lineales
Es posible modicar cualquier sistema de inecuaciones para llevarlo a la forma requerida por Simplex y
resolverlo utilizando ese mtodo.
Todo sistema de inecuaciones puede llevarse a la forma Ax b y viceversa, invirtiendo signos o convirtiendo
igualdades en dos desigualdades opuestas.
Todo Ax b puede llevarse a la forma Ax b x 0 y viceversa, reescribiendo toda x como
x
+
x

, donde cada una es positiva, y duplicando las columnas de A para llevarla a la forma (A, A)
con x = (x
+
, x

)
t
.
Todo sistema de la forma anterior puede llevarse a Ax = b con x 0 y viceversa, agregando slack variables
pasando al sistema (A, I) (x, s)
t
= b.
Todo sistema anterior puede pedrsele tambin que los coecientes b sean positivos, multiplicando por 1
donde sea necesario.
Puesto que para el sistema Ax = b tenga un resultado equivalente al Ax + Ia = b es necesario que los a
valgan cero, se propone minimizar la sumatoria de los a
i
; si se llega a cero, entonces se hall una solucin
del sistema original. Como es un problema de optimizacin, se puede usar simplex.
15
11. Simplex
Simplex es un mtodo que permite optimizar una cierta expresin denominada funcional, respecto de ciertas
variables que deben cumplir determinadas desigualdades. O sea, permite resolver un sistema de maximizacin
sujeto a restricciones de la forma Ax b, o de minimizacin sujeto a Ax b.
Puesto que el Simplex necesita un sistema de la forma Ax = b con x 0, se agrega m slack variables (siendo
m la cantidad de restricciones), para convertir el sistema a Ax +Ia = b.
11.1. Interpretacin gemetrica
Las curvas de nivel del funcional resultan encerradas en una regin determinada por las restricciones. Esta
regin es un polgono, y el mtodo simplex recorre los vrtices de ese polgono, puesto que el mximo se halla
en uno de esos puntos.
Puede suceder que la regin no sea cerrada. En ese caso, el funcional puede estar o no acotado, esto depende
de su direccin de crecimiento: si crece hacia una restriccin, estar acotado; si no, podr crecer tanto como se
desee.
11.2. Problemas del Simplex
Los problemas del mtodo simplex pueden dividirse principalmente en Inicializacin, Iteracin y Finaliza-
cin, detallados a continuacin.
11.2.1. Inicializacin
Siendo que se busca resolver el problema Ax = b, se pueden agregar las slack variables sucientes para
transformar el problema en Ax + Ia = b, con lo cual tomando el punto inicial x
0
= (0, . . . 0, b
1
, b
1
, . . . , b
m
)
siempre verica.
Luego se toma el resultado obtenido y se lo convierte al problema original.
11.2.2. Iteracin
Cada iteracin se basa en elegir una variable que deja de ser bsica y una no bsica que ocupa su lugar.
Para elegir la variable no bsica, basta con buscar aquella que en la ecuacin del funcional tenga su coeciente
negativo. En caso de que no haya ninguna, el algoritmo termina exitosamente, puesto que se lleg al ptimo
buscado. Si hay uno o ms, se elige alguno arbitrariamente.
Para hallar la variable de salida, se busca aquella variable bsica que impone la mayor restriccin al valor de
la variable de entrada. Es decir, aquella variable bsica que se anula cuando se toma el mayor valor posible para
la entrada. De haber mltiples, se genera una solucin degenerada, pero esto no impide seguir con la iteracin,
ya que se toma cualquiera arbitrariamente.
Por lo tanto, simplex no tiene problemas de iteracin.
11.2.3. Finalizacin
El mtodo simplex tiene el riesgo de no terminar nunca y quedarse en loop innito entre los mismos valores.
Esto se debe a que los puntos que recorre, al ser vrtices de un polgono, son nitos, por lo cual o bien arriba
al resultado, o bien cicla innitamente.
En caso de que se pase por una solucin degenerada, y esto implique que el funcional no aumente sino
que se mantenga constante, esas iteraciones se denominan tambin degeneradas. Puede suceder que luego de
una determinada cantidad de iteraciones degeneradas se vuelva a aumentar el funcional, o puede que se cicle
innitamente entre los mismos puntos.
Esto se debe a que si hay dos diccionarios con las mismas variables bsicas, entonces los dos diccionarios son
iguales, y si se pasa dos veces por el mismo diccionario, entonces el mtodo cicla.
16
Para detectar los ciclos, no es viable guardar una historia con los puntos ya recorridos por la gran longitud
que puede llegar a tener dicha lista. Lo mas usual es setear un valor mximo (bastante alto) para cantidad de
iteraciones degeneradas consecutivas del algoritmo.
Una solucin posible a este problema de nalizacin es la regla del menor ndice. En cualquiera de los casos
en los que la iteracin ofrece distintas elecciones para las variables de entrada o de salida, se toma siempre la de
menor ndice. En ese caso, es posible asegurar que el algoritmo siempre termina. Cabe destacar que es posible
recurrir a esta regla solamente luego de una cierta cantidad de iteraciones degeneradas consecutivas, y una vez
rota esa cadena, retomar algn otro mtodo de eleccin que se crea conveniente; por ejemplo, que provea mayor
estabilidad numrica
1
.
Otra posibilidad para evitar soluciones degeneradas, y por lo tanto el loop innito, es la perturbacin. Puesto
que una solucin degenerada sucede cuando varias variables se hacen simultneamente cero, se introduce una
pequea perturbacin que elimina este comportamiento, y que hace que la modicacin del sistema sea mnima.
Como el mtodo de perturbacin puede fallar, se utiliza el mtodo lexicogrco, que consiste en considerar los
valores usados como smbolos en lugar de nmeros, y compararlos mediante los coecientes que los acompaan.
Si se utiliza esta regla siempre, es posible demostrar que el algoritmo termina.
11.3. Forma matricial del Simplex
En la interpretacin estndar del simplex, mediante diccionarios, las ecuaciones son las expresiones de las
variables bsicas en funcin de las no bsicas, ms la del funcional. Es decir,
x
B
i
=

b
i

x
j
x
N
a
i,j
x
j
(7)
z = z

x
j
x
N
c
j
x
j
(8)
Las primeras ecuaciones, correspondientes a las variables, se pueden expresar matricialmente como Ax = b.
Teniendo n variables originales y m slack variables, La matriz A se construye con n columnas a partir de los
coecientes de las variables originales, ms m columnas de la identidad. Entonces, se puede reescribir lo anterior
como Ax = A
B
x
N
+A
N
x
N
= Bx
B
+A
N
x
N
= b, siendo x
B
y x
N
los vectores que contienen las variables bsicas
y no bsicas en cada iteracin. De la ecuacin anterior, se desprende que
x
B
= B
1
b B
1
A
N
x
N
(9)
Es posible demostrar que la matriz B siempre tiene inversa. De esta forma, se reescriben matricialmente las
primeras n ecuaciones, es decir, las variables bsicas en funcin de las no bsicas.
Para reescribir el funcional, se plantea z = cx, donde c tiene n componentes iguales a los resultantes de la
funcin a minimizar, y m componentes nulos, provenientes de las slack variables. Luego c se descompone en
c
B
y c
N
, con los coecientes correspondientes a las variables bsicas y no bsicas en cada iteracin (las cuales,
recordemos, no se corresponden necesariamente con las originales y las slack). Por ende, z = c
N
x
N
+ c
B
x
B
.
Reemplazando el valor de x
B
obtenido, se llega a
z = c
B
B
1
b + (c
N
c
B
B
1
A
N
)x
N
(10)
Donde c
B
B
1
b es z

y (c
N
c
B
B
1
A
N
) son los coecientes de las variables no bsicas x
N
en funcin de las
cuales se expresa el funcional.
11.4. Simplex revisado
Al principio de cada iteracin del algoritmo de Simplex revisado, se llega con los valores calculados de
x

B
= B
1
b y la matriz B.
1
Hay un criterio que determina la zero tolerance, se eligen valores muy pequeos para distintas operaciones y cualquier valor
menor a ese se considera problemtico. Dependiendo de la operacin, puede considerarse que el valor es cero (por ejemplo, para
analizar si un coeciente es negativo en el funcional) o descartarse la eleccin de variables realizada y elegir otra si es posible (en
el caso de encontrarse con una divisin por un nmero cercano a cero).
17
Lo primero es hallar qu variable tiene un coeciente negativo entre los de las variables no bsicas en la
ecuacin del funcional. Para ello es necesario hallar dichos coecientes c
N
c
B
B
1
A
N
. Como no es necesario
calcularlos todos, se los calcula individualmente hasta hallar alguno que sirva. Esto dene los primeros dos pasos
del algoritmo.
Calcular el valor intermedio y = c
B
B
1
resolviendo el sistema yB = c
B
Hallar la variable no bsica tal que c
j
y a < 0, siendo a la columna de A
N
correspondiente a c
j
Lo siguiente es encontrar la columna d de B
1
A
N
que corresponde a la variable que entra a la base. Esto surge
a partir de que x
B
= x

B
B
1
A
N
x
N
, con lo cual x
B
pasa de x

B
a x

B
td.
Como d es la columna de B
1
A
N
que corresponde a la variable que sale, entonces d = B
1
a, donde a era
la columna que se elega en el segundo paso del algoritmo. Entonces, los siguientes pasos del algoritmo se basan
en calcular esa columna d y en el mximo valor t posible, tal que se las restricciones se respeten.
Hallar d mediante el sistema Bd = a
Hallar el mayor t tal que x

B
td, recordar que se entra a la iteracin con x

B
calculado
La componente que queda igualada a cero en x

B
td es la que sale de la base. Si no es posible hallar t, entonces
la solucin del problema no est acotada y puede aumentarse tanto como se quiera.
El ltimo paso del algoritmo actualiza la matriz B para la prxima iteracin y recalcula los x

B
.
Se recalcula x

B
como x

B
td
Se setea el valor de la variable que entra a la base igual a t
Se reemplaza la columna de B correspondiente a la variable que sale con la columna a usada para hallar d
12. Ceros de funciones
Son mtodos iterativos que permiten hallar las races de funciones no lineales. En general, para algoritmos
iterativos, deben determinarse criterios de parada y calcularse el orden de convergencia.
12.1. Orden de convergencia
Denicin. Sea
n

n0
una sucesin que tiende a , y sea
n

n0
una sucesin que tiende a cero, entonces
la sucesin
n

n0
tiene orden de convergencia
n
si
[
n
[ k[
n
[
para algun k > 0 y a partir de un n sucientemente grande.
Denicin. Sea
n

n0
una sucesin que tiende a , si se cumple
lm
n
[
n+1
[
[
n
[
p
= k
para algn k > 0 entonces la sucesin tinde a con orden de convergencia p.
12.2. Criterios de parada
Hay distintos criterios de parada para un algoritmo iterativo de bsqueda de ceros, ninguno de ellos lo
sucientemente seguro. Tienden a ser preferibles los que utilizan el error relativo en lugar del absoluto, y se los
combina junto con cantidad de iteraciones.
[x
n
x
n1
[ < , la diferencia entre dos soluciones es menor a .
18
|x
n
x
n1
|
|x
n
|
< , la diferencia relativa entre dos soluciones es menor a .
[f(x
n
)[ < , el valor de la funcin se acerca a cero lo suciente.
[f(x
n
) f(x
n1
)[ < , entre dos iteraciones me acerco al cero menos que .
|f(x
n
)f(x
n1
)|
|f(x
n
)|
< , entre dos iteraciones me acerco relativamente al cero menos que .
#iters > k, limite en la cantidad de iteraciones.
Un caso problemtico tpico es la serie geomtrica, que tiende a cero, aunque no slo no tiene races sino que
incluso diverge.
12.3. Biseccin
Es el mtodo de bsqueda binaria, se basa en el Teorema de Bolzano-Weierstrass, requiere solamente con-
tinuidad de la funcin y hallar dos puntos iniciales a y b tal que el signo de la funcin sea distinto en los dos
puntos. Su convergencia, si bien es lineal, est garantizada. Tiende a usarse para aproximarse a un entorno de
la solucin y luego utilizar mtodos ms veloces pero que requieren de un intervalo inicial ms acotado.
El mtodo consta en, dados dos puntos iniciales que cumplan las propiedades anteriormente mencionadas,
partir el intervalo a la mitad y generar el punto c =
ba
2
. Para la prxima iteracin se usarn los puntos a, c
si cumplen f(a)f(c) < 0 y c, b si en cambio se cumple f(c)f(b) < 0.
Observacin. El error en el paso n es
n
= [p
n
p[
ba
2
n
.
12.4. Punto jo
Los problemas de bsqueda de races y los de punto jo son equivalentes, ya que dado el problema de encontrar
la p tal que f(p) = 0, podemos denir una funcin g con un punto jo en p, por ej. con g(x) = x f(x), de
manera que cuando p es punto jo de g, tambin es raz de f.
Teorema 12.1. Si g es continua en [a, b] y g(x) pertenece a [a, b] para todo x en [a, b], entonces g tiene un
punto jo en [a, b]. Si adems g

(x) existe en (a, b) y [g

(x)[ k < 1 para toda x en (a, b), entonces el punto jo


en [a, b] es nico.
Para aproximar el punto jo de una funcin deno la sucesin p
n
= g(p
n1
). Si esta sucesin converge, lo
hace al punto jo. En la Figura 9 se puede ver el comportamiento de la iteracin de punto jo para varias
funciones, algunas divergentes y otras convergentes.
Teorema 12.2. Sea g continua en [a, b] tal que g(x) pertenece a [a, b] para todo x en [a, b]. Adems supongamos
que existe g

en (a, b) y una constante 0 < k < 1 tal que [g

(x)[ k para todo x en (a, b), entonces para cualquier


nmero p
0
en [a, b], la sucesin de punto jo converge al nico punto jo p en [a, b].
Corolario 12.3. El error absoluto del paso n es [p
n
p[ k
n
max(p
0
a, b p
0
). La convergencia de la
iteracin puede ser montona o alternante.
Observacin. Si 0 < g

(x) < 1 entonces si p


0
est a la derecha (izquierda) del punto jo, siempre converge por
la derecha (izquierda). Si g

(x) < 0, converge alternadamente, y s que el punto jo est dentro.


Teorema 12.4. Si la iteracin de punto jo converge, g(x) C
n
, g

(p) = g

(p) = = g
(n1)
(p) = 0 y
g
(n)
(p) ,= 0 entonces p
n+1
= g(p
n
) tiene orden de convergencia n.
12.5. Newton-Raphson
El mtodo de Newton-Rhapson es muy usado en la resolucin de ecuaciones no lineales. Las hiptesis son
mucho ms fuertes que para el mtodo de biseccin pero ese es el precio que pagamos para tener una velocidad
de convergencia ms rpida.
19
Figura 9: Convergencia de punto jo.
Derivacin por convergencia cuadrtica: Supongamos que tengo una funcin generica de punto jo
g(x) = x h(x)f(x)
y quiero encontrar los ceros de f(x). Si pido que h(x) ,= 0 entonces g(x) = x slo cuando f(x) = 0. Adems
g

(x) = 1 h

(x)f(x) f

(x)h(x)
pero como quiero que f(x) = 0, me queda
g

(x) = 1 f

(x)h(x)
Para obtener convergencia al menos cuadrtica, pido que la derivada de g sea cero en ese punto, o sea
g

(p) = 0
1 f

(p)h(p) = 0
h(p) =
1
f

(p)
entonces con
h(x) =
1
f

(x)
me aseguro que esto se cumpla, y el punto jo de g es raiz de f, adems como la derivada en p es cero, la
convergencia es cuadrtica.
Teorema 12.5. Sea f en C
2
[a, b], f(p) = 0, f

(p) ,= 0 entonces existe > 0 tal que si p


0
est en el intervalo
[p , p +], la sucesin de Newton
x
n+1
= x
n

f(x
n
)
f

(x
n
)
(11)
20
converge a p cuadraticamente.
Grcamente, como muestra la Figura 10, la aproximacin se obtiene usando tangentes sucesivas. Comen-
zando con la aproximacin inicial p
0
, la siguiente aproximacin p
1
es la interseccin con el eje x de la lnea
tangente a la grca de f en (p
0
, f(p
0
)), y as sucesivamente.
Figura 10: Convergencia del mtodo de Newton-Rhapson.
Derivacin por Taylor: Otra forma de llegar a lo mismo es con el polinomio de Taylor de grado 1 de f(x).
Supongamos que f(p) = 0, con p

una aproximacin de p de manera que f(p

) ,= 0 pero [p

p[ es pequeo,
entonces
f(x) = f(p

) +f

(p

)(x p

) +f

((x))
(x p

)
2
2!
Suponemos que como [p

p[ es pequeo, entonces al elevarlo al cuadrado queda ms pequeo an y podemos


omitir todo el ltimo trmino, o sea que cuando x = p tenemos
0 = f(p

) + (p p

)f

(p

)
Despejando p de esta ecuacin sale la iteracin de Newton
p = p


f(p

)
f

(p

)
En este caso, la suposicin de que [p

p[ es sucientemente pequeo sera falsa si y no estuviera lo su-


cientemente cerca de p, causando la divergencia del mtodo. En algunos casos, no todos, esto es as. En la
demostracin de la convergencia del mtodo, se puede ver que el valor de la constante k que acota a la derivada
indica la rapidez de convergencia del mtodo, disminuyendo a cero a medida que el procedimiento avanza.
El mtodo de Newton es muy poderoso, pero presenta un grave problema: la necesidad de conocer el valor
de la derivada de f en cada aproximacin, lo que con frecuencia puede ser un clculo complejo con muchas
operaciones o ser un dato no disponible, ya que quizs ni siquiera se conoce la forma analtica de la funcin.
12.6. Mtodo de la secante
Este mtodo surge como una variante de Newton-Raphson, eliminando el clculo de la derivada de f en
cada iteracin. La derivada es aproximada por un cociente incremental. Geomtricamente, comienza con dos
aproximaciones iniciales p
0
y p
1
, la aproximacin p
2
es la interseccin en x de la recta secante que une (p
0
, f(p
0
)) y
(p
1
, f(p
1
)). La aproximacin p
3
es la interseccin de la recta que une (p
1
, f(p
1
)) y (p
2
, f(p
2
)) y as sucesivamente.
La frmula de iteracin es:
X
n
= X
n1
f(X
n1
)
X
n1
X
n2
f(X
n1
) f(X
n2
)
. .
aproximacin de f

(x)
1
(12)
21
El precio que se paga para prescindir de la derivada es la velocidad de convergencia, que es ms lenta que
Newton: es superlineal. Una desventaja de este mtodo tambin es que cuando f(X
n
) y f(X
n1
) se parecen
mucho, la resta trae problemas numricos al trabajar con aritmtica nita.
12.7. Regula Falsi
El mtodo de Regula Falsi genera aproximaciones del mismo modo que el de la secante, pero ofrece una
prueba para asegurarse de que la raz quede entre dos iteraciones sucesivas. Primero se eligen las aproximaciones
iniciales p
0
y p
1
con f(p
0
)f(p
1
) < 0. La aproximacin p
2
se escoge de la misma manera que con el mtodo de
la secante: como la interseccin en x de la lnea que une (p
0
, f(p
0
)) y (p
1
, f(p
1
)). Para decidir con cul secante
calcular p
3
se verica que f(p
2
)f(p
1
) < 0. Si esto se cumple, p
1
y p
2
encierran un raz, entonces uso como p
3
la
interseccin con el eje x de la recta que una a (p
1
, f(p
1
)) y (p
2
, f(p
2
)). Por otro lado, si f(p
2
)f(p
1
) > 0, elegimos
p
3
como la interseccin del eje x con la recta que pasa por (p
0
, f(p
0
)) y (p
2
, f(p
2
)), intercambiando despus los
ndices de p
0
y p
1
.
Como X
n
y X
n1
tienen distinto signo se evita la resta de dos nmeros muy parecidos obteniendo una mayor
estabilidad del algoritmo. De la misma forma la raz est siempre acotada entre dos valores de distinto signo
(aunque es importante notar que el tamao de este intervalo puede no tender a cero).
Por otro lado, este mtodo suele requerir ms clculos que el mtodo de la secante y no tiene la convergencia
supralineal asegurada.
13. Sistemas no lineales
Si tenemos el problema de resolver un sistema de n ecuaciones no lineales con n incgnitas de la forma:
_

_
f
1
(x
1
, . . . , x
n
) = 0
f
2
(x
1
, . . . , x
n
) = 0
.
.
.
.
.
.
f
n
(x
1
, . . . , x
n
) = 0
(13)
lo podemos reescribir como encontrar el cero de una nueva funcin F : R
n
R
n
denida como F(x
1
, . . . , x
n
) =
(f
1
, . . . , f
n
), o sea, resolver el sistema de ecuaciones no lineales se traduce en hallar un valor X

que satisfaga
F(X

) = 0.
13.1. Punto jo en varias variables
Los mtodos de punto jo en una variable tienen su versin generalizada en n variables. El sistema (13)
puede reescribirse como
_

_
x
1
= g
1
(x
1
, . . . , x
n
)
x
2
= g
2
(x
1
, . . . , x
n
)
.
.
.
.
.
.
x
n
= g
n
(x
1
, . . . , x
n
)
convirtiendo el problema original en uno de punto jo. Analogamente al caso de una variable enunciamos las
siguientes condiciones de existencia y unicidad de punto jo.
Teorema 13.1. Sea G : R
n
R
n
y D R
n
. Si G es continua en D tal que G(D) D. Adems supongamos
que existen las derivadas parciales de G en D y una constante k positiva tal que

g
i
x
j


k
n
<
1
n
para todo elemento en D, entonces para cualquier X
0
en D, la sucesin de punto jo X
n+1
= G(X
n
) converge
al nico punto jo X

en D.
22
13.2. Mtodo de Newton en varias variables
El mtodo de Newton tambin tiene su generalizacin a varias variables. Siendo que el mtodo en una
variable estaba determinado por la sucesin
x
k+1
= x
k

f(x
k
)
f

(x
k
)
que se deduca del modelo lineal f(x
k
) +f

(x
k
)(x x
k
) = 0, en varias variables se determina por
X
k+1
= X
k
J
1
(X
k
)F(X
k
)
Observacin. Sin embargo, en una implementacin lo que se efecta es la resolucin del sistema J(X
k
)(X
k+1

X
k
) = F(X
k
), para evitar el costoso (y poco estable) clculo de la inversa del Jacobiano.
El mtodo de Newton, si el Jacobiano es continuo en una regin D alrededor del X

, es superlineal. Si
verica continuidad de Lipschitz, es decir, existe una
L
> 0 tal que |J(X
0
) J(X
1
)|
L
|X
0
X
1
| para
cualquier par X
0
, X
1
D, entonces es cuadrtico. Estos rdenes se dan en un cierto entorno alrededor del X

.
Tambin vale que si F(p) = 0, es decir, la funcin se anula en el punto jo, y J(p) es inversible, entonces en
un entorno la iterada converge cuadrticamente.
Observacin. Los problemas que tiene el mtodo de Newton son varios,
Si no se comienza lo sucientemente cerca del punto, el algoritmo puede no converger.
Si el Jacobiano es singular, puede haber iteraciones indenidas.
Puede ser dicil calcular el Jacobiano.
El jacobiano en la raiz puede ser singular, con lo que la convergencia de Newton cae a lineal.
Puede ser muy caro calcular el valor excto de Newton en una iteracin alta.
Por eso se utilizan mtodos alternativos.
13.3. Mtodos de cuasi-Newton
Tambin conocidos como mtodos de la secante. El objetivo es eliminar el principal problema que tena
Newton, el Jacobiano, por alguna otra matriz. As se pasa a la forma
F(X
k
) +B
k
(X
k+1
X
k
)
Una condicin que se le pide a la matriz B es la denominada condicin secante:
B
k
(X
k1
X
k
) = F(X
k1
) F(X
k
)
Es anlogo al mtodo de la secante en una variable, con la diferencia de que en este caso slo determina n de
los n
2
elementos de la matriz B. Esto da lugar a distintos mtodos.
Una desventaja de estos mtodos es que son superlineales en lugar de cuadrticos. Otra desventaja de estos
mtodos es que a diferencia de Newton, no se corrigen a s mismos. El mtodo de Newton generalmente corregir
el error de redondeo con iteraciones sucesivas, pero no as el de Broyden.
13.4. Mtodo de Broyden
Broyden busca una matriz B
k
lo ms parecida posible a la de la iteracin anterior, buscando la B que cumpla
la condicin secante y minimice |B B
k1
|
2
, de esta forma B es nica.
B
k
= B
k1
+
(J
k1
B
k1
S
k1
)S
t
k1
S
t
k1
S
k1
S
k1
= X
k
X
k1
J
k1
= F(X
k
) F(X
k1
)
23
El X
k
puede obtenerse del sistema B(X
k
)(X
k+1
X
k
) = F(X
k
) al igual que en el caso de Newton, o bien
apelar a la frmula de Sherman-Morrison para calcular fcilmente la inversa. Esta frmula indica que si una
matriz A es no singular y y
t
A
1
x ,= 1, entonces A+xy
t
es no singular y su inversa es igual a
A
1

A
1
xy
t
A
1
1 +y
t
A
1
x
En la frmula de Broyden, tomando adecuadamente los coecientes, es posible hallar fcilmente la inversa
de B exclusivamente mediante productos entre matrices, sin necesidad de invertir ninguna matriz.
A = B
k1
(cuya inversa est precalculada de la iteracin anterior)
x = J
k1
B
k1
S
k1
y
t
=
S
t
k1
S
t
k1
S
k1
De esta forma, se puede calcular X
k+1
= X
k
B
1
k
F(X
k
), bajando las cuentas a O(n
2
).
14. Clculo de autovalores
Una forma directa de calcular los autovalores de una matriz es obtener las races del polinomio caracterstico
P() = det(AI) y luego se pueden obtener los vectores caractersticos (autovectores) resolviendo el sistema
lineal asociado a cada autovalor. Claramente para matrices grandes es difcil obtener P(), an si se lo consiguiera
no es fcil calcular todas las races de cualquier polinomio de n-simo grado. Es por eso que los mtodos de
aproximacin se presentan como una buena opcin para estas situaciones.
14.1. Mtodo de la potencia
Para aplicar este mtodo pedimos como hiptesis que A R
nn
tenga n autovalores tales que [
1
[ > [
2
[
[
n
[ con una base de autovectores asociados v
1
, v
2
, . . . , v
n
. Es muy importante la existencia del autovalor
dominante
1
y que el valor inicial x
0
elegido no sea ortogonal al autovector asociado a
1
.
Teorema 14.1. Como los autovectores forman una base entonces existen constantes
1
, . . . ,
n
tal que para
todo x se cumple
x =
n

i=1

i
v
i
si multiplicamos a izquierda por A
k
nos queda
A
k
x =
n

i=1

i
A
k
v
i
=
n

i=1

k
j
v
i
y sacando factor comn
k
1
nos deja
A
k
x =
k
1
n

i=1

i
_

1
_
k
v
i
como
1
>
i
para i ,= 1 entonces se cumple
lm
k
A
k
x = lm
k

k
1
n

i=1

i
_

1
_
k
v
i
= lm
k

k
1

1
v
1
La idea es usar la sucesin x
k
= A
k
x, sucesin que, por lo anteriormente mencionado, se puede reescribir
como
x
k
=
k
1
(
1
v
1
+
k
)
24
donde
k
tiende a cero para k tendiendo a innito. Notemos que esta sucesin tiende a cero o diverge dependiendo
del valor de
1
, es por eso que la idea del mtodo de las potencias es normalizar esta sucesin y aplicarle una
funcin de manera que tienda a
1
.
Entonces, sea : R
n
R una funcin continua, tal que (x) = (x) y que sea distinta de cero siempre
que x no se anule. Denimos entonces una nueva sucesin

k
=
(x
k+1
)
(x
k
)
la cual es equivalente a

1
(
1
v
1
+
k+1
)
(
1
v
1
+
k
)
quien para k tendiendo a innito converge a

1
(
1
v
1
)
(
1
v
1
)
=
1
He aqu un mtodo para aproximar el autovalor de mayor mdulo, slo resta denir quin es la funcin (x).
Una buena opcin es denirla como (x) = |x|

, el componente de mxima magnitud del vector x (y si hay


ms de uno, que sea el primero). El mtodo de las potencias para obtener el autovalor
1
quedara entonces:
x
0
= x inicial
Para k = 1 a M
1. y = Ax
2. r =
(y)
(x)
3. x = y
La velocidad de convergencia para este mtodo depender de la velocidad con la que
k
tienda a cero, y esto a
su vez depender de cun chico ser el cociente

2

1
, o sea, de cun lejos est el autovalor de mayor mdulo del
que le sigue en magnitud y en consecuencia del resto de los autovalores.
14.2. Mtodo de la potencia inversa
Esta variacin del mtodo de la potencia sirve para cuando A es no singular para calcular el autovalor de
mdulo mnimo. La idea es que si se puede aplicar el mtodo de la potencia sobre A
1
, el resultado ser la la
inversa del autovalor de menor magnitud de A. Notar que las hiptesis del mtodo anterior exigen sobre A que
[
1
[ [
2
[ . . . > [
n
[ y nuevamente que v
1
, . . . , v
n
sea una base de autovectores, de esta forma obtendremos
como resultado
1

n
.
El mtodo de la potencia tiene la desventaja de que al inicio no se sabe si la matriz tiene o no un ni-
co autovalor dominante. Tampoco se sabe cmo seleccionar x
0
para asegurar que no sea ortogonal al vector
caracterstico asociado al autovalor dominante, en caso de que exista.
Referencias
[1] R. L. Burden, J. D. Faires, Anlisis Numrico.
[2] J. Nocedal, S. Wright, Numerical Optimization.
[3] D. Watkins, Fundamentals of Matrix Computations.
[4] D. Dhalquist, Numerical Methods in Scientic Computing.
25

También podría gustarte