Introduccion A Los Metodos Numericos

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/236170025
Introducción a los Métodos Numéricos
Book · April 2001
CITATIONS READS
9 1,758
1 author:
Yuri Skiba
Universidad Nacional Autónoma de México
245 PUBLICATIONS 1,175 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Climate variations View project
Disorder and Self-Organisation View project
All content following this page was uploaded by Yuri Skiba on 07 September 2020.
The user has requested enhancement of the downloaded file.

Contenido
Página
Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Capítulo I. Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
§ 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
§ 2. Espacios y normas vectoriales . . . . . . . . . . . . . . . . . . . . . . . 8
§ 3. Matrices . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
§ 4. Número de condición de una matriz . . . . . . . . . . . . . . . . . . . . . . 25
§ 5. Problemas espectrales particulares . . . . . . . . . . . . . . . . . . . . . . . 35
§ 6. Valores propios y límites espectrales de matrices . . . . . . . . . . . 43
Capítulo II. Métodos de aproximación e interpolación . . . . . . . . . . . . . 50
§ 7. Diferenciación numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
§ 8. Operador de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
§ 9. Interpolación y extrapolación . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
§ 10. Minimización del error de interpolación . . . . . . . . . . . . . . . . . . 84
§ 11. Aproximación mediante funciones básicas . . . . . . . . . . . . . . . . 90
§ 12. Polinomio de la mejor aproximación media cuadrática . . . . . . 100
Capítulo III. Estabilidad y convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 108

§ 13. Concepto de estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
§ 14. Estabilidad espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
§ 15. Análisis de la estabilidad de los esquemas en las normas . . . . . 124
§ 16. Esquemas numéricos para la ecuación de transporte . . . . . . . . 131
§ 17. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Capítulo IV. Construcción de los esquemas numéricos . . . . . . . . . . . . . 152

§ 18. Esquemas para una ecuación diferencial ordinaria . . . . . . . . . . 152
§ 19. Esquema ”leap-frog” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
§ 20. Métodos de proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
§ 21. Solución de un problema elíptico . . . . . . . . . . . . . . . . . . . . . . . 179
§ 22. Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
§ 23. Cálculo de splines cúbicos naturales . . . . . . . . . . . . . . . . . . 195
§ 24. Método de elementos finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
§ 25. Método espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
§ 26. Transformada rápida de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 217
Capítulo V. Métodos exactos para problemas lineales . . . . . . . . . . . . . 220

§ 27. Factorización LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
§ 28. Método de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
§ 29. Factorización QR mediante transformaciones de Givens . . . . . 233
§ 30. Factorización QR mediante transformaciones de Householder . 237
§ 31. Problema de contorno para una matriz tridiagonal . . . . . . . . . . 242
§ 32. Condiciones periódicas de contorno . . . . . . . . . . . . . . . . . . . . 250
iv
Capítulo VI. Métodos iterativos para problemas lineales . . . . . . . . . . . 253
§ 33. Método de Jacobi (iteraciones simples) . . . . . . . . . . . . . . . . . . 253
§ 34. Método de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
§ 35. Otros métodos iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Capítulo VII. Métodos iterativos para problemas no lineales . . . . . . . . 275

§ 36. Método iterativo para resolver una ecuación no lineal . . . . . . . . 276
§ 37. Método iterativo para un sistema de ecuaciones no lineales . . . . 284
§ 38. Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
§ 39. Otros métodos iterativos para problemas no lineales . . . . . . . . . 298
Capítulo VIII. Métodos se separación . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

§ 40. Método de estabilización . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
§ 41. Método de predicción-corrección . . . . . . . . . . . . . . . . . . . . . 312
§ 42. Método componente-por-componente. Problema homogéneo . . 320
§ 43. Método componente-por-componente.
Problema no homogéneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
§ 44. Aplicación del método de separación . . . . . . . . . . . . . . . . . . . 332
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
v
Capítulo I. Fundamentos
En este capítulo introducimos los conceptos básicos relacionados con vectores y matrices: los
espacios vectoriales y matriciales, el producto escalar, el número de condición y los autovalores y
autovectores de una matriz, las normas vectoriales y matriciales, la equivalencia de normas, etc.
Estudiamos muy brevemente las propiedades principales de las matrices. Para un estudio más
profundo de la teoría de matrices se recomiendan los libros de Faddeev y Faddeeva (1963), Wilkinson
(1965), Gantmacher (1966), Lancaster (1969), Parlett (1980), Voevodin y Kuznetzov (1984).
§ 1. Introducción
En la práctica, en la mayoría de los casos no se logra hallar una solución exacta del problema
matemático planteado. Esto ocurre principalmente porque la solución no se expresa en funciones
elementales o en otras funciones conocidas. Por eso adquirieron gran importancia los métodos
numéricos. Los métodos numéricos reducen el procedimiento de la solución de un problema a
operaciones aritméticas y lógicas sobre los números, que pueden ser realizadas por una computadora.
Según el grado de complejidad del problema, la exactitud establecida, el método aplicado, etc., puede
ser necesario cumplir desde varias decenas hasta muchos miles de millones de operaciones.
La solución obtenida por un método numérico es aproximada, es decir, hay cierta diferencia no
nula entre la solución exacta y la solución numérica. Las causas principales de la diferencia son las
siguientes:
1. Falta de correspondencia entre el problema (modelo) matemático y el fenómeno físico real;
2. Errores en los datos iniciales (parámetros de entrada);
3. Errores de un método numérico usado para resolver el problema;
4. Errores de redondeo en las operaciones aritméticas.
1
Los primeros dos errores son inevitables. En la mayoría de los casos supongamos que las operaciones
aritméticas se realizan idealmente e ignoramos errores de redondeo. El análisis de los errores del
método numérico es uno de los objetivos principales del libro. Cada método numérico se puede
presentar como una cadena de los algoritmos Ai (i=1,2,3,…,N) en la entrada y salida:
Entrada Salida
® A1 ® A2 ® A3 ®L® AN ® (1.1)
DATOS INICIALES SOLUCIONNUMERICA
Introducimos tres conceptos principales relacionados con modelos y algoritmos numéricos:
1. La aproximación. La proximidad de un modelo numérico al modelo original (diferencial, integral,
etc.), o el grado de aproximación, caracteriza el error que se introduce al hacer discreto el modelo
continuo. El grado de aproximación n se estima mediante un factor que tiene el error entre dos
modelos. Este factor tiene la forma h n en el método de diferencias finitas donde h es el tamaño de
malla, o N - n en un método de proyección (el método de colocación, el método de Rayleigh-Ritz,
el método de Galërkin) donde N es el número de truncación de las series de Fourier. Así, el grado
de aproximación caracteriza la rapidez de reducción del error entre dos modelos cuando el tamaño
de malla h tiende al cero, o el número de truncación N tiende al infinito.
2. La estabilidad. Es una característica muy importante de la calidad de cada método. La estabilidad
caracteriza la manera de propagación de los errores iniciales dentro del algoritmo (1.1) en el
proceso de cálculo. Si el incremento de errores iniciales es considerable y sin ningún control,
entonces el método numérico se llama inestable. Al contrario, si errores de cálculos dependen
continuamente de los errores iniciales (es decir, reducen al cero conjunto con ellos), entonces el
método se llama estable.
2
3. La convergencia. La convergencia significa que la solución numérica converge hacia la solución
exacta cuando el tamaño de malla h tiende al cero, o el número de truncación N tiende al infinito.
Demostramos ahora que la calidad de cálculos (la proximidad de la solución aproximada
[numérica] a la solución exacta) esta directamente relacionada con dos conceptos principales: la
aproximación del problema y la estabilidad del método.
Ejemplo 1.1. A fin de mostrar la importancia de la estabilidad de un algoritmo numérico,
calculemos la integral
1
xn
yn = ò dx (1.2)
0
x+5
para n=0,1,2,3,…. Es preciso notar que la solución exacta es siempre positiva y su valor se disminuye
cuando n aumenta. Usaremos la fórmula recurrente
1
yn + 5 yn-1 = (1.3)
n
que se deriva de
x n + 5x n-1 x n-1 ( x + 5)
1 1 1
1
yn + 5 yn-1 = ò dx = ò dx = ò x n-1dx =
0
x +5 0
x +5 0
n
Tenemos
1
1
y0 = ò dx = [ln( x + 5)]0 = ln 6 - ln 5 @ 0182
1
.
0
x +5
1 1 1
y1 = 1 - 5 y0 @ 0.090 , y2 = - 5 y1 @ 0.050 , y3 = - 5y2 @ 0.083 , y4 = - 5y3 @ -0165
. .
2 3 4
Mientras que el resultado numérico y3 > y2 es extraño, ya que y 2 debe ser mayor que y 3 , el valor
negativo y 4 representa un absurdo. La causa del absurdo es la inestabilidad del algoritmo (1.3). En
efecto, un pequeño error inicial e 0 se multiplica por el factor -5 dentro de cada paso del algoritmo:
3
e 1 = -5e 0 ; e 2 = 25e 0 ; e 3 = -625e 0 , etc. Después de unos k pasos, el error e k = (-5) k e 0
superará el valor de la solución exacta. •
Ejemplo 1.2. Para mostrar la importancia de la aproximación consideremos el problema
d
y (t ) = -a y (t ), y (0) = 1, a > 0
dt
la solución exacta, y(t ) = exp{- at} es positivo para cada t, y en particular, en puntos t n = nt de una
malla (n= 0,1,2,…). Ahora hallamos una solución numérica del problema. Vamos a designar como
y (t n ) y y n los valores en el punto t n = nt de la solución exacta y de la solución numérica,
respectivamente. Con este fin, aproximemos el problema continuo por el problema discreto
y n +1 - y n
= -a y n , y0 = 0
t
Así pues, y n +1 = (1 - t a) y n . Claro que el error de aproximación de la primera derivada depende del
tamaño de la malla t . En particular, si t < 1 / a entonces la solución numérica y n es positiva para
cada n, igual como la solución exacta. Sin embargo, si t > 1 / a entonces los valores positivos y
negativos de y n alternan, y la solución numérica y n es lejos de la solución exacta y (t n ) . •
Se demostrará en el curso que para cualquier problema lineal, la convergencia de la solución
numérica hacia la solución exacta depende de la aproximación y la estabilidad. En el caso de un
problema no lineal, la aproximación y la estabilidad ya no son suficientes, pero continúan siendo
necesarias para la convergencia. Una característica más del método numérico es su eficiencia. En otras
palabras, entre dos métodos que producen el mismo resultado, es preferible el más económico, es
decir, el que requiere menos operaciones aritméticas para su realización. Mostraremos la importancia
de esta característica con los tres ejemplos siguientes.
4
¥
p2
Ejemplo 1.3. Supongamos que la suma exacta
6
de la serie åk k =1
-2
es desconocida. Es
bien conocido que la serie converge lentamente. Es fácil calcular que la suma de sus primeros nueve
términos es 1.5398. Comparamos ahora la cola de la serie con la integral òx

10
-2
dx . Aproximemos la
integral mediante la fórmula de los trapecios:
¥
1 1 1
òx
10
-2
dx @ T1 + T 2 + T3 +L @
2
(10 -2 + 11-2 ) + (11-2 + 12 -2 ) + (12 -2 + 13-2 ) +L
2 2
¥
(1.4)
1 1 1
+ 10 -2 - 10 -2 @ å k -2 - 10 -2
2 2 k =10 2
Por lo tanto,
¥
1
åk @ [ - x -1 ]10 + 10 -2 = 01050
-2 ¥
. (1.5)
k =10 2
Así,
¥ 9 ¥
åk
k =1
-2
= åk
k =1
-2
+ åk
k =10
-2
@ 15398
. + 01050
. = 16448
. (1.6)
p2
El resultado obtenido es muy bueno, ya que la solución exacta hasta cuatro decimales es 1.6449.
6
Al comparar, observamos que el método directo de sumar uno por otro los términos de la serie no es
tan efectivo (económico), ya que es necesario sumar unos 10,000 términos para alcanzar la misma
exactitud. Así, si los cálculos se realizan mediante una calculadora pequeña, la diferencia entre estos
dos métodos es enorme.
5
¥
Ejemplo 1.4. Calcular la suma de la serie åa
k =1
k . Suponemos que conocemos la suma S de
¥
otra serie åb
k =1
k , cuyos términos bk asintóticamente tienen un comportamiento similar a los términos
ak
a k , es decir, lim = 1 . En esto caso,
k ®¥ b
k
¥ ¥
åa
k =1
k = S + å (a k - bk )
k =1
(1.7)
donde la serie nueva en la parte derecha de la igualdad (1.7) converge más rápido que la serie original.
Por ejemplo,
¥ ¥ ¥ ¥
p2
åa º å ( k + 1)
-1/ 2
k =1
k
k =1
4
y åb º å k
k =1
k
k =1
-2
=
6
Por lo tanto, debido a (1.7), se calcula fácilmente la suma
p2
{ }
¥ ¥
+ å ( k 4 + 1)
-1/ 2
åa
k =1
k º
6 k =1
- k -2 = 164493
. - 0.30119 = 134374
. (1.8)
ya que la suma de los primeros cinco términos de la última serie en (1.8) es suficiente para obtener el
valor exacto hasta cuatro decimales. Es necesario sumar por lo menos 20,000 términos a k con el fin
de alcanzar la misma exactitud. •
Ejemplo 1.5. (Esquema de Horner). Calculemos los valores de un polinomio algebraico
Pn ( x) = a0 + a1 x + a 2 x 2 + K + a n x n (1.9)
donde ai (i = 0,1,2,K , n) son unos coeficientes numéricos, y n es el grado del polinomio. El valor
Pn ( a ) del polinomio en un punto x=a se determina de un modo más simple si escribir el polinomio
de la forma siguiente:
{ {
Pn ( x ) = a 0 + x a1 + x a 2 +K+ x{a n- 2 + x{a n-1 + xa n }}K }} (1.10)
De acuerdo con la fórmula (1.10), el cálculo del valor de Pn ( a ) se reduce al siguiente algoritmo:
6
bn = a n
bn -1 = a n -1 + abn
bn - 2 = a n - 2 + abn -1
(1.11)
LLLL
b1 = a1 + ab2
b0 = a 0 + ab1 = Pn (a )
Así, Pn ( a ) se calcula por medio de un ciclo:
input ( a , a1 , a 2 ,K , a n ); bn = a n ; i=n, n-1, n-2,..., 1 { bi -1 = a i -1 + abi }; Pn (a ) = b0 .
El método de determinación del valor polinomio con arreglo a las fórmulas (1.11) se llama el esquema
de Horner. En conclusión debemos decir que a pesar de que el esquema de Horner es muy cómodo, en
el caso cuando los coeficientes a i son muy grandes, los cálculos según el esquema (1.11) a veces
pueden producir pérdidas considerables de la exactitud debido a la sustracción de grandes números
redondeados. •
Para estimar en la práctica el orden de aproximación, la estabilidad de un método y la rapidez
de convergencia de la solución numérica hacia la solución exacta, necesitamos a introducir una
métrica o distancia entre dos vectores, o dos matrices. Con este fin, en las siguientes dos párrafos
introducimos varias normas vectoriales y matriciales.
7
§ 2. Espacios y normas vectoriales
Denotamos como R n y C n espacios vectoriales n-dimensionales sobre el campo de los
números reales y complejos, respectivamente. Normalmente, R n se llama espacio euclidiano y

r
C n espacio unitario (Lancaster, 1969). Cada vector x = ( x1 , x2 ,K, xn ) del R n con las
componentes xi { } n
i =1
se caracteriza por su magnitud (módulo)
r 2 2 2
x= x1 + x2 + L + xn (2.1)
r r
y su dirección. Sea x = ( x1 , x2 ,K, xn ) y y = ( y1 , y2 ,K, yn ) dos vectores de R n o C n . La suma
de vectores y las multiplicaciones de vectores por números reales (o complejos) a y b se
definen como
r r
ax + by = (a x1 + b y1 ,a x2 + b y2 ,K,a xn + b yn ) (2.2)
La adición es una operación conmutativa, asociativa y distributiva:

r r r r
x+y= y+x (2.3)
r r r r r r
x + ( y + z ) = ( x + y) + z (2.4)
r r r r r r r
a ( x + y) = a x + a y , (a + b ) x = a x + b x (2.5)
Introducimos en el espacio vectorial otra operación muy importante y útil.
Definición. El producto escalar de dos vectores de C n se define como
r r r* r n
x , y = y x = å xi yi (2.6)
i =1
r
donde y * = ( y 1 , y 2 ,K, y n ) T es el vector traspuesto y complejo conjugado respecto a
r
y = ( y1 , y2 ,K, yn ) . En el caso de un espacio euclidiano R n , (2.6) se reduce a
8
r r r r n
x , y = y T x = å xi yi
i =1
En particular,
r r r
x, x = x 2 (2.7)
r r
Definición. Vectores x y y se llaman ortogonales si
r r
x, y = 0 (2.8)
Es una generalización del concepto de la ortogonalidad en el espacio euclidiano R n al espacio
unitario C n . En efecto, si todos los componentes de ambos vectores son números reales, entonces
(2.8) implica
r r r r
x , y º x y cosJ = 0 (2.9)
es decir, el ángulo J entre dos vectores es recto: J=90°. A pesar de que el concepto de ángulo no se
introduce en el espacio unitario, la ortogonalidad de dos vectores también desempeá un papel
importante en este espacio.
El producto escalar (2.6) posee las siguientes propiedades (Lancaster, 1969):

r r r r r
1. x , x ³ 0 , además, x , x = 0 si y solo si x = 0
r r r r
2. a x , y = a x , y ;
r r r r r r r
3. x + y, z = x , z + y, z ;
r r r r
4. x , y = y , x .
r r
Desigualdad de Schwarz. Demostramos ahora que dos vectores arbitrarios x , y en un
espacio euclidiano o unitario siempre satisfacen la desigualdad de Schwarz:

r r r r
x, y £ x y (2.10)
9
a = - y, x , b = x , x , zr = ax + by . Entonces, hay que demostrar la
r r r r r r
Demostración. Sea
2 r r
desigualdad a £ b y , y . Tenemos
r r r r r r r rr r rr
0 £ z , z = ax + by , ax + by = a ax + by ,x + b ax + by , y
rr rr r r r r
= aa x , x + ba y , x + ab x , y + bb y , y
De aquí, usando las definiciones de a y b, y la igualdad b = b , obtenemos que los primeros dos
r r 2
términos de la última suma se cancelan, y los dos restantes nos da 0 £ b(b y , y - a ) . Si b=0,
r r r
entonces x = 0 , y (2.10) se cumple evidentemente. Pues si b> 0, entonces a £ b y , y . •
2
r r r
Definición. Vectores x1 , x2 ,K, xn se llaman linealmente independientes si de la ecuación
åa
r
i xi = 0 (2.11)
i =1
se deduce que ai = 0 para cada i. Si en (2.11) por lo menos un número ai es no nulo, entonces
dichos vectores se llaman linealmente dependientes. Por ejemplo, si a1 ¹ 0 entonces
n
1
åa
r r r
x1 = - xi , es decir, el vector x1 se presenta como una combinación lineal de los restantes
a1 i =2
i
vectores.
r r
Ejemplo 2.1. En el espacio euclidiano R n , los vectores e1 = (1,0,K,0) , e2 = (0,1,K,0) ,…,
r
en = (0,0,K,1) son linealmente independientes y representan un sistema básico ortogonal. Además,
r
cada vector x se puede presentar como
r n r
x = å xi ei (2.12)
i =1
donde xi son sus componentes relacionadas con la base ei {r } n

i =1
.•
10
Introducimos ahora un concepto útil para medir la magnitud de los vectores.
Definición. Una función × de vectores se denomina norma vectorial si para cualesquier
r r
vectores x y y del R n o C n se satisfacen los axiomas siguientes:
r r r
1. x ³ 0 ; 2. x = 0 Û x = 0;
r r
3. a x = a x para cualquier número complejo a;
r r r r
4. x + y £ x + y (desigualdad triangular).
Introducimos ahora una familia de las normas.
Definición. Sea p ³1. Las normas de Hölder, o p-normas, se definen por
1Ip
æ n pö
= ç å xi ÷
r
x (2.13)
p
è i =1 ø
De ellas, las más importantes son la 1-norma
n
x 1 = å xi ,
r
(2.14)
i =1
la 2-norma (norma euclidiana)
1I 2
æ n 2ö
= ç å xi ÷ = ( x * x) ,
r r r 1I 2 r r 1I 2
x = x, x (2.15)
2
è i =1 ø
y la ¥-norma
r
x ¥
= max xi (2.16)
1£i £ n
r r
Desigualdad de Hölder. Para cualesquier vectores x , y se cumple la desigualdad
r r r r 1 1
x*y £ x p
y q
, donde p > 1, q > 1 y + =1 (2.17)
p q
11
Observación 2.1. En particular, cuando p=q=2, la desigualdad (2.17) coincide con la de
Schwarz (2.10). Debemos decir, que entre todos los espacios definidos por la norma de Hölder (2.13),
sólo el espacio euclidiano (p=q=2) posee el producto escalar. Otra ventaja principal del espacio
euclidiano consiste en que sólo la norma euclidiana (2-norma) es invariable bajo cualquiera
transformación unitaria (por ejemplo, rotación). En efecto, si Q es una matriz unitaria (u ortogonal),
entonces
= Qx , Qx = (Qx ) Qx = x * (Q* Q) x = x * x = x
r 2 r r r* r r r r r r 2
Qx 2 2
(2.18)
ya que Q* Q = E , donde E es la matriz identidad. •
Es fácil introducir una métrica (distancia entre los vectores) en C n mediante la norma:
r r r r
r( x , y) = x - y (2.19)
El ejemplo 2.2 muestra que cada métrica introduce su propia topología en el espacio vectorial.
Ejemplo 2.2 (Ortega y Poole, 1981). Consideremos en el espacio bidimensional real C 2 las
métricas definidas por las normas (2.14)-(2.16):
2
r 1 ( x , y ) = å xi - yi
r r
(2.20)
i =1
la 2-norma, o norma euclidiana,
1I 2
r r æ 2 2ö
r 2 ( x , y ) = ç å xi - yi ÷ (2.21)
è i =1 ø
y la ¥-norma
r r
r ¥ ( x , y ) = max xi - yi (2.22)
1£i £ 2
r
Las esferas r i ( x ,0) £ 1 definidas por las métricas (2.20)-(2.22) se representan en Fig.2.1. •
12
0
Fig. 2.1. Esferas unitarias definidas por métricas (2.20) ( ), (2.21) (—), y (2.22) (----).
Definición. Dos normas o p

y o q se llaman equivalentes en C n si existen dos constantes
universales positivas C y K tales que
r r r
C x p£ x q £ K x p
(2.23)
r
para cualquier vector x del C n . •
Las desigualdades (2.23) son importantes en varias estimaciones de vectores. Por ejemplo, si
una sucesión de vectores converge en la p-norma, entonces, según la desigualdad derecha (2.23),
dicha sucesión también converge en la q-norma.
Observación 2.2. En un espacio C n de dimensión finita, cualquiera de dos normas arbitrarias
es equivalente a la otra. Por ejemplo,
r r r
x 2£ x 1 £ n x 2
(2.24)
r r r
x ¥
£ x2£ n x ¥
(2.25)
r r r
x ¥£ x 1£n x ¥
(2.26)
13
En el límite, cuando la dimensión n tiende al infinito, la segunda constante en (2.24)-(2.26) no es
limitada, ya que también tiende al infinito y, por lo tanto, la equivalencia de normas se pierde. Así, a
diferencia de los espacios de dimensión finita, en un espacio de dimensión infinita dos normas no son
en general equivalentes. •
Ejercicios:
n 2 n 2
1. Demuestre que å xi =å
r r r
xi si los vectores x i son ortogonales.
i =1 i =1
2. Sea la función x una norma vectorial. Demuestre que x - y £ x - y .

r r r r r
1Ip
æ n pö
= ç å xi ÷
r
3. Sea p³1 un número natural. Demuestre que x es la norma (norma de Hölder).
p
è i =1 ø
4. Sea la función x una norma vectorial. El conjunto de vectores para los cuales x - x0 £ r es
r r r
r
una esfera con el centro x0 y el radio r. Demuestre que la esfera es un conjunto convexo, es decir,
r
si x y y son dos vectores arbitrarios de la esfera entonces zr = tx + (1 - t ) y pertenece a la esfera
r r r
para cualquier número t del segmento 0 £ t £ 1 .
x, y £ x 1 y ¥ .
r r r r
5. Demuestre que
2
£ x1 x ¥.
r r r
6. Demuestre que x 2
7. (Stewart y Ji-guang Sun, 1990). Sea p>1 un número natural. Demuestre la desigualdad de
Minkowski:
x+ y p £ x p + y
r r r r
p
[Sugerencia: Utilice la identidad

p -1 p -1
å ( xi + y i ) = å xi ( xi + y i ) + å y i ( xi + y i )
p
i i i
y aplique dos veces la desigualdad de Hölder].
8. Sea × una norma vectorial, y sea T una matriz no singular. Demuestre que la función × T
r r
definida por x T = Tx también es la norma vectorial.
r 2
(
9. Porqué la función x = 2 x1 - 3x2 + x2
2 1/ 2
es la norma? )
r r
10. Demuestre que x ¥
= lim x p .
p®¥
14
§ 3. Matrices
{ } una matriz n ´ n , donde n indica el número de filas y columnas de la matriz.

Sea A = aij
Los números complejos a ij se llaman elementos de la matriz (i,j=1,…,n). La matriz AT = a ji { } se

{ }
llama matriz transpuesta; la matriz A* = a ji se llama matriz adjunta, y la matriz inversa se denota
por A -1 , y se define por las igualdades A -1 A = AA -1 = E , donde E es la matriz identidad. En seguida
se presentan varias matrices especiales (Bellman, 1960; Gantmacher, 1966; Lancaster, 1969; Parlett,
1980; Lancaster y Tismenetsky, 1985; Stewart y Ji-guang Sun, 1990).
Definición. Una matriz A = aij { } se llama diagonal si aij = 0 " i ¹ j . Se denota por
{ }
A=diag{ a11 , a22 ,..., ann }. Una matriz A = aij se llama triangular superior si aij = 0 " i > j , y
triangular inferior si aij = 0 " i < j .
é1 0 ù é5i 4 - 9i ù
Por ejemplo, la matriz ê ú es diagonal; la matriz ê es triangular superior,
ë0 - 5 + 2i û ë0 8 úû
é -i 0ù
y la matriz ê ú es triangular inferior.
ë7i + 2 25û
Definición. Una matriz real A se llama simétrica si A T = A , y antisimétrica si A T = - A .
Una matriz A se llama hermitiana si A * = A , y antihermitiana si A * = - A .
é3 4ù é0 - 3ù
Por ejemplo, la matriz ê ú es simétrica; la matriz ê ú es antisimétrica; la matriz
ë4 0û ë3 0 û
é 2 1 + 7i ù é 2i 1 + 7i ù
ê1 - 7i ú es hermitiana, y la matriz ê es antihermitiana.
ë 9 û ë- 1 + 7i 0 úû
Definición. Una matriz Q se llama matriz ortogonal si Q T Q = E , o Q T = Q -1 . Una matriz U
se llama matriz unitaria si U *U = E , o U * = U -1 .
15
é1 / 2 -1 / 2 ù é1 / 2 i / 2 ù
Por ejemplo, la matriz ê ú es ortogonal, y la matriz ê ú es
ë1 / 2 1/ 2 û ëi / 2 1 / 2 û
unitaria. Las matrices adjuntas, hermitianas, antihermitianas y unitarias son las generalizaciones de las
matrices transpuestas, simétricas, antisimétricas y ortogonales, respectivamente, cuando los elementos
matriciales a ij son números complejos.
Definición. Una matriz hermitiana A se denomina positivamente definida (o positiva) si
A x, x º x * A x > 0
r r r r r
para cualquier vector no nulo x de C n . La matriz hermitiana A se llama
x* Ax ³ 0
r r r
positivamente semidefinida si para cualquier vector x de C n . Recordamos que según
r r n n
(2.6), x * A x º åå aij xi x j .
i =1 j =1
Definición. Sea A una matriz cuadrada. Un número complejo l se llama autovalor (o valor
propio) de A si Au = lu , o si det( A - lE ) = 0 . El vector u se denomina autovector (vector

r r r
propio) de A. El conjunto de todos los autovalores de la matriz A se llama el espectro de A.
Cada matriz n ´ n tiene exactamente n autovalores.
Teorema 3.1. Todos los autovalores de una matriz hermitiana A son reales. Además, sus
autovectores correspondientes a diferentes autovalores son ortogonales.
Demostración. En efecto, consideremos el problema espectral para la matriz A : Ax = m x . De aquí

v r
tenemos x * A = m x * , y por lo tanto, ( m - m ) x * x = 0 . Ya que x ¹0 , obtenemos m = m , es

v r r r r
decir, el autovalor es real. Sea Ay = l y , donde l¹m . Por una parte, y * Ax = m y * x , por otra parte
r r r v r r
r* r
tenemos y * A= y * A* = ( Ay ) * = (l y ) * = l y * , por lo tanto, (l - m ) y x = (l - m ) x , y = 0 . Ya que
r r r r r r r
r r
l¹m , obtenemos x , y = 0 , es decir, dos autovectores son ortogonales. •
16
Teorema 3.2 (Schur y Toeplitz). Cualquier matriz cuadrada A es unitariamente semejante a
una matriz triangular superior T , es decir, existe una matriz unitaria U , tal que A = U * TU = U -1TU .
La demostración del teorema se puede encontrar, por ejemplo, en Lancaster (1969). Notamos
que cualquier matriz diagonal, simétrica, antisimétrica, hermitiana, antihermitiana, ortogonal o
unitaria pertenece a un conjunto de matrices normales que conmutan con su matriz adjunta:
AA * = A* A . La importancia de las matrices normales se explica por la siguiente proposición.
Teorema 3.3. Una matriz cuadrada A es unitariamente semejante a la matriz diagonal de sus
autovalores si y solo si A es normal.
Demostración. Þ Supongamos que A se puede presentar de la forma A = U * DU , donde U es una
matriz unitaria y D es una matriz diagonal. Entonces
AA* = (U * DU )(U * DU )* = U * DDU = U * DDU = (U * DU )* (U * DU ) = A* A
Ü Al contrario, supongamos que A es normal. Según el teorema 3.2, existe una matriz unitaria U y
una matriz triangular superior T, tales que A = U * TU . Es fácil verificar que AA * = A * A Û
åt
2 2
* *
TT = T T . Igualando los elementos (1,1) de la última ecuación, obtenemos 1j = t11 . Por lo
j =1
tanto, t1 j = 0 para j=2,3,…,n. Igualando los elementos (2,2) de la misma ecuación, llegamos a
n 2
åt
2 2
2j = t12 + t 22 . Ya que t12 = 0 , se deduce que t 2 j = 0 para j=3,4,…,n. Continuando de la
j =2
misma manera, encontramos que T es diagonal: T=D. Ya que el problema espectral Av n = l n v n es

r r
D(Uv n ) = l n (Uv n ) , tenemos t ii = l i , es decir, los elementos t ii son

r r
equivalente al problema
autovalores. •
17
Definición. Una función × de matrices se llama norma matricial si para cualesquier matrices
A y B se satisfacen los axiomas siguientes:

1. A ³ 0 ; 2. A = 0 Û A = 0;
3. aA = a A para cualquier número complejo a;
4. A + B £ A + B (desigualdad triangular);
5. AB £ A B (compatibilidad). •
Una norma muy útil es la de Frobenius
1I 2
é n n 2ù
A F
= êåå a ij ú (3.1)
ë i =1 j =1 û
Se puede demostrar que
m
= tr ( AA* ) = tr ( A* A) = å li
2 2
A F
(3.2)
i =1
n
donde tr ( A) = å aii es la traza de A, y li es autovalor no nulo de A (i=1,2,…,m). A
i =1
continuación introducimos una familia de las p-normas que se utilizan con mayor frecuencia.
Definición. Sea p ³1. La p-norma de una matriz A se define por

r
r Ax p
A p
= max
r Ax p
= sup r (3.3)
x p =1 r
x ¹0 x p
La p-norma matricial (3.3) se llama norma concordada con la p-norma vectorial (2.13). La 2-norma de
la matriz se llama norma espectral, ya que A 2 = r ( A* A) , y para cada matriz normal A,
A 2 = max li = r ( A) (3.4)
1£i £ n
es el radio espectral de A.
Para cada norma matricial × y cada matriz A, tenemos
18
1 n
E ³1, A -1 ³ , An £ A (3.5)
A
En efecto, para cualquiera matriz A, la norma espectral (3.4) es mínima entre todas las normas de A
que satisfacen la condición de compatibilidad Ax £ norma( A) x . La primera desigualdad (3.5) es
cierta debido a que la norma espectral de la matriz identidad E es igual a uno. Las otras dos
desigualdades (3.5) se deducen inmediatamente del axioma 5 de la norma. Por ejemplo,
A -1 A ³ A -1 A = E ³ 1 .
Ejemplo 3.1. Demostremos que AB F

£ A F B F . En efecto,
2
n n n n n
æ n 2 öæ
n 2ö
= åå å aik bkj £ åå ç å aik ÷ç å bk j ÷
2
AB F
i =1 j =1 k =1 i =1 j =1 è k =1 øè k =1 ø
(3.6)
æ n n 2 öæ ö
n n
= ç åå aik ÷ çç åå b jk
2
÷= A
2 2
÷ F
B F
è i =1 k =1 ø è j =1 k =1 ø
Ejemplo 3.2. Demostremos ahora que AB p

£ A p
B p
. En efecto,
ìï A( Bx ) p Bx p üï
r r r
ABx p
AB p = sup r = sup í r r ý
r
x ¹0 x p x ¹0 ï
r
Bx p x p ï
î þ
(3.7)
ìï A( Bx ) p üï ìï Bx p üï
r r
£ sup
r í
r ý sup í r ý= A p B p
Bx ¹0 ï Bx p ï x¹0 ï x p ï
î þ î þ
r
Ejemplo 3.3. Calculamos la norma A ¥ . Por definición, tenemos A ¥ = max
r Ax ¥ .
x ¥ =1
n n n
= max å aij x j £ max å aij x j £ x max å aij . Si
r r
Mediante la fórmula (2.16), obtenemos Ax ¥ ¥ 1£i £ n
1£i £ n 1£i £ n
j =1 j =1 j =1
r
ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces
19
n
= max å a ij . Con este fin, fijemos un i , y elegimos x = x j { } { }
r n
A ¥ j =1
, donde x j = sign aij . En
1£i £ n
j =1
n n n
å aij x j = å aij , y por lo tanto, max å aij . •

r r
= x
r
este caso, x ¥
= 1, Ax ¥ ¥ 1£ i £ n
j =1 j =1 j =1
Ejemplo 3.4. La función A D

= max a ij no es la norma, ya que no se cumple el axioma
1£i , j £ n
æ 1 1ö
5 de la norma. En efecto, si A = B = çç ÷÷ , entonces 2 = AB D
> A D
B D
= 1. •
è 1 1ø
Ejemplo 3.5. Demostremos (3.4) en el caso cuando A es una matriz simétrica. Sea Aui = li ui
r r
donde l i y u i son autovalores reales y autovectores ortogonales correspondientes de la matriz A,

r
respectivamente. Supongamos que l 1 = max l i , entonces

1£ i £ n
r r
Ax 2 Au1 2
A 2 = sup r = r = l1 (3.8)
x ¹0 x 2 u1 2
n
Ejemplo 3.6. Demostremos que A 1 = max å a ij . En efecto, según (2.14), tenemos
1£ j £ n
i =1
n ì æ n öü r æ
ï ö
ç å x j ÷ï
n n n n n
Ax 1 = å å aij x j £ åå aij x j £ å ímax aij 1 1£ j £ n å ij
r
ç ý
÷ï = x ç max a ÷ (3.9)
i =1 ï è ø
1£ j £ n
i =1 j =1 i =1 j =1 î è j =1 øþ i =1
r
Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces,
A 1 = max å aij . Sea max å a ij se alcanza para j= k , y elegimos un x = {x j }nj =1 donde todos x j
n n
r
1£ j £ n 1£ j £ n
i =1 i =1
x k = sign {a ik } .
r
son nulos excepto En este caso, x 1 =1 y, por lo tanto,
n n n n
Ax 1 = å å aij x j = å aik = x 1 max å aij . La fórmula queda demostrada. •
r r
1£ j £ n
i =1 j =1 i =1 i =1
20
Es importante señalar que transformaciones unitarias (u ortogonales) no cambian la norma
espectral (2-norma) y la de Frobenius de una matriz A, es decir, si Q y Z son matrices unitarias (u
ortogonales), entonces QAZ 2

= A 2
y QAZ F
= A F . Por ejemplo, usando (2.18) obtenemos
r r
Q( AZx ) ì
ï A( Zx ) ü
ï
QAZ = sup r
2
= supí r
2
ý= A (3.10)
Zx ¹ 0 ï ï
2 2
x¹0 x2 î Zx 2 þ
Ya que el espacio de todas las matrices de un grado n tiene dimensión finita ( n 2 ), cualesquiera dos
normas matriciales en este espacio son equivalentes (véanse las desigualdades (2.23) y la observación
2.2):
C A p£ A q
£K A p
(3.11)
Las desigualdades (3.11) tienen gran importancia en varias estimaciones de las matrices. Por ejemplo,
si una sucesión de matrices An converge hacia la matriz A en p-norma: An - A p ® 0 , entonces
dicha sucesión también converge hacia A en q-norma. Especificamos las constantes C y K en (3.11)
para algunas normas particulares:
A 2
£ A F
£ n A 2
(3.12)
1
A¥ £ A 2
£ n A¥ (3.13)
n
1
A1 £ A 2
£ n A1 (3.14)
n
max aij £ A 2
£ n max aij (3.15)
1£i , j £ n 1£i , j £ n
A 2
£ A1 A¥ (3.16)
21
Ejemplo 3.7. Demostremos que A 2
£ A F . En efecto, usando (2.15) y la desigualdad de
Schwarz, obtenemos
2
ì
ïæç n ö æ n öü r2æ n n ö
÷ï
n n n
=å å aij x j å íç å aij çå x j 2 ç åå
2 2 2
2
÷ ç ÷= x 2 2
r r
Ax £ ÷ ç ÷ý = x aij ÷ A
2
i =1 j =1 i =1 ï
îè j =1 ø è j =1 øï
þ è i =1 j =1 ø
2 F
Tomando en cuenta (3.3), llegaremos a la estimación necesaria. •
Demostramos ahora dos lemas útiles (Marchuk, 1982).
Lema 3.1. Sea A una matriz positivamente semidefinida y sea s ³ 0 un número. Entonces
(E + sA)-1 2
£1 (3.17)
Demostración. Debido a la definición de la norma euclidiana (2.15) y la del producto escalar (2.6),
tenemos
(E + s A)-1 f , (E + s A)-1 f
( E + s A) -1 2
= sup (3.18)
2 f ¹0 f ,f
Introduciendo elementos nuevos y por
y = (E + s A)-1 f (3.19)
obtenemos
y ,y
(E + s A)-1
2
= sup
2 y ¹0 (E + s A)y , (E + s A)y
1
= (3.20)
ì
ï Ay ,y Ay , Ay ü
ï
inf í1 + 2s +s 2 ý
y ¹0 ï
î y ,y y ,y ï
þ
Ya que Ay ,y ³ 0 , la desigualdad (3.17) es válida. •
22
Corolario 3.1. Si la matriz A es positivamente definida y s > 0 , entonces
(E + sA)-1 2
<1 (3.21)
Lema 3.2 (de Kellogg). Sea A una matriz positivamente semidefinida y sea s ³ 0 un
número, entonces
(E - sA)(E + sA)-1 2
£1 (3.22)
Designamos que T = (E - sA)(E + sA) . Según la definición de la norma

-1
Demostración.
euclidiana (2.15) y la del producto escalar (2.6), tenemos
2 Tf
2
Tf , Tf (E - s A)y , (E - s A)y
T = sup 2
= sup = sup (3.23)
2
f ¹0 f
2
2
f ¹0 f,f y ¹0 (E + s A)y , (E + s A)y
donde y se define por (3.19), por lo tanto
2 y ,y - 2s Ay ,y + s 2 Ay , Ay
T = sup £1.
2
y ¹0 y ,y + 2s Ay ,y + s 2 Ay , Ay
El lema queda demostrado. •
Corolario 3.2. Si la matriz A es positivamente definida y s > 0 , entonces
(E - sA)(E + sA)-1 2
<1 (3.24)
Los lemas 3.1 y 3.2 se usarán en el estudio de la estabilidad de varios esquemas numéricos.
Ejercicios:
1. Sea A una matriz antihermitiana: A * = - A . Demuestre que todos sus autovalores pertenecen al
eje imaginario.
2. Demuestre que una matriz A triangular es normal si y sólo si A es diagonal.
23
3. Una matriz A se llama estrictamente triangular superior si A es triangular superior con los
elementos diagonales nulos. Demuestre que si matriz n ´ n A es estrictamente triangular superior,
entonces An = O .
4. Sea función A una norma matricial. Demuestre que A - B £ A - B .
5. Demuestre que la función åa

i, j
ij es la norma matricial.
6. Demuestre que A 2 = r ( AA * ) donde r ( AA * ) es el radio espectral de la matriz AA * .
7. Sea A una matriz unitaria. Demuestre que A 2 = 1 .
8. Sea A una matriz normal. Demuestre que A 2 = r ( A) .
A + A*
9. Sea A una matriz. Demuestre que A - £ A- H 2
para cada matriz hermitiana H.
2 2
10. Demuestre que el producto de las matrices triangulares superiores (o inferiores) también es la
matriz triangular superior (inferior).
11. Demuestre que el conjunto de las matrices triangulares superiores (o inferiores) del mismo orden
es un espacio lineal.
12. Sean l1 ,...,ln autovalores de la matriz A. Demuestre que Det A = l1 Lln .
13. Demuestre que el determinante de una matriz triangular es igual al producto de sus elementos
diagonales.
14. Sea A una matriz simétrica y positivamente definida, y sea C una matriz real no singular.
Demuestre que C T AC también es positivamente definida.
24
§ 4. Número de condición de una matriz
El determinante de una matriz A (se denota por det A ) es una de sus características más importantes.
r r
Por ejemplo, si la matriz A es singular, es decir, si det A = 0 entonces el sistema Ax = b no tiene
ninguna solución. Una información valiosa sobre las propiedades de A también pueden dar sus
autovalores. En este apartado introducimos otra característica importante de una matriz llamada
número de condición. Pero antes consideremos dos ejemplos instructivos.
Ejemplo 4.1 (W. Kahan). Sea

r r
Ax = b (4.1)
el sistema de ecuaciones lineales con
é12969
. 0.8648ù r é0.8642ù
A=ê ú , y b=ê ú (4.2)
ë0.2161 01441
. û ë 01440
. û
r r r r r
Denotemos el término residual r = b - Ay , donde y es una solución aproximada. Ya que r = 0
r r r
para la solución exacta x = A -1b , es natural suponer que y es buena aproximación de la solución
r
exacta cuando el término residual r es muy pequeño. Sin embargo, para la matriz (4.2) esta
r
suposición no es cierta. En efecto, elegimos y = (0.9911, - 0.4870) T . En este caso el vector residual
r r
es r = (-10 -8 , 10 -8 ) T , es decir, muy pequeño. No obstante, el vector y queda lejos de la solución
r
exacta x = (2 , - 2 ) T . •
Ejemplo 4.2. Consideremos el sistema (4.1) con
é0.780 0.563ù r é0.217ù

A=ê ú, y b=ê ú (4.3)
ë0.913 0.659û ë0.254û
25
r
Si elegimos y1 = (0.341, - 0.087) T como una solución aproximada, entonces el término residual es
r r
r1 = (10 -6 , 0) T . Y si elegimos y2 = (0.999, - 1001
. ) T como otra solución aproximada, entonces el
r r r
término residual es r2 = (0.0013... , - 0.0015... ) T . Al comparar r1 con r2 concluimos que el vector
r r r
y1 aproxima la solución exacta x mejor que y 2 . No obstante, la solución exacta es (1,-1) T y, en la
r
realidad, el vector y 2 es la mejor aproximación entre dos vectores. •
Surge la pregunta, “¿ Por qué, al analizar los términos residuales, obtenemos conclusiones
completamente erróneas?” Con el fin de explicar la situación, examinemos el sistema (4.1) cuando
r
det A ¹ 0 y b ¹ 0 (Forsythe y otros, 1977; Ciarlet, 1995). En este caso, el sistema tiene una sola
r
solución x ¹ 0 . Analicemos ahora un sistema perturbado
r r r r
A(x + e ) = b + d (4.4)
r r r r
donde e y d son los errores de la solución x y vector b , respectivamente. Claro que
r r r r
Ae = d , y e = A -1d . (4.5)
r r r r r
Dividiendo el error relativo e / x en la solución entre el error relativo d / b en el vector b , y
usando (4.1) y (4.5) obtenemos
r r r r
r r -1
e / x b e Ax A d -1
r r = r × r = r × r £ A A , (4.6)
d / b x d x d
Definición. Sea A una matriz. El número
n ( A) = A A -1 (4.7)
se denomina número de condición de la matriz A.
26
Se deduce de (4.6) y (4.7) que
r r
e d
r £ n ( A) r , (4.8)
x b
es decir, el error relativo de la solución del problema (4.1) se expresa mediante el error relativo del
r
vector b multiplicado por el número de condición de la matriz. Por eso, cuando n ( A) es pequeño o
r r
moderado, el error e / x en la solución del problema (4.1) está acotado y depende continuamente del
r r r r r r r
error d / b en b en el sentido de que e / x tiende al cero junto con d / b . En esta situación, la
matriz A (lo mismo que el sistema (4.1)) se llama bien condicionada. Sin embargo, si el número de
condición de la matriz A es muy grande (por ejemplo, 10 20 o 10 30 ), entonces el error en la solución
r r r
e / xr ya no es controlable a pesar de que el error d / b es muy pequeño (por ejemplo, 10 -10 ). En la
última situación, el sistema (4.1) y su matriz A se llaman mal condicionados, y es posible esperar
problemas graves con la precisión de los cálculos.
Se puede demostrar que el numero de condición (4.7) también es una característica importante
r
de la respuesta del sistema (4.1) a un error en la matriz A. En efecto, supongamos que b es exacto,
r r
pero A contiene un error dA . Así, en lugar de la solución exacta x = A -1b , tenemos una solución
r r
r r r
aproximada x + dx = ( A + dA) b , o dx =
-1
{( A + dA) -1
}
- A -1 b . Sustituyendo B = A + dA en la
identidad B -1 - A -1 = A -1 ( A - B )B -1 obtenemos
r r r r
dx = - A -1 dA ( A + dA) b = - A -1 dA( x + dx )
-1
r r r
Por lo tanto, dx £ A -1 dA x + dx . Se deduce que
27
r
dx dA
r r £ n ( A) (4.9)
x + dx A
Así, el error relativo en la solución se limita arriba por el error relativo en la matriz A multiplicado por
el número de condición (4.7).
Ahora es posible contestar la pregunta sobre el comportamiento extraño de las soluciones en
los ejemplos 4.1 y 4.2. En efecto, lo que pasa en dichos ejemplos se debe a la mala condicionalidad de
r
las matrices (4.2) y (4.3), y de acuerdo con la estimación (4.8), un error pequeño en el vector dada b
produce un error bastante grande en la solución.
La matriz de Hilbert
é 1 12 L 1
n ù
ê1 1
L 1 ú
Hn = ê 2 3 ú
n +1
(4.10)
êL L L Lú
ê1 1 ú
ë n n +1 L
1
2 n -1 û
es otro ejemplo de matriz mal condicionada. Su número de condición empeora cuando el orden n
-1
aumenta. En efecto, consideremos su número de condición n F ( H n ) = H n F
Hn usando la
F
norma de Frobenius (3.1). La norma H n F

tiende al infinito cuando n aumenta, ya que
n
1
³å
2
Hn F
,
k =1 k
donde la serie de la parte derecha diverge.
Notemos que cualquier matriz unitaria (u ortogonal) es bien condicionada. En efecto, sea U
matriz unitaria, UU -1 = E . Debido a que la norma espectral tanto de U como de U -1 = U T son
iguales a uno, el número de condición de U es n (U ) º n 2 (U ) = U 2

U -1 = 1.
2
28
Según (4.7), el número de condición n ( A) depende de la norma matricial elegida. Por
ejemplo,
n p ( A) = A p
A -1 (4.11)
p
si se usa p-norma (3.3). Sin embargo, en virtud de la equivalencia (3.11) de las normas matriciales,
obtenemos
C 2n p ( A) £ n q ( A) £ K 2n p ( A) (4.12)
donde C y K son las constantes universales positivas de (3.11) que dependen sólo de las normas
elegidas (es decir, no dependen de A). Así, los números de condición de una matriz A calculados en
dos normas diferentes, también son equivalentes, es decir, si A está bien (o mal) condicionada en una
norma y las constantes C y K no son muy grandes, entonces, según (4.12), A también está bien
(mal) condicionada en otra norma.
Ejemplo 4.3. Sea A una matriz simétrica. El ejemplo 3.5 muestra que la 2-norma (o norma
espectral) de A es A 2
= max l i º b ( A) . Ya que
1£ i £ n
(A ) = ( A )
-1 * * -1
= A-1 , la matriz inversa también
es simétrica. Además,
r r r r r r
-1 2
A-1 x , A-1 x y, y y, y 1
A = max
r r r = max
r r r = max
r 2r r
= 2
,
2 x =1 x, x y =1 Ay, Ay y =1 A y, y min li
1£ i £ n
es decir, A -1 = 1 / min l i º 1 / a ( A) . Por eso,

2 1£i £ n
n 2 ( A) = b ( A) / a ( A) (4.13)
Por eso, el número (4.13) para una matriz A se llama número de condición espectral de A.
29
Ejemplo 4.4. Calculemos el número de condición de la matriz triangular
é 2 -1 L 0 0ù
ê-1 2 L 0 0ú
ê ú
A = êL L L L Lú (4.14)
ê ú
ê0 0 L 2 -1ú
êë 0 0 L -1 2 úû
del orden n. La matriz es simétrica y positivamente definida, es decir, todos sus autovalores son
positivos. Es fácil demostrar que los autovalores se hallan mediante de la fórmula
kp
l k ( A) = 2(1 - cos ) = 2(1 - cos kh) (4.15)
n +1
válida para cualquier orden n, donde h = p / (n + 1) . Usando (4.15) obtenemos
a ( A) = l1 ( A) = 2(1 - cosh) , b ( A) = ln ( A) = 2(1 - cosnh) (4.16)
Ya que cos ( n + 1)h = cosp = -1, y por lo tanto, cos nh = - cos h , según (4.13), tenemos
1 + cos h
n 2 ( A) = (4.17)
1 - cos h
4 - h2
Si h es pequeño, entonces cos h » 1 - h 2 / 2 , y n 2 ( A) = = O(h -2 ) , es decir, la matriz
h2
(4.14) es moderadamente mal condicionada. Tales matrices surgen a menudo al aproximar el
problema unidimensional de contorno para el operador de Laplace. •
Lamentablemente, no hay ninguna correlación entre el determinante y el número de condición
de una matriz. Por ejemplo, la matriz diagonal Dn = diag(10 -1 ,10 -1 ,K,10 -1 ) del orden n es bien
condicionada, ya que n (Dn ) = 1 para cada n. Sin embargo, det( Dn ) = 10 - n , es decir, el determinante
tiende al cero cuando n aumenta. Así, una matriz casi singular puede ser bien condicionada. Por otro
lado, demostremos ahora que la matriz
30
é 1 -1 -1 L -1 -1ù
ê 0 1 -1 L -1 -1ú
ê ú
ê0 0 1 L -1 -1ú
A=ê ú (4.18)
êL L L L L Lú
ê0 0 0 L 1 -1ú
ê ú
ë0 0 0 L 0 1û
del orden n cuyo determinante es uno, es mal condicionada. Examinemos el sistema (4.1) con la
r
matriz (4.18) y el vector columna b = (-1,-1,K ,-1, 1) T con todos sus componentes iguales a -1,
excepto el último componente que es uno. En una forma más detallada, este sistema tiene el aspecto
siguiente:
x1 - x 2 - x 3 -K- x n = -1
x 2 - x 3 -K- x n = -1
LLLLLL (4.19)
x n -1 - x n = -1
xn = 1
r
El sistema (4.19) tiene una sola solución x = (0, 0,K ,0, 1) T que obtenemos usando la carrera
inversa. Supongamos que en esta carrera se ha cometido un solo error: en lugar de bn = 1 se ha
introducido bn = 1 + d , donde d > 0 es muy pequeño en comparación con la unidad. Entonces, en
r r r
vez de la solución exacta x del sistema (4.19) obtendremos la solución aproximada x + e , donde el
r
error e = (e 1 , e 2 ,K , e n ) T satisface el sistema de ecuaciones
e 1 - e 2 - e 3 -K-e n = 0
e 2 - e 3 -K-e n = 0
LLLLLL (4.20)
e n -1 - e n = 0
en =d
31
De aquí obtenemos e n = d , e n -1 = d , e n - 2 = 2d , e n - k = 2 k -1 d , K , e 1 = 2 n - 2 d . En las
designaciones (2.16) tenemos
r r r r
e ¥
º max e i = 2 n-2 d , x ¥
= 1, d =d, b = 1, (4.21)
i ¥ ¥
y según (4.6) y (4.7),

r r
-1
e / x
n ¥ ( A) º A ¥
A ³ r ¥
r
¥
= 2 n- 2 (4.22)
¥
d / b
¥ ¥
Por ejemplo, si n=102, tenemos n ¥ ( A) ³ 2 100 > 10 30 , y por lo tanto, según la última igualdad en
r
(4.22), e ¥
= 2 100 d > 10 30 d . Particularmente, si d = 10 -15 (es decir, el único error cometido en la
carrera inversa es muy pequeño), no obstante, el error de la solución hallada es muy grande:
r
e ¥
> 1015 .
r r
Estimación del número de condición. Sea Ax = b un sistema lineal. Su solución formal es
r r
x = A -1b . Entonces, la solución del problema es equivalente a la búsqueda de la matriz inversa A -1 .
Antes de resolver este problema, es útil estimar el número de condición de la matriz A,
n ( A) = A A -1 . En un caso general es un problema difícil, ya que la matriz inversa A -1 y, por lo
tanto, el segundo factor A -1 son desconocidos. Sin embargo, ahora consideramos un grupo de
matrices que permiten estimar n ( A) = A A -1 bastante rápido. Introducimos otra matriz,
B = E - A , y escribimos el sistema original como
r r r
x = Bx + b (4.23)
El método que describimos ahora es para un grupo de tales matrices A que
32
B = E - A <1 (4.24)
para una norma matricial. En el capítulo VI, inciso 33 demostramos un teorema (Teorema 33.1) que
r
afirma que bajo la condición (4.24), el problema (4.23) tiene una sola solución x* y
r
r r b
x* º A-1b £ (4.25)
1- B
r
para cualquier vector b del espacio vectorial. El denominador en (4.25) es positivo debido a (4.24). Se
1
deduce de aquí que A -1 £ . Por otro lado, A = E - B < E + B £ 1 + E . Entonces, según
1- B
(4.7), tenemos
1+ E
n ( A) = A A -1 £ (4.26)
1- B
Ejemplo 4.5. Supongamos que A = E - B donde los elementos de la matriz B son
0.8
bij = × (-1) i + j , 1 £ i, j £ n (4.27)
n
Tenemos
1/ 2
n n
0.8 æ n ö
B 1 º max å bij =å = 0.8 , y B2£ B F
º çç å bij2 ÷÷ = 0.8
j =1 n è j =1 ø
i
j =1
Entonces, de acuerdo con la fórmula (4.26),
1+1
n ( A) = n (( E - B) £ = 10 ,
1 - 0.8
es decir, el número de condición de la matriz A es pequeño, y tanto la matriz A como el sistema

r r
Ax = b son bien condicionados. □
33
Ejercicios:
é1 a ù
1. Sea A(a) = ê ú una matriz donde a>0. Demuestre que A(a) se hace mal condicionada
ë1 - a û
cuando a se aproxima a cero. [Sugerencia: Hay que construir la matriz inversa A -1 (a) , y usando
n
1
la norma matricial A ¥
= max å a ij , demuestre que n ¥ ( A) = 1 + ].
1£i £ n a
j =1
2. Sea × a una norma matricial definida con cinco axiomas en § 3. Demuestre que
n a ( A) ³ max l i ( A) / min l i ( A) para cualquier matriz A, donde li ( A) es un autovalor de A.

i i
3. Demuestre que n 2 ( A) = max l i ( A) / min l i ( A) para cada matriz normal.

i i
4. Sea A una matriz no singular. Demuestre que n 2 ( A * A) ³ n 2 ( A) .

5. Usando las propiedades de normas matriciales, demuestre que n ( A) ³ 1 .
6. Sea A una matriz diagonal, A = diag{d1 ,..., d n } , y sea d i = 10 -i . Demuestre que n 2 ( A) aumenta
con n, y A se hace mal condicionada.

7. Demuestre que n (cA) = n ( A) para cualquiera matriz A y cualquier número c ¹ 0 .
8. Demuestre que n 2 ( A) = 1 si y sólo si A = cU , donde c ¹ 0 es un número y U es una matriz

unitaria.
9. Demuestre que n 2 ( A) = n 2 (VAU ) , donde V y U son dos matrices unitarias.
10. Demuestre que n ( AB ) £ n ( A)n ( B) .
11. Sean A y B dos matrices (A es no singular) y sea AB=E+P. Suponiendo que P es bastante
pequeña, estimen la norma A -1 - B en términos de B y P .
12. Compare la solución del sistema:
5.3433 x + 4.1245 y = 3.1417
5.3432 x + 4.1244 y = 3.1416
con la del sistema
5.343 x + 4.124 y = 3.142
5.343 x + 4.124 y = 3.142
que se obtiene mediante omitir la última cifra de la mantisa en todos los coeficientos. ¿Que número
de condición tiene la matriz del sistema original? [La solución del primer sistema es
x = 2.5776, y = -2.5776 , mientras que el segundo sistema tiene número infinito de soluciones].
34
§ 5. Problemas espectrales particulares
El problema espectral completo de una matriz consiste en la búsqueda de todos sus
autovalores y autovectores. Este problema surge en varios campos de física matemática, por ejemplo,
en el estudio de la estabilidad lineal de flujos hidrodinámicos o atmosféricos (vean, por ejemplo,
Skiba, 1998; Skiba y Adem, 1998). En general, el cálculo de todos los autovalores y autovectores es
un problema bastante difícil (Wilkinson, 1965). Sin embargo, a menudo en las aplicaciones es
necesario conocer sólo autovalores máximo o/y mínimo, o sólo algunos autovalores máximos y los
autovectores correspondientes. Aquí nos detendremos sólo en el método de potencias para determinar
algunos autovalores y autovectores particulares (Faddeev y Faddeeva, 1963; Ortega y Poole, 1981;
Marchuk, 1982; Golub y Ortega, 1992).

r n
Supongamos que A es una matriz de dimensión n que tiene un sistema completo {ei }i =1 de
autovectores normalizados de la manera siguiente:
r r
ei = ei 2
= 1. (5.1)
Tenemos
r r
Aei = li ei (i = 1,..., n) , (5.2)
r
donde li es autovalor correspondiente a ei . Por ejemplo, tal sistema de autovectores siempre existe
para cualquiera matriz normal. Además admitamos que
l1 > l2 ³ l3 ³ K ³ ln . (5.3)
Sea
r r r r
x0 = c1e1 + c 2 e2 + K + c n en (5.4)
un vector arbitrario no nulo, y
35
c1 ¹ 0 . (5.5)
Hallamos sucesivamente los vectores

r r
x k = Ax k -1 , k = 1,2,3,K . (5.6)
De acuerdo con (5.2), tenemos
r r æ n rö n
r n
r
x1 = Ax 0 = Aç å ci ei ÷ = å ci Aei = å ci l i ei ,
è i =1 ø i =1 i =1
y, en general,
r n
r r r
x k = å ci l ki ei = l k1 ( c1 e1 + h k ) , (5.7)
i =1
donde
k k
r æl ö r æl ö r
h k = c2 ç 2 ÷ e2 +K+ cn ç n ÷ en
è l1 ø è l1 ø
r
con la particularidad de que, en virtud de (5.3), la norma euclidiana h k tiende a cero con
k
l
velocidad 2 :
l1
r æl k
ö
hk = Oç 2 ÷ ®0 , k®¥ , (5.8)
çl ÷
è 1 ø
Tomando en consideración (5.7), obtenemos
r r r r r r
x k , x k -1 = l21k -1 c1 e1 + h k , c1 e1 + h k -1 )
r r r r r r
[
= l 21k -1 c12 + c1 e1 ,h k -1 + c1 h k ,e1 + h k ,h k -1 ] (5.9)
Teniendo en cuenta las desigualdades de Schwarz,
36
r r r r r r r r r r r r
e1 ,h k -1 £ e1 h k -1 = h k -1 , h k ,e1 £ h k , h k ,h k -1 £ h k h k -1 ,
y (5.8), hallamos
k -1
r r æl ö
x k , x k -1 = l 21k -1 ( c12 + Oç 2 ÷) (5.10)
çl ÷
è 1 ø
Análogamente obtenemos
r r æl m
ö
x m , x m = l 21m ( c12 + Oç 2 ÷) (5.11)
çl ÷
è 1 ø
Por consiguiente, k-ésima aproximación del autovalor l 1 se calcula por
r r æl k -1
ö
x k , x k -1
(l 1 ) k = r r = l 1 + Oç 2 ÷ (5.12)
x k -1 , x k -1 çl ÷
è 1 ø
Se deduce de (5.11) que
r r r æl k
ö
( c1 + Oç 2 ÷)
1/ 2 k
xk = xk , xk = l1 (5.13)
çl ÷
è 1 ø
r
y, por lo tanto, k-ésima aproximación del autovector e1 se calcula por
r r r r æl k
ö
(e1 ) k = x k / x k = ( sign l 1 ) k ( sign c1 ) e1 + Oçç 2 ÷
÷
(5.14)
è l1 ø
Así pues, debido a las condiciones (5.3), el proceso iterativo (5.6) permite hallar el valor propio l 1 ,
r
máximo según su módulo, y el vector propio correspondiente e1 . El error de k-ésima aproximación a
r
l 1 y e1 se determina por medio de las fórmulas (5.12) y (5.14), respectivamente. Se deduce de (5.8),
(5.12) y (5.14) que la velocidad de convergencia del proceso iterativo depende del valor de l 2 / l 1 , y
por lo tanto es rápida si él es pequeño y es lenta si él es un poco menor que uno.
37
r
Observación 5.1. Si l 1 > 1 , entonces, según (5.13), x k ® ¥ cuando k ® ¥ . Y si
r
l 1 < 1 , entonces x k ® 0 cuando k ® ¥ . Al realizar los cálculos con una computadora, ambos
casos son indeseables. En efecto, en el primer caso puede ocurrir que rebase el límite admisible y,
r
como resultado, se interrumpa el cálculo. En el segundo caso, la norma x k puede convertirse en cero
de máquina, y provocar la perdida de información. Para evitar ambas situaciones, es conveniente
realizar las iteraciones mediante las fórmulas modificadas, pero equivalentes:

r r r r r r r r r r
( e1 ) 0 = x 0 / x0 , x k = A ( e1 ) k -1 , (l 1 ) k = x k , ( e1 ) k -1 , ( e1 ) k = x k / x k (5.15)
El algoritmo (5.15) ya no tiene los referidos defectos y proporciona el mismo resultado que las
iteraciones (5.6), (5.12) y (5.14). •
Observación 5.2. Si inicialmente c1 = 0 (es decir, no se cumple (5.5)), lo cual es poco
probable, a expensas de los errores de redondeo, dentro de unas k iteraciones aparecerá, por regla
r r
general, un componente no nulo del vector x k correspondiente al autovector e1 . •
Observación 5.3. Sea Pn ( t ) = a 0 + a1 t + a 2 t 2 +K+ a n t n un polinomio algebraico de grado
n, y sea A y B dos matrices, además, B = Pn ( A) = a 0 E + a1 A + a 2 A 2 +K+ a n A n , donde E es matriz
unidad, entonces
l i ( B) = Pn (l i ( A)) (5.16)
donde l i ( A) y l i ( B) son autovalores de las matrices A y B, respectivamente. •
Consideramos ahora algunos ejemplos de la aplicación del método iterativo (5.15).
Ejemplo 5.1. Calculemos límites espectrales de una matriz simétrica A, es decir, el autovalor
máximo b ( A) = max l i ( A) , y autovalor mínimo a ( A) = min l i ( A) . Utilizando el método

i i
38
iterativo (5.15), se puede encontrar el autovalor de A máximo según el módulo, l$ ( A) . De la misma
manera, se puede calcular el autovalor máximo según el módulo, l$ ( B ) , de otra matriz simétrica
B = A - l$ ( A) E . Consideremos dos opciones que existen:
1. Si l$ ( A) > 0 , entonces b ( A) = l$ ( A) . Además, de acuerdo con (5.16), tenemos que
l i ( B) = l i ( A) - l$ ( A) £ 0 para cada i. Por eso, l$ ( B) = min l i ( A) - l$ ( A) , es decir,

i
a ( A) = l$ ( B) + l$ ( A) .
2. Si l$ ( A) < 0 , entonces a ( A) = l$ ( A) . Por lo tanto, l$ ( B) = max l i ( A) - l$ ( A) , y

i
$ ( B) + l
de nuevo, b ( A) = l $ ( A) . •
Observación 5.4. Si la matriz simétrica A tiene dos autovalores máximos según el módulo,
pero con signos opuestos, entonces para distintos vectores iniciales (5.4), las aproximaciones
sucesivas (l 1 ) k del proceso iterativo (5.15) convergen hacia números diferentes. A fin de evitar esta
situación es necesario desplazar el espectro de la matriz, es decir, aplicar el método del ejemplo 5.1 a
una matriz nueva A ¢ = A + cE , donde c es un número no nulo. •
Observación 5.5. Si la matriz A tiene autovalores múltiples, máximos según el módulo,
entonces para distintos vectores iniciales (5.4), las aproximaciones sucesivas (l 1 ) k del proceso
r
iterativo (5.15) convergen hacia un mismo número, pero los autovectores (e1 ) k convergen a vectores
no colineales. •
Ejemplo 5.2. Obtenemos la distancia r = min l i ( A) - l 0 entre un punto dado l 0 y el

i
autovalor próximo de una matriz simétrica A. Este problema surge al estudiar los fenómenos del tipo
39
de resonancia. Examinemos el caso que representa el mayor interés: l 0 pertenece al espectro de la
matriz A: a ( A) = min l i ( A) < l 0 < b ( A) = max l i ( A) . Sea l = max{l 0 - a ( A), b ( A) - l 0 } .

i i
Demostremos que
r = l 1 - l$ ( B) , (5.17)
1
2 { i
1
2 (
A - l 0 E ) es simétrica, y, en virtud de (5.16), l ( A) - l 0 } ³ 0
2
donde B = E - 2
l i ( B) = 1 -
l l
r2
1
{
para cada i. Se deduce que l$ ( B) = 1 - 2 l* ( A) - l 0 }
2
= 1- 2
, donde l* ( A) es el autovalor de
l l
A, inmediato a l 0 , es decir, la expresión (5.17) es justa. •
Ejemplo 5.3. Calculemos la 2-norma de una matriz A, y de su inversa A -1 . El conocimiento
de ambas normas es a menudo indispensable para optimizar un algoritmo numérico, o realizar varias
estimaciones teóricas de su estabilidad y/o convergencia. Las siguientes relaciones son válidas:
Aj , Aj A * Aj , j
= b ( A * A) = l$ ( A * A)
2
A = sup = sup (5.18)
j j ,j j j ,j
A -1j , A -1j ( A * A) -1 j , j
[ ]
-1 2 -1
A = sup = sup = a ( A * A) (5.19)
j j ,j j j ,j
En particular, según (4.13), el número de condición
n ( A) º A A -1 (5.20)
de una matriz simétrica A es igual a n ( A) = b ( A) / a ( A) .•
Ejemplo 5.4 (Cálculo del autovalor mínimo). Supongamos para simplicidad que A es una
matriz simétrica y positiva (es decir, b ( A) = l$ ( A) ), y se cumplen las desigualdades (5.3). Se puede
encontrar b ( A) usando el proceso iterativo (5.15). Introducimos otra matriz B = b ( A) E - A , que
40
también es positiva y simétrica. Por eso, el valor b ( B ) de nuevo se calcula por medio del proceso
(5.15). Es evidente que
a ( A) º min l i ( A) = b ( A) - b ( B) . (5.21)
i
Notemos que con la norma espectral (3.4), el número de condición (5.20) de nuestra matriz es
n 2 ( A) º A 2 A -1 2
= max l i ( A) / min l i ( A) = b ( A) / a ( A) (5.22)
i i
Por eso, cuando A es mal condicionada (es decir, cuando el numero (5.22) es muy grande), a ( A) es
un número relativamente pequeño y se obtiene de (5.21) como la diferencia de las números grandes.
Por eso, el algoritmo numérico (5.21) puede contener errores no sólo en la magnitud de a ( A) , sino
aún en el signo. •
Ejercicios:
1. Sea Pn ( t ) = a 0 + a1 t + a 2 t 2 +K+ a n t n un polinomio algebraico de grado n, y sea A y B dos

matrices; además, B = Pn ( A) = a 0 E + a1 A + a2 A 2 +K+ an A n , donde E es matriz unidad. Demuestre
que l i ( B) = Pn (l i ( A)) , donde l i ( A) y l i ( B) son autovalores de A y B, respectivamente.
2. Sea A una matriz hermitiana con la diagonal principal dominante ( aii > å aij para cada i).
j ¹i
Demuestre que A es positivamente definida si todos sus elementos diagonales son positivos.
r r r r
3. Sean l1 ,...,ln autovalores y sean u1 ,...,u n autovectores de una matriz A, es decir, Aui = li ui .
r r
Demuestre que para cada número complejo c , ( A + cE )ui = (li + c)u , es decir la matriz A+cE
tiene autovalores l1 + c,...,ln + c .
r r r r
4. Sea A una matriz no singular y Au = lu . Demuestre que A-1u = l-1u .
5. Sea A una matriz diagonal, A = diag{d1 ,..., d n } . Demuestre que d1 ,..., d n son autovalores de A.
6. Demuestre que det A = 0 si y sólo si A tiene autovalor nulo.

7. Demostrar que los autovalores de A son los mismos que los de AT .
8. Demostrar que si A y B son matrices de dimensión n, entonces los autovalores de AB son los
mismos que los de BA.
41
9. Demuestre que una matriz A es no singular si aii a jj > å aik åa jk para todos i ¹ j .
k ¹i k¹ j
10. Una matriz tridiagonal

é b1 c1 0 0 ù
êa O O 0 ú
J =ê 2 ú
ê 0 O O c n -1 ú
ê ú
ë 0 0 a n bn û
del orden n se llama matriz de Jacobi si ai ci -1 > 0 para i=2,…,n. Demuestre que para cada matriz
de Jacobi J existe una matriz diagonal no singular D = diag{ d1 ,..., d n } tal que DJD -1 es
c
simétrica. [ d i2 = d i2-1 i -1 , i=2,…,n , donde d1 ¹ 0 es arbitrario].
ai
11. Una matriz n ´ n , T = {t ij } se llama matriz de Toeplitz si cada diagonal contiene elementos
éa b 0 L 0 ù
êb a b O M ú
ê ú
iguales: t ij = t i - j , i,j=1,…,n. Por ejemplo, A = ê 0 O O O 0 ú es matriz simétrica
ê ú
ê M O b a bú
êë 0 L 0 b a úû
tridiagonal de Toeplitz (también se llama matriz de Jacobi). Demuestre que A tiene autovalores
æ πj ö r
l j = a + 2 b cosç ÷ y los autovectores correspondientes v j con componentes
è n +1ø
2 æ πjk ö
v j ,k = sin ç ÷ , j=1,…,n. Se deduce que dos matrices simétricas tridiagonales de
n +1 è n +1ø
Toeplitz del orden n tienen los mismos autovectores y, por lo tanto, son conmutativas.
42
§ 6. Valores propios y límites espectrales de matrices
Consideramos dos ejemplos de la convergencia del proceso iterativo (5.6).
Ejemplo 6.1. Aplicaremos el proceso iterativo (5.4), (5.6) cuando
é 2 0.5 -15
.ù é1ù
ê
A = ê 0.5 0 1 úú , y x 0 = êê1úú
r
(6.1)
êë-15
. 1 -1 úû êë1úû
é 1.000000 ù
Después de 85 iteraciones tenemos ( l 1 ) 85 = 2.624016 , y ( e1 ) 85 = êê 0.036666 úú . La convergencia
r
êë-0.403788úû
de iteraciones es lenta, debido a que los autovalores exactos de la matriz (6.1) son l 1 = 2.624015 ,
l 2 = 2.189657 , l 3 = -0.565641 , y por lo tanto, el valor de l 2 / l 1 es cercano a uno. •
Ejemplo 6.2. Aplicaremos el proceso iterativo (5.4), (5.6) cuando
é3 1 2 ù é1ù
A = êê4 1 -6úú , y x 0 = êê1úú .
r
(6.2)
êë 1 0 1 úû êë1úû
é 0.445042ù
= 11.344810 , y ( e1 ) 6 = ê 0.801938ú . La convergencia de
r
Después de seis iteraciones tenemos ( l 1 ) 6 ê ú
êë 1.000000 úû
iteraciones es rápida debido a que los autovalores exactos de la matriz (6.2) son l 1 = 11344810
. ,
l 2 = -0.515730 , l 3 = 0170914
. , y por consiguiente, el valor de l 2 / l 1 es pequeño. •
Para casi todas las matrices existe una dependencia continua de sus autovalores respecto a
perturbaciones pequeñas de sus elementos. Por ejemplo, para matrices normales es válida tanto la
estimación
max l i ( A) - l i ( B) £ A - B 2
, (6.3)
i
43
como la desigualdad de Wielandt-Hoffman
å [l ( A) - l i ( B)] £ A - B
2 2
i F
, (6.4)
i =1
como la afirmación siguiente.
Teorema 6.1 (de Wielandt-Hoffman). Sean A, B y C matrices normales del orden n, y
A=B+C . Si sus autovalores li , bi y g i están numerados de la manera siguiente:
l i £ l i +1 , b i £ b i +1 , y g i £ g i +1 para cada i, entonces
n n
å li - g i £ å bi
2 2
. (6.5)
i =1 i =1
En la parte derecha de las desigualdades (6.3) y (6.4) figuran la norma espectral (3.4) y
la norma de Frobenius (3.2), respectivamente.
Ejemplo 6.3. Demostremos la dependencia continua de autovalores de la matriz
é1 2 3 ù
ê
A = ê0 4 5 úú
êë0 0 4.001úû
respecto a una perturbación pequeña en su elemento. Ya que A es diagonal, tiene autovalores
l ( A) = {1, 4, 4.001} . Consideremos una matriz perturbada
é 0 0 0ù
A + dA , donde ê
dA = ê 0 0 0úú .
êë0.001 0 0úû
Sus autovalores son l ( A + dA) = {10001

. , 4.0582, 3.9427} . •
44
Sin embargo, existen matrices que no tienen dependencia continua. El conjunto de estas
matrices tiene medida nula en el espacio de todas las matrices. La celda de Jordan es un ejemplo
típico.
Ejemplo 6.4. Sea
é0 1 0 L 0 0ù
ê0 0 1 L 0 0ú
ê ú
êL L O O L Lú
A(e ) = ê ú (6.6)
êL L L O 1 0 ú
ê0 0 0 L 0 1ú
ê ú
ëe 0 0 L 0 0û
la matriz cuadrada 10 ´ 10 . Cuando e = 0 , la matriz (6.6) es celda de Jordan. Consideremos el

r r r
problema espectral: A(e ) u = lu . Es evidente que tanto autovector u = ( u1 , u2 , K , u10 ) , como
autovalor l de la matriz A(e ) dependen del valor de e . En efecto, es evidente que
u2 = lu1 , u3 = lu2 ,K, u10 = lu9 , eu1 = lu10 . Por eso, eu1 = lu10 = l 2 u9 = l 3 u8 =K = l10 u1 , es
decir, l10 = e , y, por lo tanto, l = 10 e . Así,

r
1) si e = 0 , entonces l = 0 y u = (1, 0,K, 0) .
r
. y u = (1, 10 -1 , 10 -2 , K , 10 -9 ) .
2) si e = 10 -10 , entonces l = 01
En suma, la perturbación muy pequeña e de la celda de Jordan A( 0) causa cambios drásticos en la
solución del problema espectral. •
Ejemplo 6.5 (de Givens). El espectro de la matriz
é1 + t cos(2 / t ) t sin(2 / t ) ù
A(t ) = ê (6.7)
ë t sin(2 / t ) 1 - t cos(2 / t ) úû
45
1 - t , y autovectores {cos(1 / t ), sin(1 / t )} y {sin( 1 / t ), cos(1 / t )} .
T T
tiene autovalores 1 + t y
Si A( t 0 ) tiene autovalor múltiple, entonces no hay seguridad de que autovalores cambian
continuamente en la vecindad del punto t 0 . En efecto, cuando t ® 0 , autovalores de la matriz (6.7)
están distribuidos densamente en el disco de unidad en el plano. Sin embargo, cuando t =0,
A(0) = E , y los autovalores ocupan todo el disco de unidad (Parlett, 1980). •
Formulemos varios teoremas que pueden ser útiles para localizar autovalores de una matriz.
Teorema 6.2 (Criterio de Gershgorin). Sea A = a ij { } una matriz compleja n ´ n . Entonces
n
todos sus autovalores se encuentran en la unión de los círculos, z - a kk £ Rk , donde Rk = åa
j =1, j ¹ k
kj
(k=1,2,...,n). Si la unión de unos m círculos ( m £ n ) está aislada de otros, entonces esta unión
contiene m autovalores.
Se puede encontrar la demostración del teorema 6.2, por ejemplo, en Lancaster (1969) o
é 1 10 -4 ù
Iserles (1998). Según el teorema 6.2, los autovalores de la matriz A = ê -4 ú pertenecen a dos
ë10 2 û
-4 -4 -4 -4
intervalos [1 - 10 , 1 + 10 ] y [2 - 10 , 2 + 10 ] .
Ejemplo 6.6. Consideremos el proceso iterativo (5.6) con la matriz
é-8 -2 4 ù
1 ê
A= -1 -4 2 úú
16 ê
êë 2 2 10úû
Según el teorema de Gershgorin todos los autovalores pertenecen a la unión de tres círculos:
z + 1/ 2 £ 3/ 8 , z + 1 / 4 £ 3 / 16 , y z - 5 / 8 £ 1 / 4 . Se deduce que el módulo de cada
46
autovalor es menor que uno, y por lo tanto, el proceso iterativo (5.6) converge para cualquier vector
inicial (5.4). •
3/8
3/16 1/4
-1 --1/2
1
2
- 1
4
0 5/8 1 x
Fig. 6.1. Círculos de Gershgorin para el ejemplo 6.6.
Teorema 6.3 (de Schur). Sea A matriz de n ´ n con la norma de Frobenius A F, y
autovalores l 1 , K , l n . Si B = 12 ( A + A * ) y C = 12 ( A - A * ) , entonces
n n n
å li å å Im(l
2 2 2 2 2 2
£ A F
, Re ( l i ) £ B F
, y i ) £ C F
(6.8)
i =1 i =1 i =1
Demostración. Existe tal matriz unitaria U que A = U * SU , donde S es una matriz triangular
superior, y autovalores l i de A son elementos diagonales de S. Ya que la norma de Frobenius
A F
es invariable respecto a cualquier transformación unitaria, tenemos A F
= S F
. Denotando los
elementos de S por sij , obtenemos
n n
= å li + å sij ³ å li
2 2 2 2 2
A F
= S F
. (6.9)
i =1 i< j i =1
Usando la igualdad B = 21 U * (S + S * )U , obtenemos
47
n 2 n
= å 21 (l i + l i ) + å 21 (sij + sij ) ³ å Re l i .
2 2 2 2
B F
= 1
2 (S + S * ) F
(6.10)
i =1 i¹ j i =1
Análogamente se prueba la última desigualdad (6.8) usando la fórmula C = 21 U * (S - S * )U . •
Corolario 6.1 (de Hirsch). Si l es autovalor de una matriz A , y
r = max a ij , s = max bij , t = max cij , (6.11)

i, j i, j i, j
donde aij , bij y cij son elementos de las matrices A, B y C del teorema 6.3, entonces
l £ nr , Re l £ ns , Im l £ nt . (6.12)
Ejercicios:
1. (Ciarlet, 1995). Sea A una matriz con diagonal principal estrictamente dominante:
aii > å aij = m i , 1 £ i £ n .
j ¹i
Demuestre que A no es singular, es decir, existe la matriz inversa A -1 .

[Sugerencia: det A ³ d1d 2 L d n , donde d i = aii - m i ].
2. Usando el teorema de Gershgorin demuestre que una matriz simétrica con diagonal principal
estrictamente dominante y elementos diagonales positivos, es positivamente definida.
é 0 1 0 i ù
ê 1 1 úú .
3. Encuentre los círculos de Gershgorin para la matriz ê 6 1
êi / 2 i 1 1 ú
ê ú
ë 0 1 / 2 1 / 2 - 2û
4. Usando el teorema de Gershgorin, demuestre que cada matriz simétrica con diagonal principal
estrictamente dominante y elementos diagonales positivos, es positivamente definida.
5. Demuestre que si para algún i y para todos los k ¹ i se cumplen las desigualdades
a kk - aii > å a kj + å aij , entonces el círculo de Gershgorin es z - aii £ Ri (véase el teorema
j ¹k j ¹i
6.2) contiene sólo un autovalor.

6. Demuestre que cualquier autovalor de una matriz A se encuentra por lo menos en uno de los
dominios
z - aii z - a jj £ å aik åa jk para todos los i ¹ j .

k ¹i k¹ j
48
7. En muchos casos, la consideración de ambas matrices (A y AT ) permite mejorar las estimaciones.
Demuestre que cualquier autovalor de una matriz A se encuentra por lo menos en uno de los
dominios
a 1-a
æ ö æ ö
z - aii z - a jj £ çç å aik å a jk ÷÷ ç å aki
ç å akj ÷÷
è k ¹i k¹ j ø è k ¹i k¹ j ø
para todos los i ¹ j si 0 £ a £ 1 .
8. Es preciso señalar que la inestabilidad de los autovalores no está necesariamente relacionada con
la existencia de autovalores multiples y menos con la existencia de celdas de Jordan (como en el
caso de la matriz A(0) en el ejemplo 6.4). En efecto, consideremos la matriz
é20 20 0 0 0 0 ù
ê 0 19 20 0 0 0 ú
ê ú
ê 0 0 18 20 0 0 ú
A(e ) = ê ú
ê0 0 0 O O 0ú
ê 0 0 0 O 2 20 ú
ê ú
êë e 0 0 O 0 1 úû
La matriz A(0) es triangular con sólo dos diagonales no nulos. Sus autovalores que coinciden con
los elementos diagonales, están bien separados, y no hay ningunas razones para esperar
inestabilidad. Sin embargo, demuestre que la variación en el término libre del polinomio
característico de A(e ) es 2019 e si e ¹ 0 . Ya que el producto de autovalores coincide con el
término libre, los autovalores tienen que cambiar fuertemente.
9. Muestre que dos matrices muy cercanas
é5 7 6 5 ù é5.1 7 6 5 ù
ê7 10 8 7 ú ê 7 10 8 7 ú
A=ê ú y A + dA = ê ú
ê6 8 10 9 ú ê 6 8 10 9 ú
ê ú ê ú
ë5 7 9 10û ë 5 7 9 10û
tienen polinomios característicos distintos,
l4 - 35l3 + 146l2 - 100l + 1 y l4 - 35.1l3 + 149l2 - 110.6l + 7.8 ,
y por lo tanto, autovalores distintos (con precisión de tres dígitos en la mantisa):
l1, 2,3, 4 = {0.010, 0.843, 3.858, 30.289} y l1, 2,3, 4 = {0.079, 0.844, 3.874, 30.303}.
10. Prepare un programa de cómputo para el método de potencia. Pruebe este programa usando las
matrices de los ejemplos 6.1 y 6.2.
49
Capítulo II. Métodos de aproximación y interpolación
Todos los objetos de las matemáticas numéricas son discretos, ya que se puede usar la computadora
sólo si trabajamos con escalares, vectores y matrices. Normalmente, antes de hacer cálculos, un
modelo continuo (diferencial) se aproxima por un modelo discreto. Al contrario, a menudo hay que
presentar en la forma continua los resultados numéricos o datos observados usando un método de
interpolación. Por ejemplo, hay que restablecer una función de malla en un dominio continuo con el
fin de estudiar sus propiedades o obtener su gráfico. En este capítulo consideramos varios métodos de
aproximación e interpolación, y analizamos los errores que introducen dichos métodos. Para un
estudio más profundo se recomiendan los libros de Forsythe y Wasow (1960), Godunov y Ryabeñkii
(1964), Richtmyer y Morton (1967), Lawson y Hanson (1974), Mesinger y Arakawa (1976), Becker y
otros (1981), Volkov (1990), Golub y Ortega (1992), Morton y Mayers (1994), Skiba (1994, 1998).
§ 7. Diferenciación numérica
En el análisis numérico, el concepto de aproximación es de gran importancia. En efecto, mientras que
el análisis diferencial considera funciones y operadores, el análisis numérico opera con vectores (o
funciones discretas) y matrices (o operadores discretos). Además, la proximidad de una función
discreta (o un problema, modelo discreto) a una función continua (un problema, modelo continuo) se
determina en una norma, y se llama error de aproximación. El grado de aproximación se caracteriza a
través del tamaño de una malla (métodos de diferencias finitas), o a través del número de truncación
de una series de Fourier (métodos de proyección).
La teoría de aproximación se basa en las dos afirmaciones siguientes.
50
Fórmula de Taylor. Sea f ( x) Î C[na ,a + h] , es decir, la función f ( x ) es continua junto con sus
derivadas f (k )
( x ) sobre un intervalo [a , a + h] , k=1,...,n. Entonces
h n -1 ( n -1) hn
f (a + h) = f (a ) + hf (1)
(a ) +K+ f (a ) + f (n)
(x ) (7.1)
(n - 1)! n!
donde x es cierto punto (desconocido) del intervalo [a , a + h] .
Por ejemplo, la función f ( x) = x pertenece a C[1, -1] , es decir, es continua. Sin embargo, no
pertenece a C[1-1,1] , ya que su primera derivada es discontinua en el punto x=0.
Lema 7.1. Sea f ( x) ÎC[ a ,b] , es decir, la función f ( x ) es continua sobre un intervalo [a , b] ,
y x i Î[ a , b] son ciertos puntos del mismo intervalo, i = 1,2,K, n . Entonces existe un punto x Î[ a , b]
tal que
1 n
å f (x i ) = f (x )
n i =1
(7.2)
Este resultado se deduce de las desigualdades evidentes
1 n
min f ( x ) £
x Î[ a ,b ]
å f (x i ) £ xmax
n i =1 Î[ a ,b ]
f ( x) (7.3)
y de la continuidad de la función en [ a , b] .
Como es bien conocido, la primera derivada de una función f ( x ) en punto x se define
mediante la fórmula
f ( x + Dx) - f ( x)
f (1) ( x) = lim (7.4)
Dx ®0 Dx
Si es difícil o imposible calcular el valor exacto de (7.4), es natural suponer que
51
f ( x + Dx ) - f ( x )
f (1)
(x ) @ (7.5)
Dx
¿Cual será el error, es decir, la diferencia entre el término izquierdo y el término derecho de esta
igualdad aproximada? Insistimos en que para analizar los errores de varias fórmulas aproximadas de
diferenciación numérica similares a (7.5), suele ser necesario que la función f ( x ) tenga cierta
derivada del orden más elevado que la derivada buscada.
Analicemos tres fórmulas elementales de diferenciación numérica que se usan muy a menudo.
Supongamos que x i = x 0 + ih , i = 0, ± 1, ± 2,... , donde h > 0 es el tamaño de la malla. Denotemos
f i = f ( x i ) , y f i ( n) = f ( n)
( x i ) . Sea f ( x) ÎC[2xi , xi +1 ] , es decir, las primeras dos derivadas de f ( x )
son continuas en el intervalo [ x i , x i +1 ] . Entonces, existe un punto x Î[ xi ,x i +1 ] tal que
f i +1 - f i h
f i (1) = - f ( 2)
(x ) (7.6)
h 2
Si f ( x) ÎC[3xi -1 , xi +1 ] , además de (7.6), tenemos
f i +1 - f i -1 h 2
f i (1) = - f ( 3)
(x ) , x Î[ xi -1 , xi +1 ] (7.7)
2h 6
A condición de que f ( x) ÎC[4xi -1 , xi +1 ] , es válida la fórmula
f i -1 - 2 f i + f i +1 h 2
f i ( 2) = - f ( 4)
(x ) , x Î[ xi -1 , xi +1 ] (7.8)
h2 12
Demostremos, por ejemplo, la relación (7.8). De acuerdo con la fórmula de Taylor (7.1), tenemos
h 2 ( 2 ) h 3 ( 3) h 4
f i ±1 = f i ± hf i (1) + fi ± fi + f (4)
(x ± ) (7.9)
2 6 24
52
donde el signo “±” puede ser sustituido en todas partes por “+” o “-”, además,
xi -1 < x - < xi < x + < xi +1 . Usando ambas expresiones (7.9) en (7.8), y tomando en consideración la
fórmula
f (4)
(x - ) + f (4)
(x + ) = 2 f (4)
(x ) (7.10)
donde, según el lema 7.1, x - < x < x + , obtendremos (7.8). Análogamente se demuestran (7.6) y
(7.7). Las fórmulas (7.6)-(7.8) son conocidas con el nombre de fórmulas de diferenciación numérica
con términos residuales, mientras que las expresiones
f i +1 - f i
f i (1) @ (7.11)
h
f i +1 - f i -1
f i (1) @ (7.12)
2h
f i -1 - 2 f i + f i +1
f i (2) @ (7.13)
h2
se denominan simplemente fórmulas de diferenciación numérica, a saber, la derivada de diferencias
en el punto x i , la derivada central en el punto x i , y la segunda derivada de diferencias en el punto x i ,
respectivamente.
Los errores de las fórmulas (7.11)-(7.13) se estiman por medio de las siguientes desigualdades
deducidas de las relaciones (7.6)-(7.8):
f i +1 - f i h
f i (1) - £ max f ( 2) (x ) º M 1 h (7.14)
h 2 x Î[xi , xi +1 ]
f i +1 - f i -1 h 2
fi (1)
- £ max f (3) (x ) º M 2 h 2 (7.15)
2h 6 x Î[ xi -1 , xi +1 ]
53
f i -1 - 2 f i + f i +1 h 2
f i ( 2) - £ max f ( 4) (x ) º M 3 h 2 (7.16)
h2 12 x Î[ xi -1 , xi +1 ]
donde Mi (i = 1,2,3) son distintas constantes. Se dice que el error de la fórmula (7.11) es O( h) , o de
primer grado respecto a h, mientras que el error de las fórmulas (7.12) y (7.13) es O( h 2 ) , o de
segundo grado respecto a h. También se dice que la fórmula (7.11) es del primer grado de exactitud
(respecto a h), y las fórmulas (7.12) y (7.13) son de segundo grado de exactitud (respecto a h). Por
ejemplo, sea h = 10 -1 . Entonces el error de la fórmula (7.14) es proporcional a 10 -1 , mientras que el
de (7.15) es proporcional a 10 -2 . Claro que (7.14) tendrá la misma aproximación en la malla más fina
con h = 10 -2 . Sin embargo, la malla nueva tiene dies veces más puntos, es decir, el número de
operaciones aritméticas aumenta considerablemente.
Ejemplo 7.1. Analicemos la aproximación del problema de Poisson
¶ 2j
- = cos x , 0 < x < p (7.17)
¶ x2
para el operador unidimensional de Laplace con las condiciones de contorno j (0) = 1; j (p ) = -1 .
Introducimos en el intervalo [0, p ] una malla con tamaño h = p / n : xi = ih , i = 0, 1,K, n ;
x0 = 0, xn = p . El problema diferencial se puede presentar en la forma de operador:
ì ¶ 2j ü
ï- ¶ x 2 ï ìcos x ü
ï ï ï ï
Aj ( x) º í ý= f ºí 1 ý (7.18)
ï j (0) ï ï -1 ï
ïî j (p ) ïþ î þ
Supongamos la solución j ( x) Î C[40,1] . Usando (7.13) consideremos el siguiente problema aproximado
54
ì fi -1 - 2fi + fi +1 ü
ï- h2 ï ìcos(ih) ü
ï ï ï ï
( A f )i º í
h h
f0 ý = ( f )i º í 1 ý
h
(7.19)
ï fn ï ï -1 ï
ï ï î þ
î þ
Denotemos por [j ] h una proyección de la solución exacta j ( x ) sobre la malla. Claro que [j ] h es
una función de malla. En nuestro ejemplo, en la calidad de [j ] h elegimos simplemente los valores
j ( xi ) en puntos de la malla. Evidentemente,
x +h / 2
1 i
[j ]h,i
h xi -òh / 2
= j ( x)dx
es otra proyección de la solución exacta j ( x ) sobre la malla. Por definición, el error de aproximación
del problema continua (7.18) por el problema discreto (7.19) se determina en la solución exacta como
A h [j ] h - A hj h º A h [j ] h - f h
(7.20)
donde
g º max g ( x i ) (7.21)
0< i < n
es norma en el espacio de las funciones de malla. La velocidad de convergencia de la norma (7.20)
hacia cero cuando h ® 0 se acepta como definición del grado de aproximación del problema
diferencial (en la solución exacta) por el problema discreto (esquema numérico). Tomando en cuenta
(7.8), obtenemos que
j i -1 - 2j i + j i +1 æ ¶ 2j ö h 2 (4) h 2 (4)
=ç 2÷ + j (x ) = cos(ih) + j (x ) (7.22)
h2 è ¶ x ø i 12 12
en puntos interiores de la malla, y por lo tanto,
55
h2
A [j ]h - f
h h
£ max j ( 4 ) (x ) = M h 2 , (7.23)
12 Î[ 0,1]
x
donde M es una constante finita, ya que j ( x) Î C[40,1] . Así pues, la aproximación del problema (7.18)
por (7.19) es O( h 2 ) , es decir, de segundo grado respecto al tamaño h. •
Notemos que las condiciones nulas de contorno en el ejemplo 7.1 se aproximan exactamente,
y, por lo tanto, no cambian el grado de aproximación. Para mostrar la influencia de las condiciones no
nulas de contorno, consideramos ahora otro ejemplo.
Ejemplo 7.2. Analicemos la aproximación de la misma ecuación (7.17) con las condiciones
¶f
modificadas de contorno: f (0) = 1; (p ) = 0 . El problema diferencial tiene la forma
¶x
ì ¶ 2f ü
ï - ¶ x2 ï
ïï ìcos x ü
ïï ï ï
Af ( x) º í f (0) ý = f º í 1 ý (7.24)
ï ¶f ï ï 0 ï
ï (p ) ï î þ
îï ¶ x þï
De nuevo, sea j ( x) Î C[40,1] , y consideremos un problema aproximado
ì fi -1 - 2fi + fi +1 ü
ï- h2 ï ìcos(ih) ü
ï ï ï ï
( Ahf h )i º í f0 ý = ( f )i º í 1 ý
h
(7.25)
ï fn - fn-1 ï ï 0 ï
ï ï î þ
î h þ
Ya que ahora
ì h 2 (4) ü
ïcos (ih) + 12 j (x ) ï
ïï ïï
( Ah [j ]h )i = í 1 ý, (7.26)
ï h (2) ï
ï j (J ) ï
ïî 2 ïþ
56
el error de aproximación del problema continuo (7.24) por el problema discreto (7.25) es igual a
ì h2 (4) ü
ï 12 j (x ) ï
ï ï
A h [j ] h - f h
=í 0 ý, (7.27)
ï h j ( 2 ) (J ) ï
ï2 ï
î þ
y, por lo tanto, a diferencia del ejemplo 7.1, la aproximación del problema (7.24) por (7.25) es O( h) ,
es decir, sólo de primer grado respecto a h:
A h [j ] h - f h
£Mh (7.28)
Claro que la aproximación empeoró por el cambio de la condición para la solución j ( x ) en el punto
extremo x = 1 . •
Ejemplo 7.3. Aproximamos ahora una ecuación parabólica bidimensional
¶j ¶ 2j
- = f (t , x ) , 0 < x < 1 , 0 < t < T (7.29)
¶ t ¶ x2
con la condición inicial
j ( 0, x ) = 0 , 0 < x < 1 (7.30)
y las condiciones de contorno
j ( t ,0) = j ( t ,1) = 0 , 0 £ t £ T . (7.31)
Además de la malla xi = ih (i = 0, 1,K, n) , introducimos otra malla en el intervalo temporal [ 0,1]
con tamaño t = T / m : t k = kt ( k = 0, 1,K , m) ; t 0 = 0 , t m = T . Supongamos que la solución
j ( t , x) Î C[20,T ] ´ C[40,1] , es decir, tiene dos derivadas continuas en t, y cuatro derivadas continuas en x.
Usando la notación j ik º j ( t k , xi ) , aproximemos en la malla el problema (7.29)-(7.31) de la manera
siguiente:
57
ìj ik +1 - j ik j ik+1 - 2j ik + j ik-1 ü
ï - ï ì fik ü
ï t h 2
ï ï ï
( A hj h ) ik º í j0 ý = ( f )i º í 0 ý
h k
(7.32)
ï jn ï ï0ï
ï ï î þ
î þ
Con las fórmulas (7.6) y (7.8), y la norma
g º max g(t k , xi ) (7.33)

k ,i
obtenemos que
t ¶ 2j h2 ¶ 4j
A h [j ] h - f h
£ max max ( t , x ) + (t , x ) = M h 2 + N t , (7.34)
0 < t < T 0 < x <1 2 ¶ t2 12 ¶ x 4
donde M y N son constantes finitas. Así, el problema discreto (7.32) aproxima el problema original
continuo como O(t + h 2 ) , es decir, con primer grado respecto a t , y con segundo grado respecto a
h. •
Puede encontrar más ejemplos en Godunov & Ryabeñkii (1964) y Marchuk (1982).
Ejemplo 7.4 (Aproximaciones cerca de una frontera no regular). Muchos problemas
bidimensionales tienen fronteras no regulares. En proceso de discretización, los puntos de malla
internos próximos a la frontera no tienen la distancia h y k de la frontera (Fig.7.1). Consideremos un
problema diferencial eliptico de segundo orden en un dominio D con frontera S (Fig.7.1). Los puntos
O, Q y T son regulares. Supongamos primero que la solución u está dado en S y, en particular, en
puntos R y S . El valor u P en el punto no regular P se puede encontrar mediante la interpolación lineal
a lo largo de x o y:
lS 1 lR 1
uP = uQ + uS , o uP = uT + uR .
1 + lS 1 + lS 1 + lR 1 + lR
58
En el caso cuando hay que saber también los valores de las primeras y segundas derivadas (u x )P ,
(u ) , (u )
y P xx P y (u yy )P en el punto P, se aplica el método siguiente (Ames, 1992). La función u ( x, y)
se extiende en la serie de Taylor cerca de P:
x2 y2
u ( x, y) = u P + x(u x )P + y(u y )P + (u xx )P + xy (u xy )P + (u yy )P + ... (7.35)
2 2
Suponiendo que P es el origen, es decir, P = (0,0) , los puntos R, S, T y Q se puede escribir como
(0, lR k ) , (l S h,0) , (0,-k ) y (-h,0) , respectivamente. Usando sus coordinadas en (7.35) e
ignorando terminos de O(h 3 ) y O(k 3 ) , obtenemos cuatro ecuaciones
y
Frontera NR
R aR
NP
lR k N aP NS
Q aS
P S
M k
lS h
h
O T
S
D
0 £ lR £ 1
0 £ lS £ 1
Fig.7.1. La geometría del punto no regular P cerca de la frontera.
59
é 0 lR k 0 1
2 (l R k ) 2 ù é (u x )P ù éu R - u P ù
0 ú ê (u y )P ú êu S - u P ú
ê úê ú ê ú
êl S h 0 (l S h ) 2
1
2
= (7.36)
ê 0 -k 0 1 2
2k
ú ê(u xx )P ú êuT - u P ú
ê úê ú ê ú
ëê - h 0 1 2
2h 0 ûú ëê(u yy )P ûú ëêuQ - u P ûú
cuyas soluciones son
é 1 l 1 - lS ù
(u x )P = h -1 ê u S - S uQ - u P ú + O(h 2 ) (7.37)
ë l S (1 + l S ) 1 + lS lS û
é 1 1 1 ù
(u xx )P = 2h -2 ê uS + u Q - u P ú + O ( h) (7.38)
ë l S (1 + l S ) 1 + lS lS û
é l 1 - lR ù
(u ) = k -1 ê
1
u R - R uT - u P ú + O(k 2 ) (7.39)
ë l R (1 + l R ) 1 + lR lR
y P
û
é ù
(u ) = 2k - 2 ê
1
uR +
1 1
uT - u P ú + O ( k ) (7.40)
ë l R (1 + l R ) 1 + lR lR û
yy P
Supongamos ahora que en la frontera S está dado la derivada normal de u
¶u ¶u ¶u
= cosa + sin a (7.41)
¶n ¶x ¶y
¶u
donde el ángulo a (con el eje x) especifica la dirección. En este caso, sabemos en la
¶n
æ¶ u ö
dirección a N R , N P y N S . Así, sabemos çç ÷÷ en el punto N cual puede ser aproximada
è ¶ n øN
como (u P - u M ) / PM . El valor uM se obtiene, por ejemplo, por la interpolación lineal entre Q
y O . Expresando varios largos en términos de h y a P obtenemos
æ¶u ö
u P = uQ (1 - tana P ) + uO tana P + h çç ÷÷ N seca P (7.42)
è¶ nø
60
Para determinar los valores de las primeras y segundas derivadas (u x )P , (u y )P , (u xx )P y (u yy )P
en el punto P, se aplica el método siguiente. Diferenciando (7.35) obtenemos
u x = (u x )P + x(u xx )P + y (u xy )P + ... (7.43)
u y = (u y )P + x(u xy )P + y (u yy )P + ... . (7.44)
Usando (7.42) podemos expresar las derivadas normales en los puntos R, N y S en términos de
las primeras y segundas derivadas de u en punto P. Así, encontramos
æ¶ u ö
çç [ ] [ ]
÷÷ = (u x )P + l R k (u xy )P cosa R + (u y )P + l R k (u yy )P sin a R (7.45)
è ¶ n øR
para el punto R , y dos relaciones afines para los puntos N y S . Si agregamos a estos tres
ecuaciones dos series de Taylor para uQ y uT obtenemos cinco ecuaciones para hallar las
derivadas (u x )P , (u y )P , (u xx )P , (u xy )P y (u yy )P en el punto P.
Ejercicios:
1. Encuentre el error de aproximación del esquema

j in+1 - j in
=
{( ) ( )
j in+1 - j in pi +1/ 2 - j in - j in-1 pi -1 / 2 }
t h2
¶j ¶ æ ¶j ö
para la ecuación diferencial = çç p ( x) ÷ en la región 0 < x < 1, t > 0 , con las condiciones
¶t ¶ xè ¶ x ÷ø
de contorno j (t ,0) = j (t ,1) = 0 . Aquí j in º j (t n , xi ); h = xi +1 - xi ; t = t n+1 - t n .
2. Demuestre que el término principal del error de aproximación del esquema

j in+1 - j in j n - 2j in + j in-1 ¶j ¶ j 2
= s i +1 para la ecuación =s tiene la forma
t h2 ¶t ¶ x2
1
2 tj tt - 121 s h 2j xxxx .
61
3. Analice el error de aproximación E de las siguientes fórmulas de integración para calcular la
b
integral I ( f ) = ò f ( x)dx :
a
a) la regla de los rectángulos: I ( f ) » (b - a) f (a) ;

a+b
b) la regla del punto céntrico: I ( f ) » (b - a) f ( );
2
b-a
c) la regla de los trapecios: I ( f ) » ( )[ f (a) + f (b)] ;
2
b-a é a+b ù
d) la regla de Simpson: I ( f ) » ( ) ê f (a) + 4 f ( ) + f (b)ú , la cual se puede interpretar
6 ë 2 û
como la combinación lineal de las reglas b) y c).
M M M M
[Resultados: a) E = 1 (b - a) 2 ; b) E = 1 (b - a) 2 ; c) E = 2 (b - a) 3 ; d) E = 4 (b - a) 5 ].
2 4 12 2880
4. (Golub y Ortega, 1992). Muestre que la regla de trapezoide integra cada función lineal exactamente
y que la regla de Simpson integra cada polinomio cúbico exactamente [Sugerencia: expandir el
polinomio cúbico alrededor del punto céntrico.]
62
§ 8. Operador de Laplace
El operador de Laplace desempeña un papel importante no sólo en física matemática, sino
también en métodos numéricos. Es útil especialmente para construir un sistema de funciones básicas
ortogonales cuando el dominio de definición de funciones tiene una forma compleja, y por lo tanto, no
existe ningún sistema de funciones básicas analíticas. En este caso, las funciones propias del operador
de Laplace (o los vectores propios del operador discreto de Laplace) representan una base ortogonal
con la particularidad de que estas funciones tienen valores nulos en la frontera del dominio. Además,
este operador se usa para describir términos viscosos o de difusión en varios problemas físicos
(dinámica de fluidos, dinámica de la atmósfera y el océano, termodinámica, etc.).
Considérese ahora las propiedades principales del operador de Laplace. Sea D un dominio
bidimensional limitado, con un contorno suave S . Supongamos que el operador de Laplace
¶2 ¶2
A º -D = - + (8.1)
¶ x2 ¶ y2
está definido en las funciones f ( x, y) que son continuas en D junto con sus primeras dos derivadas
parciales (dicha propiedad se denota por f ( x , y) Î C 2 ( D) ) , y
f ( x, y ) = 0 en S. (8.2)
Sea H un espacio de Hilbert que incluye todas las funciones reales f ( x , y) en D cuya norma
1/ 2
ì ü
f = íò f ( x , y) dxdyý
2
(8.3)
îD þ
es finita. El producto interno en H se define por
f , g = ò f ( x , y) g( x , y) dxdy . (8.4)
D
63
Lema 8.1. El operador (8.1), (8.2) es simétrico.
Demostración. En efecto,
Af , g = ò [- Df ( x , y)]g( x , y) dxdy
D
para cualesquiera funciones f , g Î C 2 ( D) . Usando la segunda fórmula de Green y (8.2), obtenemos
ì ¶ f ¶ gü
Af , g = - ò í g -f ýdS + ò f [- Dg ]dxdy = f , Ag , (8.5)
Sî
¶n ¶ nþ D
donde n es normal al contorno S. Según la identidad de Lagrange, el operador de Laplace es
simétrico, y por lo tanto, todas sus autovalores son reales. •
Corolario 8.1. El operador (8.1) también es simétrico si en lugar de la condición de Dirichlet
(8.2) se usa la condición mixta
¶ f
= -af en S (8.6)
¶n
En efecto, la integral de contorno en la parte derecha de la fórmula (8.5) es de nuevo nula. Cuando
a = 0 , la condición (8.6) se llama condición de Neumann.
Observación 8.1. Notemos que el problema
¶f
- Df = g , = 0 en S
¶n
con la condición de Neumann tiene la solución sólo si la función dada g(x) satisface la condición
ò g ( x)dx = 0 .
D
•
Lema 8.2. El operador (8.1), (8.2) es positivamente definido.

64
Demostración. En efecto, usando la primera fórmula de Green, obtenemos
¶f éæ ¶ f ö 2
æ¶ f ö
2
ù
Af , f = - ò f ds + ò êç ÷ +ç ÷ ú dxdy > 0 (8.7)
S
¶n Dêëè ¶ xø è ¶ yø úû
para cada función f ( x , y) no nula, ya que la integral de contorno es nula en virtud de (8.1). •
Corolario 8.2. Sea a = 0 . Entonces el operador (8.1), (8.6) es positivamente semidefinido.
En efecto, tenemos
éæ ¶ f ö 2 æ ¶ f ö 2 ù
Af , f = ò êç ÷ ú dxdy º ò Ñf
2
÷ +ç ³0 . (8.8)
Dêëè ¶ xø è ¶ yø ú
û D
La única diferencia, en comparación con el lema 8.2, es que el producto interno Af , f puede ser
nulo para cualquier función f ( x , y) = Const ¹ 0 en el dominio D. •
Corolario 8.3. El operador (8.1) también es positivamente definido si en lugar de la
condición de Dirichlet (8.2) se usa la condición
¶f
= -af en S (8.9)
¶n
con una constante a > 0 . El resultado se deduce directamente de (8.7).
Es evidente que la solución del problema espectral para el operador de Laplace depende del
dominio D y de la condición de contorno.
Ejemplo 8.1 (Marchuk, 1982). Ahora consideremos el operador de Laplace (8.1), (8.2)
cuando D es un cuadrado (0,1) ´ (0,1) . Es bien conocido que el problema espectral
- D ump = l mp ump en D
(8.10)
ump = 0 sobre S
tiene las funciones propias

65
ump ( x, y) = amp sin (mp x) sin( pp y) (8.11)
(m, p = 1,2,...) y los autovalores
l mp ( - D ) = ( m 2 + p 2 ) p 2 > 0 (8.12)
Es fácil demostrar que las funciones propias son ortogonales y pueden ser normalizadas a la unidad:
ump , uns = d mn d ps (8.13)
Se deduce de (8.12) que
a (-D) º min l mp (-D) = 2 p 2 , b (-D) º max l mp (-D) = ¥ (8.14)

m, p m, p
Por lo tanto, el operador (8.1), (8.2) es simétrico, positivo, ilimitado por arriba, además,
-Df , f ³ 2p 2 f , f . (8.15)
De las fórmulas (8.15) y (8.8) se deduce inmediatamente la desigualdad de Poincaré-Steklov para las
funciones definidos en el cuadrado (0,1) ´ (0,1) con valores nulos en su contorno:
1
f £ Ñf . (8.16)
p 2
Ya que el sistema de las funciones propias (8.11) es completo en el espacio H, cualquier función
f ( x , y) de H se puede presentar como una serie de Fourier:
f ( x , y ) = å å f mp ump ( x , y ) , (8.17)
m p
donde
f mp = f , ump (8.18)
66
{ }
es el coeficiente de Fourier de f ( x , y) asociado con la base ump ( x , y ) . De (8.18) y (8.13) se deduce
la igualdad de Parseval
= å å f mp
2 2
f ( x, y) . (8.19)
m p
Ya que la norma (8.19) es finita, f mp ® 0 cuando m, p ® ¥ . Notemos que la rapidez de
disminución de los coeficientes (8.18) aumenta con la suavidad de la función f(x). •
Observación 8.2. Cuando la geometría del dominio D es compleja, la solución del problema
espectral (8.10) se puede hallar únicamente mediante cálculos numéricos. •
Definición. Sea D h una malla en el dominio D caracterizada por su tamaño h. Cualquier
proyección de una función continua f sobre la malla D h se llama función de malla, y se denota por
f h . Sea A un operador diferencial. La aplicación f h ® ( Af ) h define un operador discreto A h en
el espacio de las funciones de malla. También se llama operador de diferencias. •
Ejemplo 8.2. Introducimos ahora en el cuadrado (0,1) ´ (0,1) una malla uniforme
( x k , y l ) ; x k = kh ; y l = lh ; k = 0,1,2,K, n ; l = 0,1,2,K, n ; h = 1 / n
con tamaño h; construimos en la malla un operador discreto de Laplace y comparamos sus
propiedades con las del operador original (8.1), (8.2). Definimos funciones de malla f h
º f kl por
medio de una proyección de funciones continuas f ( x , y) sobre puntos de la malla. Un ejemplo
simple de tal proyección es f kl = f ( x k , y l ) . Definimos en la malla un operador discreto de Laplace
-Dh por
f k +1,l + f k -1,l + f k ,l +1 + f k ,l -1 - 4 f kl
( - Dh f h ) kl = (8.20)
h2
67
Según (8.2), supongamos que
f kl = 0 sobre S h , (8.21)
donde S h es la frontera del dominio de malla, es decir, un conjunto de puntos de malla que están en
el contorno del cuadrado. Introducimos los siguientes operadores en diferencias finitas:
f k +1,l - f kl
( D x f h ) kl = , (8.22)
h
f kl - f k -1,l
(Ñ x f h ) kl = , (8.23)
h
f k ,l +1 - f kl
( D y f h ) kl = , (8.24)
h
f kl - f k ,l -1
(Ñ y f h ) kl = . (8.25)
h
Es fácil demostrar que
( - Dh f h ) kl = -( D x Ñ x f h ) kl - ( D y Ñ y f h ) kl . (8.26)
Introducimos un producto interno y una norma para las funciones de malla por medio de las fórmulas
n -1 n -1
f h , g h = h 2 å å f kl g kl (8.27)
k =1 l =1
y
h 1/ 2
f h
= f h, f (8.28)
h
Se puede demostrar que si dos funciones de malla f y g h satisfacen (8.21), entonces la primera y
la segunda fórmulas de Green también son válidas en la forma discreta:
n -1 n -1
- å (D x Ñ x f h ) kl ( g h ) kl = å (Ñ x f h ) kl (Ñ x g h ) kl , (8.29)
k =1 k =1
68
n -1 n -1
- å ( D x Ñ x f h ) kl ( g h ) kl = - å ( f h ) kl ( D x Ñ x g h ) kl (8.30)
k =1 k =1
Usando la fórmula (8.30) tanto para x como para y, obtenemos
- D h f h , g h = f h ,- D h g h , (8.31)
es decir, el operador discreto de Laplace -Dh es simétrico. Utilizando fórmula (8.29) para x y y,
obtenemos que
{[ ] }> 0,
n -1 n - 1
= h 2 å å (Ñ x f h ) kl ] + [( Ñ
2 2
- Dh f h , f h
y f h ) kl (8.32)
k =1 l =1
para cada función f h

no nula, y por lo tanto, el operador discreto de Laplace -Dh es positivamente
definido.
Por último, consideremos el problema espectral para el operador discreto de Laplace:
- Dh u mp
h
= lhmp u mp
h h
, u mp = 0 en S h . (8.33)
h
La solución del problema (8.34) representa autovectores u mp con componentes
u klmp = amp sin (mpkh) sin( pplh), 1 £ m, p, k , l £ n - 1 (8.34)
y autovalores
lhmp =
4
h 2 { }
sin 2 ( 12 mph) + sin 2 ( 12 pph) , 1 £ m, p £ n - 1 . (8.35)
Por eso
8 8
2
sin 2 ( 12 ph) £ lhmp £ 2 cos 2 ( 12 ph) . (8.36)
h h
Tomando en consideración que
69
ph p 2h2 ph
2
sin ( )= - O(h 2 ) , y cos2 ( ) = 1 - O(h 2 ) , (8.37)
2 4 2
tenemos
8
a ( - Dh ) @ 2p 2 £ lhmp £ b ( - Dh ) @ . (8.38)
h2
Comparando (8.38) y (8.14), y teniendo en cuenta que b ( - Dh ) ® ¥ cuando h ® 0 , obtenemos
que los autovalores mínimo y máximo del operador discreto de Laplace (8.20), (8.21) aproximan los
autovalores correspondientes del operador diferencial de Laplace (8.1), (8.2). Además, los
h
autovectores u mp son ortogonales en el sentido del producto interno (8.27), y por lo tanto, cada
h
función de malla f se representa por su serie de Fourier
f h
=å f mp h
u mp , f mp
= f h , u mp
h
(8.39)
m, p
mp
donde f es el coeficiente de Fourier. Si las funciones básicas de malla (8.34) están normalizadas a
h
uno, entonces para cada función de malla f se cumple la igualdad de Parseval (Morton y Mayers,
1994)
f h 2
= åå f mp 2
(8.40)
m p
Ejercicios:
1. Demuestre que el operador de Laplace sobre la esfera de radio a tiene en coordinadas esféricas
(l , m ) la forma
1 ¶2 1 ¶ é ¶ ù
D= + 2 ê (1 - m 2 ) ú
a (1 - m ) ¶l
2 2 2
a ¶m ë ¶m û
Aqui l es la longitud ( 0 £ l < 2p ), m = sin f , y f es la latitud ( - 1 £ m < 1).
2. Sea S la esfera, a = 1 es radio, y D el operador de Laplace sobre S. Para cada r real y positivo, se
puede definir la potencia r del operador de Laplace - D de la manera siguiente:
¥ ¥ ¥ n
(- D )r y = å [n(n + 1)]r Yn (y ) para cada función y = å Yn (y ) º å åy Y (l , m ) , donde
m m
n n
n =1 n =0 n =0 m = - n
70
Ynm (l , m ) es el armónico esférico, y nm es el coeficiente de Fourier de la función y , y
n
Yn (y ) = åy
m=- n
Y (l , m ) es la proyección ortogonal de la función y sobre el espacio de los
m m
n n
polinomios esféricos homogéneos del grado n (Skiba, 1989, 1994, 1997a). También se puede
definir los espacios de Hilbert H r con la norma y r = (- D )r / 2y , donde
1/ 2
ì
ï¥ n
2
ü
ï
y = íå å y nm ý . Demuestre que y £ 2-s / 2 y r +s
para cada función y Î H r + s y s>0.
ï
î n =0 m = - n ï
þ
r
3. Demuestre que el operador biármónico D2 sobre la esfera S es positivamente definido, es decir,

D2f , f > 0 para cada función f ¹ 0 , donde f , g = ò f ( x, y) g ( x, y)dxdy es producto escalar.
S
71
§ 9. Interpolación y extrapolación
Polinomios de Taylor. Sea f ( x ) ÎC[na+1

,b ]
, es decir, tiene n+1 derivadas continuas en el
segmento [a , b] . Recordemos que por polinomio de Taylor del n-ésimo grado de la función f ( x ) en
un punto x 0 Î[a , b] se entiende el polinomio
n (k)
f (x0 )
Qn ( x) = å (x - x0 ) k (9.1)
k =0 k!
que posee la propiedad de que
Qn( k ) ( x 0 ) = f (k)
( x 0 ) , k = 0,1,2, K , n (9.2)
Ya que n+1 derivadas de Q(x) y f ( x ) coinciden en el punto x 0 , el polinomio de Taylor asegura una
aproximación bastante buena de la función f ( x ) en una vecindad del punto x 0 . El error que surge al
sustituir la función f ( x ) por su polinomio de Taylor se expresa mediante el término residual de la
fórmula de Taylor, es decir,
f ( n +1) (x )
f ( x) - Qn ( x) = ( x - x 0 ) n +1 (9.3)
(n + 1)!
donde x es cierto punto (desconocido) situado estrictamente entre x y x 0 .
En vista de que la derivada f ( n +1)

( x ) es, por suposición, continua en el segmento [a , b] , debe
ser finita en dicho segmento, es decir,
M n+1 = max f ( n+1) ( x ) < ¥ (9.4)

x Î[ a ,b ]
De (9.3) y (9.2) se deducen las desigualdades
M n +1 n +1
f ( x ) - Qn ( x ) £ ( x - x0 ) (9.5)
(n + 1)!
72
M n +1 n +1
max f ( x ) - Qn ( x ) £ l , (9.6)
x Î[ a ,b ] (n + 1)!
(Volkov, 1990) donde
l = max {x 0 - a, b - x 0 } . (9.7)
La estimación (9.5) significa que el error local de aproximación de la función f ( x ) en vecindad del
n +1
punto x 0 a base del polinomio de Taylor (9.1) es O( x - x 0 ) , mientras que (9.6) sirve de
estimación del error máximo (o error absoluto) en todo el segmento [a , b] .
Ejemplo 9.1. Aproximemos la exponente f ( x ) = e x mediante el polinomio de Taylor en el
segmento [0,1] con un error absoluto no mayor que e = 10 -5 . Elegimos el punto x 0 en el centro del
segmento [0,1], x 0 = 0.5 con el fin de minimizar la magnitud l que figura en la estimación (9.6). Ya
que f (k)
( x ) = e x , tenemos
n
1
f (k)
(0.5) = e 1/ 2
, M n +1 = e , l = 0.5 , y Qn ( x ) = e 1/ 2
å k ! ( x - 0.5)
k =0
k
(9.8)
De acuerdo con (9.6) obtenemos
e
max e x - Qn ( x) £ Rn º n +1
, (9.9)
x Î[ 0,1] 2 (n + 1)!
Por lo tanto, R5 = 5.9 × 10 -5 y R6 = 4.3 × 10 -6 , es decir, conviene tomar n=6. □
Ahora consideremos otro problema. Hay que restablecer la gráfica de una función f (x )
usando sus valores dados en n puntos de una malla. En caso general, este problema no tiene única
solución. En efecto, sea {xi }i =0 una malla regular con tamaño h. Supongamos que en los puntos de
n +1
2p i 2p
malla xi = ih (i = 0,1,2,K, n + 1) se dan los valores f ( xi ) = sin de la senoide sin x de
(n + 1) (n + 1)h
73
2pn
longitud (n + 1)h . Es fácil demostrar que la senoide - sin x de longitud [(n + 1) / n]h tiene los
(n + 1)h
mismos valores en todos los puntos x i . En efecto, sea K = p / h el número de onda de la más corta
senoide que se puede presentar en la malla (su periodo es igual a dos tamaños de malla). Sustituyendo
K = p / h en la identidad sin k x º sin[ 2K - (2K - k )] x y usando la fórmula para sin(a - b ) ,
obtenemos
2p 2p 2p 2p
sin k x = sin x × cos( - k ) x - cos x × sin( - k)x .
h h h h
2p 2p
Sin embargo en los puntos de malla x = jh , sin jh = 0 y cos jh = 1 . Por lo tanto, de la
h h
última ecuación tenemos
sin k jh = - sin k * jh
donde k* = 2K - k . Así pues, si se conocen sólo valores en puntos de malla, entonces es imposible
distinguir la onda con el número k de la onda con el número 2K - k . El último significa que si
k > K , entonces la senoide con el número de onda k será presentada falsamente por la senoide con el
-1
número de onda k * . Supongamos que k = 2p /[( n + 1)h] , entonces k* = 2p - 2p æ n +1ö .
= 2p × ç ÷
h (n + 1)h è n ø
Así, la senoide sin k jh con el periodo de (n + 1) tamaños de malla puede ser interpretada
n +1
erróneamente como la senoide - sin k * jh con el periodo de tamaños de malla, y viceversa.
n
Para n=3, las gráficas de ambas senoides están presentados en Mezinger y Arakawa (1976). Este
ejemplo muestra que sin condiciones adicionales es imposible identificar una onda verdadera, y por lo
tanto, su periodo. En particular, se deduce que la determinación de los periodos de las oscilaciones de
varios campos climáticos usando los datos meteorológicos es un problema muy inestable y sus
resultados son inseguros.
74
Ahora empezamos a estudiar los métodos de interpolación con fin de restablecer una función
suave f (x) usando sus datos f ( xi ) en una malla.
Polinomio de interpolación de Lagrange (Bakhvalov, 1973). Supongamos que son
conocidos los valores de cierta función f ( x ) en distintos n+1 puntos x 0 , x1 ,K , x n :
f i = f ( xi ) , i = 0,1,2,K , n (9.10)
Surge el problema de restablecer aproximadamente la función f ( x ) en cada punto x Î[ x 0 , x n ] . Para
resolverlo, hay que constituir el polinomio algebraico Ln ( x ) del grado n , que adquiere en los puntos
xi los valores prefijados, es decir,
Ln ( xi ) = f i , i = 0,1,2,K , n (9.11)
y se domina polinomio de interpolación. A su vez, los puntos xi se llaman nodos de interpolación.
Definición. El restablecimiento de la función f ( x ) por medio de la fórmula f ( x) @ Ln ( x)
recibe el nombre de interpolación de la función f ( x ) (con ayuda de un polinomio algebraico). Si x
permanece fuera del segmento [ x 0 , x n ] , el procedimiento se llama extrapolación.
Teorema 9.1. Existe un solo polinomio de interpolación de n-ésimo grado que satisface las
condiciones (9.11).
Demostración. 1. La existencia. La existencia del polinomio de interpolación se establece
directamente al escribirlo. Sea n=1, entonces
x - x1 x - x0
L1 ( x) = f0 + f1 . (9.12)
x 0 - x1 x1 - x 0
Para n=2 ,
75
( x - x1 )( x - x 2 ) ( x - x 0 )( x - x 2 ) ( x - x 0 )( x - x1 )
L2 ( x) = f0 + f1 + f2 .
( x 0 - x1 )( x 0 - x 2 ) ( x1 - x 0 )( x1 - x 2 ) ( x 2 - x 0 )( x 2 - x1 )
Y, por último, en un caso general, para cualquier n natural tenemos
n
Ln ( x ) = å pni ( x ) × f i , (9.13)
i =0
donde
( x - x0 )L( x - xi -1 )( x - xi +1 )L( x - xn ) x - xj
pni ( x) = =Õ . (9.14)
( xi - x0 )L( xi - xi -1 )( xi - xi +1 )L( xi - xn ) j ¹i xi - x j
El polinomio (9.13), (9.14) satisface las condiciones (9.11) y se llama polinomio de interpolación de
Lagrange.
2. La unicidad. Admitamos que además del polinomio de Lagrange Ln ( x ) existe otro polinomio
~
algebraico Ln ( x ) de n-ésimo grado que también satisface las condiciones de (9.11):
~
Ln ( xi ) = f i , i = 0,1,2, K , n (9.15)
Entonces, de acuerdo con (9.11) y (9.15),

~
M n ( xi ) º Ln ( xi ) - Ln ( xi ) = 0 , i = 0,1,2, K , n , (9.16)
donde M n ( x ) es un polinomio algebraico de grado no mayor que n, y tiene, en virtud del teorema
fundamental, no más de n raíces, lo cual contradice las n+1 igualdades de (9.16). Por consiguiente,
~
Ln ( xi ) º Ln ( xi ) .
El teorema está completamente demostrado. □
Error de la interpolación por medio de polinomios de Lagrange. Estimamos ahora el error
de la interpolación (Powell, 1981; Volkov, 1990). Siempre se puede escribir la igualdad
76
f ( x) = Ln ( x) + Rn ( x) (9.17)
donde Rn ( x ) es un término residual, es decir, el error de interpolación. Hay que notar que el grado de
suavidad respecto de la función f ( x ) es de gran importancia para determinar el error de
interpolación. Supóngase que [a, b] º [ x 0 , x n ] y f ( x) ÎC[na+1

,b ]
, y buscamos Rn ( x ) de la forma
siguiente:
Rn ( x) = w n ( x) × rn ( x) , (9.18)
donde
w n ( x) = ( x - x 0 )( x - x1 )L( x - x n ) . (9.19)
Entonces,
w n ( xi ) = Rn ( xi ) = 0 , i = 0,1,2,K, n . (9.20)
Encontremos la función rn ( x ) . Fijemos un punto x Î[ a, b] tal que x ¹ xi , y analicemos la
siguiente función de t:
j ( t ) = Ln ( t ) + w n ( t ) × rn ( x) - f ( t ) (9.21)
Tenemos j ( xi ) = 0 ( i = 0,1,2, K, n), y j ( x) = 0 , es decir, la función (9.21) se reduce a cero
por lo menos en n+2 puntos del segmento [a , b] . Por lo tanto, su primera derivada j (1) ( t ) se reduce
a cero por lo menos en n+1 puntos de [a , b] , y su segunda derivada j ( 2 ) ( t ) se reduce a cero por lo
menos en n puntos de [a , b] , etc. Por consiguiente, existe por lo menos un punto x Î[ a, b] , en el
que j ( n+1) (x ) = 0 . Teniendo en cuenta la última fórmula y las fórmulas L(nn +1) (x ) = 0 y
w (nn +1) (x ) = (n + 1)! , se deduce de (9.21) la expresión
77
( n +1)
(n + 1)! × rn ( x ) - f (x ) = 0 (9.22)
Por lo tanto,
f ( n +1) (x )
rn ( x ) = (9.23)
(n + 1)!
Entonces
f ( n +1) (x )
Rn ( x) = w n ( x) , (9.24)
(n + 1)!
donde x Î[ a, b] es cierto punto desconocido. De la igualdad (9.17) se deduce la estimación del error
de interpolación en el punto x Î[ a, b] :
M n +1
f ( x ) - Ln ( x ) £ w n ( x) , (9.25)
(n + 1)!
y la estimación del error máximo de interpolación en todo el segmento [a , b] :
M n +1
max f ( x ) - Ln ( x ) £ × max w n ( x ) , (9.26)
x Î[ a ,b ] (n + 1)! x Î[ a ,b ]
donde
( n +1)
M n+1 = max f ( x) . (9.27)
x Î[ a ,b ]
Ejemplo 9.2. Estimamos el error de interpolación (aproximación) de la función f ( x) = x
en el punto x=116 y en todo el segmento [a , b] , donde a=100, b=144, por polinomio de
interpolación de Lagrange L2 ( x ) de segundo grado, construido con los nodos x 0 = 100 , x1 = 121 ,
y x 2 = 144 . Con el fin de calcular M 3 encontramos las primeras tres derivadas de f ( x ) :
78
1 -1/ 2 1 -3/ 2 3 -5/ 2
f (1)
( x) = x , f ( 2)
( x) = - x , f ( 3)
( x) = x .
2 4 8
Por eso, en virtud de (9.27),
3 3
M 3 = ×100 -5/ 2 = ×10 -5 .
8 8
A base de la desigualdad (9.25) obtenemos
3 1
116 - L2 (116) £ ×10 -5 × × (116 - 100)(116 - 121)(116 - 144)
8 3!
1
= ×10 -5 × 16 × 5 × 28 = 1.4 × 10 -3 .
16
En virtud de la estimación (9.26),
1
max x - L2 ( x) £ × 10 -5 × max ( x - 100)( x - 121)( x - 144) @ 2.5 × 10 -3 . •
x Î[ a ,b ] 16 x Î[ a ,b ]
Interpolación lineal. Consideremos la interpolación lineal (n=1) que es la más simple de
todas. Se realiza por medio de (9.12) y las fórmulas
L1 ( xi ) = f i , i = 0,1
Si introducimos las designaciones h = x1 - x 0 y q = ( x - x 0 ) / h , entonces la fórmula (9.12) de
la interpolación lineal se puede escribir de la forma
f ( x) @ L1 ( x) = L1 ( x 0 + qh) = (1 - q) f 0 + q f 1 . (9.28)
donde 0 £ q £ 1 .
79
f (x )
f0 f1
x0 x1 x
Fig.9.1. Interpolación lineal
En el lenguaje geométrico, la interpolación lineal significa la sustitución de la gráfica de la función
f(x) en el segmento [ x 0 , x1 ] por una cuerda que une los puntos ( x 0 , f 0 ) y ( x1 , f 1 ) (Fig.9.1). Según
(9.19), tenemos w 1 ( x ) = ( x - x 0 )( x - x1 ) , y
h2
max w 1 ( x) = max ( x - x 0 )( x - x1 ) = .
x Î[ x0 , x1 ] x Î[ x0 , x1 ] 4
Por eso, en virtud de (9.26), el error máximo de la interpolación lineal en el segmento [ x 0 , x1 ] se
estima como
M2 2
max f ( x ) - L1 ( x ) £ ×h , (9.29)
x Î[ a ,b ] 8
donde M 2 = max f (2)

( x) .
x Î[ a ,b ]
Ejemplo 9.3. Estimamos el error de la interpolación lineal de la función f ( x) = sin x , cuyas
valores se dan en la malla con el paso de 1°. El tamaño de la malla h es h = p / 180 . Ya que
¶2
M 2 = max (sin x ) £ 1 , el error de la interpolación lineal, de acuerdo con (9.29) no supera
x Î[ 0 , 2 p ] ¶ x 2
p2 1
× < 0.4 × 10 -4 . •
2
180 8
80
Forma de interpolación de Newton (Bakhvalov, 1973; Golub y Ortega, 1992).
Consideremos una malla regular de puntos xi con tamaño h, y datos f i = f ( xi ) (i = 0,1,2, K , n) .
Definimos diferencias finitas en cada punto de la malla por D f i = f i +1 - f i . Usando la última
fórmula, se puede determinar las diferencias finitas de mayor grado. Por ejemplo:
D f 0 = f1 - f 0
D f 0 = D f1 - D f 0 = f 2 - 2 f1 + f 0
2
D3 f 0 = f 3 - 3 f 2 + 3 f 1 - f 0
(9.30)
M
æ nö æ nö
Dn f 0 = f n - ç ÷ f n -1 + ç ÷ f n - 2 -K+( -1) f 0
n
è 1ø è 2ø
donde los coeficientes provenientes del binomio se dan por
æ nö n( n - 1)L ( n - i + 1)
ç ÷= (9.31)
è iø i!
En términos de (9.30), definimos un polinomio de grado n por
( x - x0 ) ( x - x 0 )( x - x1 ) 2
pn ( x ) = f 0 + Df 0 + D f 0 +K
h 2h 2
( x - x 0 )( x - x1 )L ( x - x n -1 ) n
+ D f0 (9.32)
n! h n
( x1 - x 0 )
Claro que pn ( x 0 ) = f 0 . Además, p n ( x1 ) = f 0 + ( f1 - f 0 ) = f1 y
h
( x2 - x0 ) ( x - x 0 )( x 2 - x1 )
pn ( x 2 ) = f 0 + ( f1 - f 0 ) + 2 ( f 2 - 2 f1 + f 0 )
h 2h 2 (9.33)
= f 0 + 2( f 1 - f 0 ) + ( f 2 - 2 f 1 + f 0 ) = f 2
Es fácil verificar que pn ( xi ) = f i (i = 3,4, K, n) , pero los cálculos son arduos.
81
Es interesante notar que el polinomio (9.32) es análogo discreto de los primeros n+1
términos de la expansión de Taylor en vecindad del punto x 0 (compare (9.32) con el polinomio de
Taylor (9.1)). Supongamos ahora que al conjunto de datos se agrega otra información
f n +1 = f ( x n +1 ) . Entonces, el polinomio de interpolación nuevo pn+1 ( x ) que satisface las condiciones
pn+1 ( xi ) = f i (i = 0,1,K, n + 1) se determina mediante el polinomio conocido pn ( x ) por medio de
la fórmula recurrente
( x - x 0 )( x - x1 )L ( x - x n ) n +1
pn +1 ( x) = pn ( x) + D f0 (9.34)
(n + 1)! h n +1
Precisamente esta propiedad hace la forma de la interpolación de Newton muy útil en la práctica, ya
que permite calcular fácilmente el nuevo polinomio (9.34). Este método de interpolación es
conveniente especialmente cuando hay que trabajar con series temporales, es decir, cuando x es
tiempo.
Ejercicios:
1. Demuestre que la fórmula (9.34) es válida.
2. Demuestre que el polinomio de Lagrange Ln (x) definido por la fórmula (9.13) coincide con el
polinomio de Newton (9.32) [Sugerencia: usar la presentación:
Ln ( x) = L1 ( x) + ( L2 ( x) - L1 ( x)) + ( L3 ( x) - L2 ( x)) + ... + ( Ln ( x) - Ln-1 ( x)) ].
1
3. Sea f ( x) = , donde h es un número complejo. Demuestre que
x-h
1 ( x - x0 ) ( x - x n )
f ( x) - Ln ( x) = × ××× .
x - h (h - x0 ) (h - x n )
4. Las diferencias del grado cero de f ( xi ) coinciden con los valores de la función f ( xi ) en
puntos de malla. Definimos las diferencias de primer grado f ( xi ; x j ) como
f ( x j ) - f ( xi )
f ( xi ; x j ) = las diferencias de segundo grado f ( xi ; x j ; xk ) como
x j - xi
f ( x j ; x k ) - f ( xi ; x j )
f ( xi ; x j ; x k ) = . Demuestre que, en general, las diferencias de k-ésimo
x k - xi
82
grado f ( x1 ;...; xk +1 ) se definen mediante las diferencias de k-1-ésimo grado según la
f ( x2 ;...; xk +1 ) - f ( x1 ;...; xk )
fórmula f ( x1 ;...; xk +1 ) = .
xk +1 - x1
5. Demostrar que para las reglas b)-d) del ejercicio 3 del § 7 el error de aproximación es
f ( n +1) (x~ )
b b
(n + 1)! òa
w n ( x) dx [Sugerencia: Usando (9.17) y (9.24), aproxime la integral I ( f ) = ò f ( x)dx
a
b
mediante la fórmula I ( f ) » ò Ln ( x) dx , donde Ln (x) es un polinomio de grado n. Use para el error
a
b ( n +1)
f ( x)
de aproximación òw
a
n ( x)
(n + 1)!
dx el teorema sobre un valor promedio, ya que en estos casos la
función w n (x) no cambia su signo en el segmento (a, b)].
6. (Bakhvalov, 1973). Sea x1 ,..., xn nodos de la cuadratura

b
b-a n
I ( f ) = ò f ( x) p( x)dx » å Dj f (x j ) .
2 j =1
a
Suponiendo que esta cuadratura es exacta para todos los polinomios del grado £ 2n - 1 ,
b
demostrar que òw
a
n ( x) Pn-1 ( x) p( x) dx = 0 para cualquier polinomio Pn-1 ( x) del grado máximo
n-1 y w n ( x) = ( x - x1 )( x - x2 ) L( x - xn ) .
83
§ 10. Minimización del error de interpolación
Sea dada cierta función f ( x ) ÎC[na+1

,b ]
sobre el segmento [a , b] , y una malla con n+1 puntos xi
(i = 0,1,2, K , n) . Surge la cuestión sobre de qué manera se deben elegir los nodos xi del polinomio
de interpolación de Lagrange (9.13) para que el error máximo de interpolación de la función f ( x )
sobre [a , b] sea mínimo. Según (9.26), dicho error depende tanto del M n+1 como del polinomio
(9.19):
M n +1
max f ( x ) - Ln ( x ) £ × max w n ( x ) (10.1)
x Î[ a ,b ] (n + 1)! x Î[ a ,b ]
Sin embargo, en la mayoría de los casos la información previa sobre M n+1 es desconocida, y el
problema es en general muy complejo y actualmente no se tiene solución. Por eso, ahora
consideremos un problema particular, es decir, de qué manera se deben elegir los nodos xi del
polinomio de interpolación de Lagrange (9.13) con el fin de minimizar el último factor max w n ( x )
x Î[ a ,b ]
en (10.1), y por consiguiente, también el error máximo. Debido a que max w n ( x ) es la norma del
x Î[ a ,b ]
polinomio w n ( x ) en el espacio C[ a ,b] de funciones continuas sobre [a , b] , este problema se reduce a
la búsqueda de un polinomio con la desviación mínima respecto a cero. Ya que este problema se
resuelve en términos de los polinomios de Chébyshev, primero estudiamos las propiedades principales
de dichos polinomios.
b+a b-a
Observación 10.1. Por medio de la fórmula t = + x , el segmento [ -11
, ] se
2 2
transforma en el segmento [a , b] . Además, cada polinomio f (x) sobre [ -11

, ] se transforma en el
84
æ 2t - (b + a) ö
polinomio g (t ) º f ç ÷ sobre [a , b] . Por lo tanto, es suficiente considerar el problema
è b-a ø
sólo sobre el segmento estándar [ -11

, ]. •
Polinomios de Chébyshev (Bakhvalov, 1973). El polinomio algebraico de Chébyshev
Tn ( x) de grado n (n ³ 0) sobre el segmento [ -11

, ] se define mediante la fórmula
Tn ( x) = cos (n arccos x) (10.2)
A primera vista es difícil afirmar que para cada n, la función (10.2) es un polinomio algebraico.
Demostremos que este afirmación es cierta. En efecto, cuando n=0 y n=1, tenemos
T0 ( x) = 1 , T1 ( x) = x (10.3)
Sustituyendo f = arccos x en la ecuación
cos(n + 1)f = 2 cos f cos nf - cos(n - 1)f (10.4)
que es solo otra forma de la fórmula trigonométrica cos(n + 1)f + cos(n - 1)f = 2 cos nf cos f ,
obtenemos la fórmula recurrente
Tn +1 ( x) = 2 xTn ( x) - Tn -1 ( x) (10.5)
(n=1,2,...) para construir todos los polinomios de Chébyshev. Usando (10.3) y (10.5), obtenemos
T2 ( x) = 2 x 2 - 1 , T3 ( x) = 4 x 3 - 3x
T4 ( x ) = 8x 4 - 8x 2 + 1 , T5 ( x) = 16x 5 - 20x 3 + 5x (10.6)
Así pues, Tn ( x) es realmente un polinomio algebraico del grado n. Nótense unas propiedades
principales de los polinomios de Chébyshev:
1. Cuando n es par (impar), el polinomio Tn ( x) es una función par (impar): Tn ( - x ) = ( -1) n Tn ( x ) .
2. Para cada n>0, el coeficiente pivote del polinomio Tn ( x) es igual a 2 n-1 .
85
3. En el intervalo [ -11
, ] , Tn ( x) tiene n raíces reales, las cuales se expresan por la fórmula
( 2i + 1) p
x i = cos , i=0,1,2,...,n-1 (10.7)
2n
En efecto, de acuerdo con (10.7) tenemos n × arccos x i = ( 2i + 1)p / 2 , y tomando en consideración
(10.2), obtenemos que (10.7) son las raíces de Tn ( x) .
4. Por la definición (10.2), tenemos max Tn ( x ) = 1 , además,

xÎ[ -1,1]
mp
Tn ( y m ) = ( -1) m , donde ym = cos , m=0,1,2,...,n (10.8)
n
En efecto, arccos y m = mp / n , y en virtud de (10.2), Tn ( y m ) = cos mp = ( -1) m .
5. Tn (±1) = (±1) n .
d
6. Tn ( x) £ n 2 , - 1 £ x £ 1 .
dx
dTn
7. (±1) = (±1) n n 2 .
dx
1
dx p
òT = cn donde c0 = 2 , y ck = 1 si k ³ 1 .
2
8. n ( x)
-1 1- x2 2
¥
9. Expanción de Chébyshev de una función es u ( x) = å u n Tn ( x) donde
n =1
1
2 dx
un = ò
pcn -1
u ( x) Tn ( x)
1- x2
.
Sea f (x) una función continua en el segmento [ -11

, ] . Denotamos la norma de f (x) por
f ( x) = max f ( x)
xÎ[-1,1]
86
Lema 10.1. Entre todos los polinomios de n-ésimo grado con el coeficiente mayor o igual
que la unidad, el polinomio
Tn ( x) = 21-n Tn ( x) , n ³1 (10.9)
tiene en el segmento [ -11

, ] la norma mínima (o desviación mínima de cero), es decir, no existe un
polinomio Pn ( x ) de n-ésimo grado con coeficiente pivote igual a uno que se verifique
max Pn ( x) < max Tn ( x) = 21-n (10.10)

xÎ[ -1,1] xÎ[ -1,1]
Demostración (Volkov, 1990). Supongamos lo contrario: existe un polinomio
Pn ( x) = a 0 + a1 x + a 2 x 2 +...+ a n -1 x n -1 + x n (10.11)
que satisface la desigualdad (10.10). Ya que el coeficiente pivote del polinomio Tn ( x ) también es
igual a uno, la diferencia M n -1 ( x ) º Tn ( x ) - Pn ( x ) es un polinomio algebraico de grado no mayor que
n-1; además, en virtud de (10.10), M n-1 ( x) ¹ 0 por lo menos en un punto del segmento [ -11
, ] . A su
vez, en n+1 puntos y m , con base en (10.8)-(10.10), el polinomio M n-1 ( x ) adopta valores de signos
alternativos distintos de cero. En efecto, supongamos, por ejemplo, que Tn ( y 0 ) = 1 , entonces,
M n -1 ( y 0 ) º Tn ( y 0 ) - Pn ( y 0 ) > 0 ,
M n -1 ( y1 ) º Tn ( y1 ) - Pn ( y1 ) < 0 ,
M n -1 ( y 2 ) º Tn ( y 2 ) - Pn ( y 2 ) > 0 ,
etc. Esto significa que el polinomio algebraico M n-1 ( x ) de grado menor que n se reduce a cero por
lo menos en n puntos, lo cual es imposible. El lema ha quedado demostrado. •
87
Corolario 10.1. Los polinomios de Chébyshev Tn ( x) se llaman polinomios de desviación
mínima respecto a cero.
Observación 10.2. Sea n ³ 1 . Se puede demostrar que si un polinomio (10.11) satisface la
condición max Pn ( x) = 21-n , entonces Pn ( x ) º Tn ( x ) .

xÎ[ -1,1]
Minimización del error de interpolación. Regresemos ahora a la estimación (10.1).
Tomemos, en calidad de nodos de interpolación en el segmento [ -11

, ] , las raíces del polinomio de
Chébyshev Tn+1 ( x) , es decir, los puntos
( 2i + 1) p
x i = cos , i=0,1,2,...,n . (10.12)
2(n + 1)
En este caso, el polinomio
w n ( x) = ( x - x 0 )( x - x1 )L( x - x n ) , (10.13)
cuyo coeficiente pivote es igual a uno, será proporcional al polinomio Tn+1 ( x) según la propiedad 2:
w n ( x) = 2 - n Tn +1 ( x ) , n ³ 1 . (10.14)
Se deduce de (10.14) y (10.9) que
w n ( x ) = Tn +1 ( x ) , n ³ 1 , (10.15)
y teniendo en cuenta la propiedad 4 de los polinomios de Chébyshev, la estimación (10.1) del error de
interpolación adquirirá el siguiente aspecto:
M n +1
max f ( x) - Ln ( x) £ (10.16)
x Î[ -1,1] 2 (n + 1)!
n
88
Observación 10.3. En virtud de Lema 10.1, la estimación (10.16) del error de la interpolación
en el segmento [-11,] no puede ser mejorada por medio de otra elección de los nodos de
interpolación. En este sentido, los nodos de interpolación (10.12) son óptimos. •
Ejercicios:
2 x - (b + a)
1. El polinomio Tn[a ,b ] ( x) = (b - a) n 21-2 n Tn ( ) es el polinomio de grado n con
b-a
coeficiente pivote igual a uno. Demuestre que entre todos los polinomios del grado n con el
[a ,b ]
coeficiente pivote igual a uno, el polinomio Tn ( x) tiene la desviación mínima de cero, es
decir, minimiza la norma f ( x) = max f ( x) .
xÎ[a ,b ]
2. Demuestre que los nodos óptimos de interpolación en un segmento arbitrario [a , b] son

1æ ( 2i + 1) p ö
x i = ç (b - a ) cos + b + a÷ , i=0,1,2,...,n. [Sugerencia: usar la observación 10.1, el
2è 2(n + 1) ø
ejercicio 1, y la fórmula (10.14)].
3. Demuestre la afirmación más estricta que el lema 10.1: si Pn ( x) = x n + ... ¹ Tn ( x) entonces

max Pn ( x) > 21-n .
xÎ[-1,1]
4. Demuestre que el polinomio de Chébyshev Tn (x) se puede presentar como

(
Tn ( x) = 12 ì
î
) (
n
2
n
ü )
í x + x - 1 + x - x - 1 ý . [Sugerencia: la fórmula recurrente (10.5) es la ecuación
2
þ
de diferencias con la ecuación característica m 2 - 2 xm + 1 = 0 , con las raíces m1, 2 = x ± x 2 - 1 .
Si x ¹ ±1 , entonces las raíces son simples y Tn ( x) = C1 m1n + C2 m 2n ].
89
§ 11. Aproximación mediante funciones básicas
Sistemas de funciones básicas. Sea H un espacio de Hilbert. Por ejemplo, si H es un espacio de
funciones definidas en un dominio D, entonces se puede introducir el producto interno y la norma por
medio de las fórmulas
f , g = ò f ( x) g ( x)dx (11.1)
D
y
1/ 2
ì ü
= íò f ( x ) dx ý
1/ 2 2
f = f,f (11.2)
îD þ
donde g ( x ) es la función complejo conjugada respecto a g ( x ) . En el caso de funciones de malla

r
f h
º f = ( f 1 , f 2 ,K, f n ) , el producto interno y la norma se introducen como
n
f h , g h = å f i gi (11.3)
i =1
y
h 1/ 2
f h
= f h, f , (11.4)
respectivamente. Notense que (11.2) y (11.4) representan un método estándar para definir la norma
mediante producto interno. El ángulo a entre dos elementos reales f y g del espacio H se define
por la fórmula
f ,g
cos a = (11.5)
f g
La definición es correcta debido a la desigualdad de Schwarz
f ,g £ f g (11.6)
Por analogía con el caso de funciones reales, y de acuerdo con (11.5), dos elementos f y g del
espacio H se llaman ortogonales si
90
f ,g = 0. (11.7)
Sea {f i } i = 0 una sucesión de elementos del espacio H.

m
Definición. El sistema de funciones {f i } i = 0 se llama linealmente independiente si de la

m
ecuación
åa f
i=0
i i =0 , (11.8)
se deduce que todos los coeficientes a i son nulos (i=0,1,2,...,m). Si por lo menos un coeficiente a i
es no nulo en (11.8), entonces el sistema {f i } i = 0 es linealmente dependiente. •

m
Definición. La matriz
é f 0 ,f 0 f 1 ,f 0 L f m ,f 0 ù
ê ú
ê f 0 ,f 1 f 1 ,f 1 L f m ,f 1 ú
(11.9)
ê L L L L ú
ê ú
êë f 0 , f m f 1 ,f m L f m ,f m úû
formada por productos internos de los elementos de la sucesión {f i } es conocida con el nombre de
matriz de Gram del sistema {f i } i = 0 . El determinante de la matriz (11.9) se llama determinante de

m
Gram (Volkov, 1990). •
La siguiente afirmación proporciona un criterio para determinar si algún sistema es
linealmente independiente.
Lema 11.1. El sistema {f i } i = 0 de elementos de H es linealmente dependiente si y sólo si el

m
determinante de Gram (11.9) es igual a cero.
91
Demostración. Þ Supongamos que el sistema {f i } es linealmente dependiente, es decir, existen
tales números {a i } , no todos iguales a cero, que se cumple (11.8). Si tomamos el producto interno de
la igualdad (11.8) sucesivamente con f 0 , f 1 , f 2 , etc., obtenemos las relaciones
åa
i=0
i f i ,f j = 0 ( j = 0,1,2, ..., m) (11.10)
que pueden interpretarse como un sistema homogéneo de ecuaciones algebraicas lineales con una
solución no nula {a i } i = 0 . Por consiguiente, el determinante del sistema (11.10), que coincide con el
m
determinante de Gram (11.9), es igual a cero.
Ü Ahora, al revés, supongamos que el determinante de Gram (11.9) es igual a cero, y demostremos
que el sistema {f i } es linealmente dependiente. En efecto, ya que el determinante del sistema (11.10)
es igual a cero, ese sistema homogéneo tiene cierta solución no nula {a~ i } i = 0 , y se puede escribir
m
å a~
i =0
i f i ,f j = 0 ( j = 0,1,2,..., m) . (11.11)
~ , sumando sobre j los resultados obtenidos, y usando

Multiplicando j-ésima igualdad (11.11) por a j
(11.2), hallamos
m 2
å a~ i f i
i=0
= 0. (11.12)
Por lo tanto
å a~
i=0
i fi = 0. (11.13)
~ son nulos, el sistema {f } es linealmente dependiente según la

Ya que no todos los números a i i
definición. El lema queda demostrado. •
92
Definición. El conjunto {f i } i = 0 de funciones no nulas se llama sistema ortogonal si
m
f i , f j = 0 para cada j ¹ i , 0 £ i, j £ m . (11.14)
Teorema 11.1 (de Pitágoras). Si dos elementos f y g del espacio H son ortogonales,
entonces
2 2 2
f +g = f + g (11.15)
Demostración. En efecto, usando (11.7), obtenemos
2 2 2 2 2
f +g = f + g, f + g = f + g + f , g + g, f = f + g .฀
Lema 11.2. Si un sistema {f i } i = 0 de funciones es ortogonal, también será linealmente

m
independiente.
Demostración. Efectivamente, tomando el producto interno de la igualdad (11.8) con cada función
f j obtendremos
2
a j f j ,f j = a j f j =0 , 0 £ j £ m, (11.16)
o a j = 0 para cada j , 0 £ j £ m , ya que la norma de cada función f j es positiva. ฀
Observación 11.1. Demostramos el lema 11.2 por otros dos métodos. Primer método: La
matriz de Gram (11.9) es diagonal para el sistema de funciones ortogonales y, en vista de que las
funciones son no nulas, el determinante de Gram es positivo, y lema 11.2 se deduce del lema 11.1.
Segundo método: Aplicando la fórmula de Pitágoras a la igualdad (11.8), obtenemos
m 2 m
åa if i = å ai
2 2
fi =0 , (11.17)
i =1 i =1
y por consiguiente, a i = 0 para cada i , 0 £ i £ m .฀
93
Ejemplo 11.1 (Funciones continuas). Para cada entero m>0 , las funciones
f i ( x) = cos ix , 0 £ i £ m (11.18)
forman la base ortogonal en el segmento [0, p ] con el producto interno
p
f , g = ò f ( x) g( x)dx , (11.19)
0
donde
f0 = p , y fj = p /2 , 1£ j £ m. (11.20)
En efecto, si j ¹ k , entonces
p p
1
f j ,f k = ò cos jx cos kx dx = ò [cos( j - k ) x + cos( j + k ) x ] dx
0
20
1 ì sin ( j - k )p sin ( j + k )p ü
= í + ý = 0.
2î j-k j+k þ
p p
p
Si j=k, entonces f j , f j = ò cos 2 jx dx = , ya que ò (cos
2
jx + sin 2 jx ) dx = p , y dos
0
2 0
integrales de la última fórmula son iguales. ฀
Es bien conocido que cada función f (x) , continua y simétrica sobre [ -p , p ] , se representa
como la serie de Fourier
¥
f ( x ) = å ci cos ix (11.21)
i =0
p p
con coeficientes ci = f , cos ix = ò f ( x) cos ix dx =2ò f ( x) cos ix dx ,
-p 0
y según (11.15),
94
p ¥
òp åc
2 2 2 2
f = f ( x ) dx = 2p c0 +p i . (11.22)
- i =1
La igualdad (11.22) se llama fórmula de Parseval (Morton y Mayers, 1994). Ya que la norma (11.22)
es finita, ci ® 0 cuando i ® ¥ . La rapidez de la convergencia de los coeficientes ci hacia cero
aumenta con la suavidad de la función f (x) (Skiba, 1994, 1998).
Ejemplo 11.2 (Funciones de malla). Para cada entero m>0 , introducimos en el segmento
2i + 1 p
[0, p ] la malla regular xi = × , (i=0,1,2,...,m). Las funciones de malla
m+1 2
æ 2i + 1 p ö
f j ( xi ) = cosç j × ÷ , j=0,1,2,...,m (11.23)
è m +1 2 ø
representan la base ortogonal si producto interno se define como
m
f , g = å f ( xi ) g ( xi ) (11.24)
i =1
m+1
Además, f0 = m + 1, y fj = para j>0. ฀
2
Problema de aproximación mediante funciones básicas. Consideremos ahora el problema
de aproximación de una función por medio de una base de funciones linealmente independientes. En
calidad de la base, a menudo, se eligen un sistema de polinomios algebraicos (por ejemplo,
polinomios de Legendre, de Chébyshev, etc.), o un sistema de funciones ortogonales (por ejemplo,
funciones trigonométricas, armónicas esféricas, etc.).
Definición. La función
95
m
F m ( x ) = å ci f i ( x ) , (11.25)
i =0
donde ci es un coeficiente numérico, se llama el polinomio generalizado por el sistema de funciones
{f i } im= 0 en espacio de Hilbert H.

Supongamos que una función f (x) pertenece al espacio H. Se plantea el problema de hallar
tal polinomio (11.25) que tiene una distancia mínima r ( f , F m ) hasta la función f(x).
Ejemplo 11.3 (aproximación lineal). Aproximemos la función f (x ) = e x por un polinomio
lineal p1 (x ) = a + bx en el segmento [ -1,1] a fin de que minimizar la distancia
r (e x , p1 (x )) = max e x - p1 (x ) . (11.26)
x Î[ -1,1]
Es bien conocido que cerca del origen (x=0), la función exponencial f (x ) = e x se presenta como la
serie de Taylor: e = 1 + x + 12 x + ... . Por eso, a primera vista el polinomio t 1 (x ) = 1 + x

x 2
nos
da una buena aproximación de la función exponencial e en el intervalo [ -1,1] . Sin embargo, el error
x
(11.26) de tal aproximación es igual a r (e x , t 1 (x )) = max e x - t 1 (x ) @ 0.718 , y no es mínimo.

xÎ[ -1,1]
En la realidad, el polinomio lineal que minimiza el error (11.26) es m1 (x ) = 1.2643 + 11752

. x,
además, r (e x , m1 (x )) = max e x - m1 (x ) @ 0.279 (Fig.11.1). ฀

xÎ[ -1,1]
96
f(x)
ex
3 m1 (x )
2
t 1 (x )
x
-1 0 1
Fig.11.1. Aproximación de e en el intervalo [ -1,1] por polinomios lineales.

x
Ya que en un espacio funcional de dimensión infinita, las métricas y normas diferentes no son
equivalentes, la solución planteada depende de la métrica r ( f , F m ) elegida, es decir, del criterio de
minimización. Por eso, es preciso tener en cuenta que la distancia entre un polinomio de
aproximación F m ( x) y la función f (x) puede ser pequeña en una métrica y grande en la otra.
Ilustramos ahora este hecho mediante un ejemplo:
Ejemplo 11.4. Consideremos dos distancias diferentes en el espacio de funciones continuas
en el segmento [0,1] :
r 1 ( f , g ) = max f (x) - g (x) (11.27)

xÎ[ 0,1]
1/ 2
ì1 ü
= íò f ( x) - g( x) dx ý .
1/ 2 2
r 2 ( f , g) º f - g = f - g , f - g (11.28)
î0 þ
97
n f(x)
x
A
0 1 B 1
n3
Fig.11.2. Gráfico de la función f (x) en el segmento [0,1] .
Sea g( x ) º 0 en [0,1] , y f ( x ) es no nula solo en un segmento [ A, B] de longitud 1 / n3 , donde su
valor máximo es igual a n (Fig. 11.2). En este caso, según (11.27) y (11.28), tenemos
r 1 ( f , g ) = max f (x) = n , (11.29)

xÎ[ 0,1]
y
1/ 2 1/ 2
ì1 ü ìB ü 1 1
r 2 ( f , g) = íò f ( x) dx ý = íò f ( x) dx ý
2 2
£ n2 × 3
= (11.30)
î0 þ îA þ n n
Así, cuando n aumenta, la distancia (11.29) entre f ( x ) y g ( x ) tiende al infinito, mientras que la
distancia (11.30) entre las mismas funciones tiende a cero. ฀
Ejercicios:
1. (Ortogonalización de Gram-Schmidt). Sea {f i } im= 0 un sistema de funciones linealmente

independientes (es decir, la base). Usando este sistema, construya la base ortogonal {y i }i =0 .
m
[Sugerencia: Aplique la inducción. Si m=0, entonces el sistema es trivial: y 0 = f 0 . Suponiendo

que el sistema ortogonal {y i }i =0 ya está construido, la siguiente función ortogonal y k +1 se busca
k
98
k
de la forma y k +1 = f k +1 - å a kiy i . En virtud de que las funciones {y i }i =0 son ortogonales,
k
i =0
f k +1 ,y i
obtenemos que a ki = ].
y i ,y i
k
r r
2. La transformada y j = å b jif i del ejercicio 1 se puede presentar en la forma vectorial: y = Bf .
i =0
Demostrar que det B = 1 , es decir, la matriz B (y por lo tanto, dicha transformada) no es singular.
[Sugerencia: demuestre que la matriz B es matriz triangular inferior, y todos sus elementos
diagonales son iguales a la unidad].
r r
3. Demuestre que la matriz A de la transformada f = Ay también satisface la condición det A = 1 .
[Sugerencia: Muestre que la matriz A = B -1 tiene la misma estructura que la matriz B ].
4. Demuestre que para un sistema {f i } i = 0 de funciones linealmente independientes no existe otra

m
r r
transformada z = Df tal que el sistema {z i }i =0 es también ortogonal y la estructura de la matriz
m
D coincide con la de B.
5. Aplique el proceso de ortogonalización descrito en el ejercicio 1 para ortogonalizar en el espacio
L2 (-1,1) el sistema f j ( x) = x , j = 0,1,2,3,... en el intervalo (-1,1). Demuestre que se
j
2 3 5
obtienen los polinomios ortonormales , x, (3x 2 - 1),..., diferenciados de los de Legendre
2 2 8
sólo por factores numéricos.
99
§ 12. Polinomio de la mejor aproximación media cuadrática
Supongamos que una función f (x) pertenece al espacio de Hilbert real H con la base {f i } i = 0 .
m
Se plantea el problema de hallar el polinomio
m
F m ( x ) = å ci f i ( x ) , (12.1)
i =0
que minimiza la distancia
1/ 2
r( f , F m ) º f - F m = f - F m , f - F m . (12.2)
Definición. La distancia (12.2) es conocida con el nombre de desviación media cuadrática
del polinomio F m ( x) respecto de la función f (x). El polinomio F *m ( x) que minimiza (12.2), se
denomina polinomio de mejor aproximación media cuadrática de la función f(x).
La siguiente afirmación indica que el problema de mejor aproximación media cuadrática ha
sido bien formulado (Lowson y Hanson, 1974; Volkov, 1990).
Lema 12.1. Si el sistema {f i } i = 0 de funciones es linealmente independiente, entonces para

m
cualquier función f (x) del espacio de Hilbert H, el polinomio F *m ( x ) de la mejor aproximación
media cuadrática existe y es único.
Demostración. De acuerdo con (12.2), tenemos
2
r 2 ( f , Fm ) º f - Fm = f - Fm , f - Fm
m m
= f - å ci f i ( x), f - å c j f j ( x)
i =0 j =0
100
m m m
= f , f + å å ci c j f i , f j - 2å ci f , f i . (12.3)
i =0 j =0 i =0
Por lo tanto, la magnitud r 2 ( f , F m ) representa una forma cuadrática respecto a los coeficientes
buscados ci del polinomio F *m ( x ) . Ya que la forma no es negativa para cualesquier ci , la misma (y
también, la distancia (12.2)) alcanza su valor mínimo no negativo. Igualando a cero las derivadas
parciales de la forma (12.3),
¶ 2
r ( f , F m ) = 0 , ( j = 0,1,2, K , m) , (12.4)
¶cj
obtenemos el sistema
åc
i =0
i f i , f j = f , f j , ( j = 0,1,2, K , m) (12.5)
de ecuaciones algebraicas lineales que se llama normal. Según el lema 11.1, el determinante del
sistema (12.5), que es un determinante de Gram, no es igual a cero. Por eso, el sistema (12.5) tiene
una sola solución {ci*} para cada función f (x). Estos {ci*} son los coeficientes del único polinomio
F *m ( x ) de la mejor aproximación media cuadrática de la función f (x) definido por (12.1). ฀
En la práctica se usan a menudo las aproximaciones medias cuadráticas de las funciones
mediante polinomios algebraicos, es decir, en calidad del sistema de funciones {f i } i = 0 se toman las
m
potencias de x : {1, x, x 2
}
, K , x m . Este sistema es linealmente independiente en el espacio C[ a ,b] de
las funciones continuas en el segmento [ a , b] para cualquier m. En un espacio lineal E n+1 de
dimensión n+1, donde las funciones se definen sólo en n+1 puntos de malla sobre un segmento
101
[ a, b] , {
el sistema 1, x , x 2 , K , x m } es linealmente independiente cada vez cuando m £ n . En
efecto, si
a 0 + a 1 x + a 2 x 2 +K+a m x m º 0 , (12.6)
entonces todos sus coeficientes a i tienen que ser nulos (i=0,1,...,m), ya que de lo contrario, un
polinomio algebraico de grado m puede reducirse a cero en más que m puntos.
Ejemplo 12.1. En el segmento [0,1] es necesario encontrar el polinomio F 1 ( x) = c0 + c1 x
de la mejor aproximación media cuadrática para la función f ( x) = x .
Resolución. La base tiene sólo dos funciones: f 0 ( x) = 1 , f 1 ( x) = x . Calculemos ahora los
elementos de la matriz de Gram:
1 1
1
f 0 , f 0 = ò dx = 1, f 1 , f 1 = ò x 2 dx = ,
0 0
3
1
1
f 0 , f 1 = f 1 , f 0 = ò x dx = .
0
2
1 1
2 2
Además, f , f 0 = ò x dx = , f , f 1 = ò x x dx = . Por consiguiente, el sistema normal
0
3 0
5
(12.5) acepta la forma
1 2 1 1 2
c0 + c1 = , c0 + c1 = .
2 3 2 3 5
4 4 4 4
De aquí, c0 = , c1 = , y F1 ( x) = + x . En este caso, la desviación media
15 5 15 5
cuadrática del polinomio F 1 ( x) respecto de la función f ( x) = x es igual a
102
1/ 2
ìï 1 æ 4 4 ö
2
üï 2
r ( f , F 1 ) = íò ç x - - x ÷ dx ý = .฀
ïî 0 è 15 5 ø ïþ 30
Observación 12.1. En el espacio C[ a ,b] pueden surgir dificultades relacionadas con el
cálculo de las integrales
b
1
f ,f i = ò f (x) x (i = 0,1,2,K , m) .
i
dx (12.7)
b-a a
Por eso el método de mínimos cuadrados se usa principalmente en la forma discreta (en E n+1 ). ฀
Aplicación de polinomios ortogonales. El sistema normal (12.5) se resuelve de la forma
más simple cuando el sistema de funciones básicas {f i } im= 0 es ortogonal. En este caso, la matriz de
Gram del sistema se convierte en matriz diagonal, y los coeficientes ci del polinomio (12.1) de la
mejor aproximación media cuadrática de la función f ( x ) tienen la forma siguiente:
f ,f i
ci = , (i = 0,1,2,K , m) (12.8)
f i ,f i
Dichos coeficientes se denominan coeficientes de Fourier de la función f ( x ) según el sistema
ortogonal {f i } i = 0 . De la fórmula (12.3), tomando en consideración la ortogonalidad de la base,

m
hallamos
m
- å ci2 f i
2 2
r ( f ,Fm ) = f
2
. (12.9)
i=0
De aquí se deduce con evidencia que al aumentar m (es decir, el número de las funciones
ortogonales), la distancia r 2 ( f , F m ) disminuye.
103
Observación 12.2. En el espacio E n+1 , si m=n y si el sistema {f i } im= 0 es ortogonal, el
mismo, forma una base en E n+1 . Entonces, para cualquier función f ( x ) del E n+1 habrá tal
n
F n ( x ) = å ci f i ( x ) F n ( x ) = f ( x ) , x Î {x i } i = 0 ,
n
polinomio que y por consiguiente,
i=0
r ( f , F n ) = 0 . El referido polinomio coincide, evidentemente, con el polinomio de la mejor
aproximación media cuadrática de f ( x ) . ฀
En cualquier segmento [ a, b] existe un sistema ortogonal y infinito de polinomios
algebraicos desde el punto de vista del producto interno
b
1
f ,g =
b-a ò f ( x ) g ( x ) dx .
a
(12.10)
Por ejemplo, los polinomios de Legendre
1 dn
Pn ( x ) = n n
( x 2 - 1) n (12.11)
2 n! d x
son ortogonales en el segmento estándar [ -11

, ]:
1
ì 0, j ¹ k
Pj , Pk = 1
2 ò j k
-1
P ( x ) P ( x ) dx = í 1 , j=k,
î 2 j +1
(12.12)
lo cual se comprueba integrando por partes. Evidentemente, Pn ( x ) es un polinomio algebraico de n-
ésimo grado, puesto que al diferenciar el polinomio ( x 2 - 1) n n veces, su grado se reduce
exactamente a n. Para los polinomios de Legendre es válida la fórmula recurrente
(n + 1) Pn +1 ( x) - (2n + 1) x Pn ( x) + n Pn -1 ( x) = 0 , (12.13)
por lo cual se puede hallar el polinomio de Legendre de cualquier grado, tomando en consideración
el hecho de que P0 ( x) = 1 , P1 ( x) = x . En particular,
104
1 1 1
P2 ( x) = (3x 2 - 1) , P3 ( x) = (5x 3 - 3x) , P4 ( x) = (35x 4 - 30x 2 + 3) .
2 2 8
Es importante señalar que
Pn ( - x) = ( -1) n Pn ( x) . (12.14)
Lema 12.2. Todas las raíces del polinomio de Legendre son reales, simples y se hallan
dispuestas en el intervalo (-1,1).
Demostración. Paso 1. Indicamos que el polinomio de Legendre Pn ( x) es ortogonal respecto a
cualquier polinomio algebraico X k ( x ) de grado k<n :
Pn , X k = 0 . (12.15)
En efecto,
k
X k ( x ) = å a j Pj ( x ) ; (12.16)
j =0
esta afirmación se deriva de la propiedad (12.12) de ortogonalidad de los polinomios de Legendre.
Paso 2. Supongamos lo contrario: que el polinomio Pn ( x) tiene dentro del intervalo (-1,1) sólo
k<n diferentes raíces reales de multiplicidad impar. Designemos esas raíces por x1 , x 2 , K , x k , y
definamos un polinomio de k-ésimo grado:
ì ( x - x1 )( x - x 2 )L ( x - x k ), si k > 0
X k ( x) = í . (12.17)
î 1 , si k = 0
Notemos que k=0 corresponde a la situación donde todas las raíces tienen multiplicidad par.
Evidentemente, el producto Pn ( x) X k ( x ) es un polinomio de (n+k)-ésimo grado, el cual no
cambia de signo en el intervalo (-1,1), cuyos raíces sólo pueden ser de multiplicidad par, y el cual
105
tiene que ser diferente de cero. Por eso Pn , X k ¹ 0 , lo cual contradice la igualdad (12.15). Por
consiguiente, el polinomio de Legendre Pn ( x) , de n-ésimo grado tiene en el intervalo (-1,1)
exactamente n raíces simples (de multiplicidad uno). ฀
Ejemplo 12.2. Hay que aproximar la función f ( x ) = x en el segmento [ -11

, ] mediante un
polinomio algebraico de cuarto grado y aplicar el método de mínimos cuadrados.
Resolución. Representemos el polinomio buscado F 4 ( x ) mediante los polinomios de Legendre:
4
F 4 ( x ) = å c j Pj ( x ) . (12.18)
j =0
De acuerdo con las propiedades de los polinomios de Legendre, tenemos
2j +1
1
cj =
2 ò x P ( x) dx .
-1
j (12.19)
Notamos que debido a la propiedad (12.14), c j = 0 para cada j impar. En particular, obtenemos
1 5 3
c0 = , c1 = 0 , c2 = , c3 = 0 , c4 = - . Por lo tanto,
2 8 16
1 5 3
F 4 ( x) = + (3x 2 - 1) - (35x 4 - 30x 2 + 3)
2 8× 2 16 × 8
15
= ( -7 x 4 + 14 x 2 + 1) .
128
En vista de que
1
1 1
òx
2 2
f = dx = ,
2 -1
3
según (12.9) obtenemos
4
- å c 2j Pj
2 2
r2 ( f ,F4 ) = f , (12.20)
j =0
106
y la desviación media cuadrática del polinomio F 4 ( x ) respecto a f ( x) = x en [ -11
, ] es
1/ 2
ìï 1 æ 1 ö 2 æ 5ö 2 1 æ 3 ö 2 1 üï 3
r ( f ,F4 ) = í - ç ÷ - ç ÷ -ç ÷ = .฀
îï 3 è 2 ø è 8ø 5 è 16ø 9 ýïþ 48
Ejercicios:
1. Sea {f i } i = 0 una base. Demuestre que la matriz de Gram es positivamente definida.

m
2. Sea f un elemento de un espacio de Hilbert H con el producto escalar (11.1) y la norma (11.2), y
sea R un subespacio lineal de H. Un elemento h0 de R se llama elemento de la mejor
aproximación de f si f - h0 = inf f - h . Demuestre que el elemento f - h0 (es decir, el error
hÎR
de aproximación) es ortogonal al subespacio R.
3. Demuestre que si f - h0 , h = 0 para un elemento h0 de R y para cada h de R, entonces el

elemento h0 de R es el elemento de la mejor aproximación de f.
m
4. Sea {f i } i = 0 una base ortogonal. Demuestre la desigualdad de Bessel: f , f ³ å f , f i
m 2
.
i =0
5. Encuentre en el intervalo [0,p ] el polinomio F 1 ( x) = c0 + c1 x de la mejor aproximación media

cuadrática para la función f ( x) = sin x + cos x . [Sugerencia: para el cálculo de los productos
internos f , f 0 y f ,f1 use las siguientes fórmulas:
ò x sin x dx = sin x - x cos x , y ò x cos x dx = cos x + x sin x ].
107
Capítulo III. Estabilidad y convergencia
En este capítulo se estudia la estabilidad de los esquemas y algoritmos numéricos respecto a errores
iniciales y errores en forzamiento. Se sabe que cuando varios errores se propagan a través de los
cálculos pueden aumentar considerablemente o sin ningún control. En este caso, decimos que el
esquema, o algoritmo numérico, es inestable. Es necesario señalar que la solución numérica obtenida
mediante cálculos inestables es inútil. Por ello, es de gran importancia construir y usar sólo
esquemas y algoritmos estables. Dos definiciones básicas de la estabilidad se introducen: la
estabilidad espectral de von Neumann y la estabilidad en una norma vectorial. Se demuestra el
teorema de Lax, según el cual para cualquier problema continuo lineal, tanto la aproximación del
problema por un problema discreto como la estabilidad del problema discreto (o esquema) son las
condiciones necesarias y suficientes para que converga la solución numérica hacia la solución exacta.
En el caso de un problema no lineal, la aproximación y estabilidad también son necesarias, pero no
son suficientes para la convergencia. Para un estudio más detallado se recomiendan los trabajos de
Forsythe y Wasow (1960), Godunov y Ryabeñkii (1964), Richtmyer y Morton (1967), Yanenko
(1971), Marchuk (1982), Golub y Ortega (1992), Skiba (1993b, 1997b), Skiba y Adem (1995),
Durran (1999).
§ 13. Concepto de estabilidad
En el ejemplo 1.1, nos encontramos con el problema de la estabilidad de un algoritmo numérico.
Con el fin de estudiar varios aspectos de este problema, analicemos en este párrafo algunos
ejemplos. Primero, comparemos las regiones de la estabilidad de soluciones de un problema
108
continuo (ejemplo 13.1) y de un problema discreto (ejemplo 13.2) que aproxima al problema
continuo.
Ejemplo 13.1 (problema continuo). Sea
d
y( x) = ly( x) + g ( x) , y( 0) = a (13.1)
dx
el problema original con la solución y ( x ) , y
d
ye ( x) = lye ( x) + g ( x) , ye ( 0) = a + e (13.2)
dx
un problema perturbado por un error e >0 introducido en el punto x=0, que tiene la solución
ye ( x) . Evidentemente, el problema para errores ze ( x) = ye ( x) - y( x) tiene la forma
d
ze ( x) = lze ( x) , ze ( 0) = e . (13.3)
dx
La solución del problema (13.3) es
z e ( x ) = e exp{lx} . (13.4)
y, por lo tanto,
z e ( x ) = e exp{Re l × x} . (13.5)
Es evidente que el comportamiento del error e depende del parámetro l :
1) Si Re l < 0 , entonces la solución y ( x ) es estable, ya que z e ( x ) ® 0 cuando x ® ¥ ,
es decir, el error e introducido en el punto x=0 tiende al cero cuando x aumenta.
109
2) Si Re l > 0 , entonces la solución y ( x ) es inestable, ya que ze ( x) ® ¥ cuando
x ® ¥ , y por lo tanto, el error e aumenta sin límites junto con x.
3) Si Re l = 0 , entonces la solución y ( x ) es estable, ya que ze ( x ) = e para cada x.
Así, la solución y ( x ) del problema (13.1) es estable respecto al error e si Re l £ 0 . □
Ahora vamos a ver cómo cambian las regiones de estabilidad de la solución al discretizar el
problema (13.1).
Ejemplo 13.2 (problema discreto). Aproximemos tanto el problema continuo original (13.1)
como el perturbado (13.2) por medio del método de Euler:
y n+1 = y n + h(l y n + g n ) , y0 = a , (13.6)
y n+1,e = y n,e + h(l y n,e + g n ), y0,e = a + e . (13.7)
Entonces el problema discreto para errores z n,e = y n,e - y n tiene la forma
z n+1,e = (1 + hl )z n,e , z 0,e = e , (13.8)
o, de otra manera, en los cálculos, el error inicial se propaga como
z n,e = (1 + hl ) z 0,e = (1 + hl ) e , n³0 .

n n
(13.9)
Por lo tanto,
n
{
z n,e = 1 + hl z 0,e = (1 + hRe l ) 2 + h 2 (Im l ) 2 } n/2
e , n ³ 0 , (13.10)
es decir, la solución y n del problema discreto es estable respecto al error e sólo si
(1 + h Re l ) 2 + h 2 (Im l ) 2 £ 1 . (13.11)
110
Es importante notar que, a diferencia del problema continuo (13.1), la solución numérica y n es
inestable no sólo cuando Re l > 0 , sino también cuando Re l = 0 . Además, si Re l < 0 , en virtud
de (13.11), la solución y n es estable sólo para h bastante pequeño:
2 Re l
h£ 2
. (13.12)
l
En particular, si l = Re l < 0 , entonces se deduce de (13.12) que h £ 2 / l , y por consiguiente,
h disminuye cuando l crece. Así, el esquema de Euler es condicionalmente estable (es decir, es
estable sólo bajo cierta condición). □
Es de gran importancia notar que la inestabilidad de un algoritmo numérico significa que
dicho algoritmo es prácticamente inútil, ya que siempre presenta errores de algún tipo en cálculos
(por ejemplo, errores iniciales por ignorancia de los valores exactos, o errores de redondeo). Ahora
demostraremos la inestabilidad de un algoritmo numérico que requiere dos condiciones iniciales para
empezar cálculos.
Ejemplo 13.3. Consideremos una fórmula recurrente:
y n+1 = 3y n - 2 y n-1 . (13.13)
Notemos que si y 0 = y1 = 1 entonces, según (13.13), y n = 1 para cada n>1. Aceptamos dichos
valores como la solución exacta. Ahora introducimos errores
y 0 ,e = 1 + e , y y1,e = 1 + 2e (13.14)
en dos valores iniciales, y repetimos cálculos usando la fórmula (13.13). La solución perturbada que
obtenemos tiene la forma
111
y n ,e = 1 + 2 n e . (13.15)
En efecto, cálculos directos nos dan
y 2 ,e = 3y1,e - 2 y 0,e = 3(1 + 2e ) - 2(1 + e ) = 1 + 2 2 e ,
y 3,e = 3y 2 ,e - 2 y1,e = 3(1 + 2 2 e ) - 2(1 + 2e ) = 1 + 2 3 e ,
etc. Supongamos que e = 10 -3 , lo que significa que los errores iniciales (13.14) son bastante
pequeños. Sin embargo, según (13.15), el error aumenta muy rápido y después de dies pasos supera
el valor de la solución exacta: y10,e = 1 + 2 10 × 10 -3 @ 1 + 1024

. (Fig.13.1).
yn = 1 + 2 n e
210 e
1+ e
1 y =1
0 10 n
Fig.13.1. Comportamiento de las soluciones exacta y perturbada.
112
Claro que es prácticamente imposible usar la fórmula (13.13) cuando los datos iniciales (13.14)
contienen errores más grandes que e = 10 -3 . □
Al estudiar la estabilidad de esquemas lineales simples con coeficientes invariables, se usa a
menudo el método espectral.
Ejemplo 13.4 (Godunov y Ryabeñkii, 1964). Consideremos un esquema explícito
f mn+1 - f mn f mn +1 - f mn
- =0 (13.16)
t h
para la ecuación unidimensional de transporte
¶f ¶f
= (13.17)
¶t ¶ x
en un dominio ilimitado: -¥ < x < ¥, 0 < t < T , donde t y h son tamaños de las mallas
temporal y espacial, respectivamente. Supongamos que f mn º f (t n , xm ) , y en el momento inicial
t=0, la solución tiene la forma de una onda con número real a :
f m0 = exp{ia m}
Buscamos la solución del esquema (13.16) de la forma
f mn = ln exp{ia m} (13.18)
Al sustituir (13.18) en (13.16) obtenemos
l - 1 e ia - 1
- = 0,
t h
o, de otra manera,
t t
l (a ) = 1 - + × e ia . (13.19)
h h
Es evidente que la condición necesaria para la estabilidad de la solución numérica es
113
fn £C f0
r r
, (13.20)
¥ ¥
para cada n , donde f n º max f mn (vease (2.16)) y la constante C no depende de t , h y n. Para

r
¥ m
la solución (13.18), tenemos
n
fn £ l (a ) × f 0
r r
, (13.21)
¥ ¥
y por lo tanto, (13.20) se satisface si
n
l (a ) £ C , (n = 0,1, ..., N ) , (13.22)
donde N = T / t , o bien,
l (a ) £ 1 + Kt , (13.23)
donde K no depende de a y t . La última estimación se deriva de la desigualdad
a b
æ 1 ö æ 1ö
ç1- ÷ ç1+ ÷ £ 1 (13.24)
è a ø è bø
(Godunov y Ryabeñkii, 1964). Para demostrar que la desigualdad (13.22) cumple con la condición
(13.23), elegimos a = 2, b = 1 . Entonces, C = 4 KT , ya que

Kt
( )
Ktn
l (a ) £ 1 + Kt £ (1 + Kt )
n n 1/ Kt
£ 4 KT .
De (13.19) y (13.23) se deduce una restricción para el tamaño τ de la malla con el fin de garantizar
la estabilidad de cálculos según el esquema (13.16).
Observación 13.1. La condición necesaria para la estabilidad (13.23) no permite el aumento
exponencial de la amplitud de la solución. Es aceptable sólo si la solución exacta crece
{
exponencialmente. Sin embargo, la solución exacta j ( x, t ) = Re F(0)e ik ( x+t ) del problema (13.17) }
114
no crece, ya que j ( x, t ) = F(0) . En este caso, normalmente la condición (13.23) se cambia por la
condición suficiente de la estabilidad: l (a ) £ 1 .
Ejemplo 13.5. Consideremos en el cuadrado (0,1)´ (0,1) la ecuación de onda
¶ 2j ¶ 2j
= (13.25)
¶t 2 ¶ x 2
con las siguientes condiciones iniciales y de frontera:
j (0, t ) = a(t ) j (1, t ) = b(t )

¶j (13.26)
j ( x,0) = p( x) ( x,0) = q( x)
¶t
La solución j ( x, t ) tiene que satisfacer a las siguientes condiciones de compatibilidad:
¶j ¶a
(0,0) = q (0) = ( 0)
¶t ¶t
(13.27)
¶j ¶b
(1,0) = q (1) = ( 0)
¶t ¶t
Supongamos que a(t)=0 y b(t)=0. En el dominio (0,1)´ (0,1) introducimos una malla regular
( xk , t j ) con los tamaños h y t: xk = kh; k = 0,1,..., K ; xK = 1; t j = jt ; j = 0,1,..., J ; t J = 1 .
Usaremos dos esquemas numéricos para hallar la solución aproximada f kj en puntos de la malla:
1) el esquema cruz:
f kj +1 - 2f kj + f kj -1 f kj+1 - 2f kj + f kj-1
= (13.28)
t2 h2
2) el esquema:
f kj +1 - 2f kj + f kj -1 f kj++11 - 2f kj +1 + f kj-+11 f kj+-11 - 2f kj -1 + f kj--11

= + (13.29)
t2 2h 2 2h 2
con las siguientes condiciones:
115
t 2 pk +1 - 2 pk + pk -1
f = 0, f = 0, f = pk , f = pk + tqk +
0
j j
K
0
k
1
k (13.30)
2 h2
Obtenemos la última condición usando la serie truncada de Taylor. Buscamos la solución numérica
de la forma de una onda del número n:
f kj =lnj sin (npkh) (13.31)
Sustituyendo (13.18) en (13.29) y luego en (13.30), llegamos a dos ecuaciones características:
l2n - 2(1 - m n2 )ln + 1 = 0 (esquema cruz), (13.32)
2
l2n - ln + 1 = 0 (esquema (13.29)), (13.33)
1 + m n2
t2 nph
donde m n2 =2 2
sin 2 . Por lo tanto,
h 2
ln = 1 - m n2 ± (1 - m n2 ) - 1
2
(13.34)
para el esquema cruz, y
1 1
ln = ± -1 (13.35)
1 + m n2 (1 + m )
2 2
n
t
para el esquema (13.29). Se deduce de (13.34) que si < 1 , entonces m n2 <2 y l n = 1 . Así, el
h
t
esquema cruz es estable bajo la condición < 1 . Según (13.35), siempre l n = 1 , es decir, el
h
esquema (13.29) es absolutamente estable. □
Ejercicios:
1. Consideremos la forma canónica de los esquemas homogéneos de un solo paso (Samarskii,

1971):
y n+1 - y n
r r
+ Ay n = 0
r
B
r
t
donde A y B son dos matrices. Demuestre que si B > 0 , A = A* > 0 , y B ³ 0.5t A , entonces el
esquema es estable en la norma y = Ay, y : yn £ y0 .
r r r r r
A A A
116
2. Demuestre que si B = B* > 0 , A = A* > 0 , y B ³ 0.5t A , entonces el esquema del ejercicio 1 es
estable también en la norma y = By, y : yn £ y0 .
r r r r r
B B B
y n+1 - y n
{ }
r r
+ A s y n+1 + (1 - s ) y n = 0 un esquema donde s > 0 es el peso, A ¹ A * , y
r r r
3. Sea
t
£ y0 .
rn
A > 0 . Demuestre que si s ³ 0.5 , entonces el esquema es estable: y
r
£ d Ay, y . Demuestre que si s ³ 1 - 1 , entonces el esquema del ejercicio 3 es

r2
4. Sea Ay
r r
2 td
estable : y £ y .
rn r0
117
§ 14. Estabilidad espectral
En este apartado estudiamos el criterio espectral de la estabilidad de von Neumann. El criterio está
basado en la aplicación de las series de Fourier, es cómodo y se usa a menudo en la práctica. Es
preciso notar que el método no es aplicable a los esquemas (las ecuaciones discretas) no lineales, y
por lo tanto, es necesario linearizar el problema antes de usarlo. Sin embargo, la solución de una
ecuación lineal se puede presentar en la forma de una serie de Fourier, donde cada componente de la
serie también es la solución del problema. Así, es posible verificar la estabilidad de un solo
armónico. Entonces, la estabilidad de todos los armónicos de la serie será la condición necesaria
para la estabilidad del esquema.
En seguida estudiamos el criterio espectral de von Neumann de la estabilidad de esquemas
numéricos aplicados para hallar la solución de la ecuación no estacionaria
¶f
r
+ Af = f , f (0) = g
r r r r
(14.1)
¶t
en un intervalo finito 0 £ t £ T (Godunov y Ryabeñkii, 1964; Richtmyer y Morton, 1967; Marchuk,
1982; Durran, 1999). El problema (14.1) ya es discreto en el espacio, y su solución f (t ) está dada
r
en el momento inicial t=0. Supongamos que la matriz A no depende de tiempo, es positiva y tiene
un conjunto completo de autovectores, es decir, todos los autovalores l n del problema espectral
Aun = l n un
r r
(14.2)
son positivos, y los autovectores u n son linealmente independientes y forman la base en el espacio
r
vectorial de las soluciones. Se puede discretizar el problema (14.1) en tiempo en cada subintervalo
[ ]
pequeño t j , t j +1 del tamaño t usando alguno de los esquemas numéricos
f j +1 - f j
r r
{ }
+ A af j +1 + (1 - a )f j = f j , f 0 = g
r r r r r
(14.3)
t
118
que dependen del parámetro a : 0 £ a £ 1. Los más conocidos de esta familia son el esquema
explícito ( a = 0 ):
f j +1 - f j
r r
+ Af j = f j , f 0 = g ,
r r r r
(14.4)
t
el esquema implícito ( a = 1 ):
f j +1 - f j
r r
+ Af j +1 = f j , f 0 = g ,
r r r r
(14.5)
t
y el esquema de Crank-Nicolson ( a = 0.5 ) (Crank y Nicolson, 1947):
f j +1 - f j ì f j +1 + f j ü r j
r r r r
f
r0 r
+ Aí ý = f , =g . (14.6)
t î 2 þ
Se puede escribir cada esquema de la siguiente forma:
f j +1 = Bf j + tSf j , f 0 = g ,
r r r r r
(14.7)
donde
B = E - tA , S = E (14.8)
para el esquema explícito (14.4),
B = ( E + tA) , S = ( E + tA)
-1 -1
(14.9)
para el esquema implícito (14.5), y
-1 -1
æ t ö æ t ö æ t ö
B = ç E + A÷ ç E - A÷ , S = ç E + A÷ (14.10)
è 2 ø è 2 ø è 2 ø
para el esquema de Crank-Nicolson (14.6).
Estabilidad espectral del esquema explícito. Introducimos las series de Fourier:
f j = å f nj u n , f j = å f nj u n , g j = å g n un ,
r r r r r r
(14.11)
n n n
119
donde
f nj = f j , v n ,
r r r
f nj = f j , v n , g n = g , v n ,
r r r
(14.12)
r
y v n es autovector del problema espectral para matriz adjunta:
A* vn = l n vn .
r r
(14.13)
Supongamos que dos sistemas de autovectores son ortonormales:
un , vm º vm* un = d nm .
r r r r
(14.14)
Sustituyendo (14.11) en (14.4), y usando el producto interno del resultado obtenido con un vector
r
v n , llegamos a la ecuación
f nj+1 = (1 - t l n )f nj + t f n j , f 0 = gn (14.15)
para el n-ésimo coeficiente de Fourier de la solución. Se deduce de (14.15) que
j
f = R gn + t å Rnj -i f ni -1 ,
j
n n
j
(14.16)
i =1
donde
Rn = 1 - t l n . (14.17)
Entonces
j
f £ Rn gn + t å Rn
j j -i
j
n f ni -1 , (14.18)
i =1
Tomando
fn º max f n j (14.19)
j
120
en lugar de f ni -1 y sumando los términos de la progresión geométrica (la suma S n de los
a0 + ra n
primeros n+1 términos de la progresión geométrica {a n }n =0 con la razón r es
n
Sn = ),
1- r
llegamos a la estimación
j
j 1 - Rn
f £ Rn
j
gn + t fn (14.20)
1 - Rn
n
Definición (Criterio de la estabilidad espectral de von Neumann). Si para cada n, el n-ésimo
coeficiente de Fourier de la solución de un esquema satisface la desigualdad
f nj £ Cn g n + Kn f n , (14.21)
donde constantes positivas Cn y Kn no dependen de j y t , entonces dicho esquema es estable.
Tomando en consideración (14.20), concluimos que el esquema explícito (14.4) satisface el
criterio de von Neumann si
Rn < 1. (14.22)
Usando (14.17), obtenemos que (14.22) se cumple si
t < 2 / max l n . (14.23)

n
En efecto, en este caso (14.18) acepta la forma
f nj £ g n + jt f n £ g n + T f n , (14.24)
donde T es longitud del intervalo temporal del problema (14.1). Entonces el esquema explícito es
estable sólo si el tamaño t de la malla temporal es bastante pequeño; además, la desigualdad
(14.23) es una condición constructiva que garantiza la estabilidad del esquema.
Estabilidad espectral del esquema implícito. Aplicando el mismo análisis al esquema
(14.5), llegamos a la ecuación
121
j -1
f = R gn + t å Rnj -i f ni ,
j
n n
j
(14.25)
i =0
para el n-ésimo coeficiente de Fourier, donde
1
Rn = , (14.26)
1+ t l n
y por lo tanto,
j
j 1 - Rn
f £ Rn
j
gn + t Rn f n . (14.27)
1 - Rn
n
Ya que todos los autovalores son positivos, en virtud de (14.26) obtenemos que para el esquema
implícito, la desigualdad (14.22) es válida para cada armónica n y cualquier tamaño t , es decir, el
esquema (14.5) es absolutamente estable (para cada t ).
Estabilidad espectral del esquema de Crank-Nicolson. Es fácil demostrar que en el caso
del esquema de Crank-Nicolson (14.6), llegamos a la ecuación
j
f = R gn + t m n å Rnj -i f ni -1 ,
j
n n
j
(14.28)
i =1
para el n-ésimo coeficiente de Fourier, donde
1 - 0.5t l n 1
Rn = , mn = . (14.29)
1 + 0.5t l n 1 + 0.5t l n
Ya que tanto Rn < 1 como m n < 1, se deduce de la desigualdad

j
j 1 - Rn
f £ Rn gn + tm n
j
fn (14.30)
1 - Rn
n
que el esquema de Crank-Nicolson también es absolutamente estable.
122
Ejercicios:
1. El criterio espectral de von Neumann es una condicion necesaria para la estabilidad.

j +1
Consideremos la ecuación (14.7) cuando f = 0 : f = Bf j . Demuestre que si la matriz de
j
r r r
paso B es normal ( BB * = B * B ), entonces el criterio von Neumann es también la condición

r j +1
necesaria para la estabilidad. [Sugerencia: use la estimación f £ B2fj
r
y la propiedad
2 2
de que la norma espectral B 2

de una matriz normal es igual al radio espectral de B].
2. Consideremos el problema ¶j - ¶j = 0 en el dominio - ¥ < x < ¥ . Demuestre que para el

¶t ¶x
n +1
f -f n
f -f
n n
j -1
-
= 0 que aproxima la ecuación diferencial, la condición suficiente
j j j
esquema
t h
de la estabilidad espectral de Neumann l £ 1 no se cumple para ningún t . [Sugerencia:
buscando la solución en la forma de un solo armónico f j = l exp(iaj ) , demuestre que
n n
l = 1 + r - re -ia , donde r = t / h = Const , y por tanto, l > 1 para cualquier t ].
¶j ¶j
3. Consideremos el problema - = 0 en el dominio - ¥ < x < ¥ . Demuestre que para el
¶t ¶ x
f nj+1 - f nj f nj+1 - f nj-1 t
esquema - - 2 (f nj+1 - 2f nj + f nj-1 ) = 0 que aproxima la ecuación
t 2h 2h
diferencial con el segundo grado respecto a h, el criterio de la estabilidad espectral de Neumann
se cumple para r = t / h £ 1 . [Sugerencia: buscando la solución de la forma f j = l exp(iaj ) ,
n n
2
demuestre que l = 1 + ir sin a - 2r 2 sin 2 a2 y, por tanto, 1 - l = 4r (1 - r ) sin a2 ].
2 2 4
4. Encuentre los valores de s > 0 que garantizan la estabilidad absoluta (para cualquier t / h 2 ) del
f nj+1 - f nj f nj++11 - 2f nj+1 + f nj-+11 f nj+1 - 2f nj + f nj-1
esquema =s + (1 - s ) para la ecuación de
t h2 h2
difusión. En el momento inicial los valores f j están dados.
0
5. Consideremos el esquema uin+1 = (1 - r )uin + ruin-1 (vea el ejemplo 15.1) para el problema de
t
transporte ¶j + v ¶j = 0 en el dominio - ¥ < x < ¥ . Aquí r = v es el número de Courant.
¶t ¶x h
Demuestre que una condición necesaria para la estabilidad es l £ 1 + Kt , donde
l =1 - r + r e -ikh , mientras que la condición suficiente es l £ 1 (vea (13.23) y (13.24))
[Sugerencia: Busque la solución en la forma j ( x, t ) = Re F(t )e
ikx
{
para obtener la ecuación }
n +1
F n +1
= (1 - r )F + r F e
n n - ikh
, o bien, la ecuación F =l F n
El esquema se llama estable si
l < 1 , neutral si l = 1 , e inestable si l > 1 ].
123
§ 15. Análisis de la estabilidad de los esquemas en las normas
Para usar el método de von Neumann en el estudio de la estabilidad espectral de un esquema
explícito hay que conocer el autovalor máximo b = max ln de la matriz del esquema, y por lo tanto,
n
este método, a pesar de su importancia, es difícil de aplicar para problemas complejos. Además, el
método espectral no dice nada sobre la estabilidad de la solución numérica en una norma vectorial
que, a menudo, es la característica única del proceso numérico. En este apartado, definimos la
estabilidad de los esquemas numéricos usando normas de la solución (Marchuk, 1982).
Consideremos el problema
¶f
r
+ Af = f , f (0) = g
r r r r
(15.1)
¶t
en un intervalo finito de tiempo 0 £ t £ T . El problema (15.1) ya es discreto en el espacio, y su
[ ]
solución f (t ) está dada en el momento inicial t=0. En cada subintervalo pequeño t j , t j +1 del
r
tamaño τ, el problema discreto (15.1) se puede escribir en la forma canónica
f j +1 = Bf j + tSf j , f 0 = g
r r r r r
(15.2)
En particular,
B = E - tA, S = E (15.3)
para el esquema explícito
f j +1 - f j
r r
+ Af j = f j , f 0 = g ;
r r r r
(15.4)
t
B = (E + tA) , S = (E + tA)
-1 -1
(15.5)
para el esquema implícito
124
f j +1 - f j
r r
+ Af j +1 = f j , f 0 = g ;
r r r r
(15.6)
t
-1 -1
B = ç E + A÷ ç E - A÷ , S = ç E + A÷ (15.7)
è 2 ø è 2 ø è 2 ø
para el esquema de Crank-Nicolson
f j +1 - f j ì f j +1 + f j ü r j
r r r r
ý= f , f = g
r0 r
+ Aí (15.8)
t î 2 þ
Definición. El esquema (15.2) se llama estable en una norma × si
f j £C g +K f ,
r r r
(15.9)
para cada j ( 0 < tj < T ), donde

r r
f = max f j (15.10)
j
y las constantes positivas C y K no dependen de j y t .
La solución formal de la ecuación (15.2) se puede presentar de la siguiente forma
j
f = B g +tå B S f
j -i
rj r r i -1
j
(15.11)
i =1
Estimando (15.11) con una norma, obtenemos
j
g +t å B
j j -i
f S f i -1
rj r
£ B
r
(15.12)
i =1
Usando (15.10), escribimos (15.12) como
125
j
åB
j j -i
f g +t S f
rj r
£ B
r
(15.13)
i =1
Ya que la suma S n de los primeros n+1 términos de la progresión geométrica {a i }i =0 con la razón r
n
a0 + ra n
es S n = , llegamos a
1- r
j
j 1- B
f g +t
rj r
£ B
r
S f (15.14)
1- B
Evidentemente, las condiciones
B <1 , S £1 (15.15)
son suficientes para la estabilidad del esquema (15.2) según la definición (15.9). En efecto, en este
caso tenemos
f
rj r
£ g +T f
r
(15.16)
y, por lo tanto, (15.9) cumple con C=1 y K=T.
Esquema explícito (15.4). Debido a (15.3), las condiciones (15.15) de la estabilidad del
esquema (15.4) se convierten en
E - tA < 1, E £1 (15.17)
En particular, al escoger la norma euclidiana (2.15) para estimar la solución numérica en (15.14),
obtenemos que en (15.17) se usa la norma espectral (la 2-norma matricial) definida por (3.4).
Entonces la segunda desigualdad se satisface automáticamente, y el esquema (15.3) es estable bajo
la condición
126
E - tA 2 º max 1 - t ln ( A) < 1 (15.18)
n
donde ln (A) es autovalor de la matriz A. Notamos que cuando A es positiva, la condición (15.18)
coincide con la condición (14.23) de la estabilidad espectral de von Neumann que limita el tamaño
de la malla de tiempo:
t < 2 / max ln ( A) . (15.19)

n
Esquema implícito (15.6). Debido a (15.5), las condiciones (15.15) de la estabilidad del
esquema (15.6) aceptan la forma
B = S = (E + tA)
-1
<1 (15.20)
En particular, al escoger la norma euclidiana (2.15) para estimar la solución numérica, obtenemos
que en (15.20) se usa la norma espectral, y por lo tanto, debido al lema 3.1, ambas condiciones
(15.20) se cumplen para cualquier t . Entonces, el esquema implícito es absolutamente estable no
sólo según la definición (14.21) de von Neumann sino también en la norma espectral según la
definición (15.9).
Esquema de Crank-Nicolson (15.8). En este caso, debido a (15.7), las condiciones (15.15)
de la estabilidad del esquema (15.8) se reducen a
-1 -1
ç E + A÷ ç E - A÷ < 1, ç E + A÷ £ 1 (15.21)
è 2 ø è 2 ø è 2 ø
En particular, al escoger de nuevo la norma euclidiana (2.15) para estimar la solución numérica,
obtenemos que en (15.21) se usa la norma espectral, y ambas condiciones (15.21) se cumplen para
127
cualquier t , debido al lema 3.1 y lema 3.2. Entonces el esquema de Crank-Nicolson también es
absolutamente estable no sólo según la definición (14.21) de von Neumann sino también en la norma
espectral según la definición (15.9).
Ejemplo 15.1 (Mezinger y Arakawa, 1976). Consideremos el esquema
uin+1 = (1 - r )uin + ruin-1 (15.22)
¶j ¶j
para la ecuación de transporte +v = 0 (véase (16.4)), donde v es la velocidad constante y
¶t ¶x
t t
r =v . Si r = v £ 1 , entonces
h h
u in +1 £ (1 - r ) u in + r u in-1 (15.23)
y, por lo tanto, el esquema es estable en la norma u n = max uin :

i
u n +1 £ u n (15.24)
Es el método directo y simple para verificar la estabilidad. Sin embargo, tiene aplicación limitada.
Ahora consideramos un método más general que se puede aplicar también para esquemas no
lineales. Si elevamos al cuadrado la expresión (15.22) y sumamos sobre todos los puntos de malla,
entonces obtenemos
å (u ) = å [(1 - r ) ]
I I
n +1 2
i
2
(uin ) 2 + 2r (1 - r )uin uin-1 + r 2 (uin-1 ) 2 (15.25)
i =1 i =1
Suponiendo condiciones periódicas (cíclicas), tenemos:
å (u ) = å (u )
I I
n 2 n 2
i -1 i (15.26)
i =1 i =1
128
t
Usando la condición r = v £ 1 , la fórmula (15.26) y la desigualdad de Schwarz:
h
1/ 2
ì I n ü
( ) å (u ) ( )
I I I
å íå ui = å u in
2 n 2 2
u un
£
i -1
n
i i -1 ý , (15.27)
i =1 î i =1 i =1 þ i =1
llegamos a la estimación
å (u ) £ [(1 - r ) ]å (u )
I I
n +1 2 n 2
i
2
+ 2r (1 - r ) + r 2 i , (15.28)
i =1 i =1
o bien,
u n +1 £ u n (15.29)
donde la norma se define como
1/ 2
æ I 2ö
u n = ç å u in ÷ ( ) . (15.30)
è i =1 ø
t
Así, con las condiciones cíclicas en la frontera del dominio, la condición de Courant r = v £1
h
garantiza la estabilidad del esquema (15.22).
Ejercicios:
1. Consideremos la forma canónica de los esquemas homogéneos de dos pasos (Samarskii, 1971):
y n+1 - y n-1 y n+1 - 2 y n + y n-1
r r r r r
+t R
2
+ =0
rn r
B Ay
2t t2
donde A, B y R son matrices. Demuestre que si B ³ 0 , R = R* > 0 A = A* > 0 , y R ³ 14 A ,
r n+1
£ Y n , donde la norma Y n +1 se define como
r r
entonces el esquema es estable: Y
y n+1 - y n y n+1 - y n
A( y + y ), y + y + t (R - 4 A)
r 2 r r r r
Y n+1 = 1 r n+1 r n r n+1 r n 2 1
, .
4
t t
129
y n+1 - y n
{ }
r r
+ A s y n+1 + (1 - s ) y n = 0 un esquema, donde s > 0 es el peso, y A = A* > 0 .
r
2. Sea
r r
t
r n+1
Demuestre que si s ³ 1 - 1 , entonces el esquema es estable en la norma × : y £ yn .
r
2
2 t A
3. Demuestre que el esquema del ejercicio 2 también es estable en la norma y = Ay, y :

r r r
A
y n+1 £ yn .
r r
A A
4. Transforme a la forma canónica (vea el ejercicio 1) el esquema
yin+1 - yin yin - yin-1

(1 + q ) -q = Lyin+1
t t
y n
- 2y + y
i +1
n n
i -1
donde Lyin = 2
i
, y analice su estabilidad. [Resultado: el esquema es estable si
h
1 td 4 ph 1 1 + 2q
q >- - , d = 2 sin 2 ]. [Sugerencia: B = E + tA , A = - L , R = A + E.
2 4 h 2 2 2t
Entonces,
1 1 1 + 2q æ1 1 + 2q ö
R- A = A+ E³ç d + E÷ > 0.
4 4 2t è4 2t ø
130
§ 16. Esquemas numéricos para la ecuación de transporte
Consideremos la ecuación de transporte
dj ¶j r ¶j ¶j ¶j ¶j
º + u × Ñj º +u +v +w =0 (16.1)
dt ¶ t ¶t ¶x ¶y ¶z
que es de gran importancia en física matemática, ya que describe el transporte de varias
substancias pasivas (contaminantes, calor, humedad, salinidad, densidad, etc.) por corrientes en los
fluidos, o por vientos en la atmósfera. Muchos aspectos numéricos relacionados con esta
ecuación, y en particular las propiedades de distintas mallas, las particularidades de varias
discretizaciones del problema y la estabilidad de los esquemas numéricos, han sido bien estudiados
y descritos (Godunov y Ryabeñkii, 1964; Mezinger y Arakawa, 1976; Skiba, 1993b; Morton y
Mayers, 1994; Thuburn, 1996; Le Veque, 1996; Durran, 1999). Si en cada punto del dominio, el
vector de la velocidad u ( x, y, z, t ) = (u, v, w) satisface la ecuación de continuidad

r
r ¶u ¶v ¶w
Ñ×u º + + = 0, (16.2)
¶x ¶y ¶z
entonces (16.1) se puede presentar en la forma conservadora
¶j r ¶j ¶ uj ¶ vj ¶ wj
+ Ñ × (j u ) º + + + =0 (16.3)
¶t ¶t ¶ x ¶y ¶z
Consideremos ahora en el dominio x Î [0,1], t Î [0,1] , la ecuación (16.1) unidimensional
¶j ¶j
+u =0 (16.4)
¶t ¶x
con la condición inicial
j (x,0) = f (x) (16.5)

131
en el momento t=0, donde f (x) es diferenciable. Además supongamos que la velocidad de
transporte es constante: u(x, t ) = Const , y las funciones f (x) y j (x, t ) son periódicas a lo largo de x:
f (1) = f (0), j (1, t ) = j (0, t ) (16.6)
Es fácil verificar que bajo estas condiciones, la forma analítica de la solución exacta del problema
(16.4), (16.5) es
j ( x, t ) = f ( x - ut ) (16.7)
Así, j (x, t ) = Const a lo largo de cada línea x - ut = Const llamada característica. Debido a
(16.7), la solución (16.7) representa la función f (x) que se mueve en la dirección del eje x si u
es positiva, y en la dirección opuesta si u es negativa. Si f (x) es una onda, entonces (16.7)
representa el proceso de la propagación de la onda (Fig.16.1).
Supongamos que u > 0 , y escribimos la ecuación (16.4) de la forma conservadora
¶j ¶ (uj )
+ =0 (16.8)
¶t ¶x
132
t
u
j (x , t ) características
A
j (x , 0)
j (x ,t )
A
0 x
j (x , 0)
Fig. 16.1. Propagación de los valores de una onda inicial a lo largo de las
características ( u(x, t ) = Const ; f (1) = f (0), j (1, t ) = j (0, t ) ).
Si u = u(x, t) es variable, entonces es difícil hallar la solución analítica. En este caso general es
necesario utilizar los métodos numéricos. Consideremos ahora las propiedades principales de
algunos esquemas bien conocidos para resolver numéricamente la ecuación (16.4). Con este fin,
introducimos las mallas regulares en el espacio y tiempo con tamaños h y t , respectivamente:
xi = ih; i = 0,1,2,..., I ; x I = 1 ; t n = nt ; n = 0,1,2,... . Denotamos como x in = x ( xi , t n ) la solución
de malla con la condición periódica x In = x 0n .
Un esquema que transporta incorrectamente. Aproximemos (16.4) por el esquema de
Euler y cambiemos la derivada en x por la diferencia central. Como resultado, para cada punto
(xi , t n ) obtenemos la ecuación
x in+1 - x in x i +1n - x i -1n

= -u (16.9)
t 2h
133
Sumando (16.9) sobre todos los puntos i y usando las condiciones periódicas, llegamos a
I I
åx = åx i
n +1 n
i , (16.10)
i =1 i =1
es decir, el valor integral de la solución numérica, igual que para la solución exacta, se conserva en
el tiempo. Sin embargo, el esquema (16.9) altera considerablemente el transporte local por eje x.
En efecto, supongamos que para n, x m = d > 0, y x i = 0 si i ¹ m . Entonces la ecuación (16.9)

n n
en el punto i = m + 1 se describe como
x mn++11 - x mn +1
= -u
(0 - d ) = ud
t 2h 2h
o bien, el valor x mn +1 = 0 en el momento t n cambia por el valor positivo
tu
x mn++11 = d (16.11)
2h
en el siguiente momento t n +1 . Es razonable y aceptable. Sin embargo, en el punto i = m ,
x mn+1 - x mn 0-0
= -u = 0,
t 2h
es decir,
x mn +1 = x mn = d (16.12)
Así pues, la solución en dicho punto no disminuye su valor en el tiempo como debe ser de
acuerdo con el método de las líneas características (Fig.16.1). Este resultado ya es poco razonable
y es peor en el punto i = m-1. En efecto,
x mn+-11 - x mn -1 ud
=-
t 2h
y, por consiguiente, en lugar de cero se obtiene el valor negativo
134
tu
x mn+-11 = - d (16.13)
2h
tu tu
el cual no puede ser aceptable. Notemos que los valores x mn+-11 = - d y x mn++11 = d disminuyen
2h 2h
tu
junto con el número de Courant . Entonces, a deferencia de la solución exacta cuyos valores
h
se propagan a lo largo de las líneas características a la derecha, los valores de la solución numérica
del esquema (16.9) se propagan en ambas direcciones demostrando varias alteraciones incluyendo
las oscilaciones falsas con valores negativos. Así, (16.9) es un ejemplo típico de un esquema no
monótono que transporta incorrectamente.
Dispersión numérica (Mezinger y Arakawa, 1976; Marchuk, 1982; Durran, 1999). La
{
ecuación (16.4) tiene la solución j ( x, t ) = Re F(t )e
ikx
} de la forma de onda si F(t ) satisface
dF
la ecuación de oscilación + ikuF = 0 con la frecuencia ku y velocidad de fase u. Ya
dt
que u = Const, todas las soluciones de onda (independientemente de su número k) se propagan
con la misma velocidad, es decir, la solución j (x, t ) se traslada sin cambio de forma (véase
(16.7)). Analizamos ahora la propagación de las soluciones de onda x j (t ) = Re F(t ) e

ikjh
{ } de la
dx j x j +1 - x j -1
ecuación (16.4) pero ya discreta en x: +u = 0 . En este caso, F(t ) satisface la
dt 2h
dF æ sin kh ö
ecuación de oscilación + ik ç u ÷F = 0 . Entonces, a diferencia del problema continuo
dt è kh ø
cuando todas las ondas tienen la velocidad de fase u, cada onda del problema discreto se propaga
sin kh
con su propia velocidad de fase u * (k ) = u que depende del número de onda k. Notamos
kh
que u * (k ) < u para cada k, es decir, las ondas numéricas se trasladan más lento, y dicha
135
velocidad disminuya su valor cuando k aumenta (es decir, para las ondas más cortas). Por
[ ]
ejemplo, si la resolución es buena ( kh << 1) entonces u * (k ) » u 1 - 16 (kh) 2 , es decir, el error en
la velocidad de fase tiene el segundo grado respecto a kh. Además, la onda con la longitud de dos
dx j
tamaños de la malla es inmóvil. En efecto, ya que x j +1 = x j -1 , entonces = 0 . Es necesario
dt
¶ (k u * (k ))
decir que este es un error considerable. La velocidad de grupo es = u cos kh , es decir,
¶k
la situación aquí aún peor. Este fenómeno explica la dispersión numérica de las ondas de distintas
escalas en el esquema (16.9) (Morton y Mayers, 1994; Durran, 1999).
El esquema de Godunov. Usamos de nuevo el esquema de Euler para aproximar la
ecuación (16.4) en tiempo, pero la diferenciación numérica hacia atrás para discretizar la derivada
en x. Como resultado, para cada punto ( xi , t n ) obtenemos el esquema de Godunov:
x in+1 - x in x n - x in-1
= -u i (16.14)
t h
(Godunov y Ryabeñkii, 1964). Analizando el esquema (16.14) igual que en el esquema anterior,
obtenemos
tu
x mn +1 = 0, x mn ++11 = d
h
æ tu ö
x mn = d , x mn +1 = ç1 - ÷d (16.15)
è hø
x mn -1 = 0, x mn +-11 =0
La primera ecuación es bastante razonable; la segunda indica que la perturbación se transportó de
la región inicial. Así, el esquema de Godunov transporta señal correctamente, ya que los valores
de la solución numérica se propagan en la dirección correcta. Sin embargo, la magnitud de la
136
solución disminuye; además, la tasa del proceso de disipación depende del número de
tu
Courant .
h
Estudiamos ahora la aproximación y estabilidad del esquema de Godunov para la ecuación
de transporte (16.4) con u = Const > 0:
j in+1 - j in j in - j in-1
+u = 0, (16.16)
t h
Aproximación y viscosidad numérica. El esquema (16.16) tiene el primer grado de
aproximación en t y h. En efecto, usando la serie de Taylor en la vecindad del punto (xi, tn),
obtenemos
¶j ¶j uh ¶ 2j t ¶ 2j
+u = - + O(t 2 + h 2 ) (16.17)
¶t ¶ x 2 ¶ x2 2 ¶ t 2
Debido a (16.4),
¶ 2j 2 ¶ j
2
=u (16.18)
¶ t2 ¶ x2
y, por tanto, el esquema (16.16), en lugar de la ecuación (16.4), aproxima la ecuación de
transporte y difusión
¶j ¶j ¶ 2j
+u =m (16.19)
¶t ¶x ¶ x2
en donde
u uh tu
m = (h - ut ) = (1 - ) (16.20)
2 2 h
tu
es la viscosidad artificial o numérica. Si el número de Courant es menor que uno, entonces
h
m > 0 , y el problema con la ecuación (16.19) está bien formulado según Hadamard, es decir, su
137
solución es única y depende continuamente de errores iniciales. Precisamente esta viscosidad es
tu
responsable de la disminución de la magnitud de la solución numérica de (16.15). Si =1,
h
entonces m = 0 y cada uno de los demás términos de la ecuación (16.17) denotados como
(
O t 2 + h2 ) también es nulo, es decir, el esquema explícito (16.16) tiene grado infinito de
aproximación en h y t , y su solución coincide con la solución exacta (lo cual es posible sólo
tu
cuando u = Const). En la teoría de los métodos numéricos, la condición £1 se llama
h
tu
condición de Courant, o de Courant-Fredrichs-Lewy (Durran, 1999). Y por fin, si > 1,
h
entonces el esquema (16.16), en lugar de la ecuación (16.4), aproxima a la ecuación
¶j ¶j ¶ 2j
+u = -m (16.21)
¶t ¶x ¶ x2
con viscosidad negativa. Es fácil demostrar que el problema con la ecuación (16.21) está mal
formulado en el sentido de Hadamard. Efectivamente, su solución es inestable respecto a errores
iniciales. Así pues, al escoger los tamaños t y h, es necesario satisfacer la condición de Courant
tu
£ 1 para resolver bien la ecuación de transporte (16.4).
h
Estabilidad. Investigamos la estabilidad espectral del esquema (16.16). El problema
espectral
w kp - w kp-1
u = l pw kp (16.22)
h
para el operador de dicho esquema tiene las autofunciones
w kp = eikph (16.23)
y los autovalores
138
uæ ph ö
l p = ç 2 sin 2 + i × sin ( ph)÷ (16.24)
hè 2 ø
Buscaremos la solución de la ecuación (16.4) de la siguiente forma
¥
j kj = åj
p =-¥
j ikph
pe (16.25)
donde k y j son índices de malla en espacio y tiempo, respectivamente, y el coeficiente de Fourier
j pj de la solución j j satisface la ecuación
j pj +1 - j pj
+ l pj pj = 0 (16.26)
t
y, por consiguiente,
(
j pj +1 = Tpj pj = 1 - tlp j pj ) (16.27)
Para la estabilidad es necesario que
1 - tlp £ 1 (16.28)
tu
Supongamos que la condición de Courant se cumple: £ 1 , entonces
h
2 2
2 æ tu ph ö æ tu ö
1 - tl p = ç1 - 2 sin 2 ÷ + ç ÷ sin ph =
2
è h 2 ø è øh
2
tu æ 2 ph ö æ tu ö æ 4 ph ö
= 1- 4 ç sin ÷+ç ÷ ç 4 sin + sin 2 ph ÷ =
hè 2 ø èhø è 2 ø
2
tu ph æ tu ö ph æ 2 ph ph ö
= 1 - 4 sin + 4ç ÷ sin 2
2
ç sin + cos2 ÷=
h 2 èhø 2 è 2 2 ø
æ tu öæ tu ö ph
= 1 - 4ç ÷ç1 - ÷ sin 2 ³0
è h øè hø 2
1 tu
ya que max{x(1 - x)} = . Así pues, el esquema de Godunov es estable si £ 1 . Notemos que la
0< x <1 4 h
misma condición garantiza la estabilidad en la norma (véase ejemplo 15.1).
Esquema implícito. Consideremos ahora el esquema implícito
139
j in+1 - j in j n+1 - j in-+11
+u i =0. (16.29)
t h
Es fácil demostrar que también tiene el primer grado de aproximación en t y h. Además, en cada
punto ( xi , t n+1 ) de la malla, (16.29) aproxima la ecuación
¶j ¶j ¶ 2j
+u =m (16.30)
¶t ¶x ¶ x2
donde
uh + u 2t
m= >0 (16.31)
2
Notamos que m es positivo para cualquier t y h. Por esto, el problema (16.30) siempre está bien
formulado según Hadamard. Debido a esta propiedad, el esquema (16.29) es absolutamente
estable. De nuevo vemos que el esquema explícito de Godunov es condicionalmente estable (sólo
a condición de Courant), mientras que el esquema implícito (16.29) es siempre estable. Sin
embargo, la realización del último esquema es más difícil que la del esquema de Godunov.
La presentación falsa de ondas y la inestabilidad no lineal (Mezinger y Arakawa,
1976). Consideremos ahora la ecuación no lineal
ut + u u x = 0 (16.32)
Es un caso muy simple (unidimensional) de las ecuaciones de Euler para un fluido ideal.
Demostremos que la presencia del término no lineal puede generar la inestabilidad. Esposible
K
plantear la solución del problema en la forma de una serie de Fourier: u = å ak (t ) sin kx , donde la
k =1
senoide con el número de onda máximo K = p / h es la más corta que se puede presentar en la
malla. Entonces el término u u x contendrá los productos de dos armónicos con distintos números
de onda: sin m x × sin n x . Sin embargo,

140
1
sin m x × sin n x = [cos(n - m) x - cos(n + m) x] (16.33)
2
Así, aunque los cálculos se empiezan con la función que contiene sólo ondas sin kx con k £ K , en
el proceso de interacción no lineal aparecen muy rápido los armónicos con número de onda k > K
y, como ya sabemos, tendrá lugar la presentación falsa de ondas en la malla (véase § 9) cuando
una senoide con el número de onda k > K sea presentada falsamente por la sinusoide con el
número de onda k* = 2K - k . Y cuando k es un poco mayor que K, k * es un poco menor que
K. En los métodos espectrales, cuando las series de Fourier están truncadas por el número K, el
fenómeno descrito causa la cascada de la energía y su acumulación falsa en los armónicos con los
números de onda cercanos a K y la inestabilidad (se llama inestabilidad no lineal).
Ejercicios:
f nj+1 - f nj 3f nj - 4f nj-1 + f nj-2

1. Sea +u = 0 un esquema que se usa para aproximar la
t 2h
ecuación de transporte (16.4). Determine el error de aproximación del esquema y encuentre
para t la región de la estabilidad del esquema.
2. Demuestre que el esquema de Lax-Wendroff
f nj+1 - f nj f nj+1 - f nj-1 u 2t f nj+1 - 2f nj + f nj-1

+u =
t 2h 2 h2
aproxima la ecuación (16.4) con el segundo grado respecto a t y h.
3. Demuestre que el esquema de Lax-Wendroff (vean el ejercicio anterior) es estable para
2
ætu ö
ç ÷ £1 .
è h ø
4. Investigue el grado de aproximación y analice la estabilidad del esquema de Lax-Fredrichs
f nj+1 - 12 (f nj+1 + f nj-1 ) f nj+1 - f nj-1

+u =0
t 2h
para la ecuación (16.4).
141
5. Determine los coeficientes c0 , c1 , c-1 del esquema f nj+1 = c1f nj+1 - c0f nj + c-1f nj-1 para la
¶j ¶j
ecuación +u = 0 de manera que obtenga el más alto grado de aproximación de la
¶t ¶x
solución j (t n+1 , x j ) cuando u>0. Verifique que el resultado es el esquema de Lax-Wendroff.
¶j ¶j ¶ 2j
6. (Skiba, 1993b; Skiba et al. 1996). Consideremos la ecuación +u =m con la
¶t ¶x ¶ x2
condición inicial j (0, x) = g ( x) en el intervalo [a,b], donde u > 0 y m > 0 son dos
constantes. Demuestre que el problema está bien formulado con las siguientes condiciones de
¶ ¶
contorno: m j + uj = f cuando x = a , y m j = 0 cuando x = b . [Sugerencia:
¶n ¶n
Verifique que la solución del problema es única y depende continuamente de la función inicial
g. Además, en el límite m ® 0 , la primera condición de contorno se reduce a la condición de
Dirichlet j (a) = f / u en “la entrada” del flujo, mientras que la segunda condición en el punto
x = b (en “la salida” del flujo) desaparece en la concordancia completa con las condiciones de
¶j ¶j
contorno para la ecuación de transporte +u = 0 sin difusión ].
¶t ¶x
a
¶ 2j æ ¶j ö ¶ 2j
7. Transforme = ç1 + d ÷ = 0 en dos ecuaciones de primer orden. Encuentre las
¶ t 2 çè ¶ x ÷ø ¶ x 2
características.
142
§ 17. Convergencia
Consideremos en un dominio D con la frontera S el problema diferencial abstracto
Aj = f en D , (17.1)
aj = g en S , (17.2)
donde j (x ) es la solución definida en D U S , mientras que A y a son operadores lineales
diferenciales, y f (x) y g (x ) son funciones conocidas en D y su frontera S, respectivamente. La
ecuación (17.2) representa la condición de frontera. En particular, el problema puede ser multi-
dimensional y no estacionario (Godunov y Ryabeñkii, 1964; Marchuk, 1982). Por ejemplo, en el
caso de un problema no estacionario tridimensional en el espacio, la variable x es un vector
x=(x,y,z,t). Un ejemplo simple del problema (17.1), (17.2) es el problema de contorno para el
operador unidimensional de Laplace:
¶2
- j ( x) = f ( x) si x Î (0,1) , (17.3)
¶x 2
¶
j ( x) = 0 si x=0 y x=1. (17.4)
¶x
Sea
Ahj h = f h en Dh , (17.5)
a hj h = g h en S h (17.6)
un problema de diferencias obtenido al discretizar (17.1), (17.2) usando las mallas Dh y S h .
Entonces A h y a h son las matrices que representan los operadores A y a en los espacios
vectoriales para las funciones de malla (vectores) f h y g h . Es preciso notar que los vectores
143
j h , f h y g h pertenecen a tres distintos espacios vectoriales F , F, y G, ya que sus componentes
se calculan en las mallas Dh U S h , Dh y S h , respectivamente.
Lo que nos interesa es la relación entre las tres características más importantes de cada
proceso numérico:
1) la aproximación del problema diferencial (17.1), (17.2) por el problema discreto (17.5), (17.6);
2) la estabilidad de la solución numérica j h respecto a errores en f h y g h ;
3) la convergencia de la solución numérica j h hacia la solución exacta j (x ) cuando el tamaño h
de la malla tiende al infinito.
En efecto, antes de aplicar un método numérico en la práctica, hay que elegir una malla con un
tamaño h. Claro que el error de aproximación depende de h y disminuye si se usa una malla más
fina. Además, siempre hay ciertos errores introducidos tanto en el forzamiento como en las
condiciones iniciales y de frontera por desconocimiento de datos, o por errores de redondeo. La
estabilidad del algoritmo numérico permite hallar la solución j h con una buena exactitud, ya que
impide el incremento incontrolable de dichos errores en el proceso de cálculo. Por fin, en la
práctica hallamos la solución numérica j h sólo para un h pequeño, pero fijo. Y para asegurarse de
que la solución numérica j h hallada es cercana a la solución exacta j (x ) reviste gran importancia
saber que j h converge hacia la solución exacta j (x ) cuando el tamaño de malla h tiende al cero.
En este apartado demostramos que para los problemas lineales (17.1), (17.2) las dos
características: aproximación y estabilidad, garantizan la convergencia de la solución numérica j h
hacia la solución exacta j (x ) . Este resultado es conocido como el teorema de Lax (Marchuk,
1982; Morton y Mayers, 1994).
144
Definición 17.1. Se dice que el esquema de diferencias (17.5), (17.6) aproxima el
problema diferencial (17.1), (17.2) con n-ésimo grado respecto a h, si existen los números
constantes positivos h0 , M 1 y M 2 independientes de h tales que
A h (j ) h - f h
£ M 1h n (17.7)
F
a h (j ) h - g h £ M 2hn (17.8)
G
para cualquier h < h0 .
En la fórmula (17.7) (o en (17.8)), (j ) h es una proyección de la solución exacta j (x ) en
la malla del espacio F (espacio G ). El ejemplo más simple de la proyección (j ) h es la función de
malla que acepta los valores de la solución j (x ) en puntos de la malla.
Definición 17.2. Se dice que el esquema de diferencias (17.5), (17.6) es estable si existen
los números constantes positivos h0 , y C1 y C2 independientes de h tales que
jh F
£ C1 f h
F
+ C2 g h
G
(17.9)
para cualquier h < h0 .
Observación 17.1. La independencia de los números C1 y C2 del tamaño h en (17.9)
significa en el lenguaje físico que la sensibilidad del esquema estable respecto a variaciones en f h
y g h no aumenta al refinar la malla.
Teorema 17.1 (de Lax). Supongamos que el esquema (17.5), (17.6) es estable según la
definición 17.2 y aproxima el problema diferencial lineal (17.1), (17.2) con n-ésimo grado respecto
145
a h de acuerdo con la definición 17.1. Entonces, cuando el tamaño h de la malla tiende al cero, la
solución numérica j h converge hacia la solución exacta j (x ) con n-ésimo grado respecto a h:
(j ) h - j h £ (C1 M 1 + C 2 M 2 ) h n (17.10)
F
donde M 1 , M 2 , C1 y C2 son los números de (17.7)-(17.9).
Demostración. Sea h0 tan pequeño que se cumplen (17.7)-(17.9). En virtud de la estabilidad,
existe una sola solución j h para cada f h y g h , y para cualquier h < h0 . Al aplicar A h a la
diferencia (j ) h - j h , obtenemos
{ }
Ah (j ) h - j h = Ah (j ) h - Ahj h = Ah (j ) h - f h (17.11)
similarmente,
{ }
a h (j ) h - j h = a h (j ) h - g h (17.12)
Introduciendo las notaciones
dj h = (j ) h - j h , d f h = Ah (j ) h - f h , y d g h = a h (j ) h - g h
llegamos a otro problema
A h dj h = d f h en Dh , (17.13)
a h dj h = dg h en S h (17.14)
cuya estructura coincide con la del esquema (17.5), (17.6), y por lo tanto posee las mismas
propiedades de aproximación y estabilidad. Aplicando la estimación (17.9) al esquema (17.13),
(17.14), obtenemos
dj h F
£ C1 df h
F
+ C 2 dg h
G
£ C1 A h (j ) h - f h
F
+ C 2 a h (j ) h - g h
G
. (17.15)
146
Ahora, en virtud de (17.7) y (17.8), obtenemos
(j ) h - j h £ C1 M 1 h n + C 2 M 2 h n £ (C1 M 1 + C 2 M 2 ) h n (17.16)
F
El teorema quedo demostrado. □
Observación 17.2. Los grados de aproximación en (17.7) y (17.8) pueden ser distintos,
por ejemplo, n y m. En este caso, el grado de convergencia en (17.10) es igual a min{n, m}.
Observación 17.3. Según el teorema 17.1, sólo los esquemas estables tienen sentido, ya
que cualquier esquema inestable no está relacionado de ningún modo con aquel problema
diferencial original para el que se ha construido dicho esquema. Generalmente, en la práctica es
posible construir distintas variantes de esquemas que aproximen el problema original continuo.
Normalmente, se prefiere el esquema más estable y económico.
Observación 17.4. El problema (17.1), (17.2) es diferencial. Pero el Teorema de Lax es
válido para cualquier problema lineal continuo: diferencial, integral, o integro-diferencial. Se puede
demostrar que para un problema no lineal, las condiciones (17.7)-(17.9) son necesarias, sin
embargo, no son suficientes en general.
Ejemplo 17.1. Hallamos la solución j ( x, t ) del problema de Cauchy
¶j ¶j
Aj º +u = 0. (17.17)
¶t ¶x
aj º j ( x,0) = g ( x) (17.18)
en la banda - ¥ < x < ¥ , 0 £ t £ T , donde u = Const, y g(x) es dos veces continuamente
diferenciable en todo el eje x, además,
147
¶2
sup g ( x) = G < ¥ (17.19)
-¥< x <¥ ¶x2
La solución exacta del problema (17.17), (17.18) es
j (x, t ) = g (x - ut ) (17.20)
y, por lo tanto, j (x, t ) = Const a lo largo de cada característica x - ut = Const . Además, debido
a (17.19), la solución es acotada.
Introducimos las mallas regulares en el espacio y tiempo con tamaños h y τ,
respectivamente: xi = ih ; t n = nt ; n = 0,1,2,..., N +1; T = ( N + 1)t . Denotemos como
x in = x ( xi , t n ) el valor de la solución numérica en el punto ( xi , t n ) de la malla, y usemos el
esquema de Godunov (Godunov y Ryabeñkii, 1964):
x in+1 - x in x n - x in-1
(A x )
h ,t n
i º
t
+u i
h
=0 (17.21)
(a hx ) i º x i0 = g i (17.22)
Entonces, la condición inicial (17.18) se aproxima exactamente. Sin embargo, expandiendo x in+1 y
x in-1 en las series de Taylor en vecindad del punto ( xi , t n ) , obtenemos que el esquema tiene el
primer grado de aproximación respecto a h y t :
A h ,t (j ) h ,t - A h ,t x h ,t º A h ,t (j ) h ,t £ M 1 (h + t ) (17.23)
donde f = max sup f i n , y la función de malla (j ) h,t tiene valor j in en el punto ( xi , t n ) .

n i
Examinemos ahora la estabilidad del esquema de Godunov. Suponiendo que un error e in
en la parte derecha de (17.21) causa cierto error d in en la solución numérica x in , llegamos a la
ecuación para los errores:
148
æ tu ö n tu n
d in+1 = ç1 - ÷d i + d i -1 + te i ,
n
d i0 = 0 . (17.24)
è hø h
tu tu
d in+1 £ 1 - d in + d in-1 + t e in . (17.25)
h h
tu tu tu
Si £ 1 (la condición de Courant), entonces 1 - + =1 y
h h h
sup d in+1 £ sup d in + t e . (17.26)

i i
tu
Se deduce de (17.26) que el esquema de Godunov es estable si £ 1:
h
d £t ( N + 1) e £ T e (17.27)
Entonces, según el teorema de Lax,
(j ) h ,t - x £ T M 1 (h + t ) . (17.28)
es decir, la solución numérica converge hacia la solución exacta del problema de Cauchy con el
primer grado respecto a h y t .
Observación 17.5. Es conveniente dar la interpretación geométrica de la relación entre la
condición de Courant y la convergencia del esquema explícito de Godunov del ejemplo anterior.
Supongamos que u = 1 y T=1, entonces la solución exacta j (x, t ) = g (x - t ) es invariable a lo
largo de la característica x- t = Const y, en particular, j (0,1) = j (-1,0) = g (-1) . En este caso, la
t
condición de Courant es r = £ 1 , y el esquema (17.21), (17.22) se convierte en
h
x in+1 = (1 - r )x in + rx in-1 , x i0 = g i . (17.29)
Ya que ( N + 1)t = 1 , entonces x 0N +1 aproxima el valor j (0,1) (el punto C, Fig.17.1).
149
t
C=(0,1)
r<1 r>1
A B=(-1,0) D 0 x
Fig. 17.1. Dominios de influencia para x 0N +1 dependiente del número de Courant.
La situación más favorable es cuando r = 1 , ya que el esquema (17.29) aproxima el problema
diferencial exactamente y, según el método de las características, x 0N +1 depende sólo de g (-1) :
x 0N +1 = g (-1) (el punto B en Fig.17.1). Si r < 1 , entonces, de acuerdo con (17.29), el dominio de
1
influencia para el valor x 0N +1 es todo el segmento A0 = (- ,0) del eje x que incluye el punto
r
x = -1 (Fig.17.1). Al contrario, cuando r > 1 , el dominio de la influencia para el valor x 0N +1 es el
1
segmento D0 = (- ,0) que no incluye el punto x = -1 . Supongamos ahora que la función inicial
r
g(x) cambia un poco y suavemente en una vecindad pequeña del punto x = -1 situada fuera del
segmento D0, entonces, la solución exacta j (0,1) = g (-1) también se modifica. Por su parte,
la solución numérica x 0N +1 refleja dicho cambio en g(x) si r < 1 (ya que el punto x = -1 pertenece
al dominio de influencia A0), y no lo siente si r > 1 (ya que el punto x = -1 no pertenece al
dominio de influencia B0). La misma situación se representa cuando h y t tienden al infinito
150
conservando el número de Courant. Por eso, en el caso r > 1 no hay ni estabilidad, ni
convergencia.
Ejercicios:
1. Sea f j una función de malla. La variación total de la función f j se define como

TV (f ) = å f j +1 - f j . Un método (o esquema) se llama método (esquema) TVD (total
j
variation diminishing) si TV (f n+1 ) £ TV (f n ) . Se dice que un método conserva la monotonía

de la solución si la condición f 0j ³ f 0j +1 para todos j implica que f nj ³ f nj+1 para todos n y j
(Durran, 1999).
¿Por que un esquema que conserva la monotonía tiene que ser el esquema TVD?
2. ¿Por qué un esquema TVD no es necesariamente el esquema que conserva la monotonía?
æ 2ö
3. Consideremos la ecuación de Burgers en forma de flujo: ¶y + ¶ çç y ÷÷ = 0 . Demuestre que
¶t ¶x è 2 ø
ningún nuevo máximo o mínimo puede desarrollarse en una solución suave de esta ecuación.
151
Capítulo IV. Construcción de los esquemas numéricos
Por su simplicidad, el método de diferencias finitas es muy empleado en la construcción de
los esquemas numéricos para varios problemas de física matemática (Richtmyer, 1957; Marchuk,
1958, 1967, 1982; Forsythe y Wasow, 1960; Babuška y otros, 1966; Collatz, 1966; Richtmyer y
Morton, 1967; Samarski, 1968, 1971; Marchuk y Lebedev, 1971; Dahlquist y Björck, 1974; Lions y
Marchuk, 1974; Marchuk y otros, 1975; Mezinger y Arakawa, 1976, 1979; Marchuk y Skiba, 1976,
1992; Forsythe y otros, 1977; Mitchell y Griffiths, 1980; Ortega y Poole, 1981; Ames, 1992). En
este capítulo consideramos otros métodos de construcción de esquemas numéricos. Se llaman
métodos de proyección, ya que la solución aproximada se busca de un subespacio de dimensión
finita. Aquí consideramos el método de colocación, el método de Rayleigh-Ritz, el método de
Galërkin y el método espectral. Estudiamos las propiedades, las ventajas y desventajas de dichos
métodos. Se consideran funciones básicas globales y locales (splines o elementos finitos). Para
profundizar en el tema se recomiendan los trabajos de Godunov y Ryabeñkii (1964), Richtmyer y
Morton (1967), Prenter (1975), Mesinger y Arakawa (1976), Machenauer (1977), Becker y otros
(1981), Marchuk (1982), Marchuk y otros (1983), Golub y Ortega (1992), Durran (1999).
§ 18. Esquemas para una ecuación diferencial ordinaria
En este apartado consideremos varios esquemas con diferencias finitas para resolver la
ecuación diferencial ordinaria
d
y ( x) = f ( x, y ), x³a
dx (18.1)
y (a) = g
152
Claro que x puede representar el tiempo en (18.1). Introducimos en el dominio x ³ a la malla
uniforme con tamaño h: xk = a + kh , k=0,1,2,… . Denotamos el valor de la solución numérica en
punto x k por y k .
Método de Euler (Iserles, 1998). El método de Euler es el más simple para discretizar el
problema continuo (18.1):
yk +1 = yk + h f ( xk , yk ) , y0 = g , k = 0,1,2, L (18.2)
De acuerdo con la fórmula de Taylor, tenemos
¶y h2 ¶ 2 y h2 ¶ 2 y
y ( xk +1 ) = y ( xk ) + h ( xk ) + (x k ) = y ( x k ) + h f ( x k , y ( x k )) + (x k )
¶x 2 ¶x2 2 ¶x2
donde x k es cierto punto (desconocido) en el intervalo ( xk , xk +1 ) . Si la segunda derivada de y(x) es
acotada y h es pequeño, entonces al ignorar el último término en la fórmula anterior, llegamos a la
fórmula aproximada
y( xk +1 ) = y( xk ) + h f ( xk , y( xk )) (18.3)
que es la base del esquema de Euler (18.2). Claro que dicho esquema tiene el primer grado de
aproximación respecto a h.
Método de Heun. El método de Heun para el problema (18.1) consiste de dos etapas:
h
~
yk +1 = yk + h f ( xk , yk ) , yk +1 = yk + { f ( xk , yk ) + f ( xk +1 ,~yk +1 )} ,
2
y0 = g , k = 0,1,2,L (18.4)
153
Además, la primera etapa coincide con el esquema de Euler. El esquema de Heun también se llama
método de Runge-Kutta del segundo grado de aproximación respecto a h (Golub y Ortega, 1992).
Demostraremos este como la consecuencia de un análisis más general.
Esquema general del segundo grado de aproximación. Se puede escribir los métodos
(18.2) y (18.4) de la forma común
y k +1 = y k + h F( x k , y k ) . (18.5)
En efecto, F( x, y) º f ( x, y) corresponde al método de Euler, mientras que
1
F( x, y) º { f ( x, y) + f ( x + h, y + h f ( x, y))} (18.6)
2
transforma (18.5) en el método de Heun. Consideremos ahora el esquema (18.5) con
F( x, y) = c 2 f ( x, y) + c3 f ( x + c1 h, y + c1 h f ( x, y)) (18.7)
y escojamos los coeficientes c1 , c2 y c3 con fin de maximizar el grado de aproximación del
método. Para simplificar fórmulas, introducimos las siguientes notaciones: f º f ( x, y) ,
¶f ¶f ¶f ¶f
º ( x, y ) , º ( x, y ) y z = y + c1h f ( x, y) . Entonces, usando la expansión
¶x ¶x ¶y ¶y
¶f ¶f ¶f
f ( x + c1h, z ) = f ( x, z ) +c1h ( x, y + c1h f ) + O(h 2 ) = f + c1hf +c1h + O(h 2 )
¶x ¶y ¶x
en la serie de Taylor, escribimos (18.7) como
ì ¶f ¶f ü
F ( x, y ) = c 2 f + c 3 í f + c1 hf + c1 h + O(h 2 )ý
î ¶y ¶x þ
æ ¶f ¶f ö
= (c 2 + c3 ) f + c1c3 hçç f + ÷÷ + O(h 2 ) (18.8)
è ¶ y ¶x ø
154
Por otra parte, la solución exacta y(x) del problema (18.1) satisface la ecuación
1 ¶y 1 ¶2 y
{y( x + h) - y( x)} = ( x) + h 2 ( x) + O(h 2 )
h ¶x 2 ¶x
1 df 1 æ ¶f ¶f ö
= f + h + O(h 2 ) = f + hçç f + ÷÷ + O(h 2 ) (18.9)
2 dx 2 è ¶ y ¶x ø
De (18.8) y (18.9) tenemos
æ ö
1
{y ( x + h) - y ( x)} - F ( x, y) =(1 - c2 - c3 ) f + ( 1 - c1c3 )hçç f ¶f + ¶f ÷÷ + O(h 2 ) (18.10)
h 2 è ¶ y ¶x ø
Si
1
c 2 + c3 = 1 y c1c3 = (18.11)
2
entonces los dos primeros términos en (18.10) desaparecen para cualquier función f y, por lo tanto,
el error de aproximación del esquema (18.5), (18.7) es O(h 2 ) . Se puede demostrar que con la
estructura (18.7) es imposible mejorar la aproximación del esquema (18.5).
El sistema (18.11) contiene dos ecuaciones para tres coeficientes, es decir, hay un número
g
infinito de esquemas del segundo grado de aproximación. Al escoger c1 = , y resolver el sistema
2
(18.11) en términos de g , obtenemos el esquema
ìæ 1 ö 1 g g ü
y k +1 = y k + h íçç1 - ÷÷ f ( xk , y k ) + f ( xk + h , y k + h f ( xk , y k )) ý (18.12)
îè g ø g 2 2 þ
que tiene segundo grado de aproximación para cualquier número finito g ¹ 0 . En particular, cuando
g = 2 , el esquema (18.12) se convierte en el esquema de Heun. Notamos que en el límite g ® ¥ ,
(18.12) pierde el segundo grado y aproxima el esquema de Euler que tiene sólo el primer grado de
aproximación.
155
Método de Runge-Kutta (Golub y Ortega, 1992; Iserles, 1998). De todos los métodos de
Runge-Kutta, el más famoso es el esquema del cuarto grado de aproximación:
h
yk +1 = yk + {F1 + 2F2 + 2F3 + F4 } (18.13)
6
en donde
h h
F1 = f ( xk , yk ) , F2 = f ( xk + , yk + F1 ) (18.14)
2 2
h h h
F3 = f ( xk + , yk + F2 ) , F4 = f ( xk +1 + , yk + hF3 ) (18.15)
2 2 2
Repetimos que (18.13)-(18.15) tiene aproximación O(h 4 ) . □
Métodos de multipasos. En los métodos de Euler, de Heun y de Runge-Kutta, el valor
y k +1 depende sólo de yk . Por eso, cada uno de estos métodos se llama método de un solo paso
(one-step method). Ahora consideraremos varios métodos de multipasos.
Método “leap-frog”. El método de “leap-frog” para el problema (18.1) se escribe como
yk +1 = yk -1 + 2h f ( xk , yk ) , y0 = g (18.16)
Es de dos pasos y, por lo tanto, hay que conocer y 0 y y1 para empezar los cálculos según (18.16).
Normalmente, se usa el esquema de Euler para hallar y1 . Es fácil demostrar que (18.16) aproxima
(18.1) con el grado O(h 2 ) . □
Una clase importante de métodos de multipasos resulta del siguiente acercamiento. Si
integramos (18.1) sobre el intervalo [ xk , xk +1 ] , entonces obtenemos
156
xk +1 xk +1 xk +1
¶y
y ( xk +1 ) - y ( xk ) = ò
xk
¶x
( x)dx= ò f ( x, y( x))dx@ ò p( x)dx
xk xk
(18.17)
donde en el último término suponemos que p(x) es un polinomio que aproxima f(x,y(x)). Para
construir este polinomio se supone que y k , y k -1 ,..., y k - N son los valores aproximados de la solución
en los puntos xk , xk -1 ,...,xk - N , y se forma el polinomio de interpolación del grado N que satisface
las condiciones p( xi ) = f i , i=k, k-1,…, k-N , en donde f i = f ( xi , yi ) . En principio, se puede
integrar este polinomio explícitamente para obtener el método
xk +1
y ( xk +1 ) = y ( xk ) + ò p( x)dx
xk
(18.18)
Métodos de Adams-Bashforth (Bakhvalov, 1973; Golub y Ortega, 1992; Iserles 1998;
Durran, 1999). Si N=0, entonces el polinomio p(x) es la constante f k y (18.18) es simplemente el
método de Euler.
Si N=1, entonces el polinomio p(x) es la función lineal que interpola los puntos ( xk -1 , f k -1 )
y ( xk , f k ) :
x - xk x - xk
p( x) = p1 ( x) = f k - Df k = f k - ( f k -1 - f k ) . (18.19)
h h
Sustituyendo (18.19) en (18.18) obtenemos el esquema de Adams-Bashforth con la aproximación
O( h 2 ) :
h h
y k +1 = y k + hf k - Df k = y k + {3 f k - f k -1 } (18.20)
2 2
Entonces, es de dos pasos: el valor y k +1 depende de yk y y k -1 . El último término en la fórmula
(18.20) representa una modificación del esquema de Euler.
157
Similarmente, si N=2 entonces el polinomio p(x) es el polinomio de interpolación
cuadrático para los puntos ( xk -2 , f k -2 ) , ( xk -1 , f k -1 ) y ( xk , f k ) :
( x - x k )( x - x k -1 ) 2
p 2 ( x) = p1 ( x) + D fk (18.21)
2h 2
donde D2 f k = f k - 2 f k -1 + f k -2 . Sustituyendo (18.21) en (18.18) obtenemos el esquema de
Adams-Bashforth con la aproximación O(h 3 ) :
h 5 h
y k +1 = y k + hf k - Df k + hD2 f k = y k + (23 f k - 16 f k -1 + 5 f k -2 ) (18.22)
2 6 12
Es un esquema de tres pasos: el valor y k +1 depende de yk , y k -1 y yk -2 .
Por fin, el esquema de Adams-Bashforth con la aproximación O(h 4 ) es:
h
yk +1 = yk + (55 f k - 59 f k -1 + 37 f k -2 - 9 f k -3 ) (18.23)
24
Métodos de Adams-Moulton (Bakhvalov, 1973; Golub y Ortega, 1992; Iserles 1998;
Durran, 1999). Se usan los puntos xk +1 , xk , . . . x, k - N y se forma el polinomio de interpolación del
grado N+1 que satisface las condiciones p( xi ) = f i , i=k+1,k,…, k-N . Este procedimiento genera
una clase de métodos conocidos como métodos de Adams-Moulton. Si N=0, entonces p(x) es la
función lineal que interpola ( xk , f k ) y ( xk +1 , f k +1 ) , y el método correspondiente es
h
yk +1 = yk + { f k +1 + f k } (18.24)
2
llamado método de Adams-Moulton de segundo grado (o de Crank-Nicolson). Si N=2, entonces
p(x) es el polinomio cúbico que interpola ( xk +1 , f k +1 ) , ( xk , f k ) , ( xk -1 , f k -1 ) , y ( xk -2 , f k -2 ) . En este
caso, el método correspondiente es
158
h
yk +1 = yk + (9 f k +1 + 19 f k - 5 f k -1 + f k -2 ) (18.25)
24
llamado método de Adams-Moulton de cuarto grado de aproximación. Notamos que mientras que
los métodos de Adams-Bashforth son explícitos, los métodos de Adams-Moulton son implícitos, ya
que incluyen y k +1 en ambas partes de las fórmulas (18.24) y (18.25).
Ejercicios:
yk +1 - yk
1. Consideremos el esquema = a f ( yk ) + b f ( yk +1 ) para resolver la ecuación
t
dF
y ¢(t ) = f ( y ) , donde a + b = 1 . Aplique este esquema a la ecuación de oscilación = iwF y
dt
demuestre que el factor de ampliación A = F k +1 / F k se calcula mediante la fórmula
t 2h2
2
(
A = 1+ a - b
2 2
)1 + b 2t 2 h 2
, es decir, el esquema es neutral para a = b = 1/ 2 ( A = 1 ), es
disipativo para a < b ( A < 1 ), inestable para a > b ( A > 1 ). Sin embargo, es posible
demostrar que el esquema de Euler ( a = 1 ) satisface el criterio de estabilidad de von Neumann
si t < 1 .
2. La familia de los esquemas de dos niveles se puede escribir en la forma general
~y k +1 = y k + t a f ( y k )
y k +1 = y k + t {b f ( ~ y k ) + (1 - b ) f ( y k )} .
Demuestre que la familia de los esquemas con ab = 1 / 2 representa los métodos de Runge-Kutta
del segundo grado de aproximación O(t 2 ) , y en particular, que el método de Heun corresponde
a = 1, b = 1/ 2 .
3. Analice la estabilidad del esquema de Matsuno (Mezinger y Arakawa, 1976):
y k +1 = y k + t f ( y k ) ,
~ y k +1 = y k + t f ( ~
yk ) .
4. (Iserles, 1998). Demuestre que el método de multipasos

yk +3 + a 2 yk +2 + a1 yk +1 + a 0 yk = h(b 2 f k +2 + b1 f k +1 + b 0 f k )
aproxima la ecuación (18.1) con error O(h 4 ) sólo si a 2 + a 0 = 8 y a1 = 9 .
5. Demuestre que el método del ejercicio 1 no puede tener la aproximación O(h 4 ) y ser
convergente simultáneamente. [Sugerencia: El método se puede presentar en la forma
3 2
å am yk +m = hå bm f k +m .
m =0 m =0
159
Como resultado, su estabilidad se caracteriza mediante las raíces del polinomio
3
p( w) = å am w m . Según el teorema de Dahlquist (Iserles 1998), el método converge si y sólo si
m=0
su grado de aproximación es O(h n ) donde n ³ 1 y todos las raíces del polinomio p (w) están
dentro del disco del radio uno, además, cada raíz del módulo unitario es simple].
6. Determine el grado de aproximación del método
yk + 3 - y k = h( 83 f k + 3 + 9
8 f k +2 + 9
8 f k +1 + 83 f k )
Analicen su convergencia.
7. Halle la solución del problema
d2
u ( x) + u ( x) = x , 0 < x < 1
d x2
du
u (0) = 0, y (1) + u (1) = 1
dx
usando un tamaño de malla apropiado y el método de diferencias finitas.
160
§ 19. Esquema “leap-frog”.
En este apartado consideramos el esquema “leap-frog” (Golub y Ortega, 1992; Morton y
Mayers, 1994; Iserles, 1998; Durran, 1999). Ya sabemos que para el problema
d
y ( x) = f ( x, y ), x³a
dx (19.1)
y (a) = g
el esquema “leap-frog” tiene la forma
yk +1 = yk -1 + 2h f ( xk , yk ) , y0 = g (19.2)
y aproxima la ecuación original con O(h 2 ) . Para hallar y1 , se usa el esquema de Euler, y después se
utiliza (19.2) para hallar y2 , y3 , etc. Estudiaremos ahora las propiedades principales del esquema
usando varios ejemplos. El esquema, a pesar de que es muy simple, puede ser inestable, como
muestra el siguiente ejemplo.
Ejemplo 19.1 (Golub y Ortega, 1992). Consideremos el problema
dy
= -2 y + 1 , y (0) = 1 (19.3)
dx
Es fácil demostrar que su solución exacta,
1 1
y ( x) = e - 2 x + , (19.4)
2 2
es estable respecto a un error introducido en el punto x=0. En efecto, si la condición y(0) = 1 es un
poco perturbada: ye (0) = 1 + e , entonces la solución exacta perturbada es
æ1 ö 1
y e ( x) = ç + e ÷ e - 2 x + (19.5)
è2 ø 2
y la diferencia (error) d y( x) = y e ( x) - y( x) entre dos soluciones disminuye asintóticamente cuando
x aumenta, y siempre es menor que e : d y ( x) = e e -2 x .
161
Aplicamos ahora el método “leap-frog” al problema (19.3). Según (19.2), tenemos
y k +1 = y k -1 + 2h (-2 y k + 1) = -4hyk + y k -1 + 2h
(19.6)
y0 = 1
Para empezar cálculos con el esquema (19.6) se debe conocer y1 . Vamos a escoger
1 1
y1 = e -2 h + , (19.7)
2 2
es decir, el valor de la solución exacta (19.4) en el punto x=h. A pesar de que el método (19.6)
aproxima (19.3) con el grado O(h 2 ) , es inestable. En efecto, la solución analítica (19.4) aproxima
1
cuando x ® ¥ . Demostramos ahora que la solución numérica yk hallada con (19.6), (19.7)
2
1
no tiende al cuando k ® ¥ , es decir, la solución numérica no converge hacia la solución exacta
2
y, por tanto, según el teorema 17.1 de Lax, el esquema es inestable. Vemos que
y k = lk (19.8)
es la solución exacta de la ecuación (19.6) homogénea (sin el término 2h) si l satisface la ecuación
característica
l2 + 4hl - 1 = 0 (19.9)
o bien, cuando
l1, 2 = -2h ± 4h 2 + 1 . (19.10)
Así, l1 = 2h + 4h 2 + 1 > 1 , y l2 = -2h + 4h 2 + 1 < 1 . La solución general del problema no
homogéneo (19.6) es
yk = c1 l1k + c2 lk2 + wk (19.11)
162
donde los dos primeros términos representan la solución general del problema homogéneo, mientras
que wk es una solución particular del problema no homogéneo. En la calidad de wk tomamos la
solución constante:
1
wk = , k = 0,1,2,... (19.12)
2
Los constantes c1 y c2 en (19.11) se determinan por las condiciones y 0 y y1 . Cuando k ® ¥ ,
el primer término en (19.11) tiende al infinito de una manera oscilatoria (los signos de dicho término
alternan con k), mientas que el segundo término tiende al cero. Entonces el valor absoluto de la
1
solución yk tiende al infinito, a diferencia de la solución exacta (19.4) que aproxima . Así, la
2
solución numérica no converge hacia la solución exacta por la existencia del primer término y, por lo
tanto, el esquema “leap-frog” para la ecuación (19.3) es inestable, debido al teorema de Lax. □
Es preciso señalar que el primer término en la solución numérica (19.11) es artificial y
representa un modo numérico adicional generado por el esquema “leap-frog”. En efecto, si c1 = 0 ,
1
entonces la solución numérica aproxima , es decir, el mismo valor que la solución analítica.
2
Estudiemos este problema con más detalles en otro ejemplo.
Ejemplo 19.2. Consideremos la ecuación de oscilación
dF
= iwF (19.13)
dt
{
que surge en varias aplicaciones. Por ejemplo, el componente armónico j ( x, t ) = Re F(t )e
ikx
}
es
¶j ¶j
la solución de la ecuación de transporte =u si F(t ) satisface (19.13) con w = ku . O
¶t ¶x
163
bien, introduciendo la función U = u + iv en las ecuaciones de movimiento horizontal en el campo
de la fuerza de Coriolis
du dv
= fv , = - fu (19.14)
dt dt
llegamos de nuevo a la ecuación (19.13) con w = f .
La solución general de (19.13) es
F(t )= F(0) e iwt , (19.15)
o, para niveles discretos de tiempo t n = nt ,
F n º F(nt )= F(0) e iwnt (19.16)
Así, con cada paso t , el argumento de F se cambia por ángulo w t , sin embargo, su amplitud
F(0) es invariable. Por otra parte, según el esquema “leap-frog”, la solución numérica se calcula
mediante la fórmula
F n +1 = F n -1 + 2iw tF n (19.17)
Al buscar la solución de la forma
F n +1 = lF n , (19.18)
llegamos a la ecuación
l2 - 2ipl - 1 = 0 (19.19)
o bien,
l1, 2 = ip ± 1 - p 2 (19.20)
donde p = wt . Así, hay dos soluciones del tipo (19.18): F1n +1 = l1F1n y F 2n +1 = l 2 F n2 . Si
t ® 0 , entonces p ® 0 y, por lo tanto l1 = ip + 1 - p 2 ® 1 . Por eso, el primer modo F1n es
164
físico. De otra parte, cuando t ® 0 , l2 = ip - 1 - p 2 ® -1 , es decir, F 2n +1 ® -F n2 . Este
modo es artificial, o modo numérico, ya que no aproxima la solución exacta. En el caso especial,
dF n +1
cuando ω=0, la ecuación (19.13) y el esquema “leap-frog” se reducen a =0 y F = F n -1 ,
dt
respectivamente. Entonces la solución exacta es constante. Sin embargo, la solución numérica
depende de F 1 . En efecto, si F 1 = F 0 , entonces F n +1 = F n y la solución numérica tiene sólo
modo físico. Y si F 1 = -F 0 , entonces F n +1 = -F n y la solución del esquema tiene sólo modo
numérico. Así, es de gran importancia para el esquema “leap-frog” escoger bien la condición inicial
F 1 . Para un problema complejo, el valor F 1 es desconocido y, en general, la solución numérica
representa una combinación lineal de ambos modos:
F n = al1n F10 + bln2 F 02 (19.21)
donde las constantes a y b se determinan por las condiciones
F 0 = aF 10 + bF 02
(19.22)
F 1 = al1 F 10 + bl 2 F 02
La primera condición es física, ya que representa una aproximación de la condición inicial del
problema continuo, mientras que la segunda es numérica y surge de usar el esquema “leap-frog”.
Resolviendo las ecuaciones (19.22) respecto a aF10 y bF 02 , y sustituyendo los resultados en
(19.21), obtenemos
Fn =
1
l1 - l2
{ ( ) (
l1n F1 - l2 F 0 - ln2 F1 - l1F 0 )} (19.23)
Así, las amplitudes del modo físico y del numérico son proporcionales a F1 - l2 F 0 y
F 1 - l1 F 0 , respectivamente, es decir, ambos modos dependen de F 1 . Si F 1 = l1F 0 , entonces la
165
solución del esquema contiene sólo modo físico. Y si F 1 = l 2 F 0 entonces la solución del esquema
contiene sólo modo numérico. Ya que los valores l1 y l2 son desconocidos, es difícil eliminar el
modo numérico artificial. Aunque l1 es conocido y es posible filtrar el modo numérico en el
momento t1 = t , este puede aparecer en el proceso de cálculos, por ejemplo, por los errores de
redondeo. □
Observación 19.1. En el ejemplo 19.2, los valores absolutos de l1 y l2 son iguales a uno
y, por lo tanto, no causan inestabilidad. Sin embargo, la presencia de un modo artificial oscilatorio
puede introducir los errores adicionales en la solución numérica. En el ejemplo 19.1, la situación es
peor, ya que el modo artificial genera la inestabilidad y la ausencia de la convergencia de la solución
numérica hacia la solución exacta.
Ejemplo 19.3. Consideremos la ecuación de difusión
¶j ¶ 2j
=s 2 , s > 0 (19.24)
¶t ¶x
{
El componente armónico j ( x, t ) = Re F(t )e
imx
}
es la solución de la ecuación (19.24) si F(t )
satisface la ecuación
dF
= -kF , k = sm 2 (19.25)
dt
- kt
cuya solución F(t ) = F(0)e disminuye exponencialmente con tiempo. Pero la ecuación (19.25)
tiene la misma forma que (19.3) y, por consiguiente,
2
kt æ kt ö
l1, 2 = - ± ç ÷ +1 . (19.26)
2 è2ø
166
Así el esquema “leap-frog” es inestable aplicado a esta ecuación. En efecto, además del modo físico
que aproxima la solución exacta, dicho esquema contiene el modo numérico artificial cuya amplitud
aumenta con tiempo (Fig.19.1).
Solución con modo numérico
Solución exacta
Fig.19.1. Comportamiento de la solución exacta y de la

numérica de la ecuación (19.25).
Por eso, al resolver numéricamente la ecuación
dF
= iwF - kF (19.27)
dt
se usa a menudo el esquema
F n +1 = F n -1 + 2t (iw F n - kF n -1 ) (19.28)
que representa la combinación del esquema “leap-frog” (para el término de la oscilación) con el
esquema de Euler (para el término de difusión). Es fácil verificar que el esquema (19.28) es estable
si 0 < kt £ 2 .
167
Ejercicios:
1. La familia de esquemas de tres niveles se puede escribir en forma general como
y k +1 = a1 y k + a 2 y k -1 + t {b1 f ( y k ) + b 2 f ( y k -1 )}.
Demuestre que la familia tiene por lo menos aproximación O(t 2 ) si a1 = 1 - a 2 ,
b1 = 1/ 2(a 2 + 3) y b 2 = 1/ 2(a 2 -1) . Hay dos esquemas interesantes de esta familia:
a) el esquema “leap-frog” si a 2 = 1 .
b) el esquema de Adams-Bashforth del grado O(t 2 ) si a 2 = 0 .
2. Para resolver la ecuación de difusión unidimensional (19.24) se puede usar el esquema explícito
de Dufort-Frankel (por ejemplo, Durran, 1999):
f nj+1 - f nj-1 f nj+1 - (f nj+1 + f nj-1 ) + f nj-1

=s
2t h2
Demuestre que el esquema es absolutamente estable (es decir, estable para cada t ).
tu
3. Usando el número de Courant r = , determine el intervalo de estabilidad del esquema “leap-
h
f nj+1 - f nj-1 f nj+1 - f nj-1 ¶j ¶j
frog” +u = 0 para la ecuación de advección +u =0.
2t 2h ¶t ¶x
[Sugerencia: aplicando el análisis de von Neumann obtenemos que el esquema es estable si
r < 1 ].
4. Demuestre que si r=1 en el ejercicio 3, entonces existe el modo de la forma

f nj = n cos[p ( j - n) / 2] que crece débilmente.
5. Demuestre que la velocidad de fase física c fís y la velocidad de fase numérica ccom para el
esquema del ejercicio 2 tienen las formas
1 1
arcsin( r sin kh) y ccom = [p - arcsin( r sin kh)]
c fís =
kt kt
Compare el comportamiento del modo físico y del numérico con longitud 2h.
6. Linearice ut + uux = 0 mediante ut + aux = 0 donde a = max u( x, t ) . Verifique la condición de

x,t
t
estabilidad max u ( x, t ) < 1 si el esquema de leapfrog se usa a la ecuación linearizada.
2h x,t
7. Introduciendo las variables auxiliares v = u t , w = u x , se puede escribir la ecuación de onda

utt = u xx como el sistema vt = wx , wt = v x . Encuentre la condición de estabilidad para el
esquema explícito
168
1 é n+1 1 n
tëê ( )
ù 1
V j - V j +1 + V jn-1 ú = (
W jn+1 - W jn-1 )
2 û 2 h
1 é n+1 1
tëê ( ù 1
W j - W jn+1 + W jn-1 ú = ) (
V jn+1 - V jn-1 . )
2 û 2 h
169
§ 20. Métodos de proyección
En los apartados hemos estudiado la aplicación del método de diferencias finitas para aproximar un
problema continuo mediante cierto problema discreto. Muchos trabajos hansido dedicados a la
teoría de dicho método (véase § 18). En este apartado consideraremos otros métodos de
discretización llamados métodos de proyección (Godunov y Ryabeñkii, 1964; Rektorys, 1977;
Marchuk, 1982; Golub y Ortega, 1992; Priestley, 1992; Durran, 1999). Todos estos métodos se
basan en el mismo acercamiento cuando la solución exacta de un espacio de dimensión infinita se
aproxima por una solución numérica de un subespacio de dimensión finita. La solución numérica se
busca como la combinación lineal de las funciones básicas del subespacio. Así, la solución
aproximada se considera como una proyección de la solución exacta en dicho subespacio. Las
funciones básicas son linealmente independientes, conocidas y simples: funciones trigonométricas,
polinomios, armónicos esféricos, splines, etc. Su estructura depende del dominio de definición de la
solución del problema continuo y de las condiciones de frontera. Es preciso señalar que es más
conveniente usar como base un sistema de funciones ortogonales. Sin embargo, cuando la geometría
del dominio es compleja, es a menudo bastante difícil construir la base ortogonal. En estos casos, es
muy útil usar como base los elementos finitos que a menudo generan una base casi ortogonal. Los
métodos de proyección se distinguen por los criterios que aplican para hallar la solución
aproximada. Ahora consideremos algunos de estos métodos.
Sea
Au ( x) = f ( x) (20.1)
170
un problema continuo con un operador lineal A. Supongamos que la solución u(x) y la función
conocida f(x) están definidas en un dominio D y pertenecen a un espacio de Hilbert H con el
producto interno
f , g = ò f ( x) g ( x)dx (20.2)
D
y un sistema de las funciones básicas {f j ( x)}j =1 . Se puede presentar la solución exacta como la serie
¥
de Fourier
¥
u ( x) = å u jf j ( x) . (20.3)
j =1
Vamos a buscar la solución aproximada v(x) del problema (20.1) de la forma
N
v( x) = å v j f j ( x) , (20.4)
j =1
es decir, como la proyección en el subespacio de dimensión N generado por N funciones básicas
{f j ( x)}j =1 .
N
Método de colocación (Russell y Shampine, 1972; Russel, 1977). Primero consideremos el
criterio de colocación. Sean {xi }iN=1 puntos de la malla en el dominio D. Según el criterio de
colocación, se requiere que la solución aproximada (20.4) satisfaga la ecuación (20.1) en cada punto
x i de la malla:
N
Aå v j f j ( xi ) = f ( xi ) , i = 1,2,..., N , (20.5)
j =1
o bien,
171
N
åa v
j =1
ij j = f i , i = 1,2,..., N , (20.6)
donde
N
aij = å Af j ( xi ) , f i = f ( xi ) , (20.7)
j =1
Al resolver el sistema de las ecuaciones lineales algebraicas (20.6) hallamos v j y, por tanto, la
solución aproximada (20.4).
Observación 20.1. El método de colocación, a pesar de que es muy simple, tiene varias
desventajas. La más importante es que la solución numérica obtenida por este método depende no
sólo de la elección de la base {f j ( x)}j =1 y del número N de truncación de la serie de Fourier, sino
¥
también de la elección de los puntos x i de la malla. Además, si el operador A es simétrico, la matriz
A = {aij } puede perder esta propiedad importante, ya que en general,
N N
aij = å Af j ( xi ) ¹ å Af i ( x j ) =a ji . □
j =1 i =1
Observación 20.2. A pesar de que tanto en el método de diferencias finitas como en el
método de colocación los sistemas de ecuaciones se describen en los puntos de la malla, la
naturaleza de las soluciones numéricas es bastante distinta. En efecto, en el primer método, la
solución se define en los puntos de la malla, mientras que en el segundo, la solución se representa
mediante sus coeficientes de Fourier. Por lo tanto, en el método de diferencias finitas, para calcular
el valor de la solución en un punto x que no pertenece a la malla, hay que aplicar un método de
interpolación. En el método de colocación, el valor de la solución en cualquier punto x se calcula
por medio de la fórmula (20.4).
172
Método de Rayleigh-Ritz (Godunov y Ryabeñkii, 1964; Rektorys, 1977). Supongamos
que el operador A del problema (20.1) es simétrico y positivo:
Af , g = f , Ag , y Af , f > 0 para cada f y g.
Según el criterio variacional del método de Rayleigh-Ritz, se busca la solución aproximada (20.4)
que minimiza el funcional
J (v) = Av, v - 2 v, f (20.8)
definida en el subespacio de la dimensión N generado por N funciones básicas {f j ( x)}j =1 . Al

N
sustituir v(x) en (20.8) por (20.4) obtenemos
N N N
J (v) = åå Af i ( x), f j ( x) vi v j - 2å f ( x), f i ( x) vi (20.9)
i =1 j =1 i =1
Entonces, usando las condiciones
¶
J (v ) = 0 , j = 1,2,..., N (20.10)
¶vj
necesarias para la existencia de un mínimo local, llegamos al sistema
r r
Av = f (20.11)
v = {v1 , v2 ,...,v N } es vector columna formado de los coeficientes desconocidos de la

r T
donde
solución aproximada (20.4), f = { f1 , f 2 ,..., f N } es vector columna formado por los productos
r T
internos f i = f ( x), f i ( x) , i = 1,2,..., N , y la matriz A con los elementos
aij = Af i ( x), f j ( x) (20.12)
173
se llama matriz de Gram de las funciones básicas. Al resolver el sistema de las ecuaciones lineales
algebraicas (20.11), hallamos v j y, por consiguiente, la solución aproximada (20.4).
Observación 20.3. Ya que en el método de Rayleigh-Ritz el operador A es simétrico, la
matriz (20.12) siempre es simétrica: aij = Af i ( x), f j ( x) = f i ( x), Af j ( x) = Af j ( x), f i ( x) = a ji .
Es una de las ventajas principales del método. Y si operador A es hermitiano, entonces la matriz A
también es hermitiana. Usando las propiedades del operador A, se puede introducir otro producto
interno:
f ( x), g ( x) A
= Af ( x), g ( x)
Por tanto, si la base {f j ( x)}j =1 es A-ortogonal: Af i ( x), f j ( x) = d ji , entonces la matriz (20.12) del
N
sistema (20.11) es diagonal y v j = f j / a jj . □
El criterio variacional del método de Rayleigh-Ritz se basa en la declaración de que el
problema original (20.1) es equivalente al problema de minimización de el funcional (20.8).
Demostremos ahora dicha equivalencia. En efecto, supongamos que el dominio F(A) del operador
A es denso en el espacio H, y la función u(x) de F(A) es la solución exacta del problema (20.1).
Sea h ¹ 0 un elemento arbitrario de F(A) , y a un número real. Cualquier elemento va de F(A)
se puede presentar de la forma va = u + ah . Entonces
J (va ) = A(u + ah), u + ah - 2 u + ah, f (20.13)
Debido a que A es simétrico, (20.13) se transforma en
174
J (va ) = J (u ) + 2a Au - f , h + a 2 Ah, h (20.14)
Ya que u(x) es la solución exacta de (20.1),
J (va ) = J (u ) + a 2 Ah , h (20.15)
Tomando en cuenta que A es positivo, tenemos
J (va ) > J (u ) (20.16)
para cualquier a ¹ 0 , es decir, la solución u(x) minimiza el funcional (20.8). Ahora demostremos la
declaración inversa. Supongamos que un elemento u(x) minimiza el funcional (20.8), es decir, se
cumple la desigualdad (20.16) y, según (20.14),
2a Au - f , h + a 2 Ah , h > 0 . (20.17)
Sin embargo, si Au - f , h ¹ 0 , entonces (20.17) no se cumple para cada a real. Por lo tanto,
Au - f , h = 0 , es decir, elemento Au - f es ortogonal a cualquier elemento h del dominio
denso F(A) del espacio H y, por consiguiente, u(x) es la solución del problema (20.1).
Método de Galërkin (Galërkin, 1915). Consideremos ahora el método de Galërkin que es
libre de las restricciones del método de Rayleigh-Ritz y sirve aunque el operador A no es simétrico
ni positivo (Godunov y Ryabenkii, 1964; Marchuk, 1982; Zienkiewicz y Morgan, 1983; Fletcher,
1984; Ames, 1992; Durran, 1999). Para cada función v(x) de F(A) , definimos por
rv ( x) = Av( x) - f ( x) (20.18)
175
el término residual del problema (20.1). Claro que ru ( x) = Au ( x) - f ( x) º 0 para la solución exacta
(20.3). Sin embargo, para la solución aproximada (20.4), el término residual (20.18) no es
idénticamente nulo, y el criterio de Galërkin es hallar tal solución aproximada de (20.4) que el
término residual es ortogonal a cada función básica f i (x) :
rv ( x), f i ( x) = 0 , i = 1,2,..., N (20.19)
Así, se busca la solución que satisface exactamente a la proyección de la ecuación (20.1) en el
subespacio generado por la base {f j ( x)}j =1 .

N
Usando (20.4) y (20.18) en (20.19) llegamos al sistema

r r
Av = f (20.20)
donde de nuevo v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } , f i = f ( x), f i ( x) , i = 1,2,..., N , y

r T
r T
a ij = Af i ( x), f j ( x) (20.21)
es la matriz de Gram. Al resolver el sistema de las ecuaciones lineales algebraicas (20.21) hallamos
v j y, por consiguiente, la solución aproximada (20.4).
Observación 20.4. Cuando el operador A es simétrico y positivo, la matriz (20.21) también
conserva la estructura simétrica del operador A. En este caso, los métodos de Galërkin y de
Rayleigh-Ritz dan el mismo resultado. Así pues, el método de Galërkin es más general que el
método de Rayleigh-Ritz. □
Durante las últimas décadas, el método de Galërkin se desarrolla en dos principales
direcciones. La primera dirección está relacionada con el uso de elementos finitos o funciones
176
básicas locales (Prenter, 1975; Becker y otros, 1981; Zienkiewicz y Morgan, 1983; Ames, 1992;
Pepper y Heinrich, 1993), mientras que la segunda dirección está relacionada con los métodos
espectrales usando funciones básicas globales (Cooley y Tukey, 1965; Mezinger y Arakawa, 1976;
Machenauer, 1977; Marchuk y otros, 1983; Skiba, 1989-1993a, 1998; Skiba y Adem, 1998; García
y Skiba, 1999). Notemos que en los métodos espectrales las funciones basicas siempre son
ortogonales.
Ejercicios:
1. Sea G = (0 < x1 < a) ´ (0 < x2 < b) un rectángulo. Demuestre que el sistema de funciones
2 mp x1 np x2
f mn ( x1 , x2 ) = sin sin ( m, n = 1,2,3,... ) es la base ortonormal en el espacio
ab a b
L2 (G) con el producto escalar f , g = ò f ( x1 , x2 ) g ( x1 , x2 )dx1 dx2 , es decir, f mn , f kl = d mk d nl ,
G
donde d mk es delta de Kronecker.
2. Con funciones básicas del ejercicio 1, resuelva en el rectángulo G el problema de Poisson

- Du = f en G , con la condición u = 0 en el contorno ¶G .
3. Para el problema - u xx + u = f (x) en (-1,1) con las condiciones de contorno u (-1) = 0 y

u(1) = 0 , se puede elegir la base siguiente: f n ( x) = x n (1 - x 2 ) , n=1,2,3,… . ¿Qué base se
puede elegir si f (x) es simétrica en (-1,1)? [Sugerencia: en este caso la solución también es
simétrica].
4. Compare el método de Rayleigh-Ritz con el método de cuadrados mínimos (§ 12), y demuestren
que la convergencia del método de Rayleigh-Ritz por lo menos no es peor que en el método de
cuadrados mínimos. [En el método de cuadrados mínimos, el operador no es necesariamente
simétrico].
5. Sea J (v ) = Av , v - 2 v , f , donde A es una matriz simétrica. Demuestre que existe un vector

r r r r r
u tal que J (u ) < J (v ) si y sólo si A es positivamente definida. En este caso, el funcional es

r r r
estrictamente convexo.
177
6. Consideremos el problema - ( pux ) x + qu = f en el intervalo (0,a). Para las condiciones
1 np x
u(0) = 0 y u (a) = 0 , se puede elegir la base fn ( x) = sin , n = 1,2,3,... . ¿Qué base se
n a
puede elegir si u x (0) - b u (0) = 0 y u x (a) + d u (a) = 0 , donde b ³ 0 y d ³ 0 ?
7. Consideremos de nuevo el problema del ejercicio 6. ¿Qué base se puede elegir si u (0) = 0 y
u x (a) + d u (a) = 0 , donde d ³ 0 ?
178
§ 21. Solución de un problema elíptico
Aplicamos ahora el método de diferencias finitas y los métodos de proyección para resolver
el siguiente problema elíptico:
d æ du( x) ö
çç p( x) ÷ + q ( x) u ( x) = f ( x) , 0 < x < 1
dxè d x ÷ø
(21.1)
u (0) = 0, u (1) = 0
Introducimos en el segmento (0,1) una malla regular con tamaño h = 1 /( N + 1) :
xi = ih , i = 0,1,..., N + 1 . (21.2)
Supongamos que la solución u(x) y las funciones p(x), q(x) y f(x) son bastante suaves en (0,1).
Introducimos el espacio de Hilbert de funciones en (0,1) con el producto interno
1
f , g = ò f ( x) g ( x)dx . (21.3)
0
Usando los métodos de § 8, es fácil demostrar que el operador
d æ du( x) ö
Au ( x) = çç p( x) ÷ + q ( x) u ( x) , x Î (0,1)
dxè d x ÷ø
(21.4)
u (0) = 0, u (1) = 0
del problema (21.1) es simétrico: Af , g = f , Ag para cada f y g. Además, si
p( x) £ p0 < 0 y q( x) ³ 0 en (0,1) , (21.5)
entonces el operador (21.4) es positivo definido: Ag , g > 0 para cada función g(x).
179
Método de diferencias finitas. Sea
ui = u ( xi ) , f i = f ( xi ) , pi +1/ 2 = p( xi + h / 2) , qi = q( xi ) (21.6)
proyecciones de las funciones en la malla. Notemos que si las funciones f, p y q tienen
discontinuidades en algunos puntos del segmento (0,1), entonces hay que usar otras proyecciones,
por ejemplo,
x xi +1 x
1 i +1 / 2 1 1 i +1 / 2
f i = ò f ( x)dx , pi +1 / 2 = òx p ( x ) dx q
, i = ò q( x)dx (21.7)
h xi -1 / 2 h i
h xi -1 / 2
Aproximando el problema continuo (21.1) por el problema discreto
1ì æ u i +1 - u i ö æ u - u i -1 öü
í p i +1 / 2 ç ÷ - p i -1 / 2 ç i ÷ý + q i u i = f i , i = 1,2,..., N
hî è h ø è h øþ
(21.8)
u 0 = 0 , u N +1 = 0
llegamos al sistema de las ecuaciones lineales algebraicas
r r
Au = f (21.9)
donde u = {u1 , u 2 ,...,u N } , f = { f1 , f 2 ,..., f N } , y A es la matriz simétrica tridiagonal:

r T
r T
1
aii = - {pi +1 / 2 + pi -1/ 2 } + qi , i = 1,2,..., N
h2
1
ai ,i +1 = 2 pi +1 / 2 , i = 1,2,..., N - 1 (21.10)
h
1
ai ,i -1 = 2 pi -1 / 2 , i = 2,..., N
h
Además, bajo la condición (21.5), la matriz A es positiva. El sistema (21.9) se resuelva fácilmente
por factorización.
180
Método de colocación. En la calidad de la base {f j ( x)}j =1 en H se puede escoger el sistema
¥
ortogonal de las funciones trigonométricas
f j ( x) = sin jpx , j = 1,2,... , (21.11)
o el sistema no ortogonal de los polinomios algebraicos
f j ( x) = x j (1 - x) , j = 1,2,... . (21.12)
La solución exacta se presenta como la serie de Fourier
¥
u ( x) = å u jf j ( x) . (21.13)
j =1
Notemos que las condiciones de frontera se cumplen automáticamente, ya que cada función básica
satisface dichas condiciones:
f j (0) = f j (1) = 0 , j = 1,2,... . (21.14)
Vamos a buscar la solución aproximada v(x) del problema (21.1) de la forma
N
v( x) = å v j f j ( x) , (21.15)
j =1
es decir, como la proyección en el subespacio H N de dimensión N generado por N primeras
funciones básicas {f j ( x)}j =1 . Según el criterio de colocación (Russel y Shampine, 1972), llegamos al
N
sistema
r r
Av = f (21.16)
donde v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } , f i = f ( xi ) , y A es la matriz con elementos

r T
r T
181
d æ df ( x) ö
aij = çç p( x) j ÷ + q( xi )f j ( xi ) , (21.17)
dxè d x ÷ø x= x
i
Al resolver el sistema (21.16) hallamos v j y, por tanto, la solución aproximada (21.15).
Observación 21.1. En el método de colocación, el operador simétrico (21.4) se presenta en
el espacio H N por la matriz asimétrica (21.17). Es una desventaja de dicho método en comparación
con el método de diferencias finitas cuya matriz (21.10) es simétrica. Además, a diferencia de la
matriz tridiagonal (21.10), la matriz (21.17) es densa debido al uso de las funciones básicas globales
(21.11) y (21.12). □
Ejemplo 21.1 (Golub y Ortega, 1992). Sea p( x) º -1 , q( x) = x 2 , y f ( x) = x 3 . Usando
la base (21.11), tenemos
¶ ¶2
f j ( x) = jp cos jpx , f j ( x) = - j 2p 2 sin jpx (21.18)
¶x ¶x 2
y, por lo tanto, el elemento (21.17) de la matriz A es
aij = ( xi2 + j 2p 2 ) sin jpxi (21.19)
Cuando se usa la base (21.12),
¶ ¶2
f j ( x) = x j -1{ j - ( j + 1) x} , f j ( x) = j x j -2 { j - 1 - ( j + 1) x} (21.20)
¶x ¶ x2
y el elemento (21.17) de la matriz A es
aij = - j xij -2 { j - 1 - ( j + 1) xi } + xij + 2 {1 - xi } . □ (21.21)
182
Método de Rayleigh-Ritz. Sea el operador A del problema (21.1) simétrico y positivo.
Entonces, según el criterio variacional del método de Rayleigh-Ritz, se busca la solución
aproximada (21.15) que minimiza la funcional
J (v) = Av, v - 2 v, f (21.22)
(Marchuk, 1982). Usando las condiciones
¶
J (v ) = 0 , j = 1,2,..., N (21.23)
¶vj
llegamos al sistema (21.16), donde v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } con f i = f ( x),f i ( x) ,

r T
r T
y la matriz de Gram A es simétrica y tiene elementos
a ij = Af i ( x), f j ( x) (21.24)
Consideramos de nuevo ejemplo 21.1. Usando (21.14) y integrando (21.24) por partes obtenemos
1
ì ¶2 ü 1
ì ¶ ¶ ü
a ij = ò í- f i ( x) + x f i ( x)ýf j ( x) dx = ò í f i ( x)
2
f j ( x) + x 2f i ( x)f j ( x)ý dx (21.25)
0 î ¶x
2
þ 0 î
¶x ¶x þ
Al resolver el sistema de las ecuaciones lineales algebraicas (21.16), hallamos v j y, por
consiguiente, la solución aproximada (21.15).
Observación 21.2. Ya que el operador A es simétrico, la matriz (21.24) también es
simétrica. Su estructura depende de la base. Por ejemplo, es densa tanto con la base (21.11) como
con la base (21.12). Sin embargo es diagonal si la base (21.11) es A-ortogonal:
aij = Af i ( x), f j ( x) º f i ( x), f j ( x) = d ij (21.26)

A
183
donde f ( x), h( x) A
es un nuevo producto interno definido por la segunda igualdad, y d ij es el
símbolo de Kronecker. □
Ejemplo 21.2. Consideremos de nuevo la ecuación (21.1) con p( x) º -1 , q( x) = x 2 , y
f ( x) = x 3 . Usando en (21.25) la base (21.11), llegamos a
1
1
aij = i 2p 2 d ij + ò x 2 sin ipx sin jpx dx . (21.27)
2 0
1
Además, f i = ò x 3 sin ipx dx . Notemos que en (21.27), el primer término a la derecha contribuye
0
sólo en los elementos diagonales de la matriz.
Debido a que tanto q(x) como f(x) son polinomios, es más fácil calcular elementos aij y f i
usando la base (21.12). □
Método de Galërkin. Según el criterio de Galërkin (Marchuk, 1982),
rn ( x), f i ( x) = 0 , i = 1,2,..., N (21.28)
donde
rn ( x) = Av( x) - f ( x) (21.29)
es el término residual del problema (21.1). La matriz del método de Galërkin coincide con la matriz
(21.24) del método de Rayleigh-Ritz. Entonces, ambos métodos dan el mismo resultado si el
operador A del problema (21.1) es simétrico y positivo y se usa el mismo sistema de funciones
básicas. Sin embargo, recordemos que para un operador A asimétrico o no positivo, puede aplicarse
sólo el método de Galërkin. Demostramos que la matriz (21.24) puede ser tridiagonal si se usa un
184
sistema especial de las funciones básicas con los soportes locales. En este caso, ambos métodos
compiten con el método de diferencias finitas.
Ejemplo 21.3 (Marchuk, 1982). Consideremos el problema (21.1) con funciones arbitrarias
p(x) y q(x). Introducimos en el intervalo [0,1] una malla {xk }kK=+01 , x0 = 0 , xK +1 = 1 , con el
tamaño variable hk +1 / 2 = xk +1 - xk , k=0, 1,…,K. En la calidad de las funciones básicas escogemos
ì 0 , si 0 £ x £ xk -1
ï( x - x ) / h
ï k -1 k -1 / 2 , si x k -1 £ x £ x k
f k ( x) = í , k=1,2,…,K (21.30)
ï ( x k +1 - x ) / hk +1 / 2 , si x k £ x £ x k +1
ïî 0 , si xk +1 £ x £ 1
(Véase Fig.21.1).
1 f k -1 ( x) f k (x) f k +1 ( x)
0 xk -2 x k -1 x k x k +1 xk + 2 1 x
Fig.21.1. Funciones básicas con soportes locales
185
Por el método de Galërkin, hallamos la solución numérica
K
v( x) = å v j f j ( x) (21.31)
j =1
Notemos que en cada segmento ( xk , xk +1 ) , la suma (21.15) contiene sólo dos términos no nulos:
v( x) = vk f k ( x) + vk +1f k +1 ( x) , (21.32)
donde los coeficientes de Fourier son en realidad los valores de la solución (21.31) en puntos de la
malla. También notemos que las funciones básicas (21.30) son casi ortogonales, ya que f k (x) es
ortogonal a todas f j (x) , excepto f k -1 ( x) , f k (x) y f k +1 ( x) :
ì 0 , si j £ k - 2
ï h
1 ïï k -1 / 2 / 6 , si j = k - 1
ò0 f k ( x)f j ( x) dx = í(hk -1/ 2 + hk +1/ 2 ) / 3 , si j = k (21.33)

ï h
k +1 / 2 / 6 , si j = k + 1
ï
ïî 0 , si j ³ k + 2
Según el criterio de Galërkin,
1
ì df ( x) df j ( x) ü
aij = ò í- p( x) i + q( x)f i ( x)f j ( x)ý dx
0î
dx dx þ
ì df i ( x) df j ( x) ü
xi
= òx î í- p ( x )
dx dx
+ q( x)f i ( x)f j ( x)ý dx
þ
i -1
ì df i ( x) df j ( x) ü
xi +1
+ ò
xi
í- p( x)
î dx dx
+ q( x)f i ( x)f j ( x)ý dx
þ
Tomando en cuenta (21.34), obtenemos que sólo ai -1,i , ai ,i , y ai ,i +1 son no nulos, es decir la matriz
es tridiagonal. Además,
186
dfi -1 ( x) dfi ( x)
xi
ì ü p
ai ,i -1 = ò íî- p( x)
xi -1
dx dx
+ q( x)fi -1 ( x)fi ( x)ý dx = i -1 / 2 + qi -1 / 2
þ hi -1/ 2
dfi ( x) dfi +1 ( x)
xi +1
ì ü p
ai ,i +1 = ò íî- p( x)
xi
dx dx
+ q( x)fi ( x)fi +1 ( x)ý dx = i +1 / 2 + qi +1 / 2
þ hi +1 / 2
dfi ( x) dfi ( x)
xi
ì ü
aii = ò íî- p( x)
xi -1
dx dx
+ q( x)fi ( x)fi ( x)ý dx
þ
dfi ( x) dfi ( x)
xi +1
ì ü p p
+ ò íî- p( x)
xi
dx dx
+ q( x)f i ( x)fi ( x)ý dx = - i -1 / 2 - i +1 / 2 + qi
þ hi -1 / 2 hi +1 / 2
donde
xi xi +1
1 1
pi -1 / 2 =
hi -1 / 2 ò p( x) dx ,
xi -1
pi +1 / 2 =
hi +1 / 2 ò p( x) dx
xi
xi xi +1
qi -1/ 2 = ò q( x)f
xi -1
i -1 ( x)fi ( x) dx , qi +1/ 2 = ò q( x)f ( x)f
xi
i i +1 ( x) dx
xi +1 xi +1
qi = ò q( x)f ( x)f ( x) dx ,
xi -1
i i fi = ò f ( x)f ( x) dx .
xi -1
i
Como resultado, llegamos al sistema de las ecuaciones tripuntuales
æ pi -1 / 2 ö æp p ö æp ö
çç + qi -1 / 2 ÷÷ vi -1 - çç i -1 / 2 + i +1 / 2 - qi ÷÷ vi + çç i +1 / 2 + qi +1 / 2 ÷÷ vi +1 = f i (21.34)
è hi -1 / 2 ø è hi -1 / 2 hi +1 / 2 ø è hi +1 / 2 ø
i=1,…,K. □
Ejercicios:
1. (Rectorys, 1977). Usando el método de Rayleigh-Ritz, halle la solución del problema

- u xx = cos x , u(0) = 0 y u (p ) = 0 . [La solución exacta es u( x) = cos x + (2 / p ) x - 1 .
Debido a la simetría de la parte derecha de la ecuación, la base es f j ( x) = sin 2 jx . La
n
2 sin 2 jx
solución numérica es u ( x) =
p
å j (4 j
j =1
2
- 1)
].
187
2. Usando el método de Galërkin, halle la solución del problema - u xx = cos x , u x (0) = 0 y
u x (p ) = 0 . [La solución exacta es u( x) = cos x . Notemos que se cumple la parte derecha
p
con la condición necesaria (y suficiente) para resolver el problema: ò0
cos x dx = 0 .
cos jx
Debido a la simetría de la parte derecha de la ecuación, la base es f j ( x) = . La
j
n cj
solución numérica es u n ( x) = å a j cos jx, a j = . Ya que a1 = 1 y a j = 0 si j ³ 2 , la
j =1 j
solución numérica u n ( x) =u ( x) = cos x coincide con la solución exacta para cada n].
3. Transforme el problema - Du = f en un paralelogramo G al problema en un rectángulo si

los vértices de los ángulos tienen coordinados (0,0), (a,0), (k,b) y (a+k,b). Encuentren la
base para el paralelogramo G.
4. Resuelva por método de Rayleigh-Ritz o de Galërkin el problema D2 u = 1 en el anillo

{ }
G = ( x, y) : 1 < x 2 + y 2 < 2 con las condiciones:
¶
¶n
u( x, y) = 0 en la frontera
{ }{ }
Γ = ( x, y) : x 2 + y 2 = 1 È ( x, y) : x 2 + y 2 = 2 del dominio G que representa la unión de
dos circunferencias con radios uno y dos. [Sugerencia: elija como la base las primeras
funciones g 2 ( x, y), xg 2 ( x, y), yg 2 ( x, y), x 2 g 2 ( x, y), xyg 2 ( x, y), y 2 g 2 ( x, y) , donde
( )(
g ( x, y) = x 2 + y 2 - 1 4 - x 2 + y 2 ]. )
188
§ 22. Splines
Los splines son de gran importancia en la construcción de funciones básicas especiales con suavidad
predeterminada (Ortega y Poole, 1981; Zienkiewicz y Morgan, 1983).
Spline cuadrático. A veces es necesario aproximar una función por medio de polinomios
distintos en diferentes partes del intervalo. Por ejemplo, hay que restablecer en el segmento [0,1]
una función continua f(x) usando distintos polinomios cuadráticos pi ( x) = ai 2 x 2 + ai1 x + ai 0 en los
segmentos I1 = [0,1/ 3] , I 2 = [1/ 3,2 / 3] y I 3 = [2 / 3,1] , y valores de f(x) en los siguientes puntos:
x 0 1/6 1/3 1/2 2/3 5/6 1
f(x) 1 4 2 1 0 2 1
En cada segmento tenemos tres valores de f(x) en tres distintos puntos x, y por eso es fácil
aproximar la función mediante polinomios cuadráticos pi (x) definidos por tres coeficientes. Como
resultado de la aproximación, obtenemos spline-función
ì - 90 x 2 + 33 x + 1, 0 £ x £ 1 / 3
ï
p ( x) = í - 6x + 4, 1/ 3 £ x £ 2 / 3 (22.1)
ï - 54 x + 93 x - 38 , 2 / 3 £ x £ 1
2
î
La función (22.1) es continua en [0,1]. Sin embargo, no es diferenciable en dos puntos: x=1/3 y
x=2/3.
Consideremos ahora otro problema: hay que restablecer en el segmento [0,1] una función
diferenciable f(x) usando polinomios cuadráticos en los segmentos I i (i=1,2,3) y valores de la
función en los siguientes puntos:
189
x x1 = 0 x2 = 1 / 3 x3 = 2 / 3 x4 = 1
f(x) f1 f2 f3 f4
Definimos p(x) de la manera siguiente: p( x) = pi ( x) si x Î I i (i=1,2,3). Además, tenemos ocho
ecuaciones
p i ( xi ) = f i , pi ( xi +1 ) = f i +1 , i=1,2,3 (22.2)
dpi -1 dp
( xi ) = i ( xi ) , i=2,3 (22.3)
dx dx
que garantizan la continuidad de la función p(x) y su primera derivada en el segmento [0,1]. Es
necesario especificar una relación más para que hallar nueve coeficientes aij (i=1,2,3; j=0,1,2), y
dp
determinar p(x) únicamente. Normalmente, se especifica un valor de (x) en algún nodo, por
dx
ejemplo,
dp1
( x1 ) = d1 (22.4)
dx
Las fórmulas (22.2)-(22.4) representan un sistema de nueve ecuaciones lineales para hallar todos los
coeficientes aij .
Para extender este acercamiento a un número arbitrario de nodos, decimos n, consideremos
n-1 intervalos I i . Definimos p(x) de la manera siguiente: p( x) = pi ( x) si x Î I i (i=1,2,…,n-1).
Además, tenemos 3n-4 ecuaciones
190
p i ( xi ) = f i , pi ( xi +1 ) = f i +1 , i=1,2,…,n-1 (22.5)
dpi -1 dp
( xi ) = i ( xi ) , i=2,3,….,n-1 (22.6)
dx dx
que garantizan la continuidad de la función p(x) y su primera derivada en el segmento [0,1]. De
nuevo, se puede usar (22.4) para hallar 3n-3 coeficientes aij (i=1,2,…,n-1; j=0,1,2), y determinar
p(x) únicamente. El sistema (22.4)-(22.6) se representa también como
ì a i 2 xi2 + a i1 xi + a i 0 = f i , (i = 1,2,..., n - 1)
ï
ï a i 2 xi +1 + a i1 xi +1 + a i 0 = f i +1 , (i = 1,2,..., n - 1)
2
í (22.7)
ï2a i 2 xi +1 + a i1 = 2a i +1, 2 xi +1 + a i +1,1 , (i = 1,2,..., n - 2)
ïî 2a12 x1 + a11 = d 1
(Golub y Ortega, 1992). Al introducir los vectores
a T = {a12 , a11 , a10 , a22 , a 21 , a20 , a32 , a31 , a30 ,..., a n-1, 2 , an-1,1 , an-1,0 }
r
y T = { f1 , f 2 , f 2 , f 3 , f 3 , f 4 ,..., f n-1 , f n-1 , f n ,0,...,0, d1 }

r
se puede escribir (22.7) en la forma matricial:
Aa = y
r r
(22.8)
Spline cúbico (Zienkiewicz y Morgan, 1983; Golub y Ortega, 1992). A menudo, para
obtener una buena aproximación de la solución de una ecuación diferencial, es necesario reconstruir
una función p(x) que tiene dos primeras derivadas continuas. Por ejemplo, la solución numérica de
la ecuación elíptica (21.1) por medio del método de colocación se reduce al problema (21.16) de
álgebra lineal donde los elementos matriciales (21.17) contienen segundas derivadas de las funciones
191
básicas en puntos de la malla. Así, hay que usar las funciones básicas que tienen en el dominio por lo
menos dos derivadas continuas.
Es preciso notar que este problema ya es imposible resolver con los polinomios cuadráticos,
y hay que usar los polinomios cúbicos pi (x) , o de más alto grado. Entonces, el problema que
consideramos ahora es reconstruir tal función p(x) que tiene dos derivadas continuas en el intervalo
total [ x1 , xn ] , y además,
p( x) = pi ( x) si x Î I i (i=1,2,…,n-1) (22.9)
donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 . Ya que p(x) y sus primeras dos derivadas son continuas,
obtenemos 3n-6 ecuaciones:
pi -1 ( xi ) = pi ( xi ) , pi¢-1 ( xi ) = pi¢ ( xi ) , pi¢¢-1 ( xi ) = pi¢¢( xi ) , i=2,…,n-1 (22.10)
dpi d 2 pi
donde pi¢ ( xi ) º ( xi ) y pi¢¢( xi ) º ( xi ) . Pero nos faltan n+2 condiciones adicionales para
dx dx 2
encontrar 4n-4 coeficientes desconocidos aij (i=1,2,…,n-1; j=0,1,2,3). Evidentemente, otras n
ecuaciones son las condiciones de interpolación o aproximación:
p i ( xi ) = f i (i=1,2,…,n-1), p n -1 ( x n ) = f n (22.11)
Sin embargo, todavía faltan dos condiciones. Spline p(x) se llama spline cúbico natural si, además
de (22.10) y (22.11), satisface las condiciones
p¢¢( x1 ) = p¢¢( xn ) = 0 (22.12)
192
Se puede demostrar que entre todos los splines cúbicos, el spline cúbico natural tiene la curvatura
mínima, es decir, si pˆ ( x) es otro spline cúbico que satisface las condiciones (22.10) y (22.11),
entonces
b b
ò [ p¢¢( x)] dx £ ò [ pˆ ¢¢( x)] dx

2 2
(22.13)
a a
donde a = x1 y b = xn . Se puede determinar p(x) por medio del sistema de ecuaciones lineales
(22.10)-(22.12) respecto a coeficientes aij . Es un sistema difícil de manejar debido a que la
estructura de su matriz es arbitraria. Sin embargo, para construir un spline cúbico natural existe otro
método que lleva a un sistema simple con la matriz tridiagonal respecto a los valores de la segunda
derivada p ¢¢( xi ) en los nodos de la malla. Luego, la función p(x) se determina por integración.
Ejercicios:
æ ö
1. Consideremos el problema Au = - å ¶ ç pij ¶u( x) ÷ + q u( x) = f ( x) , 0 < x < a , 0 < y < b ,
2
ç i , j =1
÷ ¶ xi è ¶x j ø
con las condiciones u(0, y) = u(a, y) = 0, u y ( x,0) = u y ( x, b) = 0 en el rectángulo
G = (0 < x1 < a) ´ (0 < x2 < b) . Construya la base ortonormal en G. [Solución:
-1 / 2
æ m2 n2 ö mp x np y
f mn ( x, y) = çç 2 + 2 ÷÷ sin cos , ( m = 1,2,3,...,; n = 0,1,2,3,...) ].
èa b ø a b
mp x np y
f mn ( x, y) = Amn sin cos . Encuentre las amplitudes Amn ].
a b
px
2. Usando el método de elementos finitos, aproxime la función u( x) = 1 + sin en el segmento
2
0 £ x £ 1 . Considere las funciones que consisten de los pedazos constantes y lineales y use el
método de Galërkin.
3. (Golub y Ortega, 1992). Sea f (x) una función con los siguientes valores dados: f (1) = 2 ,
f (2) = 3 , f (3) = 5 , y f (4) = 3 . Usando estos datos, encuentre el spline cuadrático que
satisface la condición p¢(1) = 0 .
193
4. Sea f ( x) = cos(px / 3) y sea P3 ( x) el polinomio cúbico cuyos valores coinciden con los de
f (x) en los puntos x = 0,1, 2, 3 . Use la estimación (10.1) para estimar el error de interpolación
max f ( x) - Pn ( x) .
xÎ[a ,b ]
194
§ 23. Cálculo de splines cúbicos naturales
Consideremos ahora un método especial para reconstruir un spline cúbico natural (22.10)-(22.12)
(Prenter, 1975; Ortega y Poole, 1981; Marchuk, 1982; Golub y Ortega, 1992). Es decir, hay que
hallar una función p(x) tal que tiene dos derivadas continuas en el intervalo total [ x1 , xn ] ,
p( x) = pi ( x) si x Î I i (i=1,2,…,n-1), (23.1)
donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 es un polinomio cúbico, y además,
p¢¢( x1 ) = p¢¢( xn ) = 0 (23.2)
Al principio, notamos que la segunda derivada pi¢¢(x) es una función lineal, y por lo tanto la fórmula
de la interpolación lineal produce
( x - xi )
pi¢¢( x) = pi¢¢( xi ) + [ pi¢¢( xi +1 ) - pi¢¢( xi )] (23.3)
hi
donde hi = xi +1 - xi , i=1,2,…,n-1. Si ahora integramos dos veces (23.3) por x en los límites de x i a
x, obtenemos dos fórmulas:
x
[ pi¢¢( xi +1 ) - pi¢¢( xi )]
pi¢ ( x) = pi¢ ( xi ) + ò pi¢¢(t )dt = pi¢ ( xi ) + pi¢¢( xi )( x - xi ) + ( x - xi ) 2 (23.4)
xi
2hi
x
pi ( x) = pi ( xi ) + ò pi¢ (t )dt = pi ( xi ) + pi¢ ( xi )( x - xi )
xi
( x - xi ) 2 [ pi¢¢( xi +1 ) - pi¢¢( xi )]
+ pi¢¢( xi ) + ( x - xi ) 3 (23.5)
2 6hi
Por conveniencia, usaremos las siguientes denotaciones:

195
f i = pi ( xi ) = pi -1 ( xi ) , f i¢ = pi¢ ( xi ) = pi¢-1 ( xi ) , f i¢¢= pi¢¢( xi ) = pi¢¢-1 ( xi ) (23.6)
Ante todo, sustituimos i por i-1 en (23.4) y luego ponemos x = xi a fin de obtener la primera
fórmula para f i¢ :
hi -1
f i¢ = f i¢-1 + ( f i¢¢+ f i¢-¢1 ) (23.7)
2
Luego, poniendo x = xi +1 en (23.5) y resolviendo la ecuación obtenida respecto a f i¢ llegamos a la
segunda fórmula para f i¢ :
f i +1 - f i h h
f i¢ = - f i¢+¢1 i - f i¢¢ i (23.8)
hi 6 3
Igualando las partes derechas de (23.7) y (23.8) obtenemos
hi -1 f i +1 - f i h h
f i¢-1 + ( f i¢¢+ f i¢-¢1 ) = - f i¢+¢1 i - f i¢¢ i (23.9)
2 hi 6 3
Eliminemos ahora f i¢-1 de (23.9). Con este propósito sustituimos i por i-1 en (23.8) y luego
sustituimos la expresión obtenida en lugar de f i¢-1 en (23.9). Como resultado, obtenemos
f i - f i -1 h h h f - fi h h
- f i¢¢ i -1 - f i¢-¢1 i -1 + ( f i¢¢+ f i¢-¢1 ) i -1 = i +1 - f i¢+¢1 i - f i¢¢ i ,´
hi -1 6 3 2 hi 6 3
y, por tanto,
f i¢-¢1 hi -1 + 2 f i¢¢(hi + hi -1 ) + f i¢+¢1 hi = g i , i=2,…,n-1 (23.10)
donde
æ f i +1 - f i f i - f i -1 ö
g i = 6çç - ÷ (23.11)
è hi hi -1 ÷ø
196
Con las condiciones (23.2), el sistema (23.10), (23.11) tiene n-2 ecuaciones lineales para hallar n-2
desconocidos f i¢¢ (i=2,…,n-1). Se puede escribir el problema en forma matricial:
r r
Hf = g (23.12)
r r
donde f T = { f 2¢¢, f 3¢¢,..., f n¢¢-1 } , g T = {g 2 , g 3 ,...,g n-1 }, y
é2(h1 + h2 ) h2 O 0 0 ù
ê h 2(h2 + h3 ) h3 O 0 ú
ê 2 ú
H =ê O O O O O ú (23.13)
ê ú
ê 0 O O 2(hn -3 + hn - 2 ) hn - 2 ú
êë 0 0 O hn - 2 2(hn -2 + hn -1 )úû
es una matriz muy buena, ya que es tridiagonal, simétrica y con la diagonal principal dominante.
Entonces H es positiva, sus autovalores son positivos y sus autovectores son ortogonales. Por eso,
es fácil resolver el problema (23.12) usando la eliminación de Gauss (sin cambio de filas ni
columnas) o el método de factorización. Las propiedades de la matriz H garantizan la estabilidad de
ambos métodos. Notamos que los métodos iterativos de Jacobi o de Gauss-Seidel convergen en este
caso. Después de hallar f i¢¢ , las primeras derivadas f i¢ se calculan mediante la fórmula (23.8).
Finalmente, encontramos los polinomios pi (x) de la fórmula (23.5):
( x - xi ) 2 ( x - xi ) 3
pi ( x) = f i + f i¢( x - xi ) + f i¢¢ + ( f i¢+¢1 - f i¢¢) (23.14)
2 6hi
donde i=1,2,…,n-1. Al evaluar el valor del spline p(x) en un punto x̂ , primero se debe encontrar
el intervalo I i que contiene este punto, y luego calcular el valor pi (xˆ ) del polinomio
correspondiente pi (x) .
197
Ejemplo 23.1 (Ortega y Poole, 1981; Golub y Ortega, 1992). Calculemos un spline cúbico
natural que tiene los valores siguientes:
x1 = 0 x2 = 1 / 4 x3 = 1 / 2 x4 = 3 / 4 x5 = 1
f2 = 2
f1 = 1 f3 = 1 f4 = 0 f5 = 1
r
Así, n=5, hi = 1 / 4 , el vector g T = {- 48, 0, 48} , y
é4 1 0ù
H = ê1 4 1úú
1ê
(23.15)
4
êë0 1 4úû
El sistema de ecuaciones (23.10) tiene la forma siguiente:
4 f 2¢¢ + f 3¢¢ = -192

f 2¢¢ + 4 f 3¢¢+ f 4¢¢ = 0 , f1¢¢= 0, f 5¢¢ = 0 (23.16)
f 3¢¢+ 4 f 4¢¢ = 192
Mediante la eliminación de Gauss, obtenemos
f1¢¢= 0, f 2¢¢ = -48, f 3¢¢ = 0, f 4¢¢ = 48, f 5¢¢ = 0 (23.17)
Luego hallamos f i¢ de la fórmula (23.8):
f1¢ = 6, f 2¢ = 0, f 3¢ = -6, f 4¢ = 0 (23.18)
Finalmente, después de determinar los polinomios pi (x) de la fórmula (23.5), obtenemos:
ì p1 ( x) = 1 + 6 x - 32 x 3 , 0 £ x £ 1/ 4
ï
ï p ( x) = 2 - 24( x - 1 / 4) + 32( x - 1 / 4) , 1 / 4 £ x £ 1 / 2
2 3
p( x) = í 2 (23.19)
ï p3 ( x) = 1 - 6( x - 1 / 2) + 32( x - 1 / 2) , 1/ 2 £ x £ 3 / 4
3
ïî p4 ( x) = 24( x - 3 / 4) - 32( x - 3 / 4) ,
2 3
3/ 4 £ x £ 1
En particular, p(0.35) º p2 (0.35) = 2 - 24(0.1) 2 + 32(0.1) 3 = 1.792 .
198
Ejercicios:
1. (Golub y Ortega, 1992). Sea f (x) una función con los siguientes valores dados: f (1) = 2 ,
f (2) = 3 , f (3) = 5 , y f (4) = 3 . Usando estos datos, encuentre el polinomio de interpolación
del grado 3 y escríbalo en la forma p( x) = a3 x 3 + a2 x 2 + a1 x + a0 .
2. Con los datos del ejercicio 1, encuentre el spline cúbico que satisface las condiciones
p¢¢(1) = 6; p¢¢(4) = -9 .
3. Resuelva el problema (23.12), (23.13) con el método de factorización presentado en § 31.

Demuestre que se cumplen las condiciones de la estabilidad del método de factorización.
4. Sea f (x) una función con los siguientes valores dados: f (1) = 3 , f (2) = 0 , f (3) = 4 , y
f (4) = 2 . Usando estos datos, construya el spline cúbico natural.
199
§ 24. Método de elementos finitos
El método de elementos finitos es actualmente uno de los más populares y poderosos para resolver
problemas diferenciales en los dominios de la forma compleja (Strang y Fix, 1973; Prenter, 1975;
Ciarlet, 1978; De Boor, 1978; Becker y otros, 1981; Marchuk y otros, 1983; Zienkiewicz y Morgan,
1983; Fletcher, 1984; Pepper y Heinrich, 1993; Iserles, 1998). Consideremos de nuevo un problema
elíptico
u ¢¢( x) + q( x) u ( x) = f ( x) , 0 < x < 1

(24.1)
u (0) = 0, u (1) = 0
d 2u
en el segmento [0,1], donde u ¢¢( x) º ( x) . Buscaremos una solución aproximada v(x) del
d x2
problema (24.1) de la forma
N
v( x) = å v j f j ( x) , (24.2)
j =1
es decir, v(x) es la solución del subespacio H N de dimensión N generado por N primeras funciones
básicas {f j ( x)}j =1 . Al aplicar el método de colocación, llegamos al sistema (21.16):

N
r r
Av = f (24.3)
v = {v1 , v2 ,...,v N } consiste de los coeficientes desconocidos v j de la fórmula

r T
donde el vector
(24.2), f = { f1 , f 2 ,..., f N } es el vector dado, f i = f ( xi ) , A es la matriz con elementos

r T
aij = f ¢j¢( xi ) + q( xi ) f j ( xi ) , i, j = 1,2,..., N , (24.4)
y xi = ih ( i = 0,1,..., N + 1 ) son puntos de una malla regular en el segmento (0,1) con tamaño
h = 1 /( N + 1) . En el caso general, la matriz A es densa en contraste a la matriz tridiagonal que surge
200
de aplicar el método de diferencias finitas. Por ejemplo, A es densa cuando las funciones básicas
{f ( x)}
j
N
j =1
son polinomios algebraicos o trigonométricos (§ 21). Sin embargo, ahora demostraremos
que la matriz (24.4) del método de colocación también acepta la forma tridiagonal si en calidad de
funciones básicas f j (x) se usan splines (Prenter, 1975; Golub y Ortega, 1992). Debido a (24.4), la
segunda derivada f ¢j¢(x) tiene que ser continua en los nodos x i de la malla y, por lo tanto, no se
puede usar splines lineales o cuadráticos como f j (x) . Vamos a usar ahora splines cúbicos con el
propósito de reducir lo más posible el ancho de la banda de la matriz A, a saber, obtener una matriz
tridiagonal.
Si q(x) es una función arbitraria, entonces A es tridiagonal sólo si
f ¢j¢( xi ) = f j ( xi ) = 0 cuando i - j ³ 2 (24.5)
Por ejemplo, la condición (24.5) se satisface si f j ( x) = 0 fuera del segmento [ x j -2 , x j +2 ] y, además,
f ¢j¢( x j -2 ) = f j ( x j -2 ) = f ¢j¢( x j +2 ) = f j ( x j +2 ) = 0 (24.6)
B-splines cúbicos. Recordamos que en el segmento [ x1 , x N ] , un spline cúbico p(x)
satisface a las condiciones siguientes:
p( x) = pi ( x) si x Î I i (i=1,2,…,N-1), (24.7)
donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 es un polinomio cúbico, y además,
pi ( xi ) = pi -1 ( xi ) , pi¢ ( xi ) = pi¢-1 ( xi ) , pi¢¢( xi ) = pi¢¢-1 ( xi ) (24.8)
donde i=2,…,N-1. En el conjunto con N relaciones
201
p i ( xi ) = f i , i=1,2,…,N , (24.9)
las fórmulas (24.7) y (24.8) dan 4n-6 ecuaciones para determinar 4N-4 coeficientes ai 3 , ai 2 , ai1 , ai 0 .
En § 23 definimos splines cúbicos naturales que satisfacen dos condiciones adicionales:
p¢¢( x1 ) = p¢¢( x N ) = 0 (24.10)
Desafortunadamente un spline cúbico natural satisface las condiciones (24.5) sólo si es exactamente
igual a cero. Sin embargo, sin imponer las restricciones (24.10), se pueden construir otros splines
cúbicos definidos como
ì 0 , si x £ x j -2
ï 1
ï 3 ( x - x j -2 ) , x j - 2 £ x £ x j -1
3
si
ï 4h
ï 1 + 3 (x - x ) + 3 (x - x ) 2 - 3 (x - x )3 , si x j -1 £ x £ x j
ï j -1
4h 2
j -1
4h 3
j -1
B j ( x ) = í 4 4h
1 3 3 3
ï + ( x j +1 - x) + 2 ( x j +1 - x) 2 - 3 ( x j +1 - x) 3 , si x j £ x £ x j +1
ï 4 4h 4h 4h
ï 1
ï 4h 3 ( x j + 2 - x ) , x j +1 £ x £ x j + 2
3
si
ï 0 , si x ³ x j+2
î
(24.11)
Es fácil verificar que los splines B j (x) satisfacen (24.5) y (24.6). Notemos que B j ( x j ) = 1 ,
B j ( x j ±1 ) = 1 / 4 , y B j ( xi ) = 0 si i - j ³ 2 . El gráfico de la función B j (x) se representa en la
Fig.24.1. Las funciones B j (x) se llaman splines cúbicos básicos, o simplemente B-splines cúbicos,
ya que el sistema de B-splines {B j ( x)}j =1 representa una base para todos los splines cúbicos. En
N
efecto, sea xi = ih una malla regular ( i = 1,..., N ). Demostraremos ahora que cualquier polinomio
202
B j (x)
x j -2 x j -1 xj x j +1 x j +2
Fig.24.1. Gráfico del spline cúbico básico
cúbico c( x) = a3 x 3 + a2 x 2 + a1 x + a0 se puede presentar como combinación lineal de splines cúbicos
básicos:
N
c( x) = åa j B j ( x) (24.12)
j =1
Primero notemos que en un segmento [ xk , xk +1 ] , (24.12) tiene la forma
k +2
c( x) = åa
j = k -1
j B j ( x) (24.13)
donde a j son constantes incógnitas. Con el fin de hallar a j , escribimos (24.13) de otra manera:
k +2
åa
j = k -1
j B j ( x) = a3 x 3 + a2 x 2 + a1 x + a0 (24.14)
Tomando en cuenta que x Î [ xk , xk +1 ] , usando las fórmulas (24.11) e igualando los coeficientes para
cada potencia de x en ambas partes de la ecuación (24.14), llegamos al sistema de cuatro
ecuaciones lineales algebraicas para hallar cuatro coeficientes desconocidos a j .
203
Aplicación de B-splines. Regresamos ahora al problema elíptico (24.1). Vamos a usar B-
splines cúbicos para construir las funciones básicas {f j ( x)}j =1 que figuran en la matriz (24.4) del
N
método de colocación. Supongamos que xi = ih es una malla regular ( i = 0,1,..., N + 1 ), x0 = 0 y
x N +1 = 1 . Elegimos
f j ( x) = B j ( x) , si j=2,…,N-1,
f1 ( x) = 4 B1 ( x) - B0 ( x) , f N ( x) = 4 BN ( x) - BN +1 ( x) (24.15)
Es fácil verificar que todas las funciones básicas (24.15) satisfacen las condiciones de frontera:
f j (0) = f j (1) = 0 , j=1,…,N (24.16)
Por lo tanto, la solución aproximada (24.2) satisface automáticamente las mismas condiciones.
Valores del spline cúbico B j (x) y sus primeras dos derivadas en los puntos x j -1 , x j y x j +1 se
presentan en Tabla 24.1.
Tabla 24.1. Valores de B-spline cúbico B j (x) y sus derivadas B ¢j (x) y B ¢j¢ (x)
x j -1 xj x j +1
B j (x) 1/4 1 1/4
B ¢j (x) 3/4h 0 -3/4h
B ¢j¢ (x) 3 3 3
-
2h 2 h2 2h 2
204
Por definición (24.11), las funciones B j (x) , B ¢j (x) y B ¢j¢ (x) tienen valores nulos en otros puntos
de la malla. Entonces los elementos de la matriz (24.4) del método de colocación aceptan el aspecto
siguiente:
3
a ii = Bi¢¢( xi ) + q i Bi ( xi ) = - + qi , i = 2,..., N - 1
h2
3 q
a i ,i +1 = Bi¢¢+1 ( xi ) + q i Bi +1 ( xi ) = 2 + i , i = 1,..., N - 2 (24.17)
2h 4
3 q
a i ,i -1 = Bi¢¢-1 ( xi ) + q i Bi -1 ( xi ) = 2 + i , i = 3,..., N
2h 4
Los restantes elementos no nulos, en virtud de (24.15), tienen la siguiente forma:
27 15 6
a11 = - + q1 a21 = - + q2
2h 2 4 h2 (24.18)
6 27 15
a N -1, N = 2 + q N -1 a NN = - 2 + qN
h 2h 4
Así, si se usan los B-splines cúbicos como funciones básicas en (24.4), entonces la matriz A del
sistema (24.3) del método de colocación es tridiagonal, igual que en el método de diferencias finitas.
Además, el grado de aproximación para ambos métodos es igual a O(h 2 ) . Así, con la base (24.15),
el método de colocación es capaz de competir con el método de diferencias finitas. Mayor grado de
aproximación se puede alcanzar sólo con splines más suaves que los splines cúbicos. Por ejemplo, la
aproximación de grado O(h 4 ) se obtiene sólo con splines de quinto grado o más.
Las funciones básicas (24.15) representan un caso muy simple de los elementos finitos, es
decir, funciones que tienen valores no nulos solo en una pequeña parte del dominio (en nuestro caso,
el segmento [0,1]). Al usar los elementos finitos en el método de Rayleigh-Ritz o de Galerkin, la
mayoría de los elementos de la matriz (20.12) o (20.21) es nula, ya que aij es no nulo solo si las
funciones de prueba (elementos finitos) f i (x ) y f j (x) se traslapan. Un método de proyección con
205
elementos finitos se llama método de elementos finitos (Becker y otros, 1981; Marchuk y otros,
1983; Morton y Mayers, 1994).
Ejercicios:
1. Demuestre que todas las derivadas de la función
{
ì exp - 1 /( 4 - x 2 )
u ( x) = í
} si x Î (-2,2)
î 0 si x Ï (-2,2)
son continuas, y u (x) tiene soporte compacto en (-3,3). El último significa que existe un
segmento cerrado [a,b] en (-3,3) (por ejemplo, [-2,2]) tal que u (x) es nula fuera de [a,b].
2. Verifique que la función (24.11) es un spline cúbico que satisface las condiciones (24.5) y
(24.6).
3. Usando el método de elementos finitos, halle la solución del problema
d
u ( x) + u ( x) = 0 , en el intervalo 0 < x £ 1
dx
u (0) = 1

d2
u ( x) - u ( x) = 0 , - 1 < x < 1
d x2 .
u (-1) = 0, u (1) = 1
d2
u ( x) - u ( x) = 0 , 0 < x < 1
d x2
.
d
u (0) = 0, u (1) = 1
dx
6. Demuestre que usando la fórmula recurrente
x +1 / 2
ì1, si x £ 0.5
B m +1 ( x) = òB m ( y ) dy ,
B0 ( x ) = í
x -1 / 2 î0, si x > 0.5
donde x es un número real, and m = 0, 1, 2, ... se puede construir B-splines que son (m - 1) veces
diferenciables y no negativos, que aparecen fuera del intervalo [-m / 2 - 1 / 2, m / 2 + 1 / 2] , y
reducen a un polinomio de grado m encada uno de los intervalos [i, i + 1] para m non y
[i - 1 / 2, i + 1 / 2] para m par e i entero.
7. Dibuje los gráficos de las tres primeras B-splines del ejercicio 6:
206
ì1 - x , si x £ 1
B1 ( x) = í ,
î 0, si x ³ 1
ì2 - ( x - 0.5) 2 - ( x + 0.5) 2 , si x £ 0.5

1ï
B 2 ( x) = í ( x - 1.5) 2 , si 0.5 £ x £ 1.5 ,
2ï
î 0, si x ³ 1.5
ì(2 - x ) 3 - 4(1 - x ) 3 , si x £ 1
1ï
B3 ( x ) = í ( 2 - x ) 3 , si 1 £ x £ 2 .
6ï
î 0, si x ³ 2
207
§ 25. Método espectral
La particularidad característica que diferencia el método espectral de otros métodos de proyección
es que las funciones básicas forman la base ortogonal. En problemas unidimensionales el método
espectral se ha usado durante muchos años, y la teoría de las series de Fourier está muy
desarrollada. En las últimas décadas, el método espectral se usa también en problemas bi y
tridimensionales. Por ejemplo, en estudios de dinámica de la atmósfera se usan los armónicos
esféricos que forman la base ortogonal sobre la esfera (Machenauer, 1977; Priestley, 1992; Skiba,
1991, 1993a, García y Skiba, 1999).
Serie de Fourier. La oscilación armónica con tiempo t se describe por la fórmula
A sin(w t + f ) (25.1)
donde A es la amplitud de oscilación, w es la frecuencia angular, y f la fase que define el estado
inicial en el momento t=0. La función (25.1) es periódica con el periodo 2p / w . En general, una
función f(t) es periódica con un periodo p si f(t+p)= f(t) para cualquier t.
Cualquier función periódica continua (con el periodo 2p ) se representa mediante su serie de
Fourier:
¥
f (t ) = å (ak cos kt + bk sin kt ) (25.2)
k =0
Se puede escribir la serie (25.2) mediante las fórmulas de Euler:
e ix + e -ix e ix - e -ix
cos x = , sin x = (25.3)
2 2i
En efecto, definiendo c0 = a0 , ck = 12 (ak - ibk ) y c-k = 12 (ak + ibk ) , obtenemos
¥
f (t ) = åc
k = -¥
k e ikt , (25.4)
208
El producto interno se define mediante la fórmula
p
f ,g = ò f ( x) g ( x)dx
-p
(25.5)
para las funciones continuas, y la fórmula
M
f , g = å f ( xa ) g ( xa ) (25.6)
a =0
para las funciones de malla, donde xa = 2pa /( M + 1) , a = 0,1,2,...,M . La norma de una función,
tanto continua como discreta, se define por el producto interno como
1/ 2
f = f, f (25.7)
px
Observación 25.1. La sustitución t = transforma una función periódica f (t ) con un
2p
æ px ö
período p en la función periódica g ( x) = f ç ÷ con el periodo 2p .
è 2p ø
Teorema 25.1. Las funciones fk ( x) = eikx (k = 0,±1,±2,...) son ortogonales en el segmento
[- p ,p ]. Además,
ì2p , si j = k
f j ,j k = í (25.8)
î0 , si j ¹ k
para las funciones continuas (véase (25.5)), y
ìM + 1 , si ( j - k ) /( M + 1) es entero,
f j ,j k = í (25.9)
î 0 , en caso contrario
para las funciones de malla (véase (25.6)).
Demostración. 1. El caso continuo. Si j ¹ k , entonces
p x =p
e i ( j -k ) x
f j ,j k = ò e e ijx -ikx
dx = =0 (25.10)
-p
i( j - k ) x=-p
209
debido a que la función cos mx es par. Y si j = k , entonces
p p
f k ,j k = ò e e ikx -ikx
dx = ò 1dx = 2p (25.11)
-p -p
2. El caso discreto. Supongamos que los puntos de malla son xa = 2pa /( M + 1) . Tenemos
M M
ì 2pa ü
f j ,j k = å exp{ijxa }exp{- ikxa } = å exp íi( j - k ) ý (25.12)
a =0 a =0 î M + 1þ
ì 2p ü ( j - k)
Es una progresión geométrica con la razón q = exp íi ( j - k ) ý . Si es un número
î M + 1þ M +1
entero, entonces q=1 y la suma es igual a M+1. De lo contrario, q ¹ 1 , pero
M
q M +1 - 1
q M +1
= exp{i( j - k )2p } = 1 y, por lo tanto, f j ,j k = åq = a
= 0 . El teorema se ha
a =0 q -1
demostrado □
b
Sea f = å c jf j donde a = -¥, b = ¥ en el caso continuo, y b - a = M + 1 en el caso
j =a
b
discreto. Se deduce de aquí que f , f k = å c j f j , f k = ck f k , f k para cada k, a £ k £ b , y los
j =a
coeficientes de Fourier se definen por las fórmulas siguientes:
ì 1 p f ( x) exp{- ijx}dx , en el caso continuo

f ,f j ï 2p ò -p
cj = =í (25.13)
f j ,f j ïî M1+1 åa =0 f ( xa ) exp{- ijxa } , en el caso discreto
M
1 p 1 p
Para la serie (25.2), a j = c j + c- j =
p òp
-
f ( x) cos jx dx y b j = i(c j - c- j ) =
p ò p f ( x) sin jx dx .
-
Ejemplo 25.1. Sea
ì- 1, - p < x < 0
f ( x) = í (25.14)
î 1, 0 < x <p
210
la función discontinua. Sin embargo, pertenece al espacio de Hilbert L2 [-p ,p ] . Extendimos esta
función fuera del intervalo [-p ,p ] de manera periódica. Ya que f (x) es impar, entonces a j = 0
para cada j , mientras que
ì 0 , si j es par
1 0 1 p 2 p 2 1 - cos jp ï
bj = -
p òp
-
sin jx dx +
p ò 0
sin jx dx =
p ò 0
sin jx dx =
p j
=í 4
, si j es impar
ïî jp
Por consiguiente,
4æ sin 3x sin 5 x ö
f ( x) = ç sin x + + + ...÷ . □
pè 3 5 ø
Fórmula de Parseval. En varias aplicaciones es útil usar la fórmula de Parseval
¥ p
å cj
2
òp f ( x)
2 2
2p = f = dx (25.15)
j = -¥ -
Esta fórmula es válida sólo para las funciones cuya norma f está acotada.
Truncación de la serie de Fourier. La suma
N
f N (t ) = åc
k =- N
k e ikt , (25.16)
representa un truncamiento de la serie (25.4) por un número N que se llama número de truncación.
El error de aproximación de la función f(t), o de la serie (25.4), por la suma (25.16) se estima como
1/ 2
æ ö
åc
2
f (t ) - f N (t ) = ç 2p ÷ £ f (t ) (25.17)
ç j ÷
è j >N ø
Debido a (25.4), la n-ésima derivada de una función f(t) es
¥
f ( n ) (t ) = å (ik )
k = -¥
n
ck e ikt (25.18)
211
Por lo tanto,
f (t ) - f N (t ) £ N - n f ( n ) (t ) (25.19)
para cada función f (t ) del espacio C[n-p ,p ] , es decir, que tiene n derivadas continuas en el segmento
[- p ,p ]. El factor N - n caracteriza la rapidez con la que convergen las funciones truncadas f N (t )
hacia la función original f (t ) cuando el número de truncamiento N aumenta. Así, la rapidez de
convergencia se aumenta con el grado de suavidad n de la función f (t ) (Skiba, 1994, 1997a, 1998).
Malla equivalente. Consideremos una malla regular en el segmento [- p ,p ]:
xa = 2pa /(2M + 1) , a = 1,2,...,2M + 1 . (25.20)
donde h = 2p /(2M + 1) . Debido a (25.16), una función f ( x, t ) se puede aproximar por la
función truncada
M
f M ( x, t ) = åc k (t ) exp{ikx}, (25.21)
k =- M
Los valores de la función f M ( x, t ) en puntos xa definen una función discreta (función de malla)
M
fˆ ( xa , t ) = åc k (t ) exp{ikxa }, a = 1,2,...,2M + 1 (25.22)
k =- M
que también aproxima la función f ( x, t ) . Si los 2M+1 valores fˆ ( xa , t ) de la función de malla
están dados, entonces los 2M+1 coeficientes ck (t ) se determinan únicamente mediante las fórmulas
1 2 M +1 ˆ
ck (t ) = å f ( xb , t ) exp{- ikxb }, - M £ k £ M
2M + 1 b =1
(25.23)
ya que
212
1 2 M +1 ì1 , k = m
å exp{ikxa }exp{- imxa } = í (25.24)
2M + 1 a =1 î0 , k ¹ m
Así, las fórmulas (25.22) y (25.23) establecen la correspondencia biyectiva entre la función truncada
f M ( x, t ) y la función de malla fˆ ( xa , t ) . Se puede considerar ambas funciones como dos formas
equivalentes para representar (aproximar) la función original f ( x, t ) . Por eso, la malla (25.20) se
llama malla equivalente al número de truncamiento M de la serie de Fourier (25.21) de la
función f ( x, t ) .
Aplicación del método espectral a la ecuación de transporte (Machenauer, 1977).
Consideremos la ecuación unidimensional de transporte
¶f ¶f
+u =0 (25.25)
¶t ¶x
con la velocidad constante u . Se supone que la solución f ( x, t ) es periódica a lo largo de x en el
segmento [- p ,p ]. La solución aproximada f M ( x, t ) de la ecuación (25.25) se busca de la forma
(25.21) donde las funciones básicas son ortogonales debido al teorema 25.1. Si la solución es real,
entonces los coeficientes de Fourier satisfacen la condición
c-k (t ) = ck (t ) (25.26)
Es importante notar que el método espectral es el método de Galërkin con la base especial
fk ( x) = eikx . Sustituyendo (25.21) en (25.25) y usando el teorema 25.1, llegamos al sistema de
2M+1 ecuaciones
dck
= -ikuck , - M £ k £ M (25.27)
dt
213
Entonces, la solución del problema se representa por la serie (25.21) con los coeficientes
ck (t ) = exp{- ikut}, - M £ k £ M .
Ahora comparemos el método espectral con el método de diferencias finitas aplicando ambos
al problema (25.25). En particular, es interesante encontrar las ecuaciones discretas del método de
diferencias finitas que corresponden (son equivalentes) al sistema (25.27). Con este fin,
multipliquemos k-ésima ecuación (25.26) por exp{- ikx b } , y sumemos los resultados sobre k.
Usando (25.22), obtenemos
M
d ˆ
f ( xa , t ) = -u å ikck (t ) exp{ikxa }, a = 1,2,...,2M + 1 (25.28)
dt k =- M
Sustituyendo en (25.28) los coeficientes ck (t ) con la fórmula (25.22), llegamos a la ecuación
2 M +1
d ˆ
f ( xa , t ) = -u å fˆ ( xb , t ) g ( xa - xb ) , a = 1,2,...,2M + 1 (25.29)
dt b =1
donde
ì 2pk (a - b ) ü
{ }
M M
1 2
g ( xa - xb ) = å
2 M + 1 k =- M
ik exp ik ( xa - x b ) = - å
2M + 1 k =1
k sin í
î 2M + 1 þ
ý
Introduciendo los coeficientes
2 M
ì 2pmk ü (-1) k +1
gk = å m sin íî 2M + 1ýþ = 2 sin(pk /(2M + 1))
2M + 1 m=1
(25.30)
y usando su imparidad, g -k = - g k , se puede escribir (25.28) como
{ }
M
d ˆ
f ( xa , t ) = -u å g k fˆ ( xa +k , t ) - fˆ ( xa -k , t ) , a = 1,2,...,2M + 1 (25.31)
dt k =1
214
Entonces, el método espectral es equivalente a la aplicación del método de diferencias finitas en la
malla regular con la utilización de las derivadas centrales en diferencias para aproximar la derivada
¶f / ¶ x :
¶f
{ }
M
( xa , t ) » å g k fˆ ( xa +k , t ) - fˆ ( xa -k , t ) (25.32)
¶x k =1
Según (25.32), la derivada ¶f / ¶ x se determina mediante una serie trigonométrica truncada por el
número de onda M. Es importante notar que (25.31) incorpora todos los puntos de la malla excepto
el punto xa , es decir, la aproximación de la derivada es global y refleja el carácter global de las
funciones básicas fk ( x) = eikx usadas en el método espectral.
Ejercicios:
1. Demuestre que la serie de Fourie de la función f ( x) = sin( 3px) - 5 x 3 en el intervalo [- 1,1] se

presenta sólo mediante funciones básicas sin pjx .
2. Demuestre que la serie de Fourie de la función f ( x) = 7 x 2 - 5 x 4 en el intervalo [- 1,1] se

presenta sólo mediante funciones básicas cos jx .
3. Demuestre que la serie de Fourie de la función f ( x) = 2 sin( 5px) - 5 x 2 en el intervalo [- 1,1] se

presenta mediante las funciones básicas sin pjx y cos pjx .
4. Usando la fórmula (25.18), estime el error de truncación de las series de Fourier en los tres
ejercicios anteriores si N=10 y n=2.
5. (Iserles, 1998). Resuelva el problema
¢ 1 2
- ((1 + x)u ¢( x)) + u ( x) =
1+ x 1+ x
en el intervalo (0,1) con las condiciones u(0) = 0 y u (1) = 1 usando en el dominio [0,1] las
funciones básicas
px
f k ( x) = sin kpx (k=1,2,…,m), y f0 ( x) = sin
2
m
[Sugerencia: Busque la solución aproximada meniante la forma vm ( x) = f 0 ( x) + å c jf j ( x) ].
j =1
215
6. Los armónicos esféricos Ynm (l , m ) = Pnm (m ) eiml donde Pnm (m ) son funciones asociadas de
Legendre del grado n ³ 0 y del número de onda m ( - n £ m £ n ) forman la base ortonormal en
el espacio de funciones en la esfera del radio uno: Ynm , Yl k = d m k d nl . Aquí d m k es el símbolo de
Kroneker. Verifique que para cada n ³ 0 , el problema espectral - Dy = n(n + 1)y para el
operador esférico de Laplace tiene 2n+1 funciones propias que coinciden con los armónicos
esféricos Ynm (l , m ) (- n £ m £ n) y forman la base en un subspacio
H n = {y : - Dy = n(n + 1)y } de los polinomios esféricos homogéneos del grado n.
7. El teorema de adición para los armónicos esféricos del subspacio H n = {y : - Dy = n(n + 1)y }
es
4p n m
Pn0 ( x1 × x2 ) =
r r
å
2n + 1 m = - n
Yn ( x1 ) Ynm ( x2 ) ,
donde x1 y x2 son dos puntos en la superficie de la esfera del radio uno, y x1 × x2 = cosj es
r r
producto escalar de dos vectores-radios de estos puntos. Demuestren la estimación
n
2n + 1
åY
2
m
( x) = . [Sugerencia: Use la fórmula para x1 = x2 y la propiedad del polinomio de
4p
n
m=- n
Legendre: Pn0 (1) = 1 ].
8. Sea - Df = f , donde f y f son polinomios esféricos homogéneos del H n (véase el

ejercicio 7). Demuestre que sus coeficientos de Fourier se relacionan como f mn = n (n + 1) f mn .
9. Sea - Df = f , donde f es una función suave en la esfera. Demuestre que la solución mínima
¥ m
f del problema de Poisson es f = å å [n(n + 1)]-1 f nm . Verifiquen que cada función
n =1 m = -1
f + Const también es la solución. Explique por qué f 00 = 0 es la condición necesaria para

resolver el problema.
216
§ 26. Transformada rápida de Fourier
Ahora consideremos un algoritmo económico para calcular los coeficientes de Fourier {c j }j =0 para
N -1
una función
¥
f ( x) = åc j exp{ijx} (26.1)
j = -¥
cuyos valores son dados en los puntos 2pb / N , b = 0,1,2,..., N - 1 . Sabemos que
1 N -1
2pb ì j 2pb ü
cj =
N
å
b
f(
=0 N
) exp í- i
î N þ
ý (26.2)
Introduciendo las designaciones
ì 2p ü 1 2pb
w = exp í- i ý , ab = f( ) (26.3)
î Nþ N N
es posible presentar el problema de otra manera, es decir, hay que hallar los coeficientes
N -1
c j = å ab w jb donde wN = 1 (26.4)
b =0
Si por una operación designamos una multiplicación compleja más una adición compleja, entonces,
usando el esquema de Horner, hay que hacer N operaciones para calcular cada coeficiente c j , es
decir, se puede resolver este problema con N 2 operaciones. Sin embargo, con la transformada
rápida de Fourier, es necesario hacer sólo N (r1 + r2 + ... + rp ) operaciones si r1 × r2 Lrp = N . De esta
manera, si N = 2 7 = 128 entonces el número total de operaciones al usar la transformada rápida de
Fourier es 27 ×14 = 1792 en lugar de N 2 = 214 = 16384 .
217
La transformada rápida de Fourier fue desarrollada por Cooley y Tukey (1965), y ha causado
un cambio drástico en las aplicaciones del método de Fourier en los cálculos.
Consideremos ahora un caso especial de este método cuando N = 2 k . Ponemos en (26.4)
b = 2n cuando b es par, y b = 2n + 1 cuando b es impar, es decir, 0 £ n £ 12 N - 1 . Con las
nuevas designaciones, la fórmula (26.4) acepta el aspecto siguiente:
1
N -1 1
N -1
å a (w ) å a (w )
2 2
2 jn 2 jn
cj = 2n + 2 n +1 wj (26.5)
n =0 n =0
Sea a el cociente y g el resto al dividir j entre 1

2 N: j = a × 12 N + g . Debido a que w N = 1 ,
obtenemos
(w ) = (w ) (w ) ( ) (w ) ( )
1
2 jn 2 a 2Nn 2 gn an 2 gn gn
= wN = w2
Definiendo
1
N -1 1
N -1
å a (w ) 2 gn
å a (w )
2 2
g n
b(g ) = 2n , y d (g ) = 2 n+1
2
(26.6)
n =0 n =0
( g = 0,1,2,..., 12 N - 1 ) se puede escribir (26.5) de la forma
c j = b(g ) + w j d (g ) , j = 0,1,2,..., N - 1 (26.7)
Observación 25.1. Notamos que el cálculo de los coeficientes c j se reduce al cálculo de los
coeficientes b(g ) y d (g ) . Para hallar tanto b(g ) como d (g ) , aplicamos de nuevo la
transformada rápida de Fourier. Sin embargo, en lugar de sumar N = 2 k términos en la fórmula
original (26.4), ahora hay que sumar sólo 1

2 N = 2 k -1 términos en dos fórmulas (26.6). Después de
hallar b(g ) y d (g ) , el número de operaciones requeridas para calcular c j usando (26.7) no
j
supera 2 N = 2 × 2 k (N operaciones para calcular w , y otros N operaciones para hacer cálculos
según la fórmula (26.7). □
218
Luego, aplicando la misma idea a las sumas (26.6), reducimos la solución del problema
original (26.4) al cálculo de cuatro sumas del tipo (26.6), pero con 2 k - 2 términos cada uno, etc.
Designemos con p k el número total de operaciones requeridas para los coeficientes c j cuando
N = 2 k . Según este procedimiento, tenemos
pk £ 2 pk -1 + 2 × 2 k , k=1,2,3,… (26.8)
Ya que p0 = 0 y k = log 2 N , por inducción obtenemos que cuando N = 2 k , la transformada rápida
de Fourier resuelve el problema con pk £ 2k × 2 k = 2 N × log 2 N operaciones.
Ejercicios:
1. ¿Por qué la eficiencia máxima de la transformada rápida de Fourier se alcanza cuando N = 2 k ?

2p
2. Sea {xi } una malla regular con tamaño h. Demuestre que la senoide A sin x con la
(n + 1)h
2pn
longitud de (n + 1)h se interpreta erróneamente como la senoide B sin x con la longitud
(n + 1)h
de [(n + 1) / n]h , es decir, ambas senoides tienen los mismos valores en todos los puntos x i . El
caso particular n=3, A = -1 y B = 1 está presentado en Mezinger y Arakawa (1976). Encuentre
la relación entre A y B (véase § 9). Explique los signos opuestos de las amplitudes A y B de las
ondas.
3. Dibuje dos senoides del ejercicio 2 con n=2, n=4.
4. (Golub y Ortega, 1992). Sea L una matriz triangular inferior y sea U una matriz triangular
superior. Además, lij ¹ 0 para i ³ j y uij ¹ 0 para i £ j . Demuestre que en general todos los
elementos de la matriz LU son no nulos.
5. Encuentre los coeficientes c j del producto de dos polinomios
æ N -1 öæ N -1 ö 2 N -2
ç å a j x j ÷ç å b j x j ÷ = å c j x j
ç ÷ç ÷
è j =0 øè j =0 ø j =0
Muestre que es posible hacer esto con O( N × log 2 N ) operaciones.
6. Aplique la transformada rápida de Fourier a las series
N -1
pkj 2 N -1
pkj
c j = å ak sin , 1 £ j £ N -1 , ak = å c sin j .
k =1 N N j =1 N
219
Capítulo V. Métodos exactos para problemas lineales
Se usan métodos numéricos de álgebra lineal para resolver los sistemas de las ecuaciones
algebraicas lineales, hallar matrices inversas, calcular los determinantes, autovalores y
autovectores de las matrices. Todos los métodos desarrollados para resolver un sistema de
ecuaciones algebraicas lineales pueden dividirse en dos grupos. Al primer grupo pertenecen los
métodos exactos (o directos), es decir, los algoritmos que permiten obtener la solución de un
sistema a base de un número finito de operaciones aritméticas. Aquí figura la conocida regla de
Cramer para hallar la solución por medio de determinantes, el método de eliminación de Gauss y
otros métodos basados en la factorización-LU o la factorización QR de la matriz. Entre todos los
métodos de este grupo ocupa un lugar especial el método de factorización para las matrices
tridiagonales. Cabe señalar que a pesar de su gran importancia teórica, la regla de Cramer no se
usa en las computadoras, ya que requiere un número de operaciones aritméticas mucho mayor
que el método de Gauss. Normalmente, los métodos exactos se emplean para resolver los
sistemas lineales con las matrices n ´ n cuando el número n no es muy grande (por ejemplo, es
menor que un millón). El segundo grupo contiene los métodos aproximados, o iterativos. Estos
métodos se aplican cuando el número n de la matriz es grande. Estudiamos aquí el método de
Jacobi (iteraciones simples), el método de Gauss-Seidel, el método de SOR, etc. Para un estudio
más profundo de los métodos de ambos grupos se recomiendan los trabajos de Faddeev y
Faddeeva (1963), Fox (1964), Wilkinson (1965), Gantmacher (1966), Forsythe y otros (1977),
Lawson y Hanson (1974), Hageman y Young (1981), Marchuk (1982), Golub y Ortega (1992), y
Ciarlet (1995).
220
§ 27. Factorización LU
Todos los métodos exactos de solución de los sistemas de ecuaciones algebraicas lineales están
basados en una forma de factorización´de la matriz en el producto de dos matrices que tienen la
estructura simple. Empesamos a estudiar los métodos de factorización con el teorema LU (Parlett,
1980). Las condiciones de este teorema garantizan la existencia de la factorización A = LU ,
donde L es una matriz triangular inferior, y U es una matriz triangular superior. En efecto, si tal
factorización existe, entonces el problema original
r r
Ax = b (27.1)
se escribe como
r r
L(U x ) = b (27.2)
y se reduce a la solución sucesiva de los dos sistemas:
r r
Ly = b y Ux = y
r r
(27.3)
Ya que tanto L como U son matrices triangulares, cada uno de los sistemas (27.3) se resuelve
fácil y exactamente (véase en § 4 las fórmulas (4.18), (4.19)).
Teorema 27.1 (teorema LU). Sea A una matriz n ´ n . Designamos por Ak la matriz
k ´ k formada por intersección de primeras k filas y columnas de la matriz A. Si det( Ak ) ¹ 0 para
cada k (k=1,2,…,n-1), entonces existe sólo una matriz triangular inferior L = {lij } con mii = 1
(i=1,2,…,n), y sólo una matriz triangular superior U = {uij } tal que
LU = A (27.4)
221
Demostración. Usamos la inducción matemática con n. Para n=1, la factorización m11 = 1 ,
u11 = a11 es única. Supongamos que el teorema es válido para n=k-1, es decir, Lk -1U k -1 = Ak -1 .
Entonces, para n=k, presentamos Lk , U k y Ak de la forma siguiente:
éA d ù é Lk -1 0ù
r r
éU u ù
r
Ak = ê rkT-1 ú , Lk = ê r T ú , U k = ê rkT-1 (27.5)
ëc akk û ël 1û ë0 u kk úû
r r r r
donde c , d , l y u son vectores columnas con (k-1) componentes cada uno. Si identificamos el
producto Lk U k con la matriz Ak entonces obtenemos las cuatro ecuaciones:
r r r r r
Lk -1U k -1 = Ak -1 , Lk -1u = d , l T U k -1 = c T , l T u + u kk = a kk
r
(27.6)
Según la hipótesis de la inducción, las matrices Lk -1 y U k -1 están únicamente determinadas y son
no singulares, ya que
det( Lk -1 ) × det(U k -1 ) = det( Ak -1 ) ¹ 0 (27.7)
r r
y, por lo tanto, los vectores u y l también están únicamente determinados por el segundo y
tercero sistemas triangulares (27.6). Finalmente, el número u kk se determina de la última
ecuación (27.6). Entonces, Lk y U k están únicamente determinadas. El teorema queda
demostrado. □
Observación 27.1. Cuando det( Ak ) ¹ 0 para un número k (k=1,2,…,n-1), la factorización
LU de la matriz A puede no existir como lo muestra el siguiente ejemplo simple. Sea
é0 1ù
A=ê ú
ë1 1û
Suponiendo que la factorización A = LU existe, obtenemos
él 0 ù éu11 u12 ù él11u11 l11u12 ù é0 1ù

LU = ê 11 ú ×ê ú =ê ú=ê ú
ël 21 l 22 û ë 0 u 22 û ël 21u11 l 21u12 + l 22u 22 û ë1 1û
222
Ya que l11u11 = 0 , hay dos opciones: l11 = 0 (y, por tanto, la primera columna de la matriz LU es
nula), o u11 = 0 (y, por tanto, la primera fila de la matriz LU es nula). En ambos casos llegamos a
una contradicción. Entonces, A ¹ LU . □
Hay una variante especial de la factorización A = LU cuando A es una matriz simétrica y
positiva. Se llama factorización de Cholesky. La demostración está basada en la afirmación
siguiente:
Criterio de Sylvester. Una matriz simétrica A de orden n es positiva si y sólo si
det( Ak ) > 0 para cada k (k=1,2,…,n). □
Teorema 27.2. Si A es una matriz simétrica y positiva, entonces existe sólo una
factorización
A = RT R (27.8)
donde R es una matriz triangular superior con todos los elementos positivos en su diagonal
principal.
Demostración. Debido al teorema 27.1, A = LU . Notemos que det( Lk ) = 1 . Se deducen de aquí
las fórmulas
det( Ak ) = det( Lk ) × det(U k ) = det(U k ) (27.9)
y
det( Ak ) = u kk det( Ak -1 ) . (27.10)
Tomando en consideración (27.9), (27.10), y el criterio de Sylvester, obtenemos
det( Ak )
u11 = a11 > 0 , y u kk = >0 , k=2,3,…,n (27.11)
det( Ak -1 )
223
Introduciendo la matriz diagonal positiva D = diag{u11 , u 22 ,K, u nn } se puede escribir la
factorización de la forma
A = LU = LDD-1U = LDP
donde P = D -1U . Además, notemos que L y P son matrices triangulares, únicamente
determinadas, y con todos los elementos en sus diagonales principales iguales a uno. Por la
simetría de la matriz A, tenemos A = AT = P T DLT = LDP , o bien, L = P T = U T D -1 .
Definiendo la matriz R como R = D -1 / 2U , obtenemos
R T R = (U T D -1 / 2 )( D -1 / 2U ) = (U T D -1 )U = LU = A
El teorema queda demostrado. □
Ejemplo 27.1. Sea
é 1 -1 0 0 0 ù
ê- 1 2 - 1 0 0 ú
ê ú
A = ê 0 -1 2 -1 0 ú
ê ú
ê 0 0 - 1 2 - 1ú
êë 0 0 0 - 1 2 úû
Esta matriz es simétrica y positiva (según el criterio de Sylvester), y aparece al discretizar el
¶ 2j
operador Aj = -a 2
en la malla regular x i (i=0,1,…,6) con el tamaño h = a y las
¶x2
condiciones j1 = j 0 y j 6 = 0 en los puntos de la frontera. Según el teorema 27.2, la
factorización de A tiene forma A = R T R , donde
é1 - 1 0 0 0 ù
ê0 1 - 1 0 0 ú
ê ú
R = ê0 0 1 - 1 0 ú . □
ê ú
ê0 0 0 1 - 1ú
êë0 0 0 0 1 úû
224
Ejercicios:
1. Sea det( Ak ) ¹ 0 para cada k (k=1,2,…,n-1), pero det( A) = det( An ) = 0 (A es singular).

Demuestre que el resultado del teorema LU sigue siendo válido con la particularidad de que
u nn = 0 .
2. Sea A una matriz y sea A=LU su factorización LU. Demuestre que la matriz B=UL es
semejante a A, y por lo tanto, sus autovalores coinciden con los de la matriz A. [Sugerencia:
A = LBL-1 ].
3. Demuestre que la factorización A=LU conserva la estructura de banda de las matrices, es
decir, si aij = 0 para i - j ³ p , entonces lij = 0 para i - j ³ p y uij = 0 para j - i ³ p .
é 2 -1 4 0ù
ê 4 -1 5 1úú
4. Encuentre la factorización LU de la matriz ê .
ê- 2 2 - 2 3ú
ê ú
ë0 3 -9 4û
5. (Golub y Ortega, 1992). Sea A = R T R la factorización (27.8) de una matriz simétrica y

positiva A. Sea R ~ una matriz obtenida mediante el cambio del signo de cada elemento R de
ij
~ T ~
la i-ésima fila de R. Demuestre que A = R R . Esta significa que la factorización (27.8) no es
única. Sin embargo, es única cuando R tiene todos los elementos positivos en su diagonal
principal.
6. A veces, la factorización de Cholesky se presenta como A = BB T donde B es una matriz

triangular inferior con todos los elementos positivos en su diagonal principal (Ciarlet, 1995).
i -1
Las fórmulas de la factorización A = BB T son bii = aii - å bik2 para i = 1,..., n . Luego
k =1
j -1
aij - å bik b jk
bij = k =1
para i = j + 1,..., n . Usando estas fórmulas demuestre que la
b jj
factorización de Cholesky conserva la estructura de banda de las matrices, es decir, si aij = 0
para i - j ³ p , entonces bij = 0 para i - j ³ p .
é1 2 3 4 ù
ê ú
7. (Ciarlet, 1995). Encuentre la factorización de Cholesky de la matriz ê2 5 1 10 ú .
ê3 1 35 5 ú
ê ú
ë4 10 5 45û
8. Sea A una matriz simétrica, pero no todos sus elementos diagonales son positivos. ¿Cuántas
distintas factorizaciones de Cholesky existen en este caso?
225
§ 28. Método de Gauss
En este apartado estudiamos el método de Gauss (la eliminación gaussiana) que sigue siendo uno
de los más famosos y mejores métodos para resolver un sistema de ecuaciones lineales (Volkov,
1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles, 1998).
Un caso particular. Para facilitar la exposición del método de eliminación de Gauss,
examinemos un sistema de cuatro ecuaciones algebraicas lineales

r r
Ax = b , (28.1)
o bien,
åa
j =1
ij x j = bi , i=1,2,3,4 (28.2)
Es conveniente introducir nuevas designaciones: aij( 0 ) º aij y bi = ai(50) donde i,j=1,2,3,4.
Entonces el sistema (28.2) se puede escribir como
(0)
a11 x1 + a12
( 0)
x2 + a13
( 0)
x3 + a14
( 0)
x4 = a15( 0)
a21 x1 + a22 x2 + a23 x3 + a24 x4
(0) ( 0) ( 0) ( 0)
= a25
(0)
, (28.3)
(0)
a31 x1 + a32
( 0)
x2 + a33
( 0)
x3 + a34
( 0)
x4 = a35
(0)
a41 x1 + a42 x2 + a43 x3 + a44 x4

(0) ( 0) ( 0) ( 0)
= a45
(0)
o en una forma más compacta:
åa
j =1
(0)
ij x j = ai(50) , i=1,2,3,4 (28.4)
(0)
El coeficiente a11 , que multiplica la primera incógnita x1 en la primera ecuación (28.3), se
conoce como el pivote (elemento rector) en este primer paso de eliminación. Supongamos que
( 0)
a11 ¹ 0 . De lo contrario, por un cambio de filas y/o columnas siempre es posible hacer que la
( 0)
condición a11 ¹ 0 se cumpla. Al dividir la primera ecuación (28.3) entre a11
(0)
, obtenemos una
ecuación nueva:
226
x1 + a12
(1)
x2 + a13
(1)
x3 + a14
(1)
x4 = a15
(1)
(28.5)
donde a1(1j) = a1( 0j ) / a11

(0)
, j=2,3,4,5. Eliminemos la incógnita x1 en cada una de las ecuaciones del
sistema (28.3) a partir de la segunda, a base de sustraer la ecuación (28.5) multiplicada por el
coeficiente de x1 en la ecuación correspondiente. Las ecuaciones transformadas adquieren la
forma siguiente:
(1)
a 22 x2 + a 23
(1)
x3 + a 24
(1)
x4 = a 25
(1)
(1)
a32 x2 + a33
(1)
x3 + a34
(1)
x4 = a35
(1)
, (28.6)
a 42 x2 + a 43 x3 + a 44 x4 = a 45
(1) (1) (1) (1)
o bien,
åa
j =2
(1)
ij x j = ai(51) , i=2,3,4 , (28.7)
donde aij(1) = aij( 0) - a1(1j) × ai(10) , i=2,3,4; j=2,3,4,5.
(1)
Ahora supongamos que el pivote a 22 (1)
también es distinto de cero: a22 ¹ 0 . Entonces, al
dividir la primera ecuación (28.6) entre este coeficiente, obtendremos la ecuación
x2 + a23
( 2)
x3 + a24
( 2)
x4 = a25
( 2)
(28.8)
donde a2( 2j) = a2(1j) / a22

(1)
, j=3,4,5. Al eliminar, mediante la ecuación (28.8), la incógnita x2 en las
dos últimas ecuaciones del sistema (28.6), llegamos a las ecuaciones
( 2)
a33 x3 + a34
( 2)
x4 = a35
( 2)
, (28.9)
( 2)
a 43 x3 + a 44
( 2)
x4 = a 45
( 2)
o bien,
åa
j =3
( 2)
ij x j = ai(52) , i=3,4, (28.10)
donde aij( 2 ) = aij(1) - a2( 2j) × ai(21) , i=3,4; j=3,4,5.
227
( 2)
Si a33 ¹ 0 , entonces, dividiendo entre este pivote la primera ecuación (28.9), y restando
( 2)
la ecuación hallada, multiplicada por a43 de la segunda ecuación del sistema (28.9), obtenemos
x3 + a34
( 3)
x4 = a35
( 3)
(28.11)
( 3)
a44 x4 = a45
( 3)
(28.12)
donde a3(3j) = a3( 2j ) / a33

( 2)
, a 4(3j) = a 4( 2j) - a3( 3j) × a 43
( 2) ( 3)
, j=4,5. Por último, si a 44 ¹ 0 , entonces
x4 = a45
( 4)
(28.13)
( 4)
donde a45 = a45
( 3) ( 3)
/ a44 .
(0) (1) ( 2) ( 3)
Así pues, si los pivotes a11 , a 22 , a33 y a44 son distintos de cero, entonces el sistema
(28.3) es equivalente al siguiente sistema simplificado con una matriz triangular superior:
x1 + a12
(1)
x2 + a13
(1)
x3 + a14
(1)
x4 = a15
(1)
x2 + a23
( 2)
x3 + a 24
( 2)
x4 = a25
( 2)
(28.14)
x3 + a34
( 3)
x4 = a35
( 3)
x4 = a 45
( 4)
obtenido a base de unir las ecuaciones (28.5), (28.8), (28.11) y (28.13). El proceso de reducción
del sistema (28.3) a la forma triangular (28.14) se llama carrera directa del método de Gauss.
Luego, las incógnitas x1 , x2 , x3 , y x4 del sistema (28.14) se calculan por sustitución regresiva
según las fórmulas
x4 = a45
( 4)
x3 = a35
( 3)
- a34
( 3)
x4
(28.15)
x2 = a25 - a23 x3 - a24
( 2) ( 2) ( 2)
x4
x1 = a15 - a12 x2 - a13 x3 - a14
(1) (1) (1) (1)
x4
La búsqueda de las incógnitas mediante las fórmulas (28.15) se llama carrera inversa del método
de Gauss.
228
Observación 28.1. En la realidad, el método de Gauss se basa en la factorización
r r
A = LU de la matriz A del sistema original L(U x ) = b , y se reduce a la solución sucesiva del
r r r r
sistema Ly = b (la carrera directa) y del sistema U x = y (la carrera inversa). □
El caso general. Análogamente, utilizando el método de Gauss se resuelve el sistema de
un número arbitrario n de ecuaciones algebraicas lineales. Sea dado el sistema
åa
j =1
( 0)
ij x j = ai(,0n)+1 , i=1,2,…, n (28.16)
( 0)
Si a11 ¹ 0 y los pivotes aii(i -1) , i=2,3,…, n de las demás filas, que se obtienen en el curso de los
cálculos, son distintos de cero, entonces, el sistema (28.16) se reduce a la siguiente forma
triangular (la carrera directa):
n
xi + åa
j =i +1
(i )
ij x j = ai(,in)+1 , i=1,2,…, n (28.17)
donde
k = 1,2, K , n { j = k + 1, K , n + 1 {
akj( k ) = akj( k -1) / akk( k -1) ;
i = k + 1, K n + 1 { (28.18)
aij( k ) = aij( k -1) - akj( k ) × aik( k -1) }}}

La carrera inversa, donde las incógnitas se calculan por sustitución regresiva, se realiza por
medio de las fórmulas
xn = an( n,n)+1 ;
i = n - 1, n - 2, K , 1 (28.19)
ì n ü
í xi = ai ,n+1 -
(i )
å aij(i ) x j ý
î j =i +1 þ
229
r r
Observación 28.2. Sea dado el sistema Ax = b con una matriz A simétrica. Si la
eliminación gaussiana se realiza sin ningún cambio de filas y columnas, entonces se puede
demostrar por inducción que para cada paso k,
aij( k ) = a (jik ) ,
es decir, los elementos transformados de la matriz siempre forman matrices simétricas de la
dimensión n +1 - k . Si es el caso, entonces es necesario calcular sólo los elementos de estas
matrices que están en la diagonal principal y arriba de esa diagonal. □
r r
Factorización de Cholesky. Sea dado un sistema Ax = b donde A es una matriz
simétrica y positiva. En virtud del teorema 27.2, usamos la factorización A = R T R donde
R T = {rij } es una matriz triangular inferior con todos los elementos positivos en su diagonal
principal ( rii > 0 para cada i). Tenemos
é r11 L 0 O 0ù ér11 L ri1 O rn1 ù é a11 L a1i O a1n ù

êM O O O M úú êM O O O M úú êê M O O O M úú
ê ê
ê ri1 O rii O 0ú ê0 O rii O rni ú = ê ai1 O aii O ain ú (28.20)
ê ú ê ú ê ú
êO O O O Mú êO O O O M ú êO O O O M ú
êërn1 O rni O rnn úû êë 0 O 0 O rnn úû êëan1 O ani O a nn úû
Entonces (vease ejercicio 6 del apartado 27), r11 = (a11 ) ri1 = ai1 / r11
1/ 2
, (i=2,3,…, n). En
general,
i j
aii = å rik2 , aij = å rik r jk (j<i)
k =1 k =1
La factorización de Cholesky se puede presentar como
230
ìï æ j -1
2 ö
1/ 2
j = 1,2, K , n ír jj = çç a jj - å r jk ÷÷ ;
ïî è k =1 ø
ì j -1
üü
ïï a ij - å rik r jk ïï
ïï
(28.21)
i = j + 1, K n írij = k =1
ýý
ï r jj ïï
ïî ïþïþ
Observación 28.3. El algoritmo de Cholesky tiene las ventajas siguientes sobre el
método general de Gauss:
1) requiere la mitad de operaciones aritméticos,
2) la memoria requerida es también de la mitad,
3) conserva el ancho de la banda cuando A es una matriz de banda,
4) se puede guardar los valores rij en el lugar de aij .
Sin embargo, no es siempre posible realizar la eliminación de Gauss con una matriz simétrica
sin ningún cambio de filas y columnas. Por ejemplo, sea dada la matriz
é0 1 ù
A=ê ú
ë1 e û
Ya que el pivote de la primera fila es nulo, el cambio de columnas transforma a A en la matriz
é1 0ù
A=ê ,
ëe 1úû
es decir, destruye la simetría de la matriz original. Además, el ejemplo muestra que el algoritmo
de Gauss con una matriz simétrica puede ser inestable si e es muy pequeño: e << 1 . □
Ejercicios:
1. Demostrar que el método de eliminación de Gauss es equivalente a la multiplicación de la

r r
matriz A del sistema original Ax = b por una matriz triangular inferior F , además, FA=B
donde B es una matriz triangular superior con todos sus elementos diagonales iguales a uno.
Si denotemos C = F -1 , entonces A=CB está factorizada y los elementos de la matriz C se
j -1
calculen mediante las formulas: cij = aij - å cip bpj (i ³ j )
p =1
231
r r
2. La solución del problema Ax = b está relacionada estrechamente con la búsqueda de la
r
matriz inversa A -1 (en efecto, formalmente xr = A -1b ). Existe un algoritmo para calcular A -1
(Faddeev y Faddeeva, 1963) que usa la representación de las matrices en la forma de bloques:
éS
A=ê
Bù
D úû
y éK
A -1 = ê
Lù
N úû
. Demuestre que (
K = S - BD-1C )
-1
, M = - D -1CK ,
ëC ëM
( )
-1
N = D - CS -1 B , y L = -S -1 BN . Así, la búsqueda de la matriz inversa A -1 se reduce a
cuatro problemas con matrices de dimensión más pequeña.
3. Encuentre A -1 por el método del ejercicio 2 para la matriz simétrica A = éê S B ùú donde

C Dë û
é1.00 0.42 ù , é0.54 0.66 ù , é0.54 0.32 ù , é1.00 0.22 ù .
S=ê ú B=ê ú C=ê ú D=ê ú
ë0.42 1.00 û ë0.32 0.44 û ë0.66 0.44 û ë0.22 1.00 û
é 2.50758 - 0.12305 - 1.01148 - 1.37834 ù
ê- 0.12305 1.33221 - 0.26142 - 0.44745 ú
[Resultado: A -1 =ê ú . Notemos que la inversa de una
ê - 1.01148 - 0.26142 1.53183 0.44560 ú
ê ú
ë - 1.37834 - 0.44745 0.44560 2.00855 û
matriz simétrica también es simétrica, y por lo tanto, M = LT ].
4. Una matriz H = {hij } se llama matriz de Hessenberg si hij = 0 cuando i > j + 1 . ¿Cuántas
r r
operaciones se requieren para resolver el sistema H x = b por el método de eliminación de
Gauss?
232
§ 29. Factorización QR mediante transformaciones de Givens
Sea A una matriz real n ´ n . Ahora demostramos que siempre existe la factorización
A = QR (29.1)
donde Q es una matriz ortogonal, mientras que R es una matriz triangular superior (Faddeev y
Faddeeva, 1963; Parlett, 1980; Golub y Ortega, 1992). La factorización QR es de gran

r r
importancia para resolver el sistema de las ecuaciones algebraicas lineales Ax = b , ya que en este
r r
caso, la solución del problema original Q( R x ) = b se reduce a la solución sucesiva de dos
r r r r
sistemas simples: primero el sistema Q y = b y luego el sistema R x = y . El último sistema
coincide con el de la carrera inversa del método de Gauss, mientras que la solución del primer
r r r
sistema es y = Q -1b = QT b debido a que Q -1 = Q T para la matriz ortogonal.
Obtendremos la matriz Q como producto de matrices ortogonales simples basadas en la
matriz de rotación de la dimensión 2:
é cosJ sin J ù
ê- sin J cosJ ú (29.2)
ë û
Con fin de este, generalicemos estas matrices a matrices de dimensión n :
é 1 ù
ê O ú
ê ú
ê 1 ú
ê ú
ê cij L L L sij ú
ê M 1 M ú
ê ú
Pij = ê M O M ú (29.3)
ê M 1 M ú
ê ú
ê - sij L L L cij ú
ê 1 ú
ê ú
ê O ú
ê ú
ë 1 û
233
donde cij = cosJij y sij = sin Jij están situados en las filas y columnas i-ésima y j-ésima como se
indica. Las matrices (29.2) y (29.3) se llaman matrices de rotación del plano, o transformaciones
de Givens. Mientras que la matriz (29.2) define una rotación del plano, la matriz Pij realiza una
rotación del plano (i, j ) en el espacio de dimensión n.
Con el fin de lograr la factorización QR vamos a usar matrices Pij para transformar la
matriz original A en una matriz triangular superior, es decir, para reducir a cero todos los
elementos debajo de la diagonal principal de la matriz A. Como resultado, obtenemos la matriz R

r
de la factorización requerida. Designamos la fila i-ésima de la matriz A por a i . Al multiplicar A
por P12 , obtenemos la matriz
r r
é c12 a1 + s12 a 2 ù
ê- s ar + c ar ú
ê 12 1r 12 2 ú
P12 A = ê a3 ú (29.4)
ê ú
ê M ú
êë r úû
an
Si elegimos s12 y c12 de tal manera que
- s12a11 + c12a21 = 0 , (29.5)
entonces P12 A tiene elemento nulo en la posición (2,1), y los otros elementos de las primeras dos
filas son distintos de aquellos de A. Para satisfacer (29.5), elegimos
(
c12 = a11 a112 + a21
2
) -1 / 2
, (
s12 = a21 a112 + a21
2
)
-1 / 2
(29.6)
El denominador en (29.6) es distinto de cero si a21 ¹ 0 . Pero, si a21 = 0 entonces la meta ya está
alcanzada, y no es necesario aplicar P12 . Luego, aplicando sucesivamente las
transformaciones P13 , P14 ,..., P1n a la matriz resultante, obtenemos la matriz

234
P1n P1,n-1 LP13 P12 A = A1 (29.7)
que tiene todos los elementos nulos en la primera columna debajo de la diagonal principal.
Similarmente, la matriz
P2n P2,n-1 LP24 P23 A1 = A2 (29.8)
ya tiene elementos nulos en dos primeras columnas debajo de la diagonal principal. Continuando
de manera similar, obtenemos la matriz tridiagonal superior
Pn-1,n ( Pn-2,n Pn-2,n-1 )L( P2n P2,n-1 LP24 P23 )( P1n P1,n-1 LP13 P12 ) A = An-1 (29.9)
Introduciendo dos matrices
P = Pn-1,n ( Pn-2,n Pn-2,n-1 )L( P2n P2,n-1 LP24 P23 )( P1n P1,n-1 LP13 P12 ) (29.10)
R = An-1 , (29.11)
escribimos (29.9) como PA = R donde P es una matriz ortogonal, debido a que es el producto
(29.10) de las matrices ortogonales. Ya que Q = P -1 también es una matriz ortogonal, obtenemos
la factorización requerida
A = P -1 R = QR (29.12)
Observación 29.1. Sea U y V dos matrices ortogonales. Es fácil demostrar que el
producto UV y la matriz inversa U -1 también son ortogonales. En efecto,
(UV )T (UV ) = V T U T UV = V T (U T U )V = V T V = E ,
235
(U -1 )T U -1 = (U T ) -1U -1 = (UU T ) -1 = E -1 = E . □
4 3 2
Observación 29.2. La factorización QR requiere n multiplicaciones y n 3 adiciones.
3 3
Además, el cálculo de los valores cij y sij requiere O(n 2 ) operaciones aritméticas. Así, la
factorización QR requiere aproximadamente cuatro veces más de multiplicaciones y dos veces
más adiciones que la factorización LU (véase § 27). En § 30 consideramos la factorización QR
más económica basada en las transformaciones de Hauseholder. □
Ejercicios:
é1.00 0.42 0.54 0.66ù

ê0.42 1.00 0.32 0.44ú
1. Sea A = ê ú la matriz simétrica. Aplique el QR algoritmo para
ê0.54 0.32 1.00 0.22ú
ê ú
ë0.66 0.44 0.22 1.00 û
encontrar todos los autovalores de A. [Resultado: el polinomio característico es
l4 - 4l3 + 4.752l2 - 2.111856 l + 0.28615248 y autovalores (con la precisión de ocho
dígitos en la mantisa son l1, 2,3, 4 = {2.32274880 , 0.79670669 , 0.63828380 , 0.24226071}].
2. Sea A una matriz ortogonal y A=QR su transformación QR . ¿Qué estructura tiene la matriz
R?
3. (Golub y Ortega, 1992). Sea A=QR la transformación QR de una matriz A. ¿Cuál es la
relación entre det R y det A ?
4. Sea A una matriz normal y sean todos sus autovalores distintos según módulo ( li ¹ l j si
i ¹ j ). Entonces las matrices Ak de la transformación QR convergen a la matriz diagonal de
los autovalores de A.
5. Si A es una matriz de Hessenberg (véase el ejercicio 4, § 28) entonces todas las matrices Ak
de la transformación QR son también matrices de Hessenberg.
6. (Voevodin y Kuznetzov, 1984). Si A es una matriz hermitiana tridiagonal, entonces todas las
matrices Ak de la transformación QR son también matrices hermitianas tridiagonales.
236
§ 30. Factorización QR mediante transformaciones de Householder
rr r r
Definición. Cada matriz de la forma E - 2wwT donde wT w = 1 se llama transformación de
Householder.
rr
Es fácil demostrar que la matriz E - 2wwT es simétrica y ortogonal. En efecto,
( rr
1) E - 2wwT )T rr
= E - 2wwT ,
( rr
)(
rr
2) E - 2wwT E - 2wwT )T rr r r r r
= E - 4wwT + 4w(wT w)wT = E .
La transformación de Householder también se llama matriz de transformación elemental. Ahora
demostramos cómo utilizar las transformaciones de Householder para realizar la factorización QR

r
de una matriz A (Ortega y Poole, 1981; Golub y Ortega, 1992; Ciarlet, 1995). Sea a1 la primera
columna de A. Definimos el vector
r r
w1 = m1u1 (30.1)
donde
r
u1T = (a11 - s1 , a21,K, an1 ) (30.2)
r r
(
s1 = ± a1T a1 )1/ 2
, m1 = (2s12 - 2a11s1 )
-1 / 2
(30.3)
Notemos que el signo de s1 se elige opuesto al signo de a11 con el fin de evitar una posible
división entre cero en la fórmula (30.3) para m1 , es decir, la inestabilidad del algoritmo.
n
De la definición de s1 tenemos åa j =2
2
j1 = s12 - a112 y, por lo tanto,
é ù
( )
n
r r
w1T w1 = m12 ê(a11 - s1 ) + å a 2j1 ú = m12 a112 - 2a11s1 + 2 s12 - a112 = 1
2
ë j =2 û
r r
Entonces P1 = E - 2w1 w1T es la transformación de Householder. Además,
237
é ù
( )
n
r r 1
w1T a1 = m1 ê(a11 - s1 )a11 + å a 2j1 ú = m1 s12 - a11s1 =
ë j =2 û 2 m1
y, por lo tanto,
r r 2(a11 - s1 )m1
a11 - 2w1 w1T a1 = a11 - = s1 (30.4)
2 m1
r r 2a m
ai1 - 2wi w1T a1 = ai1 - i1 1 = 0 , i= 2,3,…, n (30.5)
2 m1
Las fórmulas (30.4) y (30.5) muestran que en la primera columna de la matriz P1 A , todos los
elementos situados debajo de la diagonal principal son iguales a cero:
r r r r r
P1a1 = a1 - 2(w1T a1 )w1 = (s1 ,0,...,0) ,
T
(30.6)
r r
es decir, una transformación ortogonal P1 = E - 2w1 w1T da el mismo resultado que (n-1)
transformaciones de Givens.
r
El segundo paso del método es análogo al primero. En lugar del vector a1 usaremos un
r
vector b2 = (b12 ,b22 ,K,bn 2 ) cuyos componentes representan la segunda columna de la matriz
T
r r
B = P1 A . Se usa la transformación de Householder P2 = E - 2w2 w2T definida por un vector
r r
w2 = m2u2 (30.7)
donde
r
u 2T = (0, b22 - s 2 , b32 , K, bn 2 ) (30.8)
y
r r
(
s2 = ± b2T b2 )
1/ 2
, m 2 = (2s22 - 2b22 s2 )
-1 / 2
(30.9)
238
son análogos a (30.3). Con esta transformación obtenemos que en las dos primeras columnas de
la matriz P2 P1 A , todos los elementos situados debajo de la diagonal principal son iguales a cero.
r r
Continuamos de la misma manera usando las transformaciones Pi = E - 2wi wiT donde los
r r
primeros (i-1) componentes del vector wi = m i ui son iguales a cero. Finalmente, obtenemos
Pn-1 Pn-2 L P2 P1 A = R (30.10)
donde R es una matriz triangular superior. Escribimos (30.10) como PA = R donde la matriz
P = Pn -1 Pn - 2 L P2 P1 es ortogonal, debido a que el producto de las matrices ortogonales es
también una matriz ortogonal. Ya que la matriz Q = P -1 también es ortogonal, obtenemos la
factorización requerida
A = P -1 R = QR (30.11)
r
Ahora veamos de qué manera se transforman otras columnas a i de la matriz A bajo la
matriz ortogonal P1 (i=2,3,…,n). Tenemos
r r
(
r r r r r r r
)
P1 A = A - 2w1 w1T A = A - 2w1 w1T a1 ,w1T a 2 , K,w1T a n , (30.12)
Así pues, la columna i-ésima de la matriz P1 A es
r r r r r r r r
ai - 2(w1T ai )w1 = ai - g 1 (u1T ai )u1 , (30.13)
donde
g 1 = 2m12 = (s12 - s1 a11 )

-1
r r
Es más económico trabajar directamente con g 1 y u1 en (30.13) sin formar el vector w1
explícitamente.
239
Observación 30.1. La factorización QR mediante las transformaciones de Householder
2 3 2
requiere n + O(n 2 ) multiplicaciones y n3 + O(n 2 ) adiciones. Entonces, mientras que el
3 3
número de adiciones coincide con el del método de las transformaciones de Givens, el número de
multiplicaciones es la mitad, es decir, el método nuevo es más económico. Sin embargo, hay
situaciones, donde la aplicación de las matrices de Givens es preferible. □
Observación 30.2. A pesar de que las factorizaciones de Givens y Householder son
estables numéricamente, la eliminación de Gauss es más económica para resolver un sistema de
ecuaciones lineales algebraicas. Sin embargo, la factorización QR es la parte básica del algoritmo
para resolver el problema espectral total. □
Reducción de Householder. El esquema de reducción de Householder tiene el aspecto
siguiente:
ì æ n 2ö
1/ 2
ü
ï s k = - sign (a kk )ç å a lk ÷ ï
ïr è l =k ø ï
ï ï
k=1,…,n-1 íu kT = (0, K ,0,a kk - s k ,a k +1, k , K , a nk )ý
k k (
ï g = s 2 - s a -1 ; a = s
ï k kk ) kk k
ï
ï
îï þï
rT r
ï a j = g k uk a j ü
ì ï
j=k+1,…,n í r r r ý □
îa j = a j - a j u k ï
ï þ
Ejercicios:
rr r r
1. Sea P = E - b wwT , donde wT w = 1 . Demuestre que P es ortogonal sólo si b = 2 .
r r r r r r
2. Sea x ¹ y , x 2
= y 2
, y y * x es real. Entonces existe tal transformación de Householder
r r
H que Hx = y.
3. Sea A = QR . Demuestre que A * A = R * R . La matriz R se llama factor de Cholesky de la

matriz A* A .
240
é2 - 1 1 ù
4. (Ortega y Poole, 1981). Realize la factorización QR de la matriz A = ê2 3 1ú .
ê ú
êë1 - 1 2úû
5. Sea A una matriz de banda (véase la definición en el ejercicio 3, § 27). Demuestre que la
factorización QR conserva la estructura de banda.
éA A3 ù
6. Sea una matriz A=ê 1 que tiene la forma de bloques. Demuestre que
ë0 A2 úû
det( A - lE) = det( A1 - lE) det( A2 - lE) , es decir, los autovalores de A resultan de la unión de
los autovalores de las matrices A1 y A2 .
241
§ 31. Problema de contorno para una matriz tridiagonal
Examinemos el sistema de ecuaciones algebraicas lineales del siguiente tipo especial
aij i -1 - bij i + cij i +1 = f i , i = 1,2,3..., N - 1 (31.1)
con las condiciones
j0 = a '0j1 + b0 , j N = a N j N -1 + bN (31.2)
en donde j0, j1, ..., jN son incógnitas, mientras que ai, bi, ci, fi y a0, aN, b0, bN son
parámetros dados (Godunov y Ryabeñkii, 1964; Marchuk, 1982; Volkov, 1990). Las ecuaciones
(31.1) se llaman tripuntuales, ya que cada ecuación enlaza únicamente tres valores desconocidos
j i -1 , j i y j i +1 . Además, supongamos que los parámetros del sistema satisfacen las siguientes
condiciones:
bi ³ ai + ci + d para cada i, d > 0 , (31.3)
a 0 < 1, a N £ 1 . (31.4)
Demostraremos más tarde que las condiciones (31.3) y (31.4) garantizan la existencia de una sola
solución del problema (31.1), (31.2) y permiten hallar esta solución utilizando un método exacto
llamado método de factorización que es estable y económico. El sistema (31.1), (31.2) también se
puede escribir en la forma vectorial:
r r
Aj = g (31.5)
r r
donde j = (j 0 ,j1 ,K,j N ) es el vector desconocido (la solución), g = (b 0 , f1 , f 2 ,K, f N -1 , b N ) es
T T
el vector dado, y
242
é 1 -a0 0 0 K 0 0 0 ù
êa - b c1 0 K 0 0 0 úú
ê 1 1
ê0 a2 - b2 c2 K 0 0 0 ú
A=ê ú (31.6)
êK K K K K K K Kú
ê0 0 0 0 K a N -1 - b N -1 c N -1 ú
ê ú
ëê 0 0 0 0 K 0 -aN 1 ûú
es la matriz tridiagonal de dimensión n+1, es decir, todos sus elementos no dispuestos en la
diagonal principal y en las dos diagonales vecinas son iguales a cero. El sistema (31.1) se
encuentra a menudo al resolver numéricamente un problema de contorno para la ecuación
diferencial parcial del segundo grado. Las ecuaciones (31.2) se llaman condiciones de contorno.
Sustituyendo la primera condición (31.2), j0 = a 0j1 + b0 , en la primera ecuación del
sistema (31.1), obtenemos
a1 (a 0j 1 + b 0 ) - b1j 1 + c1j 2 = f 1
o bien,
j1 = a1j2 + b1 (31.7)
donde
c1 a b - f1
a1 = , b1 = 1 0 (31.8)
b1 - a1a 0 b1 - a1a 0
Al introducir la expresión (31.7), hallada para j1 , en la segunda ecuación del sistema (31.1),
obtenemos una ecuación que relaciona j 2 y j 3 , etc. Supongamos que ya hemos obtenido la
relación
j k -1 = a k -1j k + bk -1 , k < N - 1 (31.9)
En la k-ésima ecuación del sistema (1) introducimos j k -1 en forma de (31.9):
a k (a k -1j k + bk -1 ) - bk j k + ck j k +1 = f k
243
Resolviendo esta ecuación respecto a j k obtenemos
j k = a k j k +1 + bk (31.10)
donde
ck a b - fk
ak = , bk = k k -1 (31.11)
bk - a k a k -1 bk - a k a k -1
Por consiguiente, los coeficientes de las ecuaciones (31.10) que enlazan los valores contiguos j k
y j k +1 (k = 1, 2, ..., N-1) se puede determinar por medio de las relaciones recurrentes (31.11), ya
que a 0 y b 0 están dados mediante (31.2).
Sustituyendo la expresión j N -1 = a N -1j N + b N -1 , deducida de (31.10) para k = N -1, en la
segunda condición de contorno (31.2) obtenemos
j N = a N (a N -1j N + bN -1 ) + bN (31.12)
donde a N y b N son coeficientes definidos por (31.2), mientras que a N -1 y b N -1 se han
calculado por medio de las fórmulas (31.11). De la ecuación (31.12) hallamos la incógnita j N :
b N + a N b N -1
jN = (31.13)
1 - a N a N -1
Luego, mediante la formula (31.10) se calculan por sustitución regresiva las demás incógnitas
j N -1 , j N -2 , ..., j 0 . Notemos que la fórmula (31.10) coincide (para k = 0) con la primera
condición de contorno (31.2). El proceso de cálculo de los coeficientes a k y b k por medio de
las fórmulas (31.11) donde k = 1, 2, ..., N-1, se llama carrera directa del método de
factorización. El otro proceso, la obtención de las incógnitas jk por medio de las fórmulas (31.10)
y (31.13), donde k = N -1, N-2, ..., 0, se llama carrera inversa del método de factorización.
244
En virtud de las condiciones (31.3) y (31.4), los cálculos mediante las fórmulas (31.11) y
(31.13) son correctos, es decir, sus denominadores no se reducen a cero. En efecto, admitamos
que para cierto k (0 < k < N -1) se verifica la desigualdad a k -1 < 1 . Por ejemplo, a0 < 1 . En
vista de que bk - a k > 0 , utilizando la condición (31.3), obtenemos
bk - aka k -1 ³ bk - ak × a k -1 > bk - ak > 0 (31.14)
y por tanto,
ck bk - ak
ak = £ <1
bk - aka k -1 bk - ak × a k -1
De aquí, por inducción se deduce que
ak < 1 (31.15)
para cada k ( k = 0,1,2,..., N - 1). Debido a (31.15) y (31.4),
bk - aka k -1 > 0 para cada k, (31.16)
1 - a N a N -1 > 0 , (31.17)
es decir, los denominadores de las expresiones (31.11) y (31.13) nunca se convierten en cero
durante el proceso de cálculo.
Observación 31.1. El método de factorización (31.10)-(31.13) se puede presentar en la
forma matricial:
r r
KS1 S 2j = F (31.18)
donde K es una matriz diagonal, S1 es una matriz tridiagonal inferior, y S 2 es una matriz
tridiagonal superior.
245
Método de disparo (Godunov y Ryabeñkii, 1964; Roberts y Shipman, 1972; Ortega y
Poole, 1981). Consideremos ahora otro algoritmo exacto para resolver el problema (31.1)-(31.4)
llamado método de disparo. Este método es más simple que el de factorización. Sin embargo, se
demostrará ahora que a diferencia del método de factorización, el método de disparo es inestable
y, por consiguiente, a menudo es inútil en la práctica.
Supongamos que el sistema (31.1) y (31.2) tiene la forma siguiente
ìa nj n -1 - bnj n + cnj n +1 = f n (0 < n < N )

í (31.19)
îj 0 = z , j N = y
Describimos el método de disparo. Escogiendo como el primer “disparo” j 0(1) = z y j1(1) = 0 ,
hallamos todos los valores j n(1) usando la ecuación (31.19) para índices n = 2,..., N . Claro que
j n(1) satisface las ecuaciones (31.19) y la primera condición j 0 = z , pero generalmente la
trayectoria del “disparo” no satisface la segunda condición, es decir, j N(1) ¹ y (Fig.31.1).
jn
j N( 2)
z j N(1)
1 y
0 1 2 3 … N-2 N-1 N n
Fig.31.1. Trayectorias j n(1) y j n( 2) de dos disparos.
246
Luego, supongamos que j 0(2 ) = z , j1(2 ) = 1 , y calculemos de nuevo todos los j n( 2) usando
(31.19). De nuevo, la trayectoria del segundo “disparo” j n(2 ) satisface las ecuaciones (31.19) y la
primera condición j 0 = z , pero, en general, no satisface la segunda condición, es decir, j N(2 ) ¹ y .
Consideremos ahora la combinación lineal de dos “disparos”:
j n = sj n(1) + (1 - s )j n( 2) , n = 0,1,2,..., N (31.20)
Es evidente, que j 0 = z para cada s , y j n satisface todas las ecuaciones (31.19). Escogemos
ahora s con el fin de satisfacer la segunda condición (31.2):
j N = sj N(1) + (1 - s )j N(2 ) = y , (31.21)
o bien,
y - j N(2 )
s= (31.22)
j N(1) - j N(2 )
Entonces las fórmulas (31.20) y (31.22) resuelven el problema (31.19). En caso de cálculos
ideales, sin errores, este algoritmo es bueno. Sin embargo, este es inestable y, por tanto,
prácticamente inapropiado para los números N grandes. Veremos un ejemplo que lo demuestra.
Ejemplo 31.1. Sea an º 1 , bn º 26 / 5 , c n º 1 y f n º 0 en el sistema (31.19). En este
caso, la solución exacta es
5 N -n - 5 n- N 5n - 5- n
jn = z + y (31.23)
5 N - 5- N 5 N - 5- N
Claro que se satisfacen las condiciones (31.3) y (31.4) y, por consiguiente, sin ningún problema se
puede resolver este sistema por el método estable de factorización. Aplicaremos ahora el método
247
de disparo para resolver dicho sistema. Es fácil hallar las trayectorias de dos disparos j n(1) y j n( 2)
con las condiciones j 0(1) = z , j1(1) = 0 y j 0(2 ) = z , j1(2 ) = 1 , respectivamente:
z z
j n(1) = - 5n + 5 2- n
24 24
(31.24)
5 - z n é 25 ù
j n(2 ) = 5 + ê5 - (5 - z )ú5 -n
24 ë 24 û
Notemos que max j n(1) y max j n(2 ) aumentan como 5N . Por eso, los números j N(1) y j N(2 )
n n
exceden los límites admitidos si N es bastante grande. Esto puede causar la interrupción de
cálculos. Aunque dicha interrupción no ocurra y j N(1) y j N(2 ) se hallan exactamente, hay otro
problema grave. Supongamos que al calcular 1-s se produce únicamente un error pequeño e.
Entonces, en lugar de la solución exacta j n calculada según (31.20), obtenemos la solución
aproximada j n + dj n donde dj n = e × j n(2 ) . Cuando n ~ N, el error dj n es proporcional a 5 N e .
Por eso, si N es grande, entonces el error dj N es mucho mayor que el valor j N de la solución
exacta acotada que no depende de N ( j N es igual a y ). Podemos ver que el método de disparo
genera errores grandes por su inestabilidad. □
Ejercicios:
é b1 c1 L 0 ù
êa b O M ú
1. Sea A=ê 2 2 ú una matriz tridiagonal, y sean d 0 = 1, d 1 = b1 , y
ê M O O cn -1 ú
ê ú
ë 0 L a n bn û
d k = bk d k -1 - ak ck -1 d k -2 , 2 £ k £ n. Demuestre que d k = det D k donde
é b1 c1 L 0 ù
êa b O M ú
Dk = ê 2 2 ú , 1£ k £ n.
ê M O O ck -1 ú
ê ú
ë 0 L ak bk û
248
2. Si todos los d k = det D k son distintos de cero, entonces la factorización LU de la matriz A del
ejercicio 1 es
éd1 ù
é 1 0 L 0ù ê d c1 L 0 ú
ê d0 úê 0 ú
ê da 2 1 O M úê 0 d2 O M ú
A = LU = ê 1
úê d ú.
ê M O O 0ú ê 1
d M O O c n -1 ú
ê 0 L a n n - 2 1ú ê ú
êë d n -1 ú ê d ú
û 0 L 0 n
êë d n -1 úû
3. Sea T = {t ij } una matriz tridiagonal n ´ n de Toeplitz (véase el ejercicio 15, § 3) y n>2.

Demuestre que T -1 es de Toeplitz si y sólo si T es triangular.
4. ¿Obtenemos una matriz tridiagonal si multiplicamos dos matrices tridiagonales?
249
§ 32. Condiciones periódicas de contorno
Consideremos de nuevo el sistema de ecuaciones algebraicas lineales tripuntuales
ai j i -1 - bi j i + ci j i +1 = f i , i = 1,2,3..., N (32.1)
con las condiciones periódicas de contorno
j 0 = j N , j N +1 = j 1 (32.2)
donde j 1 , j 2 ,...,j N son incógnitas, y ai, bi, ci, fi son parámetros conocidos. Este problema
surge a menudo en un nivel fraccionado (a lo largo de cada círculo de latitud) al aplicar el método
de separación para resolver los problemos de dinámica de la atmósfera (véase, por ejemplo,
Marchuk y Skiba, 1976, 1992). Se puede escribir el sistema (32.1), (32.2) de la forma vectorial:
r r
Ax = g (32.3)
r r
donde x = (x1 , K , x N ) es el vector incógnito (la solución), g = (g 1 , K , g N ) es un vector dado, y
T T
é- b1 c1 0 0 a1 ù
êa - b2 c2 0 0 úú
ê 2
A=ê L L L L L ú (32.4)
ê ú
ê 0 0 a N -1 - b N -1 c N -1 ú
êë c N 0 0 aN - bN úû
La matriz A es de dimensión n y se diferencia de la matriz tridiagonal
é- b1 c1 0 0 0 ù
êa - b2 c2 0 0 úú
ê 2
B=êL L L L L ú (32.5)
ê ú
ê 0 0 a N -1 - b N -1 c N -1 ú
êë 0 0 0 aN - bN úû
250
sólo por dos elementos situados en la esquina derecha superior y en la izquierda inferior.
r r
Definición. Para dos vectores columnas u y v no nulos de n componentes, el producto
rr
u v T es una matriz de dimensión n del rango 1 con los elementos u i v j . ð
r r
Sea u = (1,0, K,0, c N ) T y v T = (1,0, K,0, a N ) dos vectores que tienen sólo dos
componentes no nulos: el primero y el último. Se puede presentar la matriz A como
rr
A = C + uv T (32.6)
donde
C = B + diag{- 1,0, K ,0,-a1c N } (32.7)
Si la matriz C es no singular, entonces según la fórmula de Sherman-Morrison (Golub y Ortega,
1992),
(C + urvr )T -1 rr
= C -1 - a -1C -1u v T C -1 (32.8)
rr
para cada matriz u v T de dimensión n del rango 1, donde
r r
a -1 = 1 + v T C -1u (32.9)
Entonces la solución del sistema (32.3), es decir, del sistema
rr r r
(C + u v T ) x = g , (32.10)
tiene, debido a (32.8), la forma siguiente:
r
( rr
x = C + uv T )
-1 r r rr r r r r r
g = C -1 g - a -1C -1u v T C -1 g = y - a -1 (v T y) z (32.11)
donde
r r r r
y = C -1 g , z = C -1u (32.12)
251
y, según (32.9),
r r
a -1 = 1 + v T z (32.13)
Debido a (32.7) y (32.5), la matriz C es tridiagonal y, por lo tanto, se puede resolver ambos
sistemas
r r r r
Cy = g, Cz = u (32.14)
por el método de factorización descrito en § 31. Luego, usando la fórmula (32.13) calculamos
r
a -1 , y finalmente hallamos la solución requerida x del sistema original (32.3) por medio de la
ecuación (32.11):
r r r r r
x = y - a -1 (v T y ) z (32.15)
Observación 32.1. Los sistemas (32.14) tienen la misma matriz y, por lo tanto, se puede
resolver ambos sistemas simultáneamente (por ejemplo, usando procesadores paralelos). ð
Observación 32.2. El algoritmo descrito aquí es un poco más económico que la
eliminación de Gauss aplicada a la matriz original A.
Ejercicios:
1. Verifique la fórmula (32.6).

2. Verifique la fórmula de Sherman-Morrison (32.8).
3. Verifique la fórmula de Sherman-Morrison-Woodbury:
(C + UV )T -1
(
= C -1 - C -1U E + V T C -1U )
-1
V T C -1
donde U y V son dos matrices n ´ m , y UV T es la matriz del rango m. La fórmula de
Sherman-Morrison (32.8) es un caso particular de esta fórmula cuando m=1.
252
Capítulo VI. Métodos iterativos para problemas lineales
r r
Cuando la matriz A del sistema Ax = b es densa, o de dimensión grande, a menudo los métodos
iterativos son más efectivos y económicos. Estos métodos generan una sucesión de soluciones
aproximadas {x k } . En este capítulo consideramos sólo algunos de los métodos iterativos: el

r
método de Jacobi, el método de Gauss-Seidel, el método de sobre-relajaciones sucesivas, el
método de Richardson, y el método de direcciones conjugadas. La evaluación de cada método
iterativo se enfoca invariablemente sobre el problema de la rapidez de convergencia de las
iteraciones y sobre el problema de la realización del método. El objetivo principal de este
capítulo es analizar varios problemas que surgen en las aplicaciones de dichos métodos
incluyendo errores de iteración, convergencia de la solución numérica (aproximada) hacia la
solución exacta, optimización de un método iterativo con fin de acelerar su convergencia. Este
análisis ayudará elegir un método apropiado para resolver un problema particular de álgebra
r r
lineal. La forma más conveniente para empezar las iteraciones del problema Ax = b es
r r r
x = Bx + d . Sobre este tema se recomiendan los trabajos de Faddeev y Faddeeva (1963), van
Kempen (1966), Young, 1971, Forsythe y otros (1977), Marchuk (1982), Golub y Ortega (1992)
y Ciarlet (1995).
§ 33. Método de Jacobi (iteraciones simples)

r r
Sea a ii ¹ 0 ( i = 1,..., n) . Cambiamos Ax = b por un sistema equivalente
r r r
x = Bx + d (33.1)
253
r r
donde B = - D -1 A + E , D = diag{a11 , a22 ,K, ann }, y d = D -1b . El método de Jacobi, también
llamado iteraciones simples, se realiza por medio de la fórmula

r
x (k ) = Bx (k -1) + d , k = 1,2,3,...
r r
(33.2)
r
donde para empezar los cálculos se elige un vector x ( 0) inicial (Marchuk, 1982; Ciarlet, 1995).
r r r
Este vector se considera como la aproximación inicial de la solución exacta x* = Bx* + d del
problema (33.1), y las iteraciones x (k ) se llaman aproximaciones sucesivas de la solución exacta.

r
La pregunta interesante es: ¿ Cuándo las iteraciones (33.2) convergen hacia la solución exacta
r r r
x* = Bx* + d ? Exponemos el teorema que proporciona una condición suficiente para la
convergencia del método de Jacobi.
Teorema 33.1. Si B < 1 por lo menos en una norma matricial, entonces el sistema
r r
(33.1) tiene una sólo solución x* , y las iteraciones x (k ) definidas por la fórmula (33.2) convergen
r r
hacia la solución exacta x* para cualquier vector inicial x ( 0) con la velocidad equivalente a la de
una progresión geométrica con la razón B .
Demostración. La solución exacta satisface la ecuación
r r r
x* = Bx* + d (33.3)
Usando la desigualdad triangular para una norma vectorial, obtenemos
r r r r r
x* £ Bx* + d £ B x* + d ,
es decir,
r
r d
x* £ (33.4)
1- B
254
r r
De la última desigualdad se deduce la unicidad de la solución del sistema homogéneo x = Bx y,
r
por tanto, la existencia y unicidad de la solución x* del sistema (33.1) para cualquier término
r
independiente b . Ahora analicemos la convergencia del método. Sea
e (k ) = x (k ) - x*
r r r
(33.5)
el error de k-ésima iteración (aproximación). Restando la ecuación (33.3) de la ecuación (33.2),
hallamos
e (k ) = Be (k -1)
r r
(33.6)
y, consiguientemente, e (k ) = B k e (0 ) , donde B k es la k-ésima potencia de la matriz B, y e (0 ) es el

r r r
error inicial. Entonces,
e ( k ) £ B k e (0 ) £ B e (0 )
r r k r
(33.7)
Debido a la condición B < 1 y a la estimación (33.7), cuando k aumenta, el error e (k ) = x (k ) - x*

r r r
tiende al cero ( e ( k ) ® 0 ) coma una progresión geométrica con la razón B . Teorema ha

r
quedado demostrado. □
Observación 33.1. Mientras menor sea la norma B de la matriz, más rápida es la
convergencia. Esta propiedad se deduce directamente de (33.7). Consideremos la situación
cuando B es menor que uno, pero cerca a uno; entonces, la convergencia es muy lenta, y el
número de iteraciones necesarios para disminuir la norma e ( k ) del error e (k ) = x (k ) - x* depende

r r r r
significativamente del error inicial e (0 ) . En este caso, es deseable “adivinar” bien el vector inicial
r
r
x ( 0) . Sin embargo la elección de dicho vector no tiene importancia si la norma B es pequeña y
la convergencia es rápida. □
255
Observación 33.2. Sea ei(k ) i-ésimo componente del error e ( k ) de k-ésima iteración.
r
r
Como ei( k ) £ e ( k ) para cada i , todas los componentes ei(k ) tienden al cero con la misma
k r
velocidad: ei( k ) £ B e ( 0) . □
Observación 33.3. Recordemos que en un espacio vectorial, dos normas arbitrarias o p
y o q son equivalentes (véase (2.23)), es decir,
r r r
C x p£ x q £ K x p
(33.8)
r
para cualquier vector x del espacio y, en particular,
r r r
C e (k ) £ e (k ) £ K e (k ) (33.9)
p q p
Así, de la convergencia de las iteraciones en la norma o p se deduce su convergencia en la norma
o q , y viceversa. Entonces hay que encontrar sólo una norma matricial apropiada en el sentido
de que B < 1 . □
La elección de una norma apropiada de la matriz B requiere una experiencia, como se
deduce del ejemplo siguiente.
Ejemplo 33.1. Sea
é- 3 / 5 3 / 5ù
B=ê ú ,
ë 2 / 5 1/ 5û
la matriz del proceso iterativo (33.2). Calculemos la 1-norma y la 2-norma de la matriz. Tenemos
1/ 2
2
6 æ 2 2 ö 23
B 1 = max å bij = > 1 , y º çç åå bij
2
B2£ B ÷ = < 1.
1£i £ 2 5 F ÷ 5
j =1 è i =1 j =1 ø
256
Se deduce de aquí que se puede usar el teorema 33.1 sólo con la 2-norma, mientras que la 1-
norma es inútil. Para otra matriz,
é 4 / 5 1 / 10 ù
B=ê ú ,
ë- 1 / 5 3 / 5 û
por el contrario,
1/ 2
2
9 æ 2 2 ö 21
B 1 = max å bij = < 1 , B 2 £ çç åå bij
2
y ÷ = >1
1£i £ 2 10 ÷ 20
j =1 è i =1 j =1 ø
y por tanto, la 2-norma es inútil. Entonces, en el análisis de convergencia del método de Jacobi
hay que hallar una norma apropiada. □
Estimación del error de las iteraciones. Ahora derivamos unas estimaciones muy útiles
en la práctica que permiten estimar el error de k-ésima aproximación a través de la cercanía de las
dos últimos iteraciones x (k ) y x (k -1) . Según (33.6), tenemos

r r
x* = x (k ) + B( x* - x (k -1) )
r r r r
(33.10)
Restando de las ambas partes de (33.10) el vector x (k -1) , obtenemos

r
x* - x (k -1) = x (k ) - x (k -1) + B( x* - x (k -1) )

r r r r r r
y, por lo tanto,
x* - x (k -1) £ x ( k ) - x ( k -1) + B( x* - x ( k -1) ) £ x (k ) - x (k -1) + B ( x* - x ( k -1) ) ,

r r r r r r r r r r
o bien,
1 r (k ) r (k -1)
x* - x (k -1) £
r r
x -x (33.11)
1- B
257
Además, en virtud de (33.10) tenemos
x* - x ( k ) £ B x* - x (k -1)
r r r r
(33.12)
De las desigualdades (33.11) y (33.12), obtenemos finalmente la estimación básica
B
x* - x (k ) £ x (k ) - x (k -1)
r r r r
(33.13)
1- B
que permite evaluar el error de k-ésima aproximación a través de la diferencia entre las dos
últimas aproximaciones.
Anunciamos un criterio que ofrece una condición necesaria y suficiente para la
convergencia del método de Jacobi.
Teorema 33.2 (criterio de la convergencia). Supongamos que el sistema (33.1) tiene una
r r
sólo solución x* . Entonces las aproximaciones sucesivas (33.2) convergen hacia la solución x*
r
para cualquier vector inicial x ( 0) si y sólo si todos los autovalores de la matriz B están dentro de
un disco del radio unitario, es decir, si el radio espectral de B satisface la desigualdad r ( B) < 1 . □
Puede ocurrir que las condiciones proporcionadas por el teorema 33.2 sean cumplidas, y
las del teorema 33.1 no. Sin embargo, en general, no es fácil estimar el radio espectral de la
matriz B, y por tanto, utilizar el teorema 33.2. No obstante, ya sabemos un método iterativo
(véase § 5) para calcular r ( B) = max li ( B) . Además, ahora demostremos que el método de

i
r r
Jacobi para resolver el sistema Ax = b siempre converge para cada matriz A con la diagonal
principal dominante.
r r
Teorema 33.3. Sea Ax = b un sistema de las ecuaciones lineales algebraicas donde A es
una matriz con la diagonal principal dominante, es decir,

258
max å aij / aii < 1 (33.14)
i
j ¹i
r r
Entonces el método de Jacobi (33.2) converge hacia la solución única de la ecuación Ax = b
(33.1) para cualquier vector inicial x (0 ) .

r
Demostración. Presentemos la matriz A del sistema de la forma A = D - H , donde la matriz

r r
D = diag{a11 , a22 ,...,ann } es diagonal. Entonces el sistema original ( D - H ) x = b se transforma a
r r r r r
la forma x = Bx + d donde B = D -1 H , y d = D -1b . Usando la norma matricial
B ¥
= max å bij y la condición (33.14), obtenemos
i
j ¹i
aij
B ¥
= max å bij º max å <1 (33.15)
i
j ¹i
i
j ¹i aii
y, por lo tanto, según el teorema 33.1, las iteraciones (33.2) convergen. El teorema queda
demostrado. □
Además, notemos que la rapidez de convergencia aumenta junto con la dominación
diagonal por la disminución de la norma B ¥ .
Ejercicios:
1. Demuestre que el comportamiento asintótico del vector de error e (k ) = B k e (0 ) no es peor que

r r
(r ( B))k donde r (B) es radio espectral de la matriz B [Sugerencia: use la norma euclidiana
para los vectores e (k ) y e (0 ) , y la norma espectral para la matriz B k ].
r r
2. Demuestre que mientras menor sea el radio espectral r (B) de la matriz B, más rápida es la
convergencia. [Sugerencia: Use Observación 33.1].
3. Sea A una matriz simétrica. Consideremos un proceso iterativo no estacionario de la forma
r
x (k +1) = x (k ) - a k ( Ax ( k ) - b ) , donde a k > 0 depende del número de la iteración. Entonces
r r r
k
e (k ) = qk ( A)e (0 ) donde qk ( A) = Õ ( E - a i A) es un polinomio. Encuentre las raíces del
r r
i =1
259
polinomio algebraico q k (t ) . Minimice el error del proceso iterativo eligiendo q k (t ) en la
forma de los polinomios de Chébyshev (véase § 10).
4. (Ciarlet, 1995). Demuestre que qk ( A) 2 £ max qk (t ) , donde q k (t ) es el polinomio del

t
ejercicio 3, y el máximo se busca sobre todos los t del intervalo espectral de la matriz
simétrica A: l1 £ t £ ln .
5. Sea A una matriz antihermitiana de orden 2: A * = - A . Demuestre que los dos autovalores de
la matriz asociada con el método de Jacobi J = E - D -1 A son puros imaginarios, or reales.
é3 + d 1 2 ù
ê 3+d - 2 úú , donde d ³ 0 es un número pequeño, y sea Bd la matriz B
6. Sea Ad = ê - 1
êë - 2 2 3 + d úû
en el método de Jacobi (33.2). Los autovalores de la matriz B0 son {0, + i, - i}, y por lo tanto
el método de Jacobi diverge un mínimo. Demuestre que el método de Jacobi converge si
d > 0 [Sugerencia: Use el criterio de Gershgorin (teorema 6.2) para estimar los autovalores
de la matriz Bd ].
260
§ 34. Método de Gauss-Seidel
Consideremos el sistema de ecuaciones lineales
r r
Ax = b (34.1)
donde todos los elementos diagonales de la matriz A difieren de cero: a ii ¹ 0 ( i = 1,..., n) . Si
dividimos i-ésima ecuación del sistema (34.1) entre aii (i = 1,..., n ) , y después trasladamos todas
las incógnitas salvo x i a la derecha, entonces llegaremos a un sistema equivalente
r r r
x = Cx + d (34.2)
donde
ì- aij / aii , j ¹ i
, C = {cij }, cij = í
bi
di =
aii î 0 , j =i
En el método de Gauss-Seidel las iteraciones se realizan por medio de la fórmula
i -1 n
xi( k ) = å
j =1
cij x (jk ) + åc
j =i +1
( k -1)
ij x j + di (34.3)
donde xi(0 ) son arbitrarias ( i = 1,..., n; k = 1,2,... ). A diferencia de las iteraciones de Jacobi, para
obtener i-ésimo componente de k-ésima aproximación en el método de Gauss-Seidel se utilizan
inmediatamente todos los componentes x (jk ) obtenidos (con j < i ). Las condiciones de
convergencia de los métodos de Jacobi y de Gauss-Seidel no coinciden, pero se cruzan. En
algunos casos, el método de Gauss-Seidel proporciona una convergencia más rápida (Marchuk,
1982; Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995).
Consideremos de nuevo la ecuación (34.1). El método de Jacobi (iteraciones simples) y el
método de Gauss-Seidel se puede presentar en términos de las matrices L, D y U definidas por
261
é0 K K 0ù é0 a12 L a1n ù
êa 0 K 0úú ê0 0 L a2 n úú
L = ê 21 , U =ê
ê M M O Mú êM M O an-1,n ú
ê ú ê ú
ëan1 an 2 K 0û ë0 0 L 0 û
D = diag{a11 , a22 ,K, ann }
Es evidente que
A = L + D +U (34.4)
En particular, una iteración (un paso) de Jacobi tiene la forma
r r r
M J x ( k +1) = N J x ( k ) + b (34.5)
donde
M J = D, y N J = -(L + U ) (34.6)
Por otro lado, una iteración del método de Gauss-Seidel se realiza según la fórmula
r r r
M S x (k +1) = N S x (k ) + b (34.7)
donde
M S = D + L y N S = -U (34.8)
La forma canónica de ambos métodos iterativos es
r r r
Mx (k +1) = Nx (k ) + b (34.9)
donde M - N = A . La pregunta interesante es: ¿ Cuándo convergen las iteraciones (34.9) hacia la
r r
solución exacta x = A-1b ?
262
r
Teorema 34.1. Supongamos que b es un vector dado de dimensión n, y A = M - N es
una matriz no singular. Si M tampoco es singular, y el radio espectral r M -1 N de la matriz ( )

M -1 N satisface la desigualdad r (M -1 N ) < 1 , entonces las iteraciones x (k ) definidas por la
r
r r r
fórmula (34.9) convergen hacia la solución exacta x = A-1b para cualquier vector inicial x ( 0) .
r r r r r r
Demostración. Sea e (k ) = x (k ) - x el error de k-ésima iteración. Ya que Mx = Nx + b , tenemos
(
r r
) r
( r
M x (k ) - x = N x (k -1) - x )
y, por lo tanto,
r r
(
k r
e (k ) = M -1 Ne (k -1) = M -1 N e (0 ) )
Estimando el error en la norma euclidiana, obtenemos
r
e (k )
2
£ M -1 N
k
2
r
e (0 )
2
(
£ r M -1 N ) k r
e (0 )
2
Debido a que r (M -1 N ) < 1 , e (k )

r
® 0 . El teorema ha quedado demostrado. □
2
Ejemplo 34.1. Consideremos el método de Jacobi:
Dx (k +1) = -(L + U )x (k ) + b (34.10)
Sea A una matriz con la diagonal principal dominante, es decir, max å aij / aii < 1 . Esta
i
j ¹i
(
condición garantiza el cumplimiento de la desigualdad r M J-1 N J < 1 y, por consiguiente, la )
convergencia de las iteraciones. En efecto, r (M J-1 N J ) £ D -1 (L + U ) = max å aij / aii < 1 .
¥ i
j ¹i
Entonces, según el teorema 34.1, las iteraciones convergen (véase teorema 33.3). Además, la
rapidez de convergencia aumenta en función del grado de dominancia de la diagonal. □
263
Observación 34.1. El teorema 1 es un resultado teórico básico para los métodos
iterativos (34.9) de un paso. Notemos que, en general, es difícil aplicarlo para obtener
inmediatamente una conclusión sobre la convergencia, ya que normalmente el radio espectral de
la matriz iterativa es desconocido. Sin embargo, para clases particulares de matrices es bastante
fácil verificar que la condición de convergencia se satisface. Por ejemplo, sabemos que el método
de Jacobi converge para todas las matrices con la diagonal principal dominante. Ahora
demostramos que el mismo resultado también es válido para el método de Gauss-Seidel. □
Teorema 34.2. Sea A una matriz con la diagonal principal dominante:
a ii > å a ij , i=1,2,…,n (34.11)

j ¹i
Entonces el método de Gauss-Seidel converge hacia la solución única de la ecuación (34.1) para
r
cualquier vector inicial x (0 ) .
r r r r r
Demostración. Transformemos la ecuación Ax = b a la ecuación x = Hx + d donde
r r r
H = -(D + L) U , y d = (D + L ) b .
-1 -1
Sean l y v un autovalor y su autovector
correspondiente de la matriz H:
lvr = Hvr = -(D + L)-1Uvr
l (D + L)vr = -Uvr (34.12)
Supongamos que vk = max vi . La k-ésima ecuación de (34.12) es

1£i £n
æ ö
l çç a kk v k + å a kj v j ÷÷ = -å a kj v j (34.13)
è j <k ø j >k
264
Designemos
a kj v j a kj v j
a =å , b =å
j <k a kk v k j >k a kk v k
Entonces se puede escribir (34.12) como
l (1 + a ) = -b
y por lo tanto,
b b
l £ £ <1
1+a 1- a
Aquí usamos la desigualdad b < 1- a que se deduce de la estimación a + b £ a + b < 1 .
Demostramos que r(H)<1 y, según el teorema 34.1, el teorema 34.2 queda demostrada. □
Teorema 34.3. Sea A una matriz simétrica y positivamente definida. Entonces las
iteraciones de Gauss-Seidel convergen hacia la solución única de la ecuación (34.1) para

r
cualquier vector inicial x (0 ) .
Demostración. Ya que A es simétrica, tenemos U = LT y, por tanto, (34.4) acepta la forma
A = L + D + LT , donde L es una matriz triangular inferior con los elementos nulos en su diagonal
principal. Demostramos que todos los autovalores de la matriz G = M S-1 N S = -( D + L) -1 LT están
estrictamente dentro del círculo unitario. Ya que la matriz D es positiva, introducimos otra
matriz:
{ }{
G1 = D1 / 2 GD -1 / 2 = - D1 / 2 ( D + L) -1 LT D -1 / 2 = - D1 / 2 ( D + L) -1 D1 / 2 D -1 / 2 LT D -1 / 2 }
(
= - D -1 / 2 ( D + L) D -1 / 2 )
-1
LT1 = -( E + L1 ) -1 LT1 (34.14)
donde L1 = D -1 / 2 L D -1 / 2 . Las matrices G y G1 tienen los mismos autovalores. En efecto, si

265
r r
G1 x = lx (34.15)
r r
entonces G( D -1 / 2 x ) = l ( D -1 / 2 x ) . Por lo tanto es suficiente demostrar que r (G1 ) < 1.
r r r
Supongamos que el autovector x en (34.15) es unitario, es decir, x * x = 1 . Debido a (34.14) y
(34.15) obtenemos
r r
- ( E + L1 ) -1 LT1 x = lx
o bien,
r r
- LT1 x = l ( E + L1 ) x .
Entonces
r r r r r r r r
- x * LT1 x = l ( x * Ex + x * L1 x ) = l (1 + x * L1 x ) (34.16)
r r
Debido a que L1 tiene elementos reales, tenemos LT1 = L1 , y si x * L1 x = a + ib , entonces
*
r r
x * LT1 x = a - ib . Sustituyendo estos valores en la ecuación (34.16) obtenemos
2 a2 + b2 a2 + b2
l = =
1 + a + ib
2
(1 + 2a) + a 2 + b 2
Se deduce de aquí que l < 1 si 1+2a>0. Demostremos ahora la última desigualdad. Con este
fin notemos que la matriz D -1 / 2 A D -1 / 2 = D -1 / 2 ( L + D + LT ) D -1 / 2 = E + L1 + LT1 es positiva, es

r r r r
decir, 0 < 1 + x * L1 x + x * LT1 x = 1 + (a + ib) + (a - ib) = 1 + 2a . Por lo tanto, l < 1 . Según el
teorema 34.1, el teorema 34.3 queda demostrada. □
El teorema 34.3 se usa frecuentemente en los problemas elípticos donde a menudo las
matrices son simétricas y positivas.
266
Errores de los métodos. Ambos métodos iterativos, tanto el de Jacobi como el de Gauss-
Seidel, tienen la forma

r r r
x ( k +1) = Bx ( k ) + d (34.17)
El error de k-ésima iteración se estima como

r r
(r r
x ( k ) - x * = B k x (0 ) - x * ) (34.18)
Supongamos que la matriz B de dimensión n tiene n autovectores linealmente independientes.

r r r
Usando la base de los autovectores u i del problema espectral Bui = li ui , se puede escribir
n
r r r
x ( 0) - x * = åa u
i =1
i i (34.19)
y, por lo tanto, presentar el error de la forma
n
r r r
x (k ) - x * = å lkia i u i (34.20)
i =1
r r
Así, para reducir la amplitud a i en el i-ésimo componente del error inicial x (0) - x * por el factor
10 - m es necesario hacer k iteraciones, donde k se estima como
k m
li £ 10 -m , o k³ (34.21)
- lg li
Asintóticamente (para k grande), en la suma (34.20) el término con el autovalor máximo según
módulo es dominante y, por lo tanto, este término se usa para las estimaciones asintóticas.
Ejercicios:
1. Faddeev y Faddeeva (1963) mencionan que el proceso de Seidel

i -1 n
r r r
xik = å bij x kj + åb x ij
k -1
j + d i se obtiene de la forma x = Bx + d del sistema original
j =1 j =i +1
r r
Ax = b , B=E-A, mientras que el proceso iterativo definido por las fórmulas (34.2) y (34.3)
se llama método de Nekrasov (1892). Demuestre el teorema de Nekrasov: Si la matriz A es
r r
positiva, entonces el método (34.3) para el sistema Ax = b converge.
267
2. Demuestre que si los elementos diagonales de la matriz positiva A son positivos, entonces la
condición de Nekrasov (véase el ejercicio 1) es también necesaria para la convergencia.
3. (Golub y Ortega, 1992). Sea A = eL + D - U , donde U ¥

= 1 y e es un parámetro pequeño.
Encuentre la frontera superior del radio espectral de la matriz (eL + D) -1U de las iteraciones
de Gauss-Seidel.
4. Presentando la matriz A como A = P - N donde P es una matriz no singular, es posible
r r r
considerar el proceso iterativo Pxrk +1 = Nxrk + b para hallar la solución del problema Ax = b .
Demuestre que es válida la siguiente afirmación (Iserles, 1998): Si las matrices A y
P + P T - A son simétricas y positivas, entonces dicho proceso iterativo converge.
é3 2 1 ù
5. (Iserles, 1998). Consideremos la matriz simétrica y positiva definida A = ê2 3 2ú . Sus
ê ú
êë1 2 3úû
autovalores son 2 y 12 (7 ± 33 ) > 0 . Demuestre que el método de Gauss-Seidel para la matriz
A converge, y el método de Jacobi diverge [Sugerencia: el radio espectral de la matriz en el
método de Gauss-Seidel es menor que uno, y el radio espectral de la matriz en el método de
Jacobi es 16 (1 ± 33 ) > 1 ].
6. (Morton y Mayers, 1994). Sea A = L + D + LT una matriz simétrica y positiva definida, donde
D es la matriz diagonal de los elementos diagonales de A, y L es la matriz estrictamente
triangular que coincide con la parte correspondiente de la matriz A. Supongamos que l es un
autovalor y x es el autovector correspondiente del problema espectral Gxr = lxr para la matriz
r
iterativa G = M S-1 N S = -( D + L) -1 LT del método de Gauss-Seidel, además, el autovector está
r r
r* r x * LT x
normalizado por x Dx = 1 . Demuestre que l = - r r.
1+ x * Lx
7. (Ames, 1992). Demuestre que el método de Gauss-Seidel converge para el sistema
5 x1 + 3x2 + 4 x3 = 12
3x1 + 6 x2 + 4 x3 = 13
4 x1 + 4 x2 + 5 x3 = 13
mientras el método de Jacobi diverge. [Solución: x1 = x2 = x3 = 1 ].
8. El siguiente ejercicio de Collatz (1942) muestra lo contrario. Verifique que el método de

Jacobi converge para el sistema
x1 + 2 x2 - 2 x3 = 1
x1 + x2 + x3 = 3
2 x1 + 2 x2 + x3 = 5
mientras el método de Gauss-Seidel diverge. [Solución: x1 = x2 = x3 = 1 ].
268
§ 35. Otros métodos iterativos
Método de sobre-relajaciones sucesivas (successive over relaxation). En ciertos casos, una
modificación simple del método de Gauss-Seidel puede acelerar considerablemente la velocidad
de convergencia del método (Forsythe y otros, 1977; Marchuk, 1982; Morton y Mayers, 1994;
Ciarlet, 1995; Iserles, 1998). Sea x k la aproximación k-ésima conocida. Con el fin de hallar la
r
iteración siguiente x (k +1) , primeramente se calcula un valor intermedio por medio del método de
Gauss-Seidel:
1 æ ö
xˆ i( k +1) = ç bi - å aij x (jk +1) - å aij x (jk ) ÷ (35.1)
aii ç ÷
è j <i j >i ø
El valor final xi(k +1) de k+1-ésima iteración se encuentra luego mediante la formula
(
xi(k +1) = xi(k ) + w xˆi(k +1) - xi(k ) ) (35.2)
donde w es un parámetro que elegimos para acelerar la velocidad de convergencia. Con el fin de
escribir el método nuevo por una sola ecuación, sustituiremos (35.1) en (35.2)
w æç (k ) ö
xi( k +1) = (1 - w )xi( k ) + b - å a x ( k +1)
- å a x j ÷,
÷ (35.3)
aii çè
i ij j ij
j <i j >i ø
luego representamos (35.3) en la forma
aii xi(k +1) + w å aij xi(k +1) = (1 - w )aii xi(k ) - w å aij x (jk ) + w bi , i = 1,2,... ,n (35.4)
j <i j >i
Usando la presentación A = - L + D - U en lugar de (34.4), se puede escribir las relaciones (35.4)
en la forma matricial como
Dx ( k +1) - wLx ( k +1) = (1 - w )Dx ( k ) + wUx ( k ) + w b

r r r r r
(35.5)
269
La matriz D - wL es triangular inferior, ya que D es la matriz diagonal y L es la matriz triangular
inferior. Además, por suposición, tiene elementos diagonales no nulos. Por eso D - wL no es
singular, y
x ( k +1) = (D - wL) [(1 - w )D + wU ]x ( k ) + w (D - wL) b

r -1 r -1
r
(35.6)
Este método se llama método de sobre-relajaciones sucesivas (SOR). Si w = 1 , el método se
reduce al de Gauss-Seidel. Ahora demostramos que 0 < w < 2 es la condición necesaria para la
convergencia del método de SOR
Teorema 35.1. El método del SOR diverge si w £ 0 o w ³ 2 .
Demostración. Definimos la matriz H w como
H w = (D - wL )
-1
[(1 - w )D + wU ] (35.7)
Notamos que
det(D - wL) = det D -1 , y det[(1 - w )D + wU ] = det[(1 - w )D]

-1
(35.8)
y por tanto,
det Hw = det D -1 det[(1 - w )D] = (1 - w ) n (35.9)
Si la multiplicidad geométrica de cada autovalor li ( H w ) de la matriz H w es uno, entonces
det H w = l1 ( H w ) × l2 ( H w )Lln ( H w ) (35.10)
Comparando (35.9) con (35.10) obtenemos que
1 - w £ max× li ( H w ) (35.11)
1£i £ n
Pero, según el teorema 34.1, el método de SOR (35.6) converge si max× li ( H w ) < 1 . Entonces,
1£i £ n
1 - w < 1 es la condición necesaria para la convergencia del método, y por tanto, el método del
SOR diverge si w £ 0 o w ³ 2 . □
270
En general, la condición 0 < w < 2 no garantiza la convergencia del método. Sin
embargo, si la matriz A es hermitiana y positivamente definida, las iteraciones del método de

r r
SOR convergen hacia la solución exacta del sistema Ax = b para cualquier 0 < w < 2 y cualquier
vector inicial x (0 ) (teorema de Ostrowsky).

r
En la práctica, en general, no es fácil elegir un valor apropiado (óptimo) del parámetro w
para acelerar la convergencia del proceso iterativo. Sin embargo, para algunas clases de matrices
es posible optimizar las iteraciones. Formulamos ahora un teorema que a menudo es muy útil en
las aplicaciones, ya que permite elegir un parámetro óptimo w .
Teorema 35.2. Sea H w la matriz (35.7) del método de SOR, y sea m i autovalores de la
matriz iterativa J = D -1 ( L + U ) del método de Jacobi. Si todos los autovalores m i son reales y
m i < 1 entonces el valor óptimo w o del parámetro w se da en términos del radio espectral r (J )
de la matriz J como
2
wo = (35.12)
1+ 1- r 2 (J )
y siempre 1 < w o < 2 . El radio espectral correspondiente de la matriz H w es
r (Hw ) = w o -1 (35.13)
Ejemplo 35.1 (Iserles, 1998; Golub y Ortega, 1992). Consideremos un problema elíptico
- Df ( x) = g ( x) (35.14)
para el operador bidimensional de Laplace en un dominio cuadrado con las condiciones nulas de
contorno. En una malla regular con tamaño h = 1 /( N + 1) , el problema discreto tiene la forma
1
- ( f i -1, j - f i +1, j + f i , j -1 - f i , j +1 - 4 f ij ) = g ij , i= 1,2,…,N (35.15)
h2
271
El radio espectral r (J ) de la matriz J en este caso es r ( J ) = cosph y, según (35.12),
2
wo = (35.16)
1 + 1 - cos2 ph
Además, r ( H 1 ) = r 2 ( J ) es el radio espectral de la matriz del método de Gauss-Seidel, y
1 - 1 - cos2 ph
r (Hw ) = wo -1 = (35.17)
1 + 1 - cos2 ph
En particular, si N=44, entonces r ( J ) = 0.9976 , r ( H1 ) = r 2 ( J ) = 0.995 , w o = 1.87 , y
r ( H w ) = w o - 1 = 0.87 . Ya que r ( H 1 ) = r 2 ( J ) y r ( Hw ) » r 30 ( J ) , el método de Gauss-Seidel
converge dos veces más rápido y el método de SOR converge treinta veces más rápido que el de
Jacobi. •
Métodos de minimización. Algunos métodos iterativos para resolver el sistema

r r
Ax = b (35.18)
se pueden derivar usando métodos de minimización. Sea A una matriz simétrica y positiva. En
este caso, la función cuadrática
r 1r r r r
q( x ) = x * Ax - x *b (35.19)
2
r r r
alcanza su mínimo en el punto x = x* donde x* es la solución exacta del sistema (35.18).
Varios métodos de minimización se puede escribir de la forma
x (k +1) = x (k ) - a k p ( k )
r r r
(35.20)
donde p (k ) es el vector de dirección. Si p (k ) está dado, entonces se puede elegir a k con el

r r
objetivo de minimizar la función (35.19) a lo largo de la línea x ( k ) - a k p (k ) , es decir,

r r
q( x (k ) - a k p ( k ) ) = min q( x (k ) - a p ( k ) )
r r r r
(35.21)
a
Para x (k ) y p (k ) fijos, q( x (k ) - a p (k ) ) es la función cuadrática de a , y la minimización da

r r r r
272
r r
p (k ) , r (k )
a k = - r (k ) r (k ) (35.22)
p , Ap
r r r r r r r
donde r ( k ) = b - Ax ( k ) , y g , f = g * f es producto interno de dos vectores. Hay varias
r
opciones para elegir el vector p (k ) . Nosotros consideraremos aquí sólo las tres.
1. El método de Richardson (el método de descenso de mayor inclinación). En este método,
p ( k ) = rk .
r r
2. Otra estrategia es elegir p ( k ) = ek +1 donde ek = {0,...,0,1,0,...,0} es k-ésimo vector unitario

r r rT
básico, y a k se elige mediante la fórmula (35.22), k=0,1,…,n-1. La convergencia del método es
lenta, similar a la del método de Jacobi. Normalmente, n pasos según (35.20) son equivalentes a
una iteración del método de Gauss-Seidel.
3. Método de direcciones conjugadas. En este método,
r r r r
p (k ) , p ( j ) º p ( k ) , Ap ( j ) = 0 (35.23)
A
r
para cada j<k . Los vectores p (k ) definidos de esta manera se llaman vectores conjugados. Se
puede demostrar que si (35.22) y (35.23) se satisfacen entonces las iteraciones (35.20) convergen
a la solución exacta en n pasos como máximo, donde n es la dimensión de la matriz A. Esta
propiedad del método de direcciones conjugadas es de gran importancia teórica, ya que
demuestra que los dos grupos de métodos de solución del sistema de ecuaciones lineales
algebraicas, tanto exactos como iterativos, tienen puntos de intersección, es decir, no son
completamente distintos. Sin embargo, de el punto de vista práctico, esta propiedad es poco útil,
ya que los errores de redondeo no permiten obtener la solución exacta. Además, si la dimensión n
de la matriz es grande, entonces es necesario hacer muchas (exactamente n) iteraciones y, por lo

273
tanto, otros métodos iterativos son más económicos, ya que convergen más rápido (después de
pocas iteraciones).
Ejercicios:
1. Sea A una matriz hermitiana del sistema (35.18), y sea 0 < m min < m < m max su intervalo
espectral. Encuentre la condición para n ( A) = m max / m min (el número de condición de A) que
r
garantiza la convergencia y estabilidad del método x (k +1) = x (k ) - a k ( Ax ( k ) - b ) para la
r r r
elección arbitraria del parámetro a j = 1/ m j , m min < m j < m max , j=1,2,3,…, n , n es arbitrario.
2. Demuestre que la función cuadrática (35.19) se puede escribir como

1r r r r r
q( x - ap) = p* Apa 2 + p* (b - Ax )a - 12 x * (2b - Ax )
r r r r r
2
Minimice este función de a para x = x (k ) y p = p (k ) con el fin de obtener (35.22).
r r r r
3. Consideremos el método 2 del grupo (35.20) cuando p ( k ) = ek +1 donde ek = {0,...,0,1,0,...,0}

r r rT
es k-ésimo vector unitario básico, y a k se elige por la fórmula (35.22), k=0,1,…,n-1.

Demuestre que n pasos según (35.20) son equivalentes a una iteración del método de Gauss-
Seidel.
r r
4. Muestre que para la función cuadrática (35.19), Ñq( x ) = Ax - b .
r
r r
5. Sea A una matriz simétrica y positiva. Demuestre que la única solución del sistema Ax = b es
el único mínimo de la función (35.19).
6. Sea A una matriz simétrica y positiva, y sea B una matriz diagonal y positiva. Analice la
convergencia del proceso iterativo x (k +1) = x (k ) - aB -1 ( Ax ( k ) - b) . [Sugerencia: el método
r r r
iterativo es equivalente al método de Jacobi con la matriz E - aB -1 A ].

r r r
7. Método de Richardson x (k +1) = x (k ) - a k p ( k ) , p ( k ) = b - Ax ( k ) para resolver Ax = b converge
r r r r r
para cualquier matriz positiva definida A si parametros a k son bastante pequeños.
274
Capítulo VII. Métodos iterativos para problemas no lineales
A menudo, la única manera de resolver una ecuación no lineal, o un sistema de ecuaciones no
lineales es mediante un método iterativo. Como ya sabemos, en el caso de un sistema de

r r
ecuaciones lineales Ax = b puede existir una sola solución exacta x y, por lo tanto, si un proceso
r
r r
iterativo x k converge hacia la solución exacta x , entonces la convergencia es global, es decir,
r
para cualquier vector inicial x 0 . El carácter de la convergencia cambia drásticamente si la
ecuación es no lineal. Sea una ecuación con la incógnita x:
f ( x) = 0
donde f (x) es una función no lineal de x. En general, las cuatro opciones son posibles:
1) la ecuación tiene una sola solución;
2) la ecuación tiene cierto número finito de soluciones;
3) la ecuación tiene un conjunto infinito de soluciones;
4) la ecuación no tiene ninguna solución.
Por ejemplo, la ecuación f ( x) º sin x = 0 tiene una sóla solución en el segmento [p / 2, 3p / 2] ,
tres soluciones en el segmento [0, 2p ] , un conjunto infinito de soluciones en el intervalo
(- ¥, ¥) , y no tiene ninguna solución en el intervalo (0, p ) . Por lo anterior, para dos diferentes
aproximación iniciales, un proceso iterativo x k puede aproximar distintas soluciones de la
ecuación no lineal, es decir, la convergencia es local.
En este capítulo consideramos varios métodos iterativos, y en particular, el famoso
método de Newton. En cada caso se examina la rapidez de convergencia de las iteraciones. Para
ahondar en el tema se recomiendan los trabajos de Rheinboldt (1974), Hageman y Young (1981),
Marchuk (1982), Golub y Ortega (1992).
275
§ 36. Método iterativo para resolver una ecuación no lineal
Es conveniente escribir la ecuación
F ( x) = 0 (36.1)
de la forma
x = j (x) (36.2)
donde j (x) es una función no lineal dada ( j ( x) = x + F ( x) ). Más abajo enunciamos y
demostramos un teorema que proporciona suficientes condiciones de existencia, en cierto
segmento, de una sola solución de la ecuación (36.2). Este teorema también indica el método
iterativo y estimaciones del error de la referida solución aproximada.
Definición (condición de Lipschitz). Se dice que la función j (x) satisface, en el
segmento [a, b], la condición de Lipschitz con una constante a , si para cualesquiera
x1 , x2 Î [a, b] se verifica la desigualdad
j ( x1 ) - j ( x 2 ) £ a x1 - x 2 (36.3)
Observación 36.1. En particular, si la función j (x) es continuamente diferenciable en el
segmento [a, b] , ella satisface en [a, b] la condición de Lipschitz con la constante
d
a = max
j ( x) (36.4)
dx xÎ[a ,b ]
En efecto, sea y = x + nh y j ( x + ih) = j ( xi ) , j ( x) = j ( x 0 ) . Entonces,
n -1 n -1
dj
j ( x) - j ( y ) £ å j ( xi +1 ) - j ( xi ) £ h å (x i ) £ a x - y
i =0 i =0 dx
donde xi < x i < xi +1 . □
Teorema 36.1 (Volkov, 1990). Supongamos que la función j (x) satisface en el
segmento [x 0 , x 0 + r ] la condición de Lipschitz con la constante a , además
0 <a <1 (36.5)
276
0 £ j ( x0 ) - x 0 £ (1 - a )r (36.6)
Entonces la ecuación (36.2) tiene en el segmento [x 0 , x 0 + r ] una sola solución x* :
x* = lim x k (36.7)
k ®¥
donde x 0 es el extremo izquierdo del segmento [x 0 , x 0 + r ],
x k = j ( x k -1 ) , k=1,2,… (36.8)
En este caso tienen lugar las estimaciones
x* - x k £ r a k (36.9)
a
x* - x k £ x k - x k -1 (36.10)
1-a
donde k=1,2,… , y
j ( x0 ) - x0
r= £r (36.11)
1-a
Demostración. Paso 1 (acotación de j (x) ). Antes que nada demostremos que la sucesión
numérica recurrente {x k } puede ser realmente hallada mediante la fórmula (36.8) y que dicha
sucesión se encuentra totalmente en el segmento [x0 , x0 + r ] perteneciendo al segmento dado
[x0 , x0 + r ]. Supongamos, para simplificar la cuestión, que x0 = 0 . Entonces, el segmento
[x0 , x0 + r ] coincidirá con el segmento [0, r ], y teniendo en cuenta la elección (36.11) de r , se
cumplirá la igualdad
j (0) = (1 - a ) r (36.12)
En la desigualdad (36.3) pongamos x1 = x, x2 = 0, x Î [0, r ] , y obtendremos
j (0) - a x £ j ( x) £ j (0) + a x (36.13)
277
De la igualdad (36.12) y la desigualdad derecha (36.13) se deduce que la función j (x) esta
acotada en [0, r ], además
j (x) £ r (36.14)
Paso 2 (inducción). Supongamos que x 0 , x1 , K , x m -1 ya fueron hallados por medio de la
fórmula (36.8), y que los mismos satisfacen la condición
0 £ xk £ r (36.15)
Por ejemplo, cuando m=2, x 0 = 0 , x1 = j ( x 0 ) = j (0) , y en virtud de (36.12), x1 obedece a la
desigualdad (36.15). Demostremos que x m = j ( x m -1 ) también satisface la desigualdad (36.15).
Con el fin de demostrar la desigualdad izquierda (36.15), es decir, x m ³ 0 , examinemos el caso
0 £ x m -1 £ min {r , j (0) / a }. Utilizando la igualdad (36.8) para k=m así como la desigualdad
izquierda (36.13), obtenemos
x m = j ( x m -1 ) ³ j (0) - a x m -1 ³ j (0) - a min {r , j (0) / a } ³ j (0) - a {j (0) / a } ³ 0
si r > j (0) / a , y
x m = j ( x m -1 ) ³ j (0) - a x m -1 ³ j (0) - a min {r , j (0) / a } ³ j (0) - ar > 0
si r < j (0) / a . Si r > j (0) / a , hay que considerar adicionalmente el caso j (0) / a £ x m -1 £ r .
Restando de la igualdad (36.8) con k=m la igualdad (36.8) con k=m-1, y teniendo en cuenta la
condición de Lipschitz (36.3), hallamos
x m - x m -1 = j ( x m -1 ) - j ( x m - 2 ) £ a x m -1 - x m - 2
Luego, análogamente obtenemos
278
x m -1 - x m - 2 £ a x m - 2 - x m -3 ,
etc. Dentro de un número finito de pasos llegaremos a la desigualdad
xm-1 - xm-2 £ a m-2 x1 - x0 £ a m-2 x1 = a m-2j (0) (36.16)
donde x0 = 0 y x1 = j (0) > 0 . De aquí, teniendo en cuenta que 0 <a <1,
xm-1 ³ j (0) / a ³ a m-1j (0) , y la desigualdad trivial x m - x m -1 ³ - x m - x m -1 , hallamos
x m ³ x m -1 - x m - x m -1 > a m -1j (0) - a m -1j (0) = 0 (36.17)
Por consiguiente, se deduce de aquí la desigualdad izquierda (36.15) para k=m. A su vez, la
desigualdad derecha (36.15) se deduce directamente de (36.8) y (36.14).
Paso 3 (convergencia del proceso iterativo). Demostremos ahora que la sucesión {x k } es
fundamental. Teniendo en cuenta la desigualdad (36.16), la cual evidentemente es válida para
cualquier m natural y x 0 arbitrario, así como la desigualdad x1 - x 0 = j ( x 0 ) - x 0 £ r que se
deduce de las condiciones (36.5) y (36.6), hallamos
n+ p n+ p n+ p
1-a p r
xn+ p - xn £ åx
m = n +1
m - x m -1 £ åa
m = n +1
m -1
x1 - x0 < r åa
m = n +1
m -1
= ra n
1-a
<a n
1-a
.
Como a n ® 0 cuando n ® ¥ , las últimas relaciones muestran que la sucesión {x k } es
fundamental. Por eso existe el límite (36.7) y, además, en vista de que la sucesión {x k } se
encuentra en el segmento [x0 , x0 + r ] , resulta que x* Î [x0 , x 0 + r ] .
Paso 4 (existencia de la solución). La función dada j (x) satisface la condición de
Lipschitz (36.3) en el segmento [x0 , x0 + r ] , lo cual significa, en particular, que la función j (x)
279
es continua en dicho segmento. Esto permite pasar al límite en la igualdad (36.8) cuando k ® ¥ .
Como resultado, obtenemos la igualdad
x* = j ( x* ) (36.18)
la cual muestra que x* Î [x0 , x 0 + r ] es la solución de la ecuación (36.2). La existencia de la
solución queda demostrada.
Paso 5 (unicidad de la solución). Admitamos que el punto x** Î [x 0 , x0 + r ] también es la
solución de la ecuación (36.2), es decir,
x** = j ( x** ) (36.19)
Restando de (36.18) la igualdad (36.19) y teniendo en cuenta la condición de Lipschitz (36.3),
obtenemos
x* - x** = j ( x* ) - j ( x** ) £ a x* - x** ,
es decir, x* - x** £ a x* - x** . Esta desigualdad es posible si existe la condición (36.5), solo
cuando x* = x** . La unicidad de solución también queda demostrada.
Paso 6 (estimaciones de la convergencia). Aún debemos establecer las estimaciones
(36.9) y (36.10) para el error x* - x k de la solución aproximada x k de la ecuación (36.2).
Utilizando las igualdades (36.18) y (36.8), y también la condición de Lipschitz, hallamos
x* - x k = j ( x* ) - j ( x k -1 ) £ a x* - x k -1 = a j ( x* ) - j ( x k - 2 )
£ a 2 x* - x k - 2 £ K £ a k x* - x 0 (36.20)
280
Debido a que x* Î [x0 , x 0 + r ] , tenemos x* - x 0 £ r . De aquí y de (36.20) se deduce la
estimación (36.9):
x* - x k £ r a k (36.21)
De las igualdades (36.8) y (36.18) obtenemos
x* - x k -1 = j ( x* ) - x k -1 + [x k - j ( x k -1 )]
de la cual, mediante la condición de Lipschitz, obtenemos
x* - x k -1 £ x k - x k -1 + a x* - x k -1 ,
o bien,
1
x* - x k -1 £ x k - x k -1
1-a
De aquí, utilizando la primera desigualdad en la cadena de desigualdades (36.20), llegamos a la
estimación (36.10). Por lo tanto, el teorema queda totalmente demostrado. •
Observación 36.2. También es válida otra variante del teorema 36.1 cuando el segmento
[x0 , x0 + r ] es sustituido por el segmento [x 0 - r , x 0 ] y en lugar de (36.6) figura la condición
x0 - j ( x0 )
0 £ x0 - j ( x0 ) £ (1 - a )r y r= .□
1-a
Ejemplo 36.1. Examinemos la ecuación
1æ aö
x = j ( x) º çx + ÷ (36.22)
2è xø
donde a es un número, 1
2
£ a £ 1 . Su solución es x* = a .
281
Tratemos de utilizar el teorema 36.1. Pongamos x 0 = a , r=1-a, es decir, elijamos
[x0 , x0 + r ] = [a,1]. Estimemos la constante de Lipschitz:
¶j 1æ a ö 1- a 1
a = max ( x) = max ç1 - 2 ÷ = £
a £ x £1 ¶ x a £ x £1 2
è x ø 2 2
Como vemos, la función j (x) satisface en el segmento [a,1] la condición de Lipschitz (36.3) con
a = 12 . Así pues, se cumple la condición (36.5). Comprobemos ahora la condición (36.6).
Teniendo en cuenta que x 0 = a , hallamos
1 1
j ( x0 ) - x0 = (a + 1) - a = (1 - a) = (1 - a )r
2 2
Por lo tanto, también se cumple la condición (36.6). Así pues, el teorema 36.1 garantiza que en el
segmento [a,1] la ecuación (36.22) tiene una sola solución ( x* = a ). Para calcularla se puede
utilizar, según (36.8), el método de iteraciones:
1æ a ö
x0 = a, xk = j ( xk -1 ) º çç xk -1 + ÷ , k=1,2,… (36.23)
2è xk -1 ÷ø
El error en el proceso de cálculo se estima por la desigualdad (36.10), la cual es más exacta que la
(36.9). Esta manera de calcular de raíz cuadrada se emplea en algunos ordenadores. □
Ejercicios:
3
1. Encuentre la constante de Lipschitz de la función x en el segmento [1,4].
2. (Bakhvalov, 1973). El método (36.8) es conveniente para encontrar las raíces p a , donde p es
entero. El problema es equivalente a la solución de la ecuación x p - a = 0 . La fórmula en
p -1 a
este caso acepta el aspecto xn+1 = xn + p -1 . Prepare un programa para hacer cálculos
p pxn
según esta fórmula. [Sugerencia: En la calidad del valor inicial x 0 se puede elegir el valor
p
Qk (a ) donde Qk (x) es el polinomio de grado k de la mejor aproximación de x.
282
17 a
3. Sea 1 £ a £ 4 . Calcule a usando x0 = p1 (a) = + , donde p1 ( x) es el polinomio lineal
24 3
de la mejor aproximación de la función x en el intervalo 1 £ a £ 4 (véase ejemplo 11.3).
4. Explique porqué la condición 0 £ j ( x0 ) - x 0 £ (1 - a )r en el teorema 36.1 es una restricción

para elegir el valor inicial x 0 .
5. Demuestre que la función g ( x) = ( x - 1) 3 ln x tiene un mínimo en x=1 aun cuando
d 2g
(1) = 0 .
dx 2
283
§ 37. Método iterativo para un sistema de ecuaciones no lineales
La interpretación geométrica de las iteraciones. Las iteraciones
x k = j ( x k -1 ) , k=1,2,… (37.1)
pueden ser interpretadas geométricamente. La solución x* de la ecuación
x = j (x) (37.2)
es la abscisa del punto de intersección de la recta y=x y la curva y = j (x) .
y y=x
y = j (x)
0 x0 x1 x 2 x 3 x* x
Fig.37.1. Iteraciones para 0 < j ¢( x) < 1 .
y = j (x)
0 x0 x2 x* x 3 x1 x
Fig.37.2. Iteraciones para - 1 < j ¢( x) < 0 .
284
Las iteraciones convergentes se muestran en las figuras 37.1 y 37.2. De estas se deduce
geométricamente que si las desigualdades 0 < j ¢( x) £ a < 1 se verifican en la vecindad del punto
x* , entonces la sucesión {x k } converge monótonamente hacia x* , del lado donde se encuentra la
aproximación inicial (Fig. 37.1). Cuando - 1 < -a £ j ¢( x) < 0 , las aproximaciones sucesivas se
sitúan consecutivamente por distintos lados de la solución x* (Fig. 37.2). En el último caso,
siempre la desviación x k respecto a x* no supera x k - x k -1 :
x* - x k £ x k - x k -1
Notamos que la convergencia será tanto más rápida cuanto menor sea j ¢(x) .
Observación 37.1. Si la función j (x) que entra en la ecuación (37.2) no satisface la
condición de Lipschitz con una constante a < 1 , las iteraciones x k = j ( x k -1 ) pueden dividir. Por
ejemplo, examinemos la ecuación
x = j ( x) º bx , b > 1
Evidentemente, la función j (x) satisface en todo el eje x la condición de Lipschitz con una
constante a = b > 1 , y no satisface esa condición con ninguna constante menor que la unidad en
cualquier segmento. La referida ecuación x = bx tiene una sola solución x* = 0 . Sin embargo,
para cualquier x 0 ¹ 0 , x k = b k x0 ® ¥ cuando k ® ¥ . •
Solución de un sistema de ecuaciones no lineales. Introduzcamos en el espacio vectorial
n-dimensional la distancia
r r r r
r ( x, y) = x - y (37.3)
285
r r
entre los vectores x y y mediante una norma o vectorial. En la calidad de la norma se puede
1/ 2
r r æ n ö
= x , x = ç å xi2 ÷
r r
elegir x ¥
= max xi , norma euclidiana x 2
, o cualquier otra norma.
1£i £ n
è i =1 ø
Entonces,
r r
ì r ¥ ( x , y ) = max xi - yi
r r ï i
r ( x, y) = í r r ì n 2ü
1/ 2
(37.4)
ï r 2 ( x , y ) = íå ( xi - yi ) ý
î î i =1 þ
r r r r
{ }
Definición. Denotamos por S ( y 0 , r ) = x : r ( x , y 0 ) < r la esfera abierta del radio r con el
r r
centro en el punto y 0 . Este conjunto contiene todos los vectores x que se encuentran a una
r
distancia del centro y 0 menor que r. Además por
r
{ r r r
}
S ( y 0 , r ) = x : r ( x , y 0 ) £ r denotamos la
r r
esfera cerrada del radio r con el centro en el punto y 0 . Así pues, la esfera cerrada S ( y 0 , r ) es la
r r
esfera abierta S ( y 0 , r ) más todos los vectores que se encuentran a distancia r del centro y 0 .
Examinemos un sistema de n ecuaciones no lineales con n incógnitas

r r r
x = j (x ) (37.5)
j ( x ) = {j1 ( x ),j 2 ( x ),K,j n ( x )}

r r r r r
donde es una función vectorial dada de la variable
x = {x1 , x2 ,K, xn } . Enunciamos sin demostrar el siguiente:

r
r r r
Teorema 37.1. Sea dada, en la esfera serrada S ( y 0 , r ) la función vectorial j (x ) , con la
r r r
particularidad de que para cualesquier x , y Î S ( y 0 , r ) se cumple la desigualdad
r (j ( x),j ( y)) £ a r (x, y )

r r r r rr
(37.6)
y además
r (j ( y 0 ), y 0 ) £ (1 - a )r
r r r
(37.7)
286
r r
donde a es un número, 0 £ a < 1 . Entonces, en S ( y 0 , r ) existe una sola solución x* de la
ecuación (37.5) con la particularidad de que
r r
x* = lim xk (37.8)
k ®¥
r r
donde x0 Î S ( y 0 , r ) arbitrariamente,
r r r
xk = j ( xk -1 ) , k=1,2,… (37.9)
Además, se cumplen las desigualdades
r (x* , xk ) £ a k r (x* , x0 ) £ 2a k r
r r r r
(37.10)
a
r (x* , xk ) £ r (xk , xk -1 )
r r r r
(37.11)
1-a
Observación 37.2. En el caso unidimensional (n=1), el teorema 37.1 no coincide con el
teorema 36.1, ya que la esfera S ( y 0 , r ) se reduce al segmento [x0 - r , x0 + r ] mientras que en el

r
teorema 36.1 se figura el segmento [x 0 , x 0 + r ]. □
Observación 37.3. Como se conocen r y a , es posible predecir el número de iteraciones
k, con el que el error r ( x* , xk ) será menor que un número dado e > 0 . En efecto, si 2a k r < e ,
r r
1 e
entonces a k < e / 2r . De aquí k > ln .□
ln a 2r
r r
Observación 37.4. La transformación del espacio vectorial (operador) j (x ) que satisface
r r
la condición de Lipschitz (37.6) con 0 £ a < 1 se llama aplicación contractiva. Si la función j (x )
es contractiva en todo el espacio, entonces la condición (37.7) no es necesaria. Sin embargo, en
esta situación también es conveniente introducir la condición (37.7) para localizar la solución
única en el espacio. □
287
r r r
Observación 37.5. En el caso particular del sistema x = Bx + b de ecuaciones lineales,
r r r r
j ( x ) = Bx + b , donde B es una matriz, y si B < 1 , dicho operador es contractivo en todo el
espacio. Efectivamente,
r (j ( x ),j ( y ) ) = Bx - By £ B x - y = B r ( x , y )
r r r r r r r r r r
donde B sirve como la constante de Lipschitz a , además, a = B < 1. Por consiguiente, para
r
las iteraciones de Jacobi x (k ) = Bx (k -1) + b es válida la estimación (37.11) que coincide con la
r r
estimación (33.13). □
Estimación de la constante de Lipschitz. Ahora mostraremos un método para evaluar la
constante de Lipschitz a . Supongamos que la función vectorial j ( x ) = {j1 ( x ),j 2 ( x ),K,j n ( x )}

r r r r r
r
tiene derivadas parciales continuas respecto a cada variable x i en la esfera cerrada S ( y 0 , r ) ,
i=1,2,…,n. Denotemos
a ij = max ¶j i / ¶x j (37.12)
S
r r r
Sea x , y Î S ( y 0 , r ) . De acuerdo con la fórmula de incrementos finitos de Lagrange, tenemos
¶j i r i
(z )(x j - y j )
n
j i ( x ) - j i ( y) = å
r r
(37.13)
j =1 ¶ x j
r r
donde z i Î S ( y 0 , r ) es cierto punto intermedio (desconocido). Con ayuda de la matriz
é ¶j1 r 1 ¶j1 r 1 ù
ê ¶x (z ) L (z ) ú
¶ xn
ê 1
ú é ¶j r ù
F=ê L L L ú º ê i (z i )ú (37.14)
¶x
ê ¶j n (z n ) L ¶j n (z n )ú ëê j úû
r r
ê ¶ x1 ¶ xn ú
ë û
las relaciones (37.13) pueden ser agrupadas en la igualdad vectorial
288
j ( x ) - j ( y ) = F (x - y )
r r r r r r
(37.15)
de aquí hallamos
r (j ( x ),j ( y ) ) = j ( x ) -j ( y ) £ F r ( x , y ) ,
r r r r r r r r r r
es decir,
r m (j ( x ),j ( y ) ) £ F r m (x, y ) ,
r r r r r r
m m = ¥, 2
donde F m £ am , y
1/ 2
n æ n n ö
a ¥ = max åa ij , a 2 = çç ååa ij2 ÷÷ (37.16)
1£i £ n
j =1 è i =1 j =1 ø
Ejemplo 37.1 (Volkov, 1990). Es necesario explicar la existencia de solución del sistema
de ecuaciones
x2 æ x + x2 ö
x1 = j1 ( x1 , x2 ) = 1.1 - sin + ln ç1 + 1 ÷
3 è 5 ø (37.17)
xx
x2 = j 2 ( x1 , x2 ) = 0.5 + cos 1 2
6
r
( )
en la vecindad del punto y 0 = y10 , y20 = (1,1) .
Elegimos la métrica r ¥ ( x , y ) = max { x1 - y1 , x 2 - y 2 } y suponemos que r=1. Entonces

r r
r
la esfera cerrada S ( y 0 ,1) es un cuadrado cerrado:
r
{ r r r r
}
S ( y 0 ,1) = x : r ( x, y 0 ) £ 1 = {x : 0 £ xi £ 2; i = 1,2}
Hallamos las derivadas parciales
¶j1 1 ¶j1 1 x 1
= , = - cos 2 +
¶ x1 x1 + x2 + 5 ¶ x2 3 3 x1 + x2 + 5
¶j 2 x xx ¶j 2 x xx
= - 2 sin 1 2 , = - 1 sin 1 2
¶ x1 6 6 ¶ x2 6 6
289
2 2
De aquí, teniendo en cuenta que sin < , obtenemos
3 3
¶j 1 r 1 ¶j1 r ì1 1 1 ü 2
a 11 = max ( x ) = , a12 = max ( x ) £ max í - , ý =
¶ x1 xÎS ¶ x
r
î3 9 5 þ 9
r
xÎS 5 2
¶j 2 r 22 2 ¶j 2 r 2
a 21 = max (x) < = , a 22 = max (x) < .
¶ x1 ¶ x2
r r
xÎS 63 9 x ÎS 9
Usando (37.16) hallamos
2
ì1 2 2 2ü 4
a ¥ = max åa ij £ max í + , + ý = < 1.
1£i £ 2
j =1 î5 9 9 9þ 9
Así pues, la condición (37.6) del teorema 37.1 queda cumplida con a = 4 / 9 < 1 . Aclaremos, si se
r ¥ (j ( y 0 ), y 0 ) < 0.5 < (1 - a ¥ )r = 5 / 9 , es decir, (37.7) también se

r r r
cumple (37.7), tenemos
r
cumple. Según el teorema 37.1, el sistema (37.17) tiene en el cuadrado S ( y 0 ,1) una sola solución
r
x* . En virtud de (37.11),
r r 4
r ¥ (x* , xk ) £ r ¥ (xk , xk -1 ) =
5
r r 4
5
{ }
max x1( k ) - x1( k -1) , x2( k ) - x2( k -1) . □
Ejercicios:
1. Explique por qué el método iterativo (36.8) diverge si la constante de Lipschitz de la función
j (x) es mayor que uno. De un ejemplo. Muestre su explicación gráficamente.
2. (Ciarlet, 1995). Encuentre por el método de aproximaciones sucesivas la única solución del
sistema no lineal
ì- 5 x1 + 2 sin x1 + cos x 2 = 0
í .
î4 cos x1 + 2 sin x 2 - 5 x 2 = 0
3. Sea j ( x) = x + sin x + 1 . Demuestre que el proceso iterativo x k = j ( x k -1 ) converge en el
intervalo [1.6, 2.9] hacia la solución única para cualquier x 0 de este intervalo.
4. Encuentre la solución de las ecuaciones no-lineales simultáneas

x 2 + xy + y 2 = 3
sin x - y 2 = 0
suponiendo que ( x0 , y0 ) = (1,1) sea una buena aproximación inicial.
290
§ 38. Método de Newton
Analicemos una ecuación con una sola incógnita
f ( x) = 0 (38.1)
El siguiente teorema proporciona condiciones que garantizan la existencia de una sola solución
para la ecuación (38.1).
Teorema 38.1. Si f Î C2 [a, b] , f (a) f (b) < 0 , es decir, si f (x) adquiere en los
extremos del segmento [a, b] valores de signos opuestos, y si f ¢¢(x) no cambia de signo en [a, b] ,
la ecuación (38.1) tiene en [a, b] una sola solución (raíz) x* .
La afirmación del teorema es bastante evidente. Para las condiciones del teorema son
posibles cuatro casos diferentes: 1) f ¢¢( x) > 0 , a > 0 , b < 0 ; 2) f ¢¢( x) > 0 , a < 0 , b > 0 ;
3) f ¢¢( x) < 0 , a > 0 , b < 0 ; y 4) f ¢¢( x) < 0 , a < 0 , b > 0 . La existencia de la solución x* se
deduce de la continuidad de f (x) en [a, b] y de la suposición de que f (a) f (b) < 0 . Si la
referida solución no fuera única para la condición de f (a) f (b) < 0 , el signo de f ¢¢(x) cambiaría.
Adoptemos x 0 para el extremo del segmento [a, b] donde la función f (x) tiene el mismo
signo que f ¢¢(x) . Omitimos el caso poco importante donde f ¢¢( x) º 0 en [a, b] . Denotemos por
w el segmento cuyos extremos son los puntos x 0 y x* (Fig. 38.1). Para las condiciones del
teorema 38.1, la función f ¢(x) es monótona en w , además
m1 = min f ¢( x) = f ¢( x* ) > 0 (38.2)

w
ya que de lo contrario la función f (x) no podría cambiar de signo manteniendo invariable el
signo de f ¢¢(x) . Pongamos
291
M 1 = max f ¢( x) = f ¢( x0 ) > m1 > 0 (38.3)
w
M 2 = max f ¢¢( x) > 0 (38.4)

[a ,b ]
Método de Newton (Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles, 1998).
Este método, también llamado método de las tangentes, consiste en lo siguiente. Examinemos en
el punto x0 una tangente a la curva y = f (x) definida por la ecuación
Y = f ( x0 ) + ( x - x 0 ) f ¢( x 0 ) (Fig. 38.1).
a x* w
x3 x2 x1 x0 x
Fig. 38.1. Iteraciones de Newton ( f ¢¢( x) > 0 , a < 0 , x0 = b > 0, w = ( x* , x0 ) ).
Suponiendo que Y = 0 , hallamos el punto x1 de intersección de la tangente con el eje de
abscisas:
f ( x0 )
x1 = x 0 - (38.5)
f ¢( x0 )
Tras construir la tangente en el punto x1 (Fig.38.1) obtenemos, mediante una fórmula análoga, el
punto x 2 de intersección de esta última tangente con el eje x, etc.:
292
f ( x k -1 )
x k = x k -1 - (38.6)
f ¢( x k -1 )
Los razonamientos geométricos muestran claramente que para las condiciones del teorema 38.1,
la sucesión iterativa {x k }, obtenida mediante la fórmula (38.6), converge monótonamente hacia
la solución buscada x* de la ecuación (38.1).
La convergencia de las iteraciones de Newton. Estimemos la velocidad de convergencia
en el método de Newton. Tomando en consideración que f ( x* ) = 0 y utilizando la fórmula de
incrementos finitos de Lagrange, hallamos
f ( x k -1 ) = f ( x* ) - f ( x k -1 ) = f ¢(x ) x* - x k -1 ³ m1 x* - x k -1
donde x Î w es cierto punto, y m1 se define por (38.2). Teniendo en cuenta esta relación, así
como (38.3) y (38.6), obtenemos
f ( x k -1 ) x* - x k -1
x k - x k -1 = ³ m1 (38.7)
f ¢(x ) M1
En virtud de la convergencia monótona de la sucesión {x k } hacia x* , tenemos
x k -1 - x* = x k -1 - x k + x k - x* ,
es decir,
x* - x k = x* - x k -1 - x k - x k -1
De aquí, a base de (38.7), llegamos a la desigualdad
x* - x k -1
x* - x k £ x* - x k -1 - m1 = a x* - x k -1
M1
donde
293
m1
0 £a =1- <1 (38.8)
M1
La desigualdad
x* - x k £ a x* - x k -1 (38.9)
establece que el error x* - x k disminuye por lo menos como progresión geométrica de razón
a < 1 . Esta es la característica de las iteraciones iniciales. Después, cuando el error disminuya
bastante, aumentará la velocidad de convergencia en el método de Newton. Demostrémoslo.
De acuerdo con la fórmula de Taylor, tenemos
( x* - x k -1 ) 2
0 = f ( x* ) = f ( x k -1 ) + ( x* - x k -1 ) f ¢( x k -1 ) + f ¢¢(x )
2
donde x Î w es cierto punto, o bien,
f ( x k -1 ) f ¢¢(x )
x* = x k -1 - - ( x* - x k -1 ) 2 (38.10)
f ¢( x k -1 ) 2 f ¢( x k -1 )
Restando de (38.10) la igualdad (38.6) y utilizando la estimación
f ¢¢(x ) M
£b = 2
2 f ¢( x k -1 ) 2m1
llegamos a la desigualdad x* - x k £ b (x* - x k -1 ) . Escribámosla de la forma siguiente:

2
b x* - x k £ [b (x* - x k -1 )]2 (38.11)
De aquí se deduce que en cuanto en cierto k se cumpla la desigualdad b x* - x k < 1 (en virtud de
(38.9) eso ocurrirá necesariamente), el error comenzará a disminuir rápidamente según la ley
cuadrática. Después de n iteraciones adicionales tendremos
294
1
[b (x* - x k )]2
n
x* - x k + n £ (38.12)
b
Por ejemplo, si b x* - x k = 0.9 y n=8, entonces 2 n = 256 , y [b (x* - xk )]256 < 10 -11 .
Método simplificado de Newton. Si el cálculo de la derivada f ¢(x) es difícil, en vez de
la fórmula (38.6) se usa la fórmula siguiente:
f ( x k -1 )
x k = x k -1 - , k=1,2,3,… (38.13)
f ¢( x0 )
En este caso, la ley cuadrática (38.11) ya no se cumple. Sin embargo, todavía se mantiene la
convergencia según la progresión geométrica establecida por la desigualdad (38.9).
Relación entre el método de Newton y el método (37.1). La ecuación f ( x) = 0 es
equivalente a la ecuación
x = j ( x) º x + lf ( x) (38.14)
si l ¹ 0 . El método iterativo (37.1) convergerá tanto más rápidamente cuanto menor sea j ¢(x) ,
es decir, la constante de Lipschitz. Exijamos que se verifique j ¢( x k -1 ) = 0 , o bien,
1 + lf ¢( x k -1 ) = 0 y, por consiguiente,
1
l=- (38.15)
f ¢( x k -1 )
Entonces, de acuerdo con la fórmula x k = j ( x k -1 ) de las iteraciones (37.1),
f ( x k -1 )
x k = j ( x k -1 ) = x k -1 - (38.16)
f ¢( x k -1 )
Por lo tanto, hemos llegado al método de Newton.
Método de Newton para un sistema de ecuaciones. Sea dado un sistema de ecuaciones
no lineales
295
r r
f ( x) = 0 (38.17)
r r r r r r
donde f ( x ) = { f 1 ( x ), f 2 ( x ), K , f n ( x )} y f i (x ) es dos veces continuamente diferenciable en
r
vecindad de la solución x* de la ecuación (38.17).
r
La matriz F (x ) que tiene la forma
r r
é ¶f 1 ( x ) ¶f 1 ( x ) ù
ê ¶x L
¶ xn ú
r ê 1 ú
F (x) = ê L L L ú (38.18)
r r
ê ¶f n ( x ) ¶f n ( x ) ú
ê ¶x L
ë 1 ¶ x n úû
r r r
se llama matriz de Jacobi del sistema de funciones f i (x ) en el punto x . Si det F ( x ) ¹ 0 ,
r r
entonces denotemos por F -1 ( x ) la matriz inversa de la matriz de Jacobi F (x ) . En este caso de n
dimensiones, el método de Newton tiene la forma

r r r r r
x ( k ) = x ( k -1) - F -1 ( x ( k -1) ) f ( x ( k -1) ) , k=1,2,3,…, (38.19)
mientras que el método simplificado de Newton adopta la forma

r r r r r
x ( k ) = x ( k -1) - F -1 ( x (0) ) f ( x ( k -1) ) , k=1,2,3,…, (38.20)
r
La simplificación consiste en que la matriz inversa F -1 ( x ( 0) ) se determina una sola vez, y no en
cada iteración, como en (38.19).
r
Observación 38.1. Si det F ( x* ) ¹ 0 y si la aproximación inicial se toma bastante cerca
r
de la solución exacta x* , las iteraciones (38.19) y (38.20) convergerán en la 1-norma o 2-norma
r
hacia x* . El carácter de la convergencia es el mismo que para n=1, es decir, a partir de cierto
momento las iteraciones (38.19) convergerán muy rápidamente según la ley cuadrática, mientras
que para las iteraciones (38.20) sólo se garantiza la convergencia con arreglo a la progresión
geométrica. □
296
Ejercicios:
1. (Ortega y Poole, 1981). Sea x* el cero (la raíz) de una función f (x) que tiene dos derivadas
continuas. Supongamos que f ¢( x* ) = 0 , pero f ¢( x) ¹ 0 en una vecindad de x* . Demuestre
que el limite de la función j (x) de la fórmula (38.16) existe y es igual a x* cuando x ® x* .
2. Sea f ( x) º x 2 + 4 x + 5 = 0 . Describa el comportamiento de las iteraciones de Newton.
3. Demuestre que las iteraciones de Newton convergen hacia la solución única de la ecuación
x 2 + 4 x + 4 = 0 para cualquier punto inicial x0 ¹ -2 .
4. Demuestre que las iteraciones de Newton convergen hacia la solución única de la ecuación
e x + x + 1 = 0 para cualquier punto inicial x 0 .
5. (Ciarlet, 1995). Analice la convergencia del método de Newton al aplicarlo al sistema

ì- 5 x1 + 2 sin x1 + cos x 2 = 0
í .
î4 cos x1 + 2 sin x 2 - 5 x 2 = 0
1
6. Analice la convergencia del método xk +1 = (4 - a 3 xk3 ) xk .
3
7. Usando el método de Newton encuentre las raíces del polinomio x 3 + x 2 - 26 x + 24 .
297
§ 39. Otros métodos iterativos para problemas no lineales
Método de bisección. Analicemos una ecuación con una sola incógnita
f ( x) = 0 (39.1)
en un segmento [a, b] con la particularidad de que f (a) f (b) < 0 . Supongamos que las
condiciones del teorema 38.1 se cumplen, es decir la ecuación (39.1) tiene una sola solución
(raíz) x* en el segmento [a, b] .
y y = f (x)
x*
a x2 x3 x1 b x
Fig. 39.1. Iteraciones del método de bisección ( f (a) < 0 , f (b) > 0 ).
Sea f (a) < 0 , f (b) > 0 , y f ¢( x) > 0 (Fig.39.1). El método iterativo más simple para
aproximar la solución exacta x* es el método de bisección. Elegimos x1 = 12 (a + b) . Ya que
f ( x1 ) > 0 (Fig.39.1), entonces la raíz x* se encuentra entre a y x1 (si f ( x1 ) < 0 , entonces la
raíz x* se encuentra entre x1 y b). Elegimos x 2 = 12 (a + x1 ) y dejamos el segmento [x1 , x 2 ] que
contiene el punto x* . Después, x3 = 12 ( x1 + x 2 ) . Continuamos este proceso dejando cada vez el
segmento que contiene la solución de acuerdo con el teorema 38.1.
298
Evidentemente, cada paso del método de bisección reduce la longitud del segmento conteniendo
x* por el factor 2. Por lo tanto, después de m pasos, dicha longitud será (b - a) 2 - m , y este da la
estimación del error de aproximación:
xm - x* £ 2 - m b - a (39.2)
Observación 39.1. El método de bisección es insensible a errores en el cálculo de los
valores f ( xi ) si el signo de f ( xi ) se determina correctamente. Sin embargo, si el signo f ( xi )
es incorrecto, la decisión errónea se tomará al elegir el segmento siguiente. •
Método de secantes. Una de las desventajas del método de bisección es que puede
converger con bastante lentitud. Para reducir el segmento inicial por un factor grande, por
ejemplo, 10 6 que corresponde a la exactitud de seis cifras decimales, hay que hacer, según la
6
estimación (39.2), unas m = @ 20 iteraciones. Una vía posible para acelerar el método
log 10 2
de bisección es usar los valores f ( xi ) en vez de sus signos, y lo más sensillo para utilizar esta
información es escoger como el punto siguiente xi +1 el cero de la función lineal que interpola
f (x) entre los puntos xi -1 y x i (Fig.39.2).
( xi , f ( xi ) )
xi -1 xi +1 x* x i x
(xi-1 , f ( xi-1 ))
Fig. 39.2. Iteraciones del método de secantes.
299
Se llama método de secantes. En la situación favorable presentada en Fig.39.2, la aproximación
xi +1 mediante el método de secantes es obviamente mejor que la obtenida por el método de
bisección como la mitad del segmento ( xi -1 , xi ) . La función de la interpolación lineal de f (x) en
(xi -1 , xi ) se define como

x - xi -1 x - xi
l ( x) = f ( xi ) - f ( xi -1 ) (39.3)
xi - xi -1 xi - xi -1
y la raíz de esta función es
xi -1 f ( xi ) - xi f ( xi -1 )
xi +1 = (39.4)
f ( xi ) - f ( xi -1 )
Así pues, con fin de acelerar la convergencia del proceso iterativo, se puede combinar el método
de secantes con el método de bisección.
Observación 39.2. Para cálculos, es preferible escribir el método de secantes (39.4) de la
forma
f ( xi )
xi +1 = xi - (39.5)
di
donde
f ( xi ) - f ( xi -1 )
di = = tg a (39.6)
xi - xi -1
La forma (39.5) permite evitar el resultado nulo artificial para xi +1 . Además, nos muestra que el
método de secantes lleva al método de Newton cuando xi -1 tiende a x i . •
Iteraciones de Picard. En muchas situaciones se puede presentar el sistema no lineal

r r
f ( x) = 0 (39.7)
de la forma
r r r r r
f ( x ) = Ax + h ( x ) (39.8)
300
r r
donde A es una matriz no singular, y h (x ) es una función vectorial no lineal. El método de
Picard es
r r r
xi +1 = - A -1 h ( xi ) , i=0,1,2,… , (39.9)
es decir, en cada iteración es necesario resolver el sistema

r r r
A xi +1 = - h ( xi ) (39.10)
Ejemplo 39.1 (Golub y Ortega, 1992). Hay que hallar la solución de la ecuación
v¢¢( x) = 3v( x) + x 2 + 10v 3 ( x) , 0 < x < 1 (39.11)
con las condiciones de contorno
v(0) = v(1) = 0 (39.12)
Sea xi = ih , i = 0,1,K, n + 1 una malla con tamaño h = 1/(n + 1) . Al discretizar la ecuación
(39.11) mediante el método de diferencias finitas, llegamos al sistema
- vi +1 + 2vi - vi -1 + h 2 (3vi + i 2 h 2 + 10vi3 ) = 0 , (i = 1,2,3,K, n) (39.13)
v0 = vn+1 = 0 (39.14)
r r
Así pues, la función no lineal h (v ) del proceso (39.10) se define mediante la fórmula
(hr(vr)) = h (3v
i
2
i + i 2 h 2 + 10vi3 ) (39.15)
r
donde v = {v1 ,v2 ,K,vn } , y la matriz A del proceso es tridiagonal:
T
é 2 -1 0 L 0 0 ù
ê- 1 2 - 1 L 0 0 ú
ê ú
ê 0 -1 2 L 0 0 ú
A=ê ú (39.16)
êL L L L L L ú
ê 0 0 0 L 2 - 1ú
ê ú
ëê 0 0 0 L - 1 2 ûú
301
Es de importancia notar que la matriz A es invariable y, por lo tanto, la factorización LU se hace
una sola vez y después se usa repitidamente en el proceso de iteraciones. •
Ejercicios:
1. (Golub y Ortega, 1992). Aplique el método de Picard al problema v¢¢( x) = g ( x, v) , 0 < x < 1 ,
cuando:
a) g ( x, v) = v 4 ( x) , v(0) = 0, v(1) = 1/ 2 ;
b) g ( x, v) = v( x) + v 2 ( x) , v(0) = 0, v(1) = 0 ;
c) g ( x, v) = xv 3 ( x) , v(0) = 0, v(1) = 1;
2
d) g ( x, v) = e v + 2 - e x , v(0) = 0, v(1) = 1 ;
2. ¿Cuándo las iteraciones de Picard convergen para las ecuaciones del ejercicio 1?
302
Capítulo VIII. Métodos se separación
La solución de un problema complejo y multidimensional se puede reducir a menudo a la solución
consecutiva de unos problemas más simples (con frecuencia unidimensionales) usando uno de los
métodos de separación (Peaceman y Rachford 1955; Douglas y Rachford 1956; Marchuk, 1982).
Dicha reducción es posible cuando un operador (o una matriz) del problema original es
positivamente semidefinido y se descompone en la suma de dos (o más) operadores (matrices)
positivamente semidefinidos y de estructura simple. Estos métodos permiten separar no sólo varias
dimensiones, sino también varios procesos físicos en modelos complejos. Se usan, por ejemplo, en
los modelos de dinámica de la atmósfera y de los océanos (Marchuk y otros 1975, 1983). Son
especialmente convenientes para separar los procesos de advección y difusión de los procesos
químicos en los modelos de transporte de contaminantes. En este capítulo se consideran cuatro
métodos principales de este tipo: el método de estabilización (Peaceman y Rachford, 1955), el
método de predicción-corrección (Douglas y Jones, 1963; Douglas y otros, 1963), y dos variantes
del método “componente-por-componente” (Marchuk, 1958; Yanenko, 1959). Los métodos de
separación se aplican no sólo a los problemas no estacionarios, sino también a la solución de un
problema estacionario mediante un proceso iterativo. Para estudiar a fondo dichos métodos, se
recomiendan los trabajos de Bagrinovskii y Godunov (1957), Yanenko (1971), Birkhoff y Varga
(1959), Douglas y Jones (1963), Douglas y otros (1963), Godunov y Ryabenkii (1964),
D’yakonov (1964, 1972), Marchuk (1982), Marchuk y otros (1975), Marchuk y Skiba (1976,
1992), Skiba (1995).
303
§ 40. Método de estabilización
Consideremos en el intervalo de tiempo [0, T ] el problema no estacionario
dj
r
+ Aj = f en [0, T ]
r r
dt (40.1)
j (0) = g
r r
donde la matriz A es positivamente semidefinida ( A ³ 0 ) y se representa como la suma
(descomposición)
A = A1 + A2 (40.2)
de las matrices A1 y A2 , también positivamente semidefinidas:
A1 ³ 0 , A2 ³ 0 (40.3)
Supongamos que la solución j (t ) de (40.1) es un vector bastante suave en tiempo. Se puede

r
considerar el problema (40.1) como un problema no estacionario en el espacio vectorial de
dimensión finita, o bien como el resultado de la discretización de un sistema de ecuaciones
diferenciales parciales.
Cuando la matriz A no depende de tiempo, se recomiendan dos métodos de separación: el
método de estabilización (Peaceman y Rachford, 1955; Douglas y Rachford, 1956) y el método de
predicción-corrección (Douglas y Jones, 1963; Douglas y otros, 1963). Estudiaremos ahora el
primer método.
r
Método de estabilización. I. Primero supongamos que la ecuación es homogénea: f = 0 .
El esquema del método de estabilización para hallar la solución aproximada del problema (40.1)-
(40.3) en cada intervalo [t j , t j +1 ] tiene la forma
æ t öæ t ö j j +1 - j j
r r
ç E + A1 ÷ç E + A2 ÷ + Aj j = 0, j 0 = g (40.4)
r r r
è 2 øè 2 ø t
304
Aproximación. Demostremos que la ecuación (40.4) aproxima el problema (40.1)-(40.3)
con segundo grado respecto a t. Efectivamente, mediante transformaciones algebraicas se puede
escribir (40.4) de la forma
æ t2 ö j j +1 - j j j j +1 + j j
r r r r
ç E + A1 A2 ÷ +A = 0, j 0 = g (40.5)
r r
è 4 ø t 2
Por lo tanto, si la solución es bastante suave y
t
Ai << 1, i = 1,2 , (40.6)
2
entonces la ecuación (40.5) tiene el mismo grado de aproximación que el esquema de Crank-
Nicolson
j j +1 - j j j j +1 + j j
+A = 0, j 0 = g , (40.7)
t 2
es decir, tiene el segundo grado de aproximación respecto a t. Notemos que (40.6) representa una
limitación para escoger el tamaño t.
Estabilidad. Analicemos ahora la estabilidad del esquema (40.4). Es fácil demostrar que
dicho esquema se puede describir como
æ t öæ t ö r j +1 æ t öæ t ö r j r0 r
ç E + A1 ÷ç E + A2 ÷j = ç E - A1 ÷ç E - A2 ÷j , j = g , (40.8)
è 2 øè 2 ø è 2 øè 2 ø
o bien, como
-1 -1
æ t ö æ t ö æ t öæ t ör
j = ç E + A2 ÷ ç E + A1 ÷ ç E - A1 ÷ç E - A2 ÷j j
r j +1 (40.9)
è 2 ø è 2 ø è 2 øè 2 ø
Introduciendo un vector nuevo
r æ t ör
y j = ç E + A2 ÷j j (40.10)
è 2 ø
305
obtenemos
y j +1 = Ty j
r r
(40.11)
donde
-1 -1
æ t ö æ t öæ t öæ t ö
T = ç E + A1 ÷ ç E - A1 ÷ ç E - A2 ÷ ç E + A2 ÷ (40.12)
è 2 ø è 2 ø è 2 ø è 2 ø
es la matriz de transición del momento t j al momento t j +1 . De la ecuación (40.11) se deduce la
estimación
j +1
y £ T ×y j
(40.13)
para el vector y j +1 en la norma euclidiana, además,

r
T £ T1 × T2 (40.14)
donde
-1
æ t öæ t ö
Ti = ç E - Ai ÷ç E + Ai ÷ , i = 1,2 (40.15)
è 2 øè 2 ø
Para derivar (40.14) usamos la identidad
-1 -1
æ t ö æ t ö æ t öæ t ö
ç E + Ai ÷ ç E - Ai ÷ = ç E - Ai ÷ç E + Ai ÷ (40.16)
è 2 ø è 2 ø è 2 øè 2 ø
que se deduce de la identidad
-1 -1
æ t ö æ t ö æ t öæ t ö
ç E - Ai ÷ ç E - Ai ÷ = ç E + Ai ÷ç E + Ai ÷ (40.17)
è 2 ø è 2 ø è 2 øè 2 ø
306
-1
t t
En efecto, multiplicando (40.17) por æç E + Ai ö÷ æç E - Ai ö÷ de la izquierda y aprovechando que
è 2 ø è 2 ø
t t
las matrices æç E - Ai ö÷ y æç E + Ai ö÷ se conmutan, obtenemos (40.16). Así pues, el problema de
è 2 ø è 2 ø
la estabilidad del esquema se reduce a la estimación de las normas de las matrices Ti. Aplicando el
lema de Kellogg (lemma 3.2) a (40.15), llegamos a la igualdad
T º T 2
£1 (40.18)
y, por consiguiente, en la norma euclideana obtenemos
y j +1 £ y i (40.19)
r r
en la norma euclidiana. La desigualdad (40.19) demuestra la estabilidad del algoritmo respecto al
vector y . Sin embargo nuestro objetivo final es establecer la estabilidad del algoritmo respecto a
rj
j j del problema original (40.4). De (40.19) y (40.10) tenemos

r
la solución
æ t ö r j +1 æ t örj
ç E + A2 ÷j £ ç E + A2 ÷j (40.20)
è 2 ø è 2 ø
Usando la notación
æ t ör r r 12
ç E + A2÷j = (C 2 ,j
j ) = jr (40.21)
è 2 ø C2
donde
æ t * öæ t ö
Ci = ç E + Ai ÷ç E + Ai ÷ , i = 1,2 (40.22)
è 2 øè 2 ø
es fácil demostrar que la matriz Ci es positivamente definida (Ci > 0) y × C2

es realmente la
norma. Por lo tanto
j j +1 £ jj
r r
(40.23)
C2 C2
307
Concluimos que si ambas matrices Ai son positivamente semidifinidas (Ai ³ 0) y no dependen de
tiempo, entonces el esquema (40.4) es absolutamente estable en la C2 -norma, y aproxima el
problema (40.1) con el segundo grado en t. La propiedad de que Ai no depende de tiempo es muy
importante y se usa no sólo en (40.11), sino también en (40.23) para introducir la C2 -norma.
El método de estabilización (40.4) se puede realizar convenientemente de la siguiente
manera
F j = Aj j
r r
æ t ör
+ x = -
rj
ç E A 1÷ F
è 2 ø (40.24)
æ t ör r
ç E + A2 ÷h = x
è 2 ø
j = j + th
r j +1 r j r
x y h son dos vectores auxiliares. Notemos que la primera y cuarta relaciones son
r r
donde
explícitas, mientras que la segunda y tercera describen relaciones implícitas. En efecto, para
realizar la segunda y tercera etapas del algoritmo (40.24) hay que hallar formalmente dos matrices
-1 -1
æ t ö æ t ö
inversas ç E + A1 ÷ y ç E + A2 ÷ . Ya que las matrices separadas A1 y A2 son simples, a
è 2 ø è 2 ø
menudo es posible realizar las etapas 2 y 3 fácilmente por medio de la factorización (véase § 27 y
§ 31) sin aplicar un método iterativo.
II. Consideremos ahora el problema (40.1) no homogéneo ( f ¹ 0 ) donde A = A1 + A2 ,

r
A1 ³ 0 , A2 ³ 0 . En este caso, el esquema del método de estabilización es
r r
+ Aj j = f j j0 = g
r
ç E + A1 ÷ç E + A2 ÷ (40.25)
r r r
è 2 øè 2 ø t
donde
308
r r
f j = f (t j + 1 ) (40.26)
2
Se puede demostrar que el esquema (40.25), (40.26) aproxima el problema original (40.1) con el
segundo grado en t. Investigamos la estabilidad del esquema (40.25). En este caso
-1
æ t ö rj
y = Ty + t ç E + A1 ÷ f
r j +1 rj
(40.27)
è 2 ø
donde de nuevo usamos el vector y introducido por la fórmula (40.10). De (40.25) tenemos
rj
-1
æ t ö
y £ T ×y + t ç E + A1 ÷
r
× fj
r j +1 rj
(40.28)
è 2 ø
Usando la desigualdad T £ 1 , obtenemos
-1
æ t ö
y £y + t ç E + A1 ÷
r
× fj
r j +1 rj
(40.29)
è 2 ø
Transformaciones simples llegan a
-1 -1
rj æ t ö æ t örj æ t ö æ t ör
f = ç E + A2 ÷ ç E + A2 ÷ f £ ç E + A2 ÷ × ç E + A2 ÷ f j (40.30)
è 2 ø è 2 ø è 2 ø è 2 ø
Teniendo en cuenta (40.21), (40.10) y (40.30), de (40.29), se deduce que
-1 -1
æ t ö æ t ö
j £ j + t ç E + A1 ÷
r
× ç E + A2 ÷ × fj
r j +1 rj
(40.31)
C2 C2
è 2 ø è 2 ø C2
Debido al lema 3.1,
-1
æ t ö
ç E + Ai ÷ £1 (40.32)
è 2 ø
Usando la última estimación, llegamos a la desigualdad
j j +1 £ jj +t f j
r r r
C2 C2
(40.33)
C2
309
Aplicando repetidamente este fórmula a fin de reducir el índice j, obtenemos
jj + jt f
r r
£ g = g +T f
r r r
C2 C2
(40.34)
C2 C2 C2
donde g es vector inicial, t es tamaño de la malla de tiempo y

r r
f = max f j (40.35)
C2 j C2
Por consiguiente, si las matrices Ai son positivamente semidefinidas y sus elementos no dependen
de tiempo, entonces el esquema (40.25) del método de estabilización es absolutamente estable y
aproxima el problema (40.1) con el segundo grado en t. De nuevo, se puede realizar dicho
esquema en cuatro etapas:
F j = Aj j - f j ,
r r r
f j = f (t j + 1 )
r r
2
æ t ör
ç E + A1 ÷x = - F
rj
è 2 ø (40.36)
æ t ör r
ç E + A2 ÷h = x
è 2 ø
j j +1 = j j + th
r r r
Ejercicios:
du
1. Consideremos el problema: + (a1 + a2 )u = f (t ), 0 £ t £ T , u(0) = u0 , donde
dt
a1 ³ 0, a2 ³ 0 son unos números. Demuestre que el esquema
j j +1 / 2 - j j
+ a1j j +1 / 2 = f1 (t j +1 / 2 ) , j 0 = u0 ,
t
j j +1 - j j +1 / 2
+ a2j j +1 = f 2 (t j +1 / 2 )
t
tiene aproximación O(t ) para cualesquier a f1 (t ) y f 2 (t ) = f (t ) - f1 (t ) ,
¶j
+ Aj = 0 donde A = {aij } es una
r
r
2. Consideremos un sistema de ecuaciones diferenciales
¶t
matriz simétrica y positivamente semidefinida ( A ³ 0 ). Sea A = A - + A + donde A - es la
matriz triangular inferior de los elementos de A, y A + es la matriz triangular superior de
los elementos de A, además, los elementos diagonales de ambas matrices son
310
aii- = aii+ = 0.5aii . Las matrices A - y A + son positivamente semidefinidas, ya que
A- = ( A+ )* y
Ax , x = A + x , x + A - x , x = A + x , x + ( A + ) * x , x = 2 A + x , x = 2 A - x , x .
r r r r r r r r r r r r r r
Consideremos el esquema de Samarskii (1971):

j j +1 / 2 - j j j j +1 - j j +1/ 2
r r r r
+ A-j j +1 / 2 + A+j j = 0 , + A-j j +1/ 2 + A+j j +1 = 0 .
r r r r
t /2 t /2
r j +1 / 2 r j +1
Para hallar j y j hay que resolver dos problemas muy simples con las matrices
t t
triangulares E + A- y E +
A+ (vease § 27). Demuestre que el esquema es
2 2
absolutamente estable [Sugerencia: Eliminando j j +1 / 2 de las ecuaciones, obtenemos el
r
esquema de estabilización (40.4)].
¶j ¶ 2j ¶ 2j
3. Sea = + la ecuación de calor en un dominio rectangular, y sean
¶ t ¶ x2 ¶ y2
(L1j ) ij = h -2 (j i +1, j - 2j i , j + j i -1, j ) y (L 2j ) ij = h -2 (j i , j +1 - 2j i , j + j i , j -1 ) las diferencias
¶ 2j ¶ 2j
finitas que aproximan las derivadas y en una malla regular con tamaño h.
¶ x2 ¶ y2
Consideremos el esquema de Douglas y Rachford (1956):
j j +1 / 2 - j j j j +1 - j j +1 / 2
r r r r
r j +1 / 2
= L1j + L 2j , = L 2 (j j +1 - j j ) .
rj r r
t t
a) Demuestre que el esquema tiene aproximación O(h 2 + t )
b) Demuestre que el esquema es estable.
311
§ 41. Método de predicción-corrección.
Consideremos otro método de separación llamado de método de predicción-corrección
(Douglas y Jones, 1963; Douglas y otros, 1963) para resolver el problema no estacionario
dj
r
+ Aj = f en [0, T ]
r r
dt (41.1)
j ( 0) = g
r r
donde la matriz A es puede presentar como A = A1 + A2 . Supongamos que todas las matrices son
positivamente semidefinidas e invariables. Descomponemos el intervalo total 0 £ t £ T en
subintervalos t j £ t £ t j +1 de longitud t. El método de predicción-corrección contiene los dos
pasos siguientes:
t
1) Primero se halla la solución aproximada en el momento t j + 1 = t j + , usando el esquema
2 2
del primer grado de aproximación en t con una reserva bastante grande de estabilidad
(predicción).
2) Luego la solución auxiliar obtenida en el primer paso se corrige usando el esquema del segundo
grado de aproximación (corrección) en el intervalo total (tj, tj+1).

r
I. Consideremos primero la ecuación homogénea: f = 0 . En este caso, se puede escribir
el esquema de predicción-corrección de la siguiente forma (Marchuk, 1982):
ìx - j j
r r
+ A1x = 0,
r
ï
ï t 2
predicción : í r
j +1 2
j x
r
ï -
+ A2j j +1 2 = 0
r
(41.2)
ï t 2
î
j j+1 - j j
r r
+ Aj j +1 2 = 0, j 0 º g
r r r
corrección :
t
312
Si eliminamos el vector auxiliar x de las dos primeras ecuaciones del sistema (41.2), entonces
r
obtenemos
æ t öæ t ö r j +1 / 2 r j
ç E + A1 ÷ç E + A2 ÷j =j
è 2 øè 2 ø (41.3)
j j +1 - j j
r r
+ Aj j +1 / 2 = 0
r
t
j j +1 / 2 , llegamos a la ecuación
r
Excluyendo
-1 -1
j j +1 - j j æ t ö æ t ö r
r r
+ Aç E + A2 ÷ ç E + A1 ÷ j j = 0, j 0 = g (41.4)
r r
t è 2 ø è 2 ø
Analicemos ahora el problema de aproximación. Con este objetivo, escribimos (41.4) de la forma
r r
ç E + A1 ÷ç E + A2 ÷ + Lj j = 0 (41.5)
r
è 2 øè 2 ø t
donde
-1 -1
æ t öæ t ö æ t ö æ t ö
L = ç E + A1 ÷ç E + A2 ÷ Aç E + A2 ÷ ç E + A1 ÷ (41.6)
è 2 øè 2 ø è 2 ø è 2 ø
Admitiendo que
t
Ai < 1, i = 1,2 (41.7)
2
es fácil demostrar que
L = A + O(t 2 ) (41.8)
Ya que el esquema de estabilización
r r
ç E + A1 ÷ç E + A2 ÷ + Aj j = 0 . (41.9)
r
è 2 øè 2 ø t
313
( )
tiene aproximación O t 2 , concluimos que, el esquema de predicción-corrección también tiene
aproximación de segundo grado respecto a t.
Ahora analicemos la estabilidad del esquema (41.2). Primero, escribimos (41.4) en la
siguiente forma
æ t öæ t ö u j +1 - u j
r r
ç E + A1 ÷ç E + A2 ÷ + Au j = 0
r
(41.10)
è 2 øè 2 ø t
donde
-1 -1
r æ t ö æ t ö r
u j = ç E + A2 ÷ ç E + A1 ÷ j j (41.11)
è 2 ø è 2 ø
Notemos que el esquema (41.10) coincide con el del método de estabilización y, por lo tanto, es
estable en la C2 -norma:
u j +1 £ uj
r r
(41.12)
C2 C2
con
æ t öæ t ö
C2 = ç E + A2 * ÷ ç E + A2 ÷ . (41.13)
è 2 øè 2 ø
Sustituyendo (41.11) en (41.12), y usando la fórmula
æ t ör
= (C2u , u ) 2 = ç E + A2 ÷u
r r 1
u
r
(41.14)
è 2 ø
C2
obtenemos
-1 -1
æ t ör æ t öæ t ö æ t ö r
u j +1 = ç E + A2 ÷u j +1 = ç E + A2 ÷ç E + A2 ÷ ç E + A1 ÷ j j +1
r
C2
è 2 ø è 2 øè 2 ø è 2 ø
314
-1 -1
æ t ö r æ t ö r
= ç E + A1 ÷ j j +1 £ ç E + A1 ÷ j j (41.15)
è 2 ø è 2 ø
o bien,
j j +1 £ jj
r r
(41.16)
C1-1 C1-1
donde
-1 -1
-1 æ t ö æ t ö
C1 = ç E + A1* ÷ ç E + A1 ÷ (41.17)
è 2 ø è 2 ø
es una matriz simétrica y positivamente definida. Así, la estabilidad del esquema (41.2) en la
C1-1 -norma queda demostrada. Por lo tanto, si las matrices Ai son positivamente semidefinidas
( A1 ³ 0 , A2 ³ 0 ) y sus elementos son independientes del tiempo, entonces el esquema (41.2) es
absolutamente estable y aproxima el problema diferencial homogéneo con segundo grado en t .

r
II. Consideremos ahora el problema (40.1) no homogéneo ( f ¹ 0 ). En este caso, el
método de predicción-corrección se formula de la siguiente manera
x -j j ü
rr
+ A1x = f j
r r
ï
t 2 ï
r j + 12 r
j -x r j + 12 ïï
+ A2j =0 ý (41.18)
t 2 ï
j -j
r j +1 r j
r j+ 1 ï
+ Aj 2 = f j ï
r
t ïþ
r r
donde f j = f (t 1 ) . Se puede demostrar que (41.18) aproxima el problema original (41.1) con el
j+
2
segundo grado en t. La estabilidad de (41.18) se establece de la siguiente manera. Eliminamos
r j + 12
j y x , y llegamos a la ecuación
r
315
-1 -1
j j +1 - j j æ t ö æ t ö æ rj t rjö rj
r r
+ Aç E + A2 ÷ ç E + A1 ÷ ç j + f ÷ = f (41.19)
t è 2 ø è 2 ø è 2 ø
Usando la notación
-1
æ t ö æ rj t rjö
y = ç E + A1 ÷ çj + f ÷
rj
(41.20)
è 2 ø è 2 ø
escribimos la ecuación (41.19) como
-1 -1 -1
y j +1 - y j æ t ö æ t ö r æ t ö æ f j + f j +1 ö
r r r r
+ ç E + A1 ÷ Aç E + A2 ÷ y j = ç E + A1 ÷ ç ÷
t è 2 ø è 2 ø è 2 ø ç 2 ÷
è ø
Por lo tanto,
-1 -1 -1
é t ö æ t ö ùrj æ t ö æ f j + f j +1 ö (41.21)
r r
æ
y = ê E - t ç E + A1 ÷ Aç E + A2 ÷ úy + t ç E + A1 ÷ çç ÷
r j +1
è 2 ø è 2 ø è 2 ø 2 ÷
ë û è ø
Tenemos
-1 -1 -1 -1
æ t ö æ t ö æ t ö éæ t öæ t ö ùæ t ö
E - t ç E + A1 ÷ Aç E + A2 ÷ = ç E + A1 ÷ êç E + A1 ÷ç E + A2 ÷ - tAúç E + A2 ÷
è 2 ø è 2 ø è 2 ø ëè 2 øè 2 ø ûè 2 ø
-1 -1
éæ t ö æ t öù éæ t öæ t ö ù
= êç E + A1 ÷ ç E - A1 ÷ú êç E - A2 ÷ç E + A2 ÷ ú
ëêè 2 ø è 2 øûú ëêè 2 øè 2 ø ûú
De acuerdo con (40.16) y lema 3.2, obtenemos
-1
t ö æ f j + f j +1 ö
r r
æ
y £y + t ç E + A1 ÷ × çç ÷
r j +1 rj
(41.22)
è 2 ø è 2 ÷
ø
Aplicando (41.22) repetidamente con fin de reducir el índice j, y tomando en cuenta (41.20) y la
desigualdad tj £ T , llegamos a
t rj r t r
jj +
r
f £ g+ f0 +T f
r
(41.23)
2 2 C1-1
C1-1 C1-1
316
donde
r r
f = max f j , (41.24)
C1-1 j C1-1
es decir, el método de predicción-corrección (41.18) es estable en la C1-1 -norma para cada tamaño
t:
jj
r
£ g + 2T f
r r
C1-1 C1-1
.
C1-1
Por consiguiente, si las matrices Ai son positivamente definidas y sus elementos son
independientes del tiempo, entonces el esquema (41.18) es absolutamente estable y aproxima el
problema diferencial con segundo grado en t con tal que el forzamiento f y la solución exacta son
r
bastante suaves.
Observación 41.1. En conclusión notemos que la reserva de estabilidad de la parte
predicción del esquema (41.18) es bastante grande y hace al esquema absolutamente estable aun
en el caso de que la parte corrección sea absolutamente inestable, como muestra el siguiente
ejemplo.
Ejemplo 41.1. Consideremos el caso particular cuando una matriz A representa el
operador de Laplace de dos dimensiones en el cuadrado unitario D con la condición de que la
solución desaparece ( j = 0 ) en la frontera de D. Entonces la corrección tiene la forma
j k ,l j +1 - j k ,l j -1 j k +1,l j - 2j k ,l j + j k -1,l j j k ,l +1 j - 2j k .l j + j k .l -1 j
- - =0 (41.25)
2t h2 h2
donde h y t son los tamaños de las mallas en el espacio y tiempo, respectivamente. Para
simplificar los cálculos, consideramos sólo valores enteros de j . Buscamos la solución de la forma
j k ,l j = l j sin( mpkh) × sin( pplh) (41.26)
317
donde j es el índice de tiempo en la parte izquierda, y la potencia en la parte derecha. Sustituyendo
(41.26) en (41.25), llegamos a la ecuación
l2 + 8a mp l - 1 = 0 (41.27)
donde
t æ mph pph ö
amp = ç sin
2
2
+ sin 2 ÷ (41.28)
h è 2 2 ø
Si elegimos la raíz negativa
l = -4amp - 1 + 16amp
2
(41.29)
entonces l > 1 , y
j j / j 0 = l ® ¥, cuando t ® 0
j
(41.30)
Notemos que el índice j aumenta cuando t ® 0 ( 0 £ tj £ T ). Se deduce de (41.30) que el
esquema “corrección” (41.25) es absolutamente inestable (para cualquier t ). Sin embargo, la
reserva de estabilidad de la parte “predicción” es tan grande que el método total predictor-
corrector es absolutamente estable.
Ejercicios:
1. Consideremos para el problema del ejercicio 3 (§ 40), el esquema de Peaceman y

Rachford (1955):
j j +1 / 2 - j j j j +1 - j j +1 / 2
r r r r
r j +1 / 2
= L1j + L 2j , = L1j j +1 / 2 + L 2j j +1 .
rj r r
t /2 t /2
Demuestre que el esquema es estable.
¶j ¶ 2j ¶ 2j
2. Sea =s( 2 + ) la ecuación de calor en un dominio rectangular ( s > 0 ).
¶t ¶ x ¶ y2
1 1
(1 - n x L1 )j j +1 = (1 + n x L1 + n y L 2 )j j
r r
Consideremos el esquema:
2 2
donde (L1j ) ij = j i +1, j - 2j ij + j i -1, j , (L 2j ) ij = j i , j +1 - 2j ij + j i , j -1 , n x = st / hx2 y
n y = st / h y2 . Usando el método espectral de von Neumann, demuestre que el esquema es
inestable si n y > 0.5 .
3. Concideremos para resolver el problema del ejercicio 2, el esquema de D’yakonov (1964):

318
1 1 1 1
(1 - n x L1 )j j +1/ 2 = (1 + n x L1 )(1 + n y L 2 )j j , (1 - n y L 2 )j j +1 = j j +1 / 2
r r r r
2 2 2 2
r j +1 / 2 r j r j
Analice las condiciones de frontera para el vector auxiliar j , j = p si para cada j
sobre la frontera del rectángulo.
4. Desarrolle el algoritmo de predicción-corrección para la ecuación de difusión no lineal
ut = (u n u x ) x
319
§ 42. Método componente-por-componente. Problema homogéneo
Los métodos de estabilización y de predicción-corrección son de la misma exactitud y
absolutamente estables con la particularidad de que los operadores (o matrices) son positivamente
semidefinidos (Ai ³ 0). Sin embargo, estos métodos son útiles sólo si los elementos de las
matrices Ai no dependen de tiempo. Lamentablemente, si Ai depende de tiempo, entonces el
análisis de la estabilidad dado en §40 y §41 no es válido. Ahora consideremos otro método que es
exento de dicha restricción. El método se llama componente-por-componente (component-by-
component method) y fue desarrollado por Yanenko (1959, 1971), Marchuk y Lebedev (1971), y
Marchuk (1982). Consideremos de nuevo el problema
dj
r
+ Aj = f en [0, T ]
r r
dt (42.1)
j ( 0) = g
r r
donde la matriz A es positivamente semidefinida ( A ³ 0 ) y se representa como la suma
(descomposición)
A = A1 + A2 (42.2)
de las matrices A1 y A2 también positivamente semidefinidas:
A1 ³ 0 , A2 ³ 0 (42.3)
Sin embargo, ahora ellas dependen de tiempo: Ai = Ai (t ) . Suponiendo que los elementos de Ai
son bastante suaves en tiempo, aproximemos estas matrices en el segmento (t j , t j +1 ) por
L i = Ai æç t j + 1 ö÷ , L j = Aæç t j + 1 ö÷
j
(42.4)
è 2ø è 2ø
r
Consideremos primero el problema homogéneo (42.1): f = 0 .
320
Esquema de Yanenko. En cada segmento de tiempo (t j , t j +1 ) , el esquema de Yanenko
(1971) del método componente-por-componente consiste en la aplicación consecutiva de los
esquemas de Crank-Nicolson (Crank y Nicolson, 1947) para cada operador separado L i :

j
r j + 12 r j + 12
j -j j +j jj
r r
+ L1 =0
j
t 2 (42.5)
r j+ 1 r j +1 r j + 12
j j +1 - j 2 j j +j
r
+ L2 =0
t 2
j j +1 / 2 , el sistema de las ecuaciones se reduce a una sola

r
Después de eliminar el vector auxiliar
ecuación
j j +1 = T jj j
r r
(42.6)
donde
-1 -1
æ t ö æ t öæ t ö æ t ö
T = ç E + L 2 j ÷ ç E - L 2 j ÷ ç E + L1 j ÷ ç E - L1 j ÷
j
(42.7)
è 2 ø è 2 øè 2 ø è 2 ø
Aproximación. Antes que nada, consideremos el problema de aproximación. Suponemos que el
tamaño t es tan pequeño que
t
L i < 1,
j
(42.8)
2
y expandimos el operador T j en la serie de potencia. Tenemos
2[ ]
t2
T = E - tL +
j j
(L 1 )
j 2
+ 2L 2 j L 1 j + (L 2 j ) - O(t 3 )
2
(42.9)
Si los operadores L i se conmutan, es decir, si

j
L1 j L 2 j = L 2 j L1 j , (42.10)
entonces (42.9) se puede escribir como

321
t2
T j = E - tL j +
2
(L ) j 2
( )
-O t3 (42.11)
La fórmula (42.11) coincide con la del esquema de Crank-Nicolson para la matriz L j del
problema original (42.1) en (t j , t j +1 ) . Ya que el último esquema aproxima el problema (42.1) con
el segundo grado en t (es decir, O(t 2 ) ), el esquema de Yanenko (42.5) también aproxima (42.1)
con error O(t 2 ) si los operadores L i se conmutan, y con primer grado en t (es decir, O(t ) ), si
j
L i no son conmutativos.
j
Estabilidad. Debido a (42.7),
T j = T1 j T2j (42.12)
donde
-1
æ t jö æ t jö
Ti = ç E + L i ÷ ç E - L i ÷
j
(42.13)
è 2 ø è 2 ø
la estabilidad del esquema (42.5) se deduce de la desigualdad
T j
£ T1 j T2j £ 1 (42.14)
válida en virtud del lema 3.2 de Kellogg (en la norma espectral).
Esquema de Marchuk. En la mayoría de los problemas que se presentan en la práctica,
las matrices L i no conmutan. Ya sabemos que en este caso el esquema de Yanenko aproxima el
j
problema (42.1) únicamente con primer grado en t, y que para disminuir el error de aproximación
de dicho esquema es necesario pasar con t muy pequeño, es decir, hacer más operaciones
aritméticos. Estudiamos ahora el esquema de Marchuk (1982) que es más económico, ya que tiene
segundo grado de aproximación en tiempo ( O(t 2 ) ) aunque las matrices L i no conmutan. El

j
322
esquema de Marchuk representa una versión simétrica del esquema de Yanenko en el intervalo
doble (t j -1 , t j +1 ) :
j j -1 2 - j j -1 j j
j -1 2
+ j j -1 ü
r r r r
+ L1 = 0ï
t 2
ï
j -j j j +j
r j r j -1 2 r j r j -1 2
+ L2 =0 ï
t 2 ï
ý (42.15)
j -j j j +j
r j +1 2 r j r j +1 2 r j
+ L2 =0 ï
t 2 ï
ï
j -j j j +j
r j +1 r j +1 2 r j +1 r j +1 2
+ L1 = 0ï
t 2 þ
donde
L i j = Ai t j( ) (42.16)
j j -1 / 2 , j j y j j +1 / 2 son vectores auxiliares. Se puede demostrar, que

r r r
y
j j +1 = T jj j -1
r r
(42.17)
j
donde la matriz de paso T es
-1 -1
æ t jö æ t j öæ t jö æ t jö
T = ç E + L1 ÷ ç E - L1 ÷ç E + L 2 ÷ ç E - L 2 ÷ ´
j
è 2 ø è 2 øè 2 ø è 2 ø
-1 -1
æ t j ö æ t j öæ t jö æ t jö
´ ç E + L 2 ÷ ç E - L 2 ÷ç E + L1 ÷ ç E - L1 ÷
è 2 ø è 2 øè 2 ø è 2 ø
= E - 2tL +
(2t )
j
2
(L j )2 - O(t 3 ) (42.18)
2
Aproximación. El grado de aproximación de la matriz T es O(t 2 ) , ya que coincide con el de la

j
matriz de paso
r é
j j +1 = ê E - 2tL j +
(2t ) (L ) ùjr
2
j 2 j -1
(42.19)
ú
ë 2 û
323
del esquema de Crank-Nicolson en el mismo intervalo:
j j +1 - j j -1 j j +1 + j j -1
r r r r
+ Lj =0 (42.20)
2t 2
Es preciso notar que el esquema (42.15) posee el segundo grado de aproximación únicamente por
su simetría en (t j -1 , t j +1 ) y resuelve el problema relacionado con las matrices no conmutativas L i .

j
Estabilidad. Ya que
T j = T1 j T2j T2j T1 j (42.21)
donde
-1
æ t jö æ t jö
Ti j = ç E + L i ÷ ç E - L i ÷ (42.22)
è 2 ø è 2 ø
es decir, tienen la estructura de las matrices (42.13) con la particularidad de que L i se definen
j
por (42.16) en lugar de (42.4). Tomando en cuenta que
1- j
j× jT £ 1+ j
j
r r
(42.23)
y usando de nuevo la norma euclidiana para vectores, la norma espectral para matrices y el
lema 3.2, obtenemos
T j £ T1 j T2j T2j T1 j £ 1 (42.24)
Así pues,
j j +1 £ j j -1
r r
(42.25)
en la norma euclidiana, o
jj £ g (42.26)
r r
Por lo tanto, el método simétrico componente-por-componente es absolutamente estable en la
norma euclidiana.
Observación 42.1. Si la matriz A es antisimétrica, es decir,
324
Aj , j = 0 para cada j ¹ 0 ,
r r r
(42.27)
el problema homogéneo (42.1) posee la ley de conservación:
j (t ) = j (0) = g , t Î (0, T ) (42.28)

r r r
En este caso es de gran importancia separar la matriz A de tal manera que las matrices Ai también
son antisimétricas:
Aij ,j = 0 para cada j ¹ 0 , i=1,2

r r r
(42.29)
En efecto, si (42.27) se satisface en cada momento de tiempo, entonces
L jij ,j = 0 para cada j, y para cada j ¹ 0 , i=1,2

r
(42.30)
r r
debido a (42.4) y (42.16), y por tanto, el esquema de Yanenko (42.5) posee la ley
j j +1 = j j = g ,
r r r
(42.31)
mientras que el esquema de Marchuk (42.15) posee la ley
j j +1 = j j -1 = g . (42.32)
r r r
Notemos que las leyes (42.31) y (42.32) garantizan la estabilidad y son muy importantes cuando
hay que hallar la solución del problema dentro de un periodo largo (0,T). Estas propiedades son la
consecuencia directa del uso de los esquemas de Crank-Nicolson en (42.5) y (42.15) en cada etapa
de separación. Cualquier otro esquema, incluyendo los esquemas de estabilización y de predicción-
corrección no conservan dicha norma.
Ejercicios:
1. Consideremos las ecuaciones del modelo linearizado de “agua somero” (Mezinger y Arakawa,
1976):
¶u ¶u ¶h ¶h ¶h ¶u
+c +g =0 , +c +H = 0.
¶t ¶x ¶x ¶t ¶x ¶x
325
Separe este problema en dos:
¶u ¶u ¶h ¶h
+c =0 , +c =0,
¶t ¶x ¶t ¶x
y
¶u ¶h ¶h ¶u
+g =0 , +H = 0.
¶t ¶x ¶t ¶x
Aplique el método de Marchuk para construir el esquema numérico y analice su estabilidad
usando el método espectral de von Neumann.
2. Analice la estabilidad del esquema
u n+1 - u n dh n h n+1 - h n du n+1
+g =0 , +H =0
t dx t dx
que aproxima el segundo sistema separado del ejercicio 1.
¶j ¶ 2j ¶ 2j
3. Sea = + la ecuación de calor del ejercicio 3, § 40. Consideremos el
¶ t ¶ x2 ¶ y2
esquema con pesos en la malla con distintos tamaños h1 y h2 en x y y:
j j +1 / 2 - j j
r r
= s 1L1j j +1 / 2 + (1 - s 2 )L 2j j ,
r r
t
r j +1 r j +1 / 2
j -j
= s 2 L 2j j +1 + (1 - s 1 )L1j j +1/ 2 ,
r r
t
donde
(L1j ) ij = h1-2 (j i +1, j - 2j i , j + j i -1, j ) y (L 2j ) ij = h2-2 (j i , j +1 - 2j i , j + j i , j -1 ) .
1 hi2
Demuestre que si s i = - (i=1,2), entonces el esquema tiene aproximación
2 12t
O(h 4 + t 2 ) , donde h 2 = h12 + h22 .
326
§ 43. Método componente-por-componente. Problema no homogéneo
En este apartado, continuamos el estudio del método componente por componente para el caso de
r
un problema no homogéneo (42.1) cuando f ¹ 0 . En particular, demostramos la aproximación y
estabilidad del esquema de Marchuk (Marchuk, 1982), y damos los algoritmos de su realización.
Además, generalizamos dicho esquema al caso donde la matriz A es la suma de n matrices simples.
Consideremos en cada intervalo doble (t j -1 , t j +1 ) el esquema
æ t j ö r j -1 2 æ t jör ü
ç E + L1 ÷j = ç E - L1 ÷j j -1 ï
è 2 ø è 2 ø ï
t jö rj t j ö r j -1 2 ï
æ
( )
rj æ
ç E + L 2 ÷ j - t f = ç E - L 2 ÷j ï
è 2 ø è 2 ø ï (43.1)
t j ö r j +1 2 æ t jö rj rj ý
æ
ç E + L 2 ÷j = ç E - L2 ÷ j + t f ï
ï
( )
è 2 ø è 2 ø
ï
æ t j ö r j +1 æ t j ö r j +1 2 ï
ç E + L1 ÷j = ç E - L1 ÷j
è 2 ø è 2 ø ïþ
= f (t j ) . De (43.1) tenemos
rj r
donde L i se define por (42.16) y f
j
rj
j j +1 = T jj j -1 + 2tT1 T2 f
r r j j
(43.2)
j
donde T j y Ti se definen por (41.21) y (42.22), respectivamente.
Aproximación. Usando series de las potencias del pequeño parámetro t (véase la formula (42.18)),
obtenemos
é
j j +1 = ê E - 2tL j +
r (2t ) (L ) ùjr
2
j 2 j -1
+ 2t (E - L j ) f j + O(t 3 )
r
(43.3)
ú
ë 2 û
o, de otra forma,
j j +1 - j j -1
r r
+ L j (E - tL j )j j -1 = (E - tLj ) f j + O(t 2 )
r r
(43.4)
2t
Pero
327
r j -1
r j -1 æ dj ö
j = j + çç ÷÷ t + O(t 2 )
rj (43.5)
è dt ø
Con ayuda de la relación
r j -1
æ dj ö
÷÷ = -L jj j -1 + f j + O(t )
r
çç
r (43.6)
è dt ø
se puede eliminar la derivada dj de la fórmula (43.5). Entonces tenemos

r
dt
j j = (E - tL j )j j -1 + tf j + O(t 2 )
r r r
(43.7)
Así
(E - tL )jr ( )
j -1
r
= j j - tf j + O t 2
j r
(43.8)
Sustituyendo (43.8) en (43.4), obtenemos
j j +1 - j j -1
r r
+ Ljj j = f j + O(t 2 )
r r
(43.9)
2t
Es evidente que el esquema (43.9) aproxima el problema original no homogéneo (42.1) en el
intervalo (t j -1 , t j +1 ) con segundo grado en t y, por tanto, el esquema (43.1) también aproxima el
problema (42.1) con el grado O(t 2 ) .
Estabilidad. Estimaremos (43.2) usando la norma euclidiana para vectores y la norma espectral
para matrices:
rj
j j +1 £ T j × j j -1 + 2t T1 × T2 × f
r r j j
(43.10)
Aplicando el lema 3.2, obtenemos que Ti j £ 1 y, por tanto,
T j £ T1 × T2 × T2 × T1 £ 1
j j j j
(43.11)
Por consiguiente,
328
j j +1 £ j j -1 + 2t f j
(43.12)
Usando la fórmula (43.12) repetidamente llegamos a

r r
j j £ g + tj f £ g + T f
r r r
(43.13)
donde
r r
f = max f j (43.14)
j
De la (43.13) se deduce que en el caso de la ecuación no homogénea, el esquema del método
componente-por-componente es también absolutamente estable respecto a errores en el vector

r r
inicial g y forzamiento f .
Notemos que las ecuaciones del esquema (43.1) se pueden escribir de otra forma:
æ t j ö r j -2 3 æ t jör ü
ç E + L1 ÷j = ç E - L1 ÷j j -1 ï
è 2 ø è 2 ø ï
æ t j ö r j -1 3 æ t j ö r j -2 3 ï
ç E + L 2 ÷j = ç E - L 2 ÷j ï
è 2 ø è 2 ø ï
rj ï (43.15)
j =j + 2tf
r j +1 3 r j -1 3
ý
æ t j ö r j +2 3 æ t jör ï
ç E + L 2 ÷j = ç E - L 2 ÷j j +1 3 ï
è 2 ø è 2 ø ï
æ t j ö r j +1 æ t j ö r j + 2 3 ïï
ç E + L 1 ÷ j = ç E - L1 ÷j
è 2 ø è 2 ø ïþ
En efecto, eliminando los vectores auxiliares de nuevo llegamos a la fórmula (43.2).
Consideremos ahora el caso general cuando la matriz A del problema
dj
r
en [0, T ]
r r
+ Aj = f
dt (43.16)
j ( 0) = g
r r
se puede presentar como la suma
A = A1 + A2 + ... + An (43.17)
329
de n matrices positivamente semidefinidas ( Ai ³ 0 , i=1,2,…,n). Cada matriz Ai puede ser
relacionada con un proceso físico o con una sola dimensión espacial. En cada intervalo doble
(t j -1 , t j +1 ) , el esquema de Marchuk tiene la forma
æ t j ö r j -[( n-1) / n ] æ t jör

ç E + L1 ÷j = ç E - L1 ÷j j -1
è 2 ø è 2 ø
LLL
t jö rj t j ö r j -(1 / n )
æ
( )
rj æ
ç E + L n ÷ j - t f = ç E - L n ÷j
è 2 ø è 2 ø (43.18)
t j ö r j +(1 / n ) æ t jö r
æ
( )
r
ç E + L n ÷j = ç E - Ln ÷ j j + t f j
è 2 ø è 2 ø
LLL
æ t j ö r j +1 æ t j ö r j +[( n-1) / n ]
ç E + L1 ÷j = ç E - L1 ÷j
è 2 ø è 2 ø
( )
donde de nuevo L i j = Ai t j , i=1,…,n. Otra forma de realizar el esquema es siguiente
æ t j ö r j -[(n+1-i ) /( n+1)] æ t j ör
ç E + L i ÷j = ç E - L i ÷j j -[(n+ 2-i ) /( n+1)]
è 2 ø è 2 ø
i = 1,2,..., n ;
r
j j +[1 /( n+1)] = j j -[1 /( n+1)] + 2t f j ;
r r
(43.19)
æ t j ö r j +[i /( n+1)] æ t ör
ç E + L n-i + 2 ÷j = ç E - L jn-i + 2 ÷j j +[(i -1) /( n+1)]
è 2 ø è 2 ø
i = 2,3,..., n + 1
Resumen. El método componente-por-componente de Yanenko es absolutamente estable
si Ai ( t ) ³ 0 para cada i. En la solución exacta suave, este método aproxima al problema original
con primer grado de aproximación en t , si las matrices L i no conmutan, y con segundo grado
j
de aproximación si L i son conmutativas. El método de Marchuk, como una variante simétrica del
j
método de Yanenko, es libre de dicha restricción, ya que tiene aproximación O(t 2 ) aunque las
330
r
matrices L i no conmutan. Si f = 0 y las matrices L i son antisimétricas, entonces cada uno de
j j
estos métodos posee un ley de conservación.
Ejercicios:
1. Consideremos la clase de las ecuaciones diferenciales parciales,

¶y
r
= Ly º L1y + L2y ,
r r r
¶t
donde L , L1 , y L2 son matrices que no dependen de tiempo. La solución exacta se puede
t2 2 t3 3
presentar en la forma y (t ) = exp(tL )y (0) = ( E + tL + L + L + ...)y (0) . Analice el
r r r
2 6
grado de aproximación del esquema
yr s = ( E + tL1 )yr n
yr n+1 = ( E + tL2 )yr s
en dos casos: 1) L1 y L2 no conmutan: L1 L2 ¹ L2 L1 ; 2) L1 y L2 conmutan: L1 L2 = L2 L1 .
r n
dy r r
2. Sea B + Ay = f un esquema estable, donde B = E + t å Ri , y todas las matrices Ri son
dt i =1
hermitianas, positivamente definidas, y conmutativas Ri R j = R j Ri . Demuestre que en este

r
dy r r
caso el esquema factorizado B1 B2 L Bn + Ay = f con Bi = E + tRi es también estable.
dt
3. A pesar de que el esquema (43.19) es estable para cualquier t , la elección del tamaño t no
puede ser arbitrario por razones de aproximación. Demuestre que al pasar de un nivel
fraccionado a otro, la solución puede cambiar su signo si t es bastante grande.
331
§ 44. Aplicación del método de separación
En este apartado mostramos cómo se puede aplicar el método de separación en la práctica
(Marchuk y otros, 1975, 1983; Marchuk y Skiba, 1976, 1992; Skiba, 1993b; Skiba y Adem, 1995;
Skiba, 1997b; Skiba y otros, 1996).
Ejemplo 44.1. Consideremos la ecuación de transporte de una substancia pasiva
dj
=0 (44.1)
dt
donde
d ¶ ¶ ¶ ¶
= +u +v +w (44.2)
dt ¶ t dx ¶y ¶z
es la derivada individual, y u, v, w son los componentes del vector tridimensional de la velocidad
r
u = ui + vj + wk
r r r
(44.3)
determinado como
dx dy dz
u= , v= , w= (44.4)
dt dt dt
La ecuación (44.1) requiere cierta condición inicial. En el caso de una área limitada, se requieren
también ciertas condiciones en la frontera.
Apliquemos el método componente-por-componente para la ecuación de transporte de
dos dimensiones. Consideremos un conjunto de partículas que se mueven en un dominio
D = { 0 £ x £ a , 0 £ y £ b} en el plano (x, y) por sus trayectorias. En la mecánica de fluidos este
problema se describe con la ecuación
¶j ¶j ¶j
+u +v =0 (44.5)
¶t ¶x ¶y
bajo la condición inicial
332
j (x, y,0) = g (44.6)
Aquí u = u( x , y , t ), v = v( x , y , t ) son los componentes de la velocidad. Supongamos que en
cada punto del rectángulo D, dichos componentes satisfacen la ecuación de continuidad
¶u ¶v
+ =0 (44.7)
¶x ¶y
Sean j, u y v las funciones periódicas en D. El operador de la ecuación (44.5) tiene la
forma
¶j ¶j
Aj = u +v (44.8)
¶x ¶y
Es fácil demostrar que el operador A es antisimétrico, es decir, el producto interno Aj ,j es
nulo para cada j ¹ 0 . En efecto, por definición,
( Aj , j ) = ò dxò dyæçç u ¶j + v ¶j ö÷÷j

a b
(44.9)
0 0 è ¶x ¶y ø
Usando la relación
æ ¶j ¶j ö ¶ æ j2 ö ¶ æ j2 ö
çç u +v ÷÷j = çç u ÷÷ + çç v ÷÷ (44.10)
è ¶ x ¶ y ø ¶ x è 2 ø ¶ y è 2 ø
y las condiciones periódicas, obtenemos Aj ,j = 0 . Ahora, intentaremos descomponer el
operador A en la suma de dos operadores A1 y A2 , también antisimétricos:
Aij ,j = 0 , i=1,2 (44.11)
Es preciso notar que la descomposición formal del operador A dada en la forma
¶ ¶
A1 = u , A2 = v (44.12)
¶x ¶y
333
no satisface las condiciones (44.11). Efectivamente, los valores
(A1j ,j ) = - 1 ò ò j 2 ¶ u dxdy, (A 2j ,j ) = - 1 ò ò j 2 ¶ v dxdy

a b a b
200 ¶x 200 ¶y
no son nulos en el caso general. Para satisfacer (44.11), vamos a elegir A1 y A2 en la forma un
poco más compleja:
¶j j ¶ u ¶j j ¶ v
A1j = u + , A 2j = v + (44.13)
¶x 2¶x ¶y 2¶y
En virtud de (44.7), A1 + A 2 = A . Además,
¶j j 2 ¶ u ¶ æj2 ö æj2 ö ¶ u ¶ æ j2 ö
j A1j = j u + =u ç ÷+ç ÷ = çu ÷
¶x 2 ¶x ¶ x çè 2 ÷ø çè 2 ÷ø ¶ x ¶ x çè 2 ÷ø
y, por consiguiente,
Aij ,j = 0 , i=1,2 (44.14)
Entonces, se puede utilizar la variante simétrica del método componente-por-componente para
resolver el problema de transporte dentro de cada intervalo doble de tiempo (t j -1 , t j +1 ) de tamaño
pequeño 2t:
j j -1 2 - j j -1 æ j ¶ 1 ¶uj ö j j -1 2 + j j -1 ü
+ çç u + ÷÷ × = 0ï
t è ¶x 2 ¶x ø 2 ï
j -j
j j -1 2
æ j ¶ 1 ¶ v ö j +j
j j j -1 2 ï
+ çç v + ÷÷ × =0 ï
t è ¶ y 2 ¶ y ø 2 ï
ý (44.15)
j j +1 2 - j j æ j ¶ 1 ¶ v j ö j j +1 2 + j j
+ çç v + ÷÷ × =0 ï ï
t è ¶y 2 ¶yø 2
ï
j j +1 - j j +1 2 æ j ¶ 1 ¶ u j ö j j +1 + j j +1 2 ï
+ çç u + ÷÷ × = 0ï
t è ¶x 2 ¶x ø 2 þ
Cada ecuación en (44.15) es el esquema de Crank-Nicolson aplicado a un problema separado
unidimensional. Las funciones de malla j j +1 / 2 y j j -1 / 2 son auxiliares, mientras que j j +1 y j j -1

334
son las soluciones numéricas. Evidentemente, el esquema (44.15) conserva la norma euclidiana de
la solución numérica:
j j +1 = j j -1 = K = g (44.16)
y, por lo tanto, es absolutamente estable (estable para cada t ). •
Ejemplo 44.2. Notemos que el método de separación está desarrollado sólo para los
problemas de la forma de evolución:
¶j
+ Aj = f (44.17)
¶t
Ahora mostramos como se puede transformar un problema que no tiene esta forma a un problema
evolutivo. En el dominio D = {0 £ x £ 1, 0 £ y £ 1} con la frontera S e intervalo de tiempo (0,T ),
consideremos la ecuación de onda
¶ 2j ¶ 2 ¶j ¶ 2 ¶j
= a + a en D ´ (0, T ) (44.18)
¶ t2 ¶ x ¶ x ¶ y ¶ y
con las siguientes condiciones iniciales en el momento t=0:
¶
j ( x, y,0) = p( x, y) , j ( x, y,0) = q( x, y ) (44.19)
¶t
donde p = p( x, y) y q = q( x, y) son conocidas y a 2 = a 2 ( x, y ) es la velocidad de propagación
de la onda. Claro que (44.18), (44.19) no tiene la forma evolutiva (44.17) y, por tanto, no se
puede aplicar el método de separación directamente al problema (44.18), (44.19). Pero es posible
escribir dicho problema de otra manera:
335
¶u ¶j
-a =0
¶t ¶x
¶v ¶j
-a =0 (44.20)
¶t ¶y
¶j æ ¶ au ¶ av ö
-ç + ÷=0
¶ t çè ¶ x ¶ y ÷ø
con las siguientes condiciones iniciales en t=0:
u ( x, y,0) = u 0 ( x, y ) , v( x, y,0) = v 0 ( x, y ) , j ( x, y,0) = p( x, y) (44.21)
donde u 0 ( x, y ) y v 0 ( x, y ) tienen que satisfacer la ecuación
¶ au 0 ¶ av 0
+ = q ( x, y ) (44.22)
¶x ¶y
Introduciendo la matriz
é ¶ ù
ê 0 0 -a ú
ê ¶ xú
¶ ú
A=ê 0 0 -a
ê ¶ yú , (44.23)
ê¶ ú
ê (a×) - ¶ (a×) 0 ú
ëê ¶ x ¶ y ûú
y el vector j = {u, v,j } de la solución, escribimos el problema (44.20) de la forma vectorial

r T
¶j
r
+ Aj = 0 en D ´ (0, T ),
r
¶t (44.24)
j (0) = j 0 en D
r r
Definimos el producto interno en nuevo espacio de los vectores j = {u, v,j}

r T
y
f = {w, f ,f }T como
r
(jr,fr ) = ò {wu + fv + fj}dD . (44.25)

D
336
Entonces, usando las condiciones periódicas es fácil demostrar que A es antisimétrica:
( Ajr, jr ) = - ò í ¶ auj + ¶ avj ýdD = - ò aunj dS = 0

ì ü
(44.26)
D î ¶x ¶y þ S
Por lo tanto, la norma
1/ 2
ì ü
r
{
j = íò u 2 + v 2 + j 2 dDý } . (44.27)
îD þ
de la solución se conserva en tiempo. Presentamos A como la suma de dos matrices:
A = A1 + A2 donde
é ¶ ù é ù
ê 0 0 -a ê ú
¶ xú ê0 0 0 ú
ê ú ¶ ú
A1 = ê 0 0 0 ú , A2 = ê0 0 -a (44.28)
ê ¶ yú
ê ¶ (a×) 0 0 ú ê ú
ê¶ x ú ¶
ë û ê0 - (a×) 0 ú
êë ¶y úû
Evidentemente, A1 y A2 también son antisimétricas
( Aijr, jr ) = 0 , i = 1,2 (44.29)
Usando en cada intervalo (t j , t j +1 ) el método componente-por-componente, obtenemos
j j +1 / 2 - j j j j +1 / 2 + j j
r r r r
+ A1 = 0, (44.30)
t 2
j j +1 - j j +1 / 2 j j +1 + j j +1 / 2
r r r r
+ A2 =0, (44.31)
t 2
o, en la forma escalar,
337
u j +1 / 2 - u j ¶ æ j j +1 / 2 + j j ö
= a çç ÷÷
t ¶x è 2 ø
v j +1 / 2 - v j
=0
t (44.32)
j +1 / 2 j +1 / 2
j -j j
¶ æ u +u ö j
= ça ÷÷
t ¶ x çè 2 ø
y
u j +1 - u j +1 / 2
=0
t
v j +1 - v j +1 / 2 ¶ æ j j +1 + j j +1 / 2 ö
= a çç ÷÷
t ¶y è 2 ø (44.33)
j +1 j +1 / 2 j +1 j +1 / 2
j -j ¶ æ v +v ö
= çç a ÷÷
t ¶y è 2 ø
Tomando en cuenta las relaciones u j +1 = u j +1/ 2 y v j +1 / 2 = v j , reducimos (44.32), (44.33) al
sistema
u j +1 - u j ¶ æ j j +1 / 2 + j j ö
=aç ÷÷
t ¶ x çè 2 ø
j +1 / 2 j +1 (44.34)
j -j j
¶ æ u +u j ö
= ça ÷÷
t ¶ x çè 2 ø
v j +1 - v j ¶ æ j j +1 + j j +1 / 2 ö
=a ç ÷÷
t ¶ y çè 2 ø
j +1 (44.35)
j - j j +1 / 2 ¶ æ v j +1 + v j ö
= ça ÷÷
t ¶ y çè 2 ø
Expresando u j +1 y v j +1 de las primeras ecuaciones (44.34) y (44.35) y sustituyendo los
resultados obtenidos en las segundas ecuaciones de dichos sistemas, respectivamente, obtenemos
j j +1 / 2 + j j j j +1 + j j +1/ 2
el sistema de dos ecuaciones para las funciones j j +1 / 4 = y j j +3 / 4 = .
2 2
Ejemplo 44.3. Consideremos la ecuación de Poisson

338
¶ 2j ¶ 2j
Dj º + = f ( x, y ) (44.36)
¶ x2 ¶ y2
en una área limitada D con la condición j ( x, y) = 0 en la frontera S del dominio D. Demostramos
ahora que la solución j ( x, y ) del problema (44.36) se puede hallar como un límite, cuando
t ® ¥ , de la solución U ( x, y, t ) del siguiente problema no estacionario:
¶ U ¶ 2U ¶ 2U
= + - f ( x, y ) en D , (44.37)
¶ t ¶ x2 ¶ y2
U ( x, y, t ) = 0 en S , (44.38)
U ( x, y,0) = g ( x, y) en t = 0 , (44.39)
donde g(x,y) es una función arbitraria en D. Escogemos como la base ortogonal las autofunciones
Gn ( x, y ) del problema espectral
DG n ( x, y ) = l n G n ( x, y )
(44.40)
G n ( x, y ) = 0 en S
con autovalores negativos l n . Usando en (44.37)-(44.39) las series de Fourier
U ( x, y, t ) = åU n (t )Gn ( x, y ), f ( x, y ) = å f n Gn ( x, y ), g ( x, y ) = å g n Gn ( x, y )
n n n
(44.41)
para U ( x, y, t ) , f ( x, y) y g(x,y), obtenemos la ecuación
¶
U n (t ) - lnU n = - f n , U n (0) = g n (44.42)
¶t
para cada coeficiente U n (t ) de la solución U ( x, y, t ) o, bien,
339
U n (t ) = g n e lnt +
fn
ln
(1 - e )
lnt
(44.43)
fn
Ya que l n es negativo, el límite lim U n (t ) = no depende de la condición inicial g(x,y), ni
t ®¥ ln
fn
del tiempo. Además los valores límites coinciden con los coeficientes de Fourier j n = de la
ln
solución j ( x, y ) del problema original estacionario (44.36). Notemos que la solución del
problema no estacionario (44.37)-(44.39) se puede hallar usando el método de separación. □
Ejemplo 44.4 (D’yakonov, 1971, 1972). En el proceso de cálculos con un esquema de
separación hay que imponer de manera apropiada las condiciones de frontera en los pasos
fraccionados (es decir, para las funciones auxiliares). Consideremos el problema
¶j ¶ 2j ¶ 2j
= + + f ( x, y, t ) , j ( x, y,0) = u ( x) (44.44)
¶ t ¶ x2 ¶ y2
en un dominio rectangular D = {0 £ x £ a; 0 £ y £ b} con la frontera S donde la solución
satisface la condición
j ( x, y, t ) = v( x, y, t ) si ( x, y) Î S (44.45)
Vamos a usar un esquema factorizado
df
r
+ Lf = f , Bi = E - tL i
r r
B1 B2 (44.46)
dt
fi +1, j - 2fij + fi -1, j fi , j +1 - 2fij + fi , j -1

donde L1 + L 2 = L , (L1f )ij = , y (L 2f )ij =
r r
.
h 2
h2
Usaremos el algoritmo
B1f1 = F = ( B1 B2 + tL)f n + tf n
r r r r
(44.47)
B2f n+1 = f1
r r
(44.48)
340
en cada intervalo (t n , t n+1 ) . Para el problema (44.48) la condición de frontera S se define por
(44.45): f n+1 = v n+1 . Sin embargo, hay que calcular la condición en S para el vector auxiliar f1 en
r r r
el problema (44.47) de tal manera que no se perjudique la aproximación. Para cada número fijo de
j es un problema unidimensional en el intervalo 0 < x < a . Las condiciones para f1 cuando x = 0

r
y x = a se determinan mediante la ecuación (44.48):
f1 = B2 vr n+1 = ( E - tL 2 )vr n+1 = vr n+1 - tL 2 vr n+1

r
(44.49)
Sólo bajo las condiciones (44.49) el problema (44.47), (44.48) es equivalente al problema (44.46).
Ejercicios:
1. Construir el algoritmo de separación para hallar la solución del problema estacionario (44.36)
usando la ecuación (44.37).
2. Demostrar que bajo las condiciones (44.49) el problema (44.47), (44.48) es equivalente al
problema (44.46).
3. Aproximar en el ejemplo 44.1 los operadores separados (44.1) por matrices antisimétricas.
341
Referencias
Ames, W.F., Numerical Methods for Partial Differential Equations. Boston, Academic
Press, 1992.
Babuška, I., E. Vitásek, y M. Práger, Numerical Processes for Solving Differential
Equations. Nueva York, Interscience, 1966.
Bagrinovskii, K.A, y S.K. Godunov, Difference Schemes for Multi-dimensional Problems.
Doklady Akademii Nauk SSSR, 115, p.431, 1957.
Bakhvalov, N.S., Numerical Methods. Vol. 1, Moscú, Nauka, 1973 (en ruso).
Becker, E., G. Carey, y J. Oden, Finite Elements, An Introduction. NJ., Prentice-Hall,
Englewood Cliffs, 1981.
Bellman, R., Introduction to Matrix Analysis. Nueva York, McGrow-Hill, 1960.
Birkhoff, G., y R.S. Varga, Implicit Alternating Direction Methods. Trans. Amer. Math.
Soc., 92 (2), 1959.
Ciarlet, P.G., The Finite Element Method for Elliptic Problems. Amsterdam, North-
Holland, 1978.
Ciarlet, P.G., Introduction to Numerical Linear Algebra and Optimisation. Cambridge,
Cambridge University Press, 1995.
Collatz, L.O., The Numerical Treatment of Differential Equations. Berlin, Springer-Verlag,
1966.
Collatz, L., Functional Analysis and Numerical Mathematics. Nueva York, Academic
Press, 1966.
Cooley, J.W., y J.W. Tukey, An Algorithm for Machine Calculation of Complex Fourier
Series. Math. Comp., 19, 90, 1965.
342
Crank, J. and P. Nicolson, A Practical Method for numerical Evaluation of Solutions of
Partial Differential Equations of the Heat Conduction Type. Proc. Cambridge Philos.
Soc., 43, 50-67, 1947.
Dahlquist, G., and A. Björck, Numerical Methods. Prentice-Hall, Englewood Cliffs, N.J.,
1974.
De Boor, C., A Practical Guide to Splines. Springer-Verlag, New York, 1978.
Douglas, J., and H. Rachford, On the numerical solution of heat conduction problems in
two and three space variables. Trans. Amer. Math. Soc., 82 (2), 421-439, 1956.
Douglas, J., and B.F. Jones, On predictor-corrector methods for nonlinear parabolic
differential equations. SIAM J., 11 (1), 195-204, 1963.
Douglas, J., R.B. Kellogg, and R.S. Varga, Alternating direction methods for n space
variables. Math. Comput., 17, 83, 1963.
Durran, D.R., Numerical Method for Wave Equations in Geophysical Fluid Dynamics.
Springer, New York, 1999.
D’yakonov, E.G., Different schemes of second order accuracy with a splitting operator for
parabolic equations without mixed partial derivatives. Zh. Vychisl. Mat. I Mat. Fiz.,
Moscow, 4, 935, 1964.
D’yakonov, E.G., Difference Methods for the Solution of Boundary Problems. Moscow
University Press, Moscow (en ruso), Vol. 1 (Stationary Problems, 1971), Vol. 2
(Nonstationary Problems, 1972).
Faddeev, D.K., and Faddeeva, V.N., Computational Methods of Linear Algebra. San
Francisco: H.W. Freeman, 1963.
Fletcher, C.A.J., Computational Galerkin Methods. Springer-Verlag, New-York, 1984.
343
Forsythe, G.E., and C.B. Moler, Computer Solution of Linear Algebraic Systems. Prentice-
Hall, Englewood Cliffs, N.J., 1967.
Forsythe, G.E., M.A. Malcolm, and C.B. Moler, Computer Methods for Mathematical
Computations. Prentice-Hall, Englewood Cliffs, N.J., 1977.
Forsythe, G.E., and W.R. Wasow, Finite Difference Methods for Partial Differential
Equations. J. Wiley, New York, 1960.
Fox, L., An Introduction to Numerical Linear Algebra. Oxford University Press, London,
1964.
Franklin, J.N., Matrix Theory. Prentice-Hall, Englewood Cliffs, N.J., 1968.
Galërkin, B.G., Rods and Plates. Series occurring in various questions concerning the
elastic equilibrium of rods and plates. Vestnik Inzhenerov (Boletín de los Ingenieros),
19, 897-908, 1915.
Gantmacher, F.R., Theory of Matrices. Vol. 1-2, Dunod, Paris, 1966.
García I.P., and Yu.N. Skiba, Simulation of exact barotropic vorticity equation solutions
using a spectral model. Atmósfera, 12 (4), 223-243, 1999.
Godunov, S.K., and V.S. Ryabeñkii, The Theory of Difference Schemes – An Introduction.
Fizmatgiz, Moscow, 1962 (Russian); North Holland, Amsterdam, 1964.
Golub, G., Numerical methods for solving linear least squares problems. Numer. Math., 7,
206-216, 1965.
Golub, G., and W.Kahan, Calculating the singular values and pseudoinverse of a matrix.
SIAM J. Numer. Anal., Ser. B, 2, 205-224, 1965.
Golub, G., and C.F. van Loan, Matrix Computations. North Oxford Academic, Oxford,
1986.
344
Golub, G.H., and J.M. Ortega. Scientific Computing and Differential Equations.
Introduction to Numerical Methods. Academic Press, Boston, 1992.
Hageman, L.A., and D.M. Young, Applied Iterative Methods. Academic Press, New York,
1981.
Halmos, P.R., Finite-Dimensional Vector Spaces. Springer-Verlag, Berlin, 1974.
Henrici, P., Error Propagation for Difference Methods. Wiley, New York, 1963.
Henrici, P., Essentials of Numerical Analysis: with Pocket Calculator Demonstrations. J.
Wiley, New York, 1982.
Householder, A.S., Principles of Numerical Analysis. McGrow-Hill, New York, 1953.
Householder, A.S., The Theory of Matrices in Numerical Analysis. Blaisdell, New York,
1964.
Iserles, A., A First Course in the Numerical Analysis of Differential Equations. Cambridge
University Press, Cambridge, 1998.
Johnson, C., Numerical Solution of Partial Differential Equations by the Finite Element
Method. Cambridge University Press, Cambridge, 1988.
Lancaster, P., Theory of Matrices. Academic Press, New York, 1969.
Lancaster, P., and M. Tismenetsky, Theory of Matrices, with Applications. Academic Press,
New York, 1985.
Lawson, C., and R. Hanson, Solving Least Squares Problems. Prentice-Hall, Englewood
Cliffs, N.J., 1974.
Lax, P.D., and B. Wendroff, On the stability of difference schemes with variable
coefficients. Comm. Pure Appl. Math., 15 (4), 1962.
Le Veque, R.J., High-resolution conservative algorithms for advection in incompressible
flow. SIAM J. Numer.Anal., 33, 627-665, 1996.

345
Lions, J.L., and G.I. Marchuk, Sur les Methodes Numeriques en Sciences Physiques et
Economiques. Dunod, Paris, 1974.
Machenauer, B., Spectral methods. In Numerical Methods Used in Atmospheric Models.
Vol.2, GARP Publication Series, 17, WMO/ICSU, 1977, p. 124.
Marchuk, G.I., Numerical Methods in the Design of Nuclear Reactors. Atomizdat,
Moscow, 1958 (en ruso).
Marchuk, G.I., Numerical Methods in Weather Prediction. Leningrado, Gidrometeoizdat
1967 (en ruso).
Marchuk, G.I., Methods of Numerical Mathematics. Springer-Verlag, Berlin, 1982.
Marchuk, G.I., and V.I. Lebedev, Numerical Methods in Neutron Transport Theory.
Atomizdat, Moscow, 1971 (in Russian).
Marchuk, G.I., A.A. Kordzadze, and Yu.N. Skiba, Calculation of the basic hydrological
fields in the Black Sea. Izvestiya, Atmospheric and Oceanic Physics, 11 (4): 229-237,
1975.
Marchuk, G.I., V.I. Kuzin, and Yu.N. Skiba (1983): Projection-difference method for the
calculation of conjugate functions for a model of heat transfer in the atmosphere-
ocean-soil system. In: Actual Problems of Numerical and Applied Mathematics,
Nauka, Novosibirsk, 149-154, 1983 (in Russian).
Marchuk, G.I., and Yu.N. Skiba, Numerical calculation of the conjugate problem for a
model of the thermal interaction of the atmosphere with the oceans and continents.
Izvestiya, Atmospheric and Oceanic Physics, 12 (5): 279-284, 1976.
Marchuk, G.I., and Yu.N. Skiba, Role of the adjoint equation solution in estimating the
mean temperature anomalies. Atmósfera, 5 (3): 119-133, 1992.
346
Mezinger, F., and Arakawa, A., Numerical Methods Used in Atmospheric Models, GARP
publications series, No. 17, Vol.1, WMO, 1976.
Mezinger, F., and Arakawa, A., Numerical Methods Used in Atmospheric Models, GARP
publications series, No. 17, Vol.2, WMO, 1979.
Mitchell, A.R., and Griffiths, D.F., The Finite Difference Method in Partial Differential
Equations. Wiley-Interscience, New York, 1980.
Morton, K.W., and D.F. Mayers, Numerical Solution of Partial Differential Equations.
Cambridge University Press, Cambridge, 1994.
Ortega, J.M, and W.G. Poole, Jr., An Introduction to Numerical Methods for Differential
Equations. Pitman Publishing Inc., 1981.
Parlett, B.N., The Symmetric Eigenvalue Problem. Prentice-Hall, Englewood Cliffs, N.J.,
1980.
Peaceman, D.W., and H.H. Rachford, The nimerical solution of parabolic and elliptic
differential equations. SIAM J., 3 (1), 1955.
Pepper, D.W., and J.C. Heinrich, The Finite Element Method. Basic Concepts and
Applications. Taylor & Francis, Series in Computational and Physical Processes in
mechanics and Thermal Sciences, 1993.
Powell, M.J.D., Approximation Theory and Methods. Cambridge University Press,
Cambridge, 1981.
Prenter, P., Splines and Variational Methods. Wiley, New York, 1975.
Priestley, A., The Taylor-Galerkin method for the shallow-water equations on the sphere.
Mon. Wea. Rev., 120, 3003-3015, 1992.
Rektorys, K., Variational Methods in Mathematics, Science and Engineering. Dr. Reidel
Publishing Company, Dordrecht, 1977.

347
Rheinboldt, W.C., Methods for Solving Systems of Nonlinear Equations. CBMS-NSF
Regional Conference Series, Vol. 14, SIAM, Philadelphia, 1974.
Richtmyer, R.D., Difference Methods for Initial Value Problems. Interscience, New York,
1957.
Richtmyer, R.D., and K.W. Morton, Difference Methods for Initial Value Problems. Wiley,
New York, 1967.
Roberts, S., and J. Shipman, Two-Point Boundary Value Problems: Shooting Methods.
American Elsevier, New York, 1972.
Russell, R., A comparison of collocation and finite differences for two-point boundary
value problems. SIAM J. Numer. Analysis, 14, 19-39, 1977.
Russell, R., and L. Shampine, A collocation method for boundary value problems.
Numerische Math., 19, 1-28, 1972.
Samarskii, A.A., Necessary and sufficient conditions of stability of two-layer difference
schemes. Doklady AN SSSR, 181 (4), 1968.
Samarskii, A.A., Introduction to the Theory of Difference Schemes. Nauka, Moscow, 1971
(Russian).
Skiba, Yu.N., Mathematical Problems of the Dynamics of Viscous Barotropic Fluid on a
Rotating Sphere. Department of Numerical Mathematics, USSR Academy of Sciences,
Moscow, 1-178, 1989 (en ruso), Indian Institute of Tropical Meteorology, Pune, India,
1-211, 1990 (en inglés).
Skiba, Yu.N., Liapunov instability of the Rossby-Haurwitz waves and dipole modons. Sov.
J. Numer. Analysis & Math. Modelling, 6 (6), 515-534, 1991.
Skiba, Yu.N., Rossby-Haurwitz wave stability. Izvestiya, Atmos. Ocean. Physics, 28 (5),
388-394, 1992a.
348
Skiba, Yu.N., Stability of barotropic modons on a sphere. Izvestiya, Atmos. Ocean. Physics,
28 (10-11), 765-773, 1992b.
Skiba, Yu.N., Dynamics of perturbations of the Rossby-Haurwitz wave and the Verkley
modon. Atmósfera , 6 (2): 87-125, 1993a.
Skiba, Yu.N., Balanced and absolutely stable implicit schemes for the main and adjoint
pollutant transport equations in limited area. Revista Internacional de Contaminación
Ambiental, 9 (2), 39-51, 1993b.
Skiba, Yu.N., On the long-time behavior of solutions to the barotropic atmosphere model.
Geophysical & Astrophysical Fluid Dynamics, 78 (1-4), 143-167, 1994.
Skiba, Yu.N., Finite-difference mass and total energy conserving schemes for shallow
water equations, Russian Meteorology and Hydrology , 2, 35-43, 1995.
Skiba, Yu.N., and J. Adem, A balanced and absolutely stable numerical thermodynamic
model for closed and open oceanic basins. Geofísica Internacional, 34 (4), 385-393,
1995.
Skiba, Yu.N., J. Adem, and T. Morales-Acoltzi, Numerical algorithm for the adjoint
sensitivity study of the Adem ocean thermodynamic model. Atmósfera, 9 (2), 147-
170, 1996.
Skiba, Yu.N., On dimensions of attractive sets of viscous fluids on a sphere under quasi-
periodic forcing. Geophysical and Astrophysical Fluid Dynamics, 85 (3-4), 233-242,
1997a.
Skiba, Yu.N., Air pollution estimates. Wourld Resource Review, 9 (4): 542-556, 1997b.
Skiba, Yu.N., Spectral approximation in the numerical stability study of nondivergent
viscous flows on a sphere. Numerical Methods for Partial Differential Equations, 14
(2), 143-157, 1998.

349
Skiba, Yu.N., and J. Adem, On the linear stability study of zonal incompressible flows on a
Sphere. Numerical Methods for Partial Differential Equations, 14 (5), 649-665, 1998.
Stewart, G.W., Introduction to Matrix Computations. Academic Press, New York, 1973.
Stewart, G.W., and Ji-guang Sun. Matrix Perturbation Theory. Academic Press, New York,
1990.
Strang, G., and G. Fix, An Analysis of Finite Element Method. Prentice-Hall, New York,
1973.
Thuburn, J., Multidimensional flux-limited advection schemes. J. Comp. Physics, 123, 74-
83, 1996.
Thompson, P.D., 1961. Numerical Weather Analysis and Prediction. Macmillan, 170 pp.
van Kempen, H.P.M., On the convergence of the classical Jacobi method for real
symmetric matrices with non-distinct eigenvalues. Numer. Math., 9, 11-18, 1966.
Voevodin, V.V., and Yu.A. Kuznetzov. Matrices and Calculations. Nauka, Moscow, 1984.
Volkov, E.A., Métodos Numéricos, Mir, Moscú, 1990 (en español).
Wilkinson, J.H., The Algebraic Eigenvalue Problem. Londres y Nueva York, Oxford
University Press (Clarendon), 1965.
Yanenko, N.N., On a difference method for the multi-dimensional heat equation. Doklady
AN SSSR, 125, (6), 1959.
Yanenko, N.N., The Method of Fractional Steps. Nauka, Novosibirsk, 1967 (en ruso);
Springer-Verlag, Berlin, 1971.
Young, D., Iterative Solution of Large Linear Systems. Academic Press, New York, 1971.
Zienkiewicz, O.C., and K. Morgan, Finite Elements and Approximation. Wiley, New York,
1983.
350
View publication stats

Introduccion A Los Metodos Numericos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introduccion A Los Metodos Numericos

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Introducción a los Métodos Numéricos

Book · April 2001

Climate variations View project

Disorder and Self-Organisation View project

The user has requested enhancement of the downloaded file.

Capítulo III. Estabilidad y convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 108

Capítulo IV. Construcción de los esquemas numéricos . . . . . . . . . . . . . 152

Capítulo V. Métodos exactos para problemas lineales . . . . . . . . . . . . . 220

Capítulo VII. Métodos iterativos para problemas no lineales . . . . . . . . 275

Capítulo VIII. Métodos se separación . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

espacios vectoriales y matriciales, el producto escalar, el número de condición y los autovalores y

matemático planteado. Esto ocurre principalmente porque la solución no se expresa en funciones

numéricos. Los métodos numéricos reducen el procedimiento de la solución de un problema a

1. Falta de correspondencia entre el problema (modelo) matemático y el fenómeno físico real;

2. Errores en los datos iniciales (parámetros de entrada);

3. Errores de un método numérico usado para resolver el problema;

4. Errores de redondeo en las operaciones aritméticas.

presentar como una cadena de los algoritmos Ai (i=1,2,3,…,N) en la entrada y salida:

Introducimos tres conceptos principales relacionados con modelos y algoritmos numéricos:

1. La aproximación. La proximidad de un modelo numérico al modelo original (diferencial, integral,

malla, o N - n en un método de proyección (el método de colocación, el método de Rayleigh-Ritz,

de malla h tiende al cero, o el número de truncación N tiende al infinito.

2. La estabilidad. Es una característica muy importante de la calidad de cada método. La estabilidad

proceso de cálculo. Si el incremento de errores iniciales es considerable y sin ningún control,

entonces el método numérico se llama inestable. Al contrario, si errores de cálculos dependen

método se llama estable.

Demostramos ahora que la calidad de cálculos (la proximidad de la solución aproximada

aproximación del problema y la estabilidad del método.

Ejemplo 1.1. A fin de mostrar la importancia de la estabilidad de un algoritmo numérico,

cuando n aumenta. Usaremos la fórmula recurrente

superará el valor de la solución exacta. •

Ejemplo 1.2. Para mostrar la importancia de la aproximación consideremos el problema

y (t n ) y y n los valores en el punto t n = nt de la solución exacta y de la solución numérica,

tamaño de la malla t . En particular, si t < 1 / a entonces la solución numérica y n es positiva para

negativos de y n alternan, y la solución numérica y n es lejos de la solución exacta y (t n ) . •

Se demostrará en el curso que para cualquier problema lineal, la convergencia de la solución

numérica hacia la solución exacta depende de la aproximación y la estabilidad. En el caso de un

problema no lineal, la aproximación y la estabilidad ya no son suficientes, pero continúan siendo

de esta característica con los tres ejemplos siguientes.

términos es 1.5398. Comparamos ahora la cola de la serie con la integral òx

integral mediante la fórmula de los trapecios:

dos métodos es enorme.

Por lo tanto, debido a (1.7), se calcula fácilmente la suma

de alcanzar la misma exactitud. •

Ejemplo 1.5. (Esquema de Horner). Calculemos los valores de un polinomio algebraico

Así, Pn ( a ) se calcula por medio de un ciclo:

input ( a , a1 , a 2 ,K , a n ); bn = a n ; i=n, n-1, n-2,..., 1 { bi -1 = a i -1 + abi }; Pn (a ) = b0 .

pueden producir pérdidas considerables de la exactitud debido a la sustracción de grandes números

Para estimar en la práctica el orden de aproximación, la estabilidad de un método y la rapidez

de convergencia de la solución numérica hacia la solución exacta, necesitamos a introducir una

introducimos varias normas vectoriales y matriciales.

Denotamos como R n y C n espacios vectoriales n-dimensionales sobre el campo de los

números reales y complejos, respectivamente. Normalmente, R n se llama espacio euclidiano y

de vectores y las multiplicaciones de vectores por números reales (o complejos) a y b se

La adición es una operación conmutativa, asociativa y distributiva:

Introducimos en el espacio vectorial otra operación muy importante y útil.

Definición. El producto escalar de dos vectores de C n se define como

Es una generalización del concepto de la ortogonalidad en el espacio euclidiano R n al espacio

introduce en el espacio unitario, la ortogonalidad de dos vectores también desempeá un papel

importante en este espacio.

El producto escalar (2.6) posee las siguientes propiedades (Lancaster, 1969):

espacio euclidiano o unitario siempre satisfacen la desigualdad de Schwarz:

se llama matriz unitaria si U U = E , o U = U -1 .