Está en la página 1de 356

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/236170025

Introducción a los Métodos Numéricos

Book · April 2001

CITATIONS READS
9 1,758

1 author:

Yuri Skiba
Universidad Nacional Autónoma de México
245 PUBLICATIONS 1,175 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Climate variations View project

Disorder and Self-Organisation View project

All content following this page was uploaded by Yuri Skiba on 07 September 2020.

The user has requested enhancement of the downloaded file.


Contenido

Página
Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Capítulo I. Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
§ 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
§ 2. Espacios y normas vectoriales . . . . . . . . . . . . . . . . . . . . . . . 8
§ 3. Matrices . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
§ 4. Número de condición de una matriz . . . . . . . . . . . . . . . . . . . . . . 25
§ 5. Problemas espectrales particulares . . . . . . . . . . . . . . . . . . . . . . . 35
§ 6. Valores propios y límites espectrales de matrices . . . . . . . . . . . 43
Capítulo II. Métodos de aproximación e interpolación . . . . . . . . . . . . . 50
§ 7. Diferenciación numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
§ 8. Operador de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
§ 9. Interpolación y extrapolación . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
§ 10. Minimización del error de interpolación . . . . . . . . . . . . . . . . . . 84
§ 11. Aproximación mediante funciones básicas . . . . . . . . . . . . . . . . 90
§ 12. Polinomio de la mejor aproximación media cuadrática . . . . . . 100

Capítulo III. Estabilidad y convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 108


§ 13. Concepto de estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
§ 14. Estabilidad espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
§ 15. Análisis de la estabilidad de los esquemas en las normas . . . . . 124
§ 16. Esquemas numéricos para la ecuación de transporte . . . . . . . . 131
§ 17. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Capítulo IV. Construcción de los esquemas numéricos . . . . . . . . . . . . . 152


§ 18. Esquemas para una ecuación diferencial ordinaria . . . . . . . . . . 152
§ 19. Esquema ”leap-frog” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
§ 20. Métodos de proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
§ 21. Solución de un problema elíptico . . . . . . . . . . . . . . . . . . . . . . . 179
§ 22. Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
§ 23. Cálculo de splines cúbicos naturales . . . . . . . . . . . . . . . . . . 195
§ 24. Método de elementos finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
§ 25. Método espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
§ 26. Transformada rápida de Fourier . . . . . . . . . . . . . . . . . . . . . . . . 217

Capítulo V. Métodos exactos para problemas lineales . . . . . . . . . . . . . 220


§ 27. Factorización LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
§ 28. Método de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
§ 29. Factorización QR mediante transformaciones de Givens . . . . . 233
§ 30. Factorización QR mediante transformaciones de Householder . 237
§ 31. Problema de contorno para una matriz tridiagonal . . . . . . . . . . 242
§ 32. Condiciones periódicas de contorno . . . . . . . . . . . . . . . . . . . . 250

iv
Capítulo VI. Métodos iterativos para problemas lineales . . . . . . . . . . . 253
§ 33. Método de Jacobi (iteraciones simples) . . . . . . . . . . . . . . . . . . 253
§ 34. Método de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
§ 35. Otros métodos iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

Capítulo VII. Métodos iterativos para problemas no lineales . . . . . . . . 275


§ 36. Método iterativo para resolver una ecuación no lineal . . . . . . . . 276
§ 37. Método iterativo para un sistema de ecuaciones no lineales . . . . 284
§ 38. Método de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
§ 39. Otros métodos iterativos para problemas no lineales . . . . . . . . . 298

Capítulo VIII. Métodos se separación . . . . . . . . . . . . . . . . . . . . . . . . . . . 303


§ 40. Método de estabilización . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
§ 41. Método de predicción-corrección . . . . . . . . . . . . . . . . . . . . . 312
§ 42. Método componente-por-componente. Problema homogéneo . . 320
§ 43. Método componente-por-componente.
Problema no homogéneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
§ 44. Aplicación del método de separación . . . . . . . . . . . . . . . . . . . 332

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342

v
Capítulo I. Fundamentos
En este capítulo introducimos los conceptos básicos relacionados con vectores y matrices: los

espacios vectoriales y matriciales, el producto escalar, el número de condición y los autovalores y

autovectores de una matriz, las normas vectoriales y matriciales, la equivalencia de normas, etc.

Estudiamos muy brevemente las propiedades principales de las matrices. Para un estudio más

profundo de la teoría de matrices se recomiendan los libros de Faddeev y Faddeeva (1963), Wilkinson

(1965), Gantmacher (1966), Lancaster (1969), Parlett (1980), Voevodin y Kuznetzov (1984).

§ 1. Introducción

En la práctica, en la mayoría de los casos no se logra hallar una solución exacta del problema

matemático planteado. Esto ocurre principalmente porque la solución no se expresa en funciones

elementales o en otras funciones conocidas. Por eso adquirieron gran importancia los métodos

numéricos. Los métodos numéricos reducen el procedimiento de la solución de un problema a

operaciones aritméticas y lógicas sobre los números, que pueden ser realizadas por una computadora.

Según el grado de complejidad del problema, la exactitud establecida, el método aplicado, etc., puede

ser necesario cumplir desde varias decenas hasta muchos miles de millones de operaciones.

La solución obtenida por un método numérico es aproximada, es decir, hay cierta diferencia no

nula entre la solución exacta y la solución numérica. Las causas principales de la diferencia son las

siguientes:

1. Falta de correspondencia entre el problema (modelo) matemático y el fenómeno físico real;

2. Errores en los datos iniciales (parámetros de entrada);

3. Errores de un método numérico usado para resolver el problema;

4. Errores de redondeo en las operaciones aritméticas.

1
Los primeros dos errores son inevitables. En la mayoría de los casos supongamos que las operaciones

aritméticas se realizan idealmente e ignoramos errores de redondeo. El análisis de los errores del

método numérico es uno de los objetivos principales del libro. Cada método numérico se puede

presentar como una cadena de los algoritmos Ai (i=1,2,3,…,N) en la entrada y salida:

Entrada Salida
® A1 ® A2 ® A3 ®L® AN ® (1.1)
DATOS INICIALES SOLUCIONNUMERICA

Introducimos tres conceptos principales relacionados con modelos y algoritmos numéricos:

1. La aproximación. La proximidad de un modelo numérico al modelo original (diferencial, integral,

etc.), o el grado de aproximación, caracteriza el error que se introduce al hacer discreto el modelo

continuo. El grado de aproximación n se estima mediante un factor que tiene el error entre dos

modelos. Este factor tiene la forma h n en el método de diferencias finitas donde h es el tamaño de

malla, o N - n en un método de proyección (el método de colocación, el método de Rayleigh-Ritz,

el método de Galërkin) donde N es el número de truncación de las series de Fourier. Así, el grado

de aproximación caracteriza la rapidez de reducción del error entre dos modelos cuando el tamaño

de malla h tiende al cero, o el número de truncación N tiende al infinito.

2. La estabilidad. Es una característica muy importante de la calidad de cada método. La estabilidad

caracteriza la manera de propagación de los errores iniciales dentro del algoritmo (1.1) en el

proceso de cálculo. Si el incremento de errores iniciales es considerable y sin ningún control,

entonces el método numérico se llama inestable. Al contrario, si errores de cálculos dependen

continuamente de los errores iniciales (es decir, reducen al cero conjunto con ellos), entonces el

método se llama estable.

2
3. La convergencia. La convergencia significa que la solución numérica converge hacia la solución

exacta cuando el tamaño de malla h tiende al cero, o el número de truncación N tiende al infinito.

Demostramos ahora que la calidad de cálculos (la proximidad de la solución aproximada

[numérica] a la solución exacta) esta directamente relacionada con dos conceptos principales: la

aproximación del problema y la estabilidad del método.

Ejemplo 1.1. A fin de mostrar la importancia de la estabilidad de un algoritmo numérico,

calculemos la integral

1
xn
yn = ò dx (1.2)
0
x+5

para n=0,1,2,3,…. Es preciso notar que la solución exacta es siempre positiva y su valor se disminuye

cuando n aumenta. Usaremos la fórmula recurrente

1
yn + 5 yn-1 = (1.3)
n

que se deriva de

x n + 5x n-1 x n-1 ( x + 5)
1 1 1
1
yn + 5 yn-1 = ò dx = ò dx = ò x n-1dx =
0
x +5 0
x +5 0
n

Tenemos

1
1
y0 = ò dx = [ln( x + 5)]0 = ln 6 - ln 5 @ 0182
1
.
0
x +5

1 1 1
y1 = 1 - 5 y0 @ 0.090 , y2 = - 5 y1 @ 0.050 , y3 = - 5y2 @ 0.083 , y4 = - 5y3 @ -0165
. .
2 3 4

Mientras que el resultado numérico y3 > y2 es extraño, ya que y 2 debe ser mayor que y 3 , el valor

negativo y 4 representa un absurdo. La causa del absurdo es la inestabilidad del algoritmo (1.3). En

efecto, un pequeño error inicial e 0 se multiplica por el factor -5 dentro de cada paso del algoritmo:

3
e 1 = -5e 0 ; e 2 = 25e 0 ; e 3 = -625e 0 , etc. Después de unos k pasos, el error e k = (-5) k e 0

superará el valor de la solución exacta. •

Ejemplo 1.2. Para mostrar la importancia de la aproximación consideremos el problema

d
y (t ) = -a y (t ), y (0) = 1, a > 0
dt

la solución exacta, y(t ) = exp{- at} es positivo para cada t, y en particular, en puntos t n = nt de una

malla (n= 0,1,2,…). Ahora hallamos una solución numérica del problema. Vamos a designar como

y (t n ) y y n los valores en el punto t n = nt de la solución exacta y de la solución numérica,

respectivamente. Con este fin, aproximemos el problema continuo por el problema discreto

y n +1 - y n
= -a y n , y0 = 0
t

Así pues, y n +1 = (1 - t a) y n . Claro que el error de aproximación de la primera derivada depende del

tamaño de la malla t . En particular, si t < 1 / a entonces la solución numérica y n es positiva para

cada n, igual como la solución exacta. Sin embargo, si t > 1 / a entonces los valores positivos y

negativos de y n alternan, y la solución numérica y n es lejos de la solución exacta y (t n ) . •

Se demostrará en el curso que para cualquier problema lineal, la convergencia de la solución

numérica hacia la solución exacta depende de la aproximación y la estabilidad. En el caso de un

problema no lineal, la aproximación y la estabilidad ya no son suficientes, pero continúan siendo

necesarias para la convergencia. Una característica más del método numérico es su eficiencia. En otras

palabras, entre dos métodos que producen el mismo resultado, es preferible el más económico, es

decir, el que requiere menos operaciones aritméticas para su realización. Mostraremos la importancia

de esta característica con los tres ejemplos siguientes.

4
¥
p2
Ejemplo 1.3. Supongamos que la suma exacta
6
de la serie åk k =1
-2
es desconocida. Es

bien conocido que la serie converge lentamente. Es fácil calcular que la suma de sus primeros nueve

términos es 1.5398. Comparamos ahora la cola de la serie con la integral òx


10
-2
dx . Aproximemos la

integral mediante la fórmula de los trapecios:

¥
1 1 1
òx
10
-2
dx @ T1 + T 2 + T3 +L @
2
(10 -2 + 11-2 ) + (11-2 + 12 -2 ) + (12 -2 + 13-2 ) +L
2 2
¥
(1.4)
1 1 1
+ 10 -2 - 10 -2 @ å k -2 - 10 -2
2 2 k =10 2

Por lo tanto,

¥
1
åk @ [ - x -1 ]10 + 10 -2 = 01050
-2 ¥
. (1.5)
k =10 2

Así,

¥ 9 ¥

åk
k =1
-2
= åk
k =1
-2
+ åk
k =10
-2
@ 15398
. + 01050
. = 16448
. (1.6)

p2
El resultado obtenido es muy bueno, ya que la solución exacta hasta cuatro decimales es 1.6449.
6

Al comparar, observamos que el método directo de sumar uno por otro los términos de la serie no es

tan efectivo (económico), ya que es necesario sumar unos 10,000 términos para alcanzar la misma

exactitud. Así, si los cálculos se realizan mediante una calculadora pequeña, la diferencia entre estos

dos métodos es enorme.

5
¥
Ejemplo 1.4. Calcular la suma de la serie åa
k =1
k . Suponemos que conocemos la suma S de

¥
otra serie åb
k =1
k , cuyos términos bk asintóticamente tienen un comportamiento similar a los términos

ak
a k , es decir, lim = 1 . En esto caso,
k ®¥ b
k

¥ ¥

åa
k =1
k = S + å (a k - bk )
k =1
(1.7)

donde la serie nueva en la parte derecha de la igualdad (1.7) converge más rápido que la serie original.

Por ejemplo,

¥ ¥ ¥ ¥
p2
åa º å ( k + 1)
-1/ 2

k =1
k
k =1
4
y åb º å k
k =1
k
k =1
-2
=
6

Por lo tanto, debido a (1.7), se calcula fácilmente la suma

p2
{ }
¥ ¥
+ å ( k 4 + 1)
-1/ 2
åa
k =1
k º
6 k =1
- k -2 = 164493
. - 0.30119 = 134374
. (1.8)

ya que la suma de los primeros cinco términos de la última serie en (1.8) es suficiente para obtener el

valor exacto hasta cuatro decimales. Es necesario sumar por lo menos 20,000 términos a k con el fin

de alcanzar la misma exactitud. •

Ejemplo 1.5. (Esquema de Horner). Calculemos los valores de un polinomio algebraico

Pn ( x) = a0 + a1 x + a 2 x 2 + K + a n x n (1.9)

donde ai (i = 0,1,2,K , n) son unos coeficientes numéricos, y n es el grado del polinomio. El valor

Pn ( a ) del polinomio en un punto x=a se determina de un modo más simple si escribir el polinomio

de la forma siguiente:

{ {
Pn ( x ) = a 0 + x a1 + x a 2 +K+ x{a n- 2 + x{a n-1 + xa n }}K }} (1.10)

De acuerdo con la fórmula (1.10), el cálculo del valor de Pn ( a ) se reduce al siguiente algoritmo:

6
bn = a n
bn -1 = a n -1 + abn
bn - 2 = a n - 2 + abn -1
(1.11)
LLLL
b1 = a1 + ab2
b0 = a 0 + ab1 = Pn (a )

Así, Pn ( a ) se calcula por medio de un ciclo:

input ( a , a1 , a 2 ,K , a n ); bn = a n ; i=n, n-1, n-2,..., 1 { bi -1 = a i -1 + abi }; Pn (a ) = b0 .

El método de determinación del valor polinomio con arreglo a las fórmulas (1.11) se llama el esquema

de Horner. En conclusión debemos decir que a pesar de que el esquema de Horner es muy cómodo, en

el caso cuando los coeficientes a i son muy grandes, los cálculos según el esquema (1.11) a veces

pueden producir pérdidas considerables de la exactitud debido a la sustracción de grandes números

redondeados. •

Para estimar en la práctica el orden de aproximación, la estabilidad de un método y la rapidez

de convergencia de la solución numérica hacia la solución exacta, necesitamos a introducir una

métrica o distancia entre dos vectores, o dos matrices. Con este fin, en las siguientes dos párrafos

introducimos varias normas vectoriales y matriciales.

7
§ 2. Espacios y normas vectoriales

Denotamos como R n y C n espacios vectoriales n-dimensionales sobre el campo de los

números reales y complejos, respectivamente. Normalmente, R n se llama espacio euclidiano y


r
C n espacio unitario (Lancaster, 1969). Cada vector x = ( x1 , x2 ,K, xn ) del R n con las

componentes xi { } n
i =1
se caracteriza por su magnitud (módulo)

r 2 2 2
x= x1 + x2 + L + xn (2.1)

r r
y su dirección. Sea x = ( x1 , x2 ,K, xn ) y y = ( y1 , y2 ,K, yn ) dos vectores de R n o C n . La suma

de vectores y las multiplicaciones de vectores por números reales (o complejos) a y b se

definen como
r r
ax + by = (a x1 + b y1 ,a x2 + b y2 ,K,a xn + b yn ) (2.2)

La adición es una operación conmutativa, asociativa y distributiva:


r r r r
x+y= y+x (2.3)
r r r r r r
x + ( y + z ) = ( x + y) + z (2.4)
r r r r r r r
a ( x + y) = a x + a y , (a + b ) x = a x + b x (2.5)

Introducimos en el espacio vectorial otra operación muy importante y útil.

Definición. El producto escalar de dos vectores de C n se define como

r r r* r n
x , y = y x = å xi yi (2.6)
i =1

r
donde y * = ( y 1 , y 2 ,K, y n ) T es el vector traspuesto y complejo conjugado respecto a

r
y = ( y1 , y2 ,K, yn ) . En el caso de un espacio euclidiano R n , (2.6) se reduce a

8
r r r r n
x , y = y T x = å xi yi
i =1

En particular,
r r r
x, x = x 2 (2.7)
r r
Definición. Vectores x y y se llaman ortogonales si

r r
x, y = 0 (2.8)

Es una generalización del concepto de la ortogonalidad en el espacio euclidiano R n al espacio

unitario C n . En efecto, si todos los componentes de ambos vectores son números reales, entonces

(2.8) implica
r r r r
x , y º x y cosJ = 0 (2.9)

es decir, el ángulo J entre dos vectores es recto: J=90°. A pesar de que el concepto de ángulo no se

introduce en el espacio unitario, la ortogonalidad de dos vectores también desempeá un papel

importante en este espacio.

El producto escalar (2.6) posee las siguientes propiedades (Lancaster, 1969):


r r r r r
1. x , x ³ 0 , además, x , x = 0 si y solo si x = 0

r r r r
2. a x , y = a x , y ;

r r r r r r r
3. x + y, z = x , z + y, z ;

r r r r
4. x , y = y , x .
r r
Desigualdad de Schwarz. Demostramos ahora que dos vectores arbitrarios x , y en un

espacio euclidiano o unitario siempre satisfacen la desigualdad de Schwarz:


r r r r
x, y £ x y (2.10)

9
a = - y, x , b = x , x , zr = ax + by . Entonces, hay que demostrar la
r r r r r r
Demostración. Sea

2 r r
desigualdad a £ b y , y . Tenemos

r r r r r r r rr r rr
0 £ z , z = ax + by , ax + by = a ax + by ,x + b ax + by , y

rr rr r r r r
= aa x , x + ba y , x + ab x , y + bb y , y

De aquí, usando las definiciones de a y b, y la igualdad b = b , obtenemos que los primeros dos
r r 2
términos de la última suma se cancelan, y los dos restantes nos da 0 £ b(b y , y - a ) . Si b=0,

r r r
entonces x = 0 , y (2.10) se cumple evidentemente. Pues si b> 0, entonces a £ b y , y . •
2

r r r
Definición. Vectores x1 , x2 ,K, xn se llaman linealmente independientes si de la ecuación

åa
r
i xi = 0 (2.11)
i =1

se deduce que ai = 0 para cada i. Si en (2.11) por lo menos un número ai es no nulo, entonces

dichos vectores se llaman linealmente dependientes. Por ejemplo, si a1 ¹ 0 entonces

n
1
åa
r r r
x1 = - xi , es decir, el vector x1 se presenta como una combinación lineal de los restantes
a1 i =2
i

vectores.
r r
Ejemplo 2.1. En el espacio euclidiano R n , los vectores e1 = (1,0,K,0) , e2 = (0,1,K,0) ,…,
r
en = (0,0,K,1) son linealmente independientes y representan un sistema básico ortogonal. Además,
r
cada vector x se puede presentar como

r n r
x = å xi ei (2.12)
i =1

donde xi son sus componentes relacionadas con la base ei {r } n


i =1
.•

10
Introducimos ahora un concepto útil para medir la magnitud de los vectores.

Definición. Una función × de vectores se denomina norma vectorial si para cualesquier

r r
vectores x y y del R n o C n se satisfacen los axiomas siguientes:

r r r
1. x ³ 0 ; 2. x = 0 Û x = 0;

r r
3. a x = a x para cualquier número complejo a;

r r r r
4. x + y £ x + y (desigualdad triangular).

Introducimos ahora una familia de las normas.

Definición. Sea p ³1. Las normas de Hölder, o p-normas, se definen por

1Ip
æ n pö
= ç å xi ÷
r
x (2.13)
p
è i =1 ø

De ellas, las más importantes son la 1-norma

n
x 1 = å xi ,
r
(2.14)
i =1

la 2-norma (norma euclidiana)

1I 2
æ n 2ö
= ç å xi ÷ = ( x * x) ,
r r r 1I 2 r r 1I 2
x = x, x (2.15)
2
è i =1 ø

y la ¥-norma
r
x ¥
= max xi (2.16)
1£i £ n

r r
Desigualdad de Hölder. Para cualesquier vectores x , y se cumple la desigualdad

r r r r 1 1
x*y £ x p
y q
, donde p > 1, q > 1 y + =1 (2.17)
p q

11
Observación 2.1. En particular, cuando p=q=2, la desigualdad (2.17) coincide con la de

Schwarz (2.10). Debemos decir, que entre todos los espacios definidos por la norma de Hölder (2.13),

sólo el espacio euclidiano (p=q=2) posee el producto escalar. Otra ventaja principal del espacio

euclidiano consiste en que sólo la norma euclidiana (2-norma) es invariable bajo cualquiera

transformación unitaria (por ejemplo, rotación). En efecto, si Q es una matriz unitaria (u ortogonal),

entonces

= Qx , Qx = (Qx ) Qx = x * (Q* Q) x = x * x = x
r 2 r r r* r r r r r r 2
Qx 2 2
(2.18)

ya que Q* Q = E , donde E es la matriz identidad. •

Es fácil introducir una métrica (distancia entre los vectores) en C n mediante la norma:
r r r r
r( x , y) = x - y (2.19)

El ejemplo 2.2 muestra que cada métrica introduce su propia topología en el espacio vectorial.

Ejemplo 2.2 (Ortega y Poole, 1981). Consideremos en el espacio bidimensional real C 2 las

métricas definidas por las normas (2.14)-(2.16):

2
r 1 ( x , y ) = å xi - yi
r r
(2.20)
i =1

la 2-norma, o norma euclidiana,

1I 2
r r æ 2 2ö
r 2 ( x , y ) = ç å xi - yi ÷ (2.21)
è i =1 ø

y la ¥-norma
r r
r ¥ ( x , y ) = max xi - yi (2.22)
1£i £ 2

r
Las esferas r i ( x ,0) £ 1 definidas por las métricas (2.20)-(2.22) se representan en Fig.2.1. •

12
0

Fig. 2.1. Esferas unitarias definidas por métricas (2.20) ( ), (2.21) (—), y (2.22) (----).

Definición. Dos normas o p


y o q se llaman equivalentes en C n si existen dos constantes

universales positivas C y K tales que

r r r
C x p£ x q £ K x p
(2.23)

r
para cualquier vector x del C n . •

Las desigualdades (2.23) son importantes en varias estimaciones de vectores. Por ejemplo, si

una sucesión de vectores converge en la p-norma, entonces, según la desigualdad derecha (2.23),

dicha sucesión también converge en la q-norma.

Observación 2.2. En un espacio C n de dimensión finita, cualquiera de dos normas arbitrarias

es equivalente a la otra. Por ejemplo,

r r r
x 2£ x 1 £ n x 2
(2.24)

r r r
x ¥
£ x2£ n x ¥
(2.25)

r r r
x ¥£ x 1£n x ¥
(2.26)

13
En el límite, cuando la dimensión n tiende al infinito, la segunda constante en (2.24)-(2.26) no es

limitada, ya que también tiende al infinito y, por lo tanto, la equivalencia de normas se pierde. Así, a

diferencia de los espacios de dimensión finita, en un espacio de dimensión infinita dos normas no son

en general equivalentes. •

Ejercicios:

n 2 n 2

1. Demuestre que å xi =å
r r r
xi si los vectores x i son ortogonales.
i =1 i =1

2. Sea la función x una norma vectorial. Demuestre que x - y £ x - y .


r r r r r

1Ip
æ n pö
= ç å xi ÷
r
3. Sea p³1 un número natural. Demuestre que x es la norma (norma de Hölder).
p
è i =1 ø

4. Sea la función x una norma vectorial. El conjunto de vectores para los cuales x - x0 £ r es
r r r
r
una esfera con el centro x0 y el radio r. Demuestre que la esfera es un conjunto convexo, es decir,
r
si x y y son dos vectores arbitrarios de la esfera entonces zr = tx + (1 - t ) y pertenece a la esfera
r r r
para cualquier número t del segmento 0 £ t £ 1 .

x, y £ x 1 y ¥ .
r r r r
5. Demuestre que

2
£ x1 x ¥.
r r r
6. Demuestre que x 2

7. (Stewart y Ji-guang Sun, 1990). Sea p>1 un número natural. Demuestre la desigualdad de
Minkowski:
x+ y p £ x p + y
r r r r
p

[Sugerencia: Utilice la identidad


p -1 p -1
å ( xi + y i ) = å xi ( xi + y i ) + å y i ( xi + y i )
p

i i i

y aplique dos veces la desigualdad de Hölder].

8. Sea × una norma vectorial, y sea T una matriz no singular. Demuestre que la función × T
r r
definida por x T = Tx también es la norma vectorial.
r 2
(
9. Porqué la función x = 2 x1 - 3x2 + x2
2 1/ 2
es la norma? )
r r
10. Demuestre que x ¥
= lim x p .
p®¥

14
§ 3. Matrices

{ } una matriz n ´ n , donde n indica el número de filas y columnas de la matriz.


Sea A = aij

Los números complejos a ij se llaman elementos de la matriz (i,j=1,…,n). La matriz AT = a ji { } se


{ }
llama matriz transpuesta; la matriz A* = a ji se llama matriz adjunta, y la matriz inversa se denota

por A -1 , y se define por las igualdades A -1 A = AA -1 = E , donde E es la matriz identidad. En seguida

se presentan varias matrices especiales (Bellman, 1960; Gantmacher, 1966; Lancaster, 1969; Parlett,

1980; Lancaster y Tismenetsky, 1985; Stewart y Ji-guang Sun, 1990).

Definición. Una matriz A = aij { } se llama diagonal si aij = 0 " i ¹ j . Se denota por

{ }
A=diag{ a11 , a22 ,..., ann }. Una matriz A = aij se llama triangular superior si aij = 0 " i > j , y

triangular inferior si aij = 0 " i < j .

é1 0 ù é5i 4 - 9i ù
Por ejemplo, la matriz ê ú es diagonal; la matriz ê es triangular superior,
ë0 - 5 + 2i û ë0 8 úû

é -i 0ù
y la matriz ê ú es triangular inferior.
ë7i + 2 25û

Definición. Una matriz real A se llama simétrica si A T = A , y antisimétrica si A T = - A .

Una matriz A se llama hermitiana si A * = A , y antihermitiana si A * = - A .

é3 4ù é0 - 3ù
Por ejemplo, la matriz ê ú es simétrica; la matriz ê ú es antisimétrica; la matriz
ë4 0û ë3 0 û

é 2 1 + 7i ù é 2i 1 + 7i ù
ê1 - 7i ú es hermitiana, y la matriz ê es antihermitiana.
ë 9 û ë- 1 + 7i 0 úû

Definición. Una matriz Q se llama matriz ortogonal si Q T Q = E , o Q T = Q -1 . Una matriz U

se llama matriz unitaria si U *U = E , o U * = U -1 .

15
é1 / 2 -1 / 2 ù é1 / 2 i / 2 ù
Por ejemplo, la matriz ê ú es ortogonal, y la matriz ê ú es
ë1 / 2 1/ 2 û ëi / 2 1 / 2 û

unitaria. Las matrices adjuntas, hermitianas, antihermitianas y unitarias son las generalizaciones de las

matrices transpuestas, simétricas, antisimétricas y ortogonales, respectivamente, cuando los elementos

matriciales a ij son números complejos.

Definición. Una matriz hermitiana A se denomina positivamente definida (o positiva) si

A x, x º x * A x > 0
r r r r r
para cualquier vector no nulo x de C n . La matriz hermitiana A se llama

x* Ax ³ 0
r r r
positivamente semidefinida si para cualquier vector x de C n . Recordamos que según

r r n n
(2.6), x * A x º åå aij xi x j .
i =1 j =1

Definición. Sea A una matriz cuadrada. Un número complejo l se llama autovalor (o valor

propio) de A si Au = lu , o si det( A - lE ) = 0 . El vector u se denomina autovector (vector


r r r

propio) de A. El conjunto de todos los autovalores de la matriz A se llama el espectro de A.

Cada matriz n ´ n tiene exactamente n autovalores.

Teorema 3.1. Todos los autovalores de una matriz hermitiana A son reales. Además, sus

autovectores correspondientes a diferentes autovalores son ortogonales.

Demostración. En efecto, consideremos el problema espectral para la matriz A : Ax = m x . De aquí


v r

tenemos x * A = m x * , y por lo tanto, ( m - m ) x * x = 0 . Ya que x ¹0 , obtenemos m = m , es


v r r r r

decir, el autovalor es real. Sea Ay = l y , donde l¹m . Por una parte, y * Ax = m y * x , por otra parte
r r r v r r

r* r
tenemos y * A= y * A* = ( Ay ) * = (l y ) * = l y * , por lo tanto, (l - m ) y x = (l - m ) x , y = 0 . Ya que
r r r r r r r

r r
l¹m , obtenemos x , y = 0 , es decir, dos autovectores son ortogonales. •

16
Teorema 3.2 (Schur y Toeplitz). Cualquier matriz cuadrada A es unitariamente semejante a

una matriz triangular superior T , es decir, existe una matriz unitaria U , tal que A = U * TU = U -1TU .

La demostración del teorema se puede encontrar, por ejemplo, en Lancaster (1969). Notamos

que cualquier matriz diagonal, simétrica, antisimétrica, hermitiana, antihermitiana, ortogonal o

unitaria pertenece a un conjunto de matrices normales que conmutan con su matriz adjunta:

AA * = A* A . La importancia de las matrices normales se explica por la siguiente proposición.

Teorema 3.3. Una matriz cuadrada A es unitariamente semejante a la matriz diagonal de sus

autovalores si y solo si A es normal.

Demostración. Þ Supongamos que A se puede presentar de la forma A = U * DU , donde U es una

matriz unitaria y D es una matriz diagonal. Entonces

AA* = (U * DU )(U * DU )* = U * DDU = U * DDU = (U * DU )* (U * DU ) = A* A

Ü Al contrario, supongamos que A es normal. Según el teorema 3.2, existe una matriz unitaria U y

una matriz triangular superior T, tales que A = U * TU . Es fácil verificar que AA * = A * A Û

åt
2 2
* *
TT = T T . Igualando los elementos (1,1) de la última ecuación, obtenemos 1j = t11 . Por lo
j =1

tanto, t1 j = 0 para j=2,3,…,n. Igualando los elementos (2,2) de la misma ecuación, llegamos a

n 2
åt
2 2
2j = t12 + t 22 . Ya que t12 = 0 , se deduce que t 2 j = 0 para j=3,4,…,n. Continuando de la
j =2

misma manera, encontramos que T es diagonal: T=D. Ya que el problema espectral Av n = l n v n es


r r

D(Uv n ) = l n (Uv n ) , tenemos t ii = l i , es decir, los elementos t ii son


r r
equivalente al problema

autovalores. •

17
Definición. Una función × de matrices se llama norma matricial si para cualesquier matrices

A y B se satisfacen los axiomas siguientes:


1. A ³ 0 ; 2. A = 0 Û A = 0;

3. aA = a A para cualquier número complejo a;

4. A + B £ A + B (desigualdad triangular);
5. AB £ A B (compatibilidad). •

Una norma muy útil es la de Frobenius

1I 2
é n n 2ù
A F
= êåå a ij ú (3.1)
ë i =1 j =1 û

Se puede demostrar que

m
= tr ( AA* ) = tr ( A* A) = å li
2 2
A F
(3.2)
i =1

n
donde tr ( A) = å aii es la traza de A, y li es autovalor no nulo de A (i=1,2,…,m). A
i =1

continuación introducimos una familia de las p-normas que se utilizan con mayor frecuencia.

Definición. Sea p ³1. La p-norma de una matriz A se define por


r
r Ax p
A p
= max
r Ax p
= sup r (3.3)
x p =1 r
x ¹0 x p

La p-norma matricial (3.3) se llama norma concordada con la p-norma vectorial (2.13). La 2-norma de

la matriz se llama norma espectral, ya que A 2 = r ( A* A) , y para cada matriz normal A,

A 2 = max li = r ( A) (3.4)
1£i £ n

es el radio espectral de A.

Para cada norma matricial × y cada matriz A, tenemos

18
1 n
E ³1, A -1 ³ , An £ A (3.5)
A

En efecto, para cualquiera matriz A, la norma espectral (3.4) es mínima entre todas las normas de A

que satisfacen la condición de compatibilidad Ax £ norma( A) x . La primera desigualdad (3.5) es

cierta debido a que la norma espectral de la matriz identidad E es igual a uno. Las otras dos

desigualdades (3.5) se deducen inmediatamente del axioma 5 de la norma. Por ejemplo,

A -1 A ³ A -1 A = E ³ 1 .

Ejemplo 3.1. Demostremos que AB F


£ A F B F . En efecto,

2
n n n n n
æ n 2 öæ
n 2ö
= åå å aik bkj £ åå ç å aik ÷ç å bk j ÷
2
AB F
i =1 j =1 k =1 i =1 j =1 è k =1 øè k =1 ø
(3.6)
æ n n 2 öæ ö
n n
= ç åå aik ÷ çç åå b jk
2
÷= A
2 2
÷ F
B F
è i =1 k =1 ø è j =1 k =1 ø

Ejemplo 3.2. Demostremos ahora que AB p


£ A p
B p
. En efecto,

ìï A( Bx ) p Bx p üï
r r r
ABx p
AB p = sup r = sup í r r ý
r
x ¹0 x p x ¹0 ï
r
Bx p x p ï
î þ
(3.7)
ìï A( Bx ) p üï ìï Bx p üï
r r
£ sup
r í
r ý sup í r ý= A p B p
Bx ¹0 ï Bx p ï x¹0 ï x p ï
î þ î þ
r
Ejemplo 3.3. Calculamos la norma A ¥ . Por definición, tenemos A ¥ = max
r Ax ¥ .
x ¥ =1

n n n
= max å aij x j £ max å aij x j £ x max å aij . Si
r r
Mediante la fórmula (2.16), obtenemos Ax ¥ ¥ 1£i £ n
1£i £ n 1£i £ n
j =1 j =1 j =1

r
ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces

19
n
= max å a ij . Con este fin, fijemos un i , y elegimos x = x j { } { }
r n
A ¥ j =1
, donde x j = sign aij . En
1£i £ n
j =1

n n n

å aij x j = å aij , y por lo tanto, max å aij . •


r r
= x
r
este caso, x ¥
= 1, Ax ¥ ¥ 1£ i £ n
j =1 j =1 j =1

Ejemplo 3.4. La función A D


= max a ij no es la norma, ya que no se cumple el axioma
1£i , j £ n

æ 1 1ö
5 de la norma. En efecto, si A = B = çç ÷÷ , entonces 2 = AB D
> A D
B D
= 1. •
è 1 1ø

Ejemplo 3.5. Demostremos (3.4) en el caso cuando A es una matriz simétrica. Sea Aui = li ui
r r

donde l i y u i son autovalores reales y autovectores ortogonales correspondientes de la matriz A,


r

respectivamente. Supongamos que l 1 = max l i , entonces


1£ i £ n

r r
Ax 2 Au1 2
A 2 = sup r = r = l1 (3.8)
x ¹0 x 2 u1 2

n
Ejemplo 3.6. Demostremos que A 1 = max å a ij . En efecto, según (2.14), tenemos
1£ j £ n
i =1

n ì æ n öü r æ
ï ö
ç å x j ÷ï
n n n n n
Ax 1 = å å aij x j £ åå aij x j £ å ímax aij 1 1£ j £ n å ij
r
ç ý
÷ï = x ç max a ÷ (3.9)
i =1 ï è ø
1£ j £ n
i =1 j =1 i =1 j =1 î è j =1 øþ i =1

r
Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces,

A 1 = max å aij . Sea max å a ij se alcanza para j= k , y elegimos un x = {x j }nj =1 donde todos x j
n n
r
1£ j £ n 1£ j £ n
i =1 i =1

x k = sign {a ik } .
r
son nulos excepto En este caso, x 1 =1 y, por lo tanto,

n n n n
Ax 1 = å å aij x j = å aik = x 1 max å aij . La fórmula queda demostrada. •
r r
1£ j £ n
i =1 j =1 i =1 i =1

20
Es importante señalar que transformaciones unitarias (u ortogonales) no cambian la norma

espectral (2-norma) y la de Frobenius de una matriz A, es decir, si Q y Z son matrices unitarias (u

ortogonales), entonces QAZ 2


= A 2
y QAZ F
= A F . Por ejemplo, usando (2.18) obtenemos

r r
Q( AZx ) ì
ï A( Zx ) ü
ï
QAZ = sup r
2
= supí r
2
ý= A (3.10)
Zx ¹ 0 ï ï
2 2
x¹0 x2 î Zx 2 þ

Ya que el espacio de todas las matrices de un grado n tiene dimensión finita ( n 2 ), cualesquiera dos

normas matriciales en este espacio son equivalentes (véanse las desigualdades (2.23) y la observación

2.2):

C A p£ A q
£K A p
(3.11)

Las desigualdades (3.11) tienen gran importancia en varias estimaciones de las matrices. Por ejemplo,

si una sucesión de matrices An converge hacia la matriz A en p-norma: An - A p ® 0 , entonces

dicha sucesión también converge hacia A en q-norma. Especificamos las constantes C y K en (3.11)

para algunas normas particulares:

A 2
£ A F
£ n A 2
(3.12)

1
A¥ £ A 2
£ n A¥ (3.13)
n

1
A1 £ A 2
£ n A1 (3.14)
n

max aij £ A 2
£ n max aij (3.15)
1£i , j £ n 1£i , j £ n

A 2
£ A1 A¥ (3.16)

21
Ejemplo 3.7. Demostremos que A 2
£ A F . En efecto, usando (2.15) y la desigualdad de

Schwarz, obtenemos

2
ì
ïæç n ö æ n öü r2æ n n ö
֕
n n n
=å å aij x j å íç å aij çå x j 2 ç åå
2 2 2
2
÷ ç ÷= x 2 2
r r
Ax £ ÷ ç ÷ý = x aij ÷ A
2
i =1 j =1 i =1 ï
îè j =1 ø è j =1 øï
þ è i =1 j =1 ø
2 F

Tomando en cuenta (3.3), llegaremos a la estimación necesaria. •

Demostramos ahora dos lemas útiles (Marchuk, 1982).

Lema 3.1. Sea A una matriz positivamente semidefinida y sea s ³ 0 un número. Entonces

(E + sA)-1 2
£1 (3.17)

Demostración. Debido a la definición de la norma euclidiana (2.15) y la del producto escalar (2.6),

tenemos

(E + s A)-1 f , (E + s A)-1 f
( E + s A) -1 2
= sup (3.18)
2 f ¹0 f ,f

Introduciendo elementos nuevos y por

y = (E + s A)-1 f (3.19)

obtenemos

y ,y
(E + s A)-1
2
= sup
2 y ¹0 (E + s A)y , (E + s A)y

1
= (3.20)
ì
ï Ay ,y Ay , Ay ü
ï
inf í1 + 2s +s 2 ý
y ¹0 ï
î y ,y y ,y ï
þ

Ya que Ay ,y ³ 0 , la desigualdad (3.17) es válida. •

22
Corolario 3.1. Si la matriz A es positivamente definida y s > 0 , entonces

(E + sA)-1 2
<1 (3.21)

Lema 3.2 (de Kellogg). Sea A una matriz positivamente semidefinida y sea s ³ 0 un

número, entonces

(E - sA)(E + sA)-1 2
£1 (3.22)

Designamos que T = (E - sA)(E + sA) . Según la definición de la norma


-1
Demostración.

euclidiana (2.15) y la del producto escalar (2.6), tenemos

2 Tf
2
Tf , Tf (E - s A)y , (E - s A)y
T = sup 2
= sup = sup (3.23)
2
f ¹0 f
2
2
f ¹0 f,f y ¹0 (E + s A)y , (E + s A)y

donde y se define por (3.19), por lo tanto

2 y ,y - 2s Ay ,y + s 2 Ay , Ay
T = sup £1.
2
y ¹0 y ,y + 2s Ay ,y + s 2 Ay , Ay

El lema queda demostrado. •

Corolario 3.2. Si la matriz A es positivamente definida y s > 0 , entonces

(E - sA)(E + sA)-1 2
<1 (3.24)

Los lemas 3.1 y 3.2 se usarán en el estudio de la estabilidad de varios esquemas numéricos.

Ejercicios:

1. Sea A una matriz antihermitiana: A * = - A . Demuestre que todos sus autovalores pertenecen al
eje imaginario.
2. Demuestre que una matriz A triangular es normal si y sólo si A es diagonal.

23
3. Una matriz A se llama estrictamente triangular superior si A es triangular superior con los
elementos diagonales nulos. Demuestre que si matriz n ´ n A es estrictamente triangular superior,
entonces An = O .

4. Sea función A una norma matricial. Demuestre que A - B £ A - B .

5. Demuestre que la función åa


i, j
ij es la norma matricial.

6. Demuestre que A 2 = r ( AA * ) donde r ( AA * ) es el radio espectral de la matriz AA * .

7. Sea A una matriz unitaria. Demuestre que A 2 = 1 .

8. Sea A una matriz normal. Demuestre que A 2 = r ( A) .

A + A*
9. Sea A una matriz. Demuestre que A - £ A- H 2
para cada matriz hermitiana H.
2 2

10. Demuestre que el producto de las matrices triangulares superiores (o inferiores) también es la
matriz triangular superior (inferior).
11. Demuestre que el conjunto de las matrices triangulares superiores (o inferiores) del mismo orden
es un espacio lineal.

12. Sean l1 ,...,ln autovalores de la matriz A. Demuestre que Det A = l1 Lln .

13. Demuestre que el determinante de una matriz triangular es igual al producto de sus elementos
diagonales.
14. Sea A una matriz simétrica y positivamente definida, y sea C una matriz real no singular.
Demuestre que C T AC también es positivamente definida.

24
§ 4. Número de condición de una matriz

El determinante de una matriz A (se denota por det A ) es una de sus características más importantes.
r r
Por ejemplo, si la matriz A es singular, es decir, si det A = 0 entonces el sistema Ax = b no tiene

ninguna solución. Una información valiosa sobre las propiedades de A también pueden dar sus

autovalores. En este apartado introducimos otra característica importante de una matriz llamada

número de condición. Pero antes consideremos dos ejemplos instructivos.

Ejemplo 4.1 (W. Kahan). Sea


r r
Ax = b (4.1)

el sistema de ecuaciones lineales con

é12969
. 0.8648ù r é0.8642ù
A=ê ú , y b=ê ú (4.2)
ë0.2161 01441
. û ë 01440
. û
r r r r r
Denotemos el término residual r = b - Ay , donde y es una solución aproximada. Ya que r = 0

r r r
para la solución exacta x = A -1b , es natural suponer que y es buena aproximación de la solución
r
exacta cuando el término residual r es muy pequeño. Sin embargo, para la matriz (4.2) esta
r
suposición no es cierta. En efecto, elegimos y = (0.9911, - 0.4870) T . En este caso el vector residual

r r
es r = (-10 -8 , 10 -8 ) T , es decir, muy pequeño. No obstante, el vector y queda lejos de la solución

r
exacta x = (2 , - 2 ) T . •

Ejemplo 4.2. Consideremos el sistema (4.1) con

é0.780 0.563ù r é0.217ù


A=ê ú, y b=ê ú (4.3)
ë0.913 0.659û ë0.254û

25
r
Si elegimos y1 = (0.341, - 0.087) T como una solución aproximada, entonces el término residual es

r r
r1 = (10 -6 , 0) T . Y si elegimos y2 = (0.999, - 1001
. ) T como otra solución aproximada, entonces el

r r r
término residual es r2 = (0.0013... , - 0.0015... ) T . Al comparar r1 con r2 concluimos que el vector

r r r
y1 aproxima la solución exacta x mejor que y 2 . No obstante, la solución exacta es (1,-1) T y, en la
r
realidad, el vector y 2 es la mejor aproximación entre dos vectores. •

Surge la pregunta, “¿ Por qué, al analizar los términos residuales, obtenemos conclusiones

completamente erróneas?” Con el fin de explicar la situación, examinemos el sistema (4.1) cuando
r
det A ¹ 0 y b ¹ 0 (Forsythe y otros, 1977; Ciarlet, 1995). En este caso, el sistema tiene una sola
r
solución x ¹ 0 . Analicemos ahora un sistema perturbado

r r r r
A(x + e ) = b + d (4.4)

r r r r
donde e y d son los errores de la solución x y vector b , respectivamente. Claro que

r r r r
Ae = d , y e = A -1d . (4.5)
r r r r r
Dividiendo el error relativo e / x en la solución entre el error relativo d / b en el vector b , y

usando (4.1) y (4.5) obtenemos

r r r r
r r -1
e / x b e Ax A d -1
r r = r × r = r × r £ A A , (4.6)
d / b x d x d

Definición. Sea A una matriz. El número

n ( A) = A A -1 (4.7)

se denomina número de condición de la matriz A.

26
Se deduce de (4.6) y (4.7) que

r r
e d
r £ n ( A) r , (4.8)
x b

es decir, el error relativo de la solución del problema (4.1) se expresa mediante el error relativo del
r
vector b multiplicado por el número de condición de la matriz. Por eso, cuando n ( A) es pequeño o

r r
moderado, el error e / x en la solución del problema (4.1) está acotado y depende continuamente del

r r r r r r r
error d / b en b en el sentido de que e / x tiende al cero junto con d / b . En esta situación, la

matriz A (lo mismo que el sistema (4.1)) se llama bien condicionada. Sin embargo, si el número de

condición de la matriz A es muy grande (por ejemplo, 10 20 o 10 30 ), entonces el error en la solución

r r r
e / xr ya no es controlable a pesar de que el error d / b es muy pequeño (por ejemplo, 10 -10 ). En la

última situación, el sistema (4.1) y su matriz A se llaman mal condicionados, y es posible esperar

problemas graves con la precisión de los cálculos.

Se puede demostrar que el numero de condición (4.7) también es una característica importante
r
de la respuesta del sistema (4.1) a un error en la matriz A. En efecto, supongamos que b es exacto,
r r
pero A contiene un error dA . Así, en lugar de la solución exacta x = A -1b , tenemos una solución
r r
r r r
aproximada x + dx = ( A + dA) b , o dx =
-1
{( A + dA) -1
}
- A -1 b . Sustituyendo B = A + dA en la

identidad B -1 - A -1 = A -1 ( A - B )B -1 obtenemos

r r r r
dx = - A -1 dA ( A + dA) b = - A -1 dA( x + dx )
-1

r r r
Por lo tanto, dx £ A -1 dA x + dx . Se deduce que

27
r
dx dA
r r £ n ( A) (4.9)
x + dx A

Así, el error relativo en la solución se limita arriba por el error relativo en la matriz A multiplicado por

el número de condición (4.7).

Ahora es posible contestar la pregunta sobre el comportamiento extraño de las soluciones en

los ejemplos 4.1 y 4.2. En efecto, lo que pasa en dichos ejemplos se debe a la mala condicionalidad de
r
las matrices (4.2) y (4.3), y de acuerdo con la estimación (4.8), un error pequeño en el vector dada b

produce un error bastante grande en la solución.

La matriz de Hilbert

é 1 12 L 1
n ù
ê1 1
L 1 ú
Hn = ê 2 3 ú
n +1
(4.10)
êL L L Lú
ê1 1 ú
ë n n +1 L
1
2 n -1 û

es otro ejemplo de matriz mal condicionada. Su número de condición empeora cuando el orden n

-1
aumenta. En efecto, consideremos su número de condición n F ( H n ) = H n F
Hn usando la
F

norma de Frobenius (3.1). La norma H n F


tiende al infinito cuando n aumenta, ya que

n
1
³å
2
Hn F
,
k =1 k

donde la serie de la parte derecha diverge.

Notemos que cualquier matriz unitaria (u ortogonal) es bien condicionada. En efecto, sea U

matriz unitaria, UU -1 = E . Debido a que la norma espectral tanto de U como de U -1 = U T son

iguales a uno, el número de condición de U es n (U ) º n 2 (U ) = U 2


U -1 = 1.
2

28
Según (4.7), el número de condición n ( A) depende de la norma matricial elegida. Por

ejemplo,

n p ( A) = A p
A -1 (4.11)
p

si se usa p-norma (3.3). Sin embargo, en virtud de la equivalencia (3.11) de las normas matriciales,

obtenemos

C 2n p ( A) £ n q ( A) £ K 2n p ( A) (4.12)

donde C y K son las constantes universales positivas de (3.11) que dependen sólo de las normas

elegidas (es decir, no dependen de A). Así, los números de condición de una matriz A calculados en

dos normas diferentes, también son equivalentes, es decir, si A está bien (o mal) condicionada en una

norma y las constantes C y K no son muy grandes, entonces, según (4.12), A también está bien

(mal) condicionada en otra norma.

Ejemplo 4.3. Sea A una matriz simétrica. El ejemplo 3.5 muestra que la 2-norma (o norma

espectral) de A es A 2
= max l i º b ( A) . Ya que
1£ i £ n
(A ) = ( A )
-1 * * -1
= A-1 , la matriz inversa también

es simétrica. Además,
r r r r r r
-1 2
A-1 x , A-1 x y, y y, y 1
A = max
r r r = max
r r r = max
r 2r r
= 2
,
2 x =1 x, x y =1 Ay, Ay y =1 A y, y min li
1£ i £ n

es decir, A -1 = 1 / min l i º 1 / a ( A) . Por eso,


2 1£i £ n

n 2 ( A) = b ( A) / a ( A) (4.13)

Por eso, el número (4.13) para una matriz A se llama número de condición espectral de A.

29
Ejemplo 4.4. Calculemos el número de condición de la matriz triangular

é 2 -1 L 0 0ù
ê-1 2 L 0 0ú
ê ú
A = êL L L L Lú (4.14)
ê ú
ê0 0 L 2 -1ú
êë 0 0 L -1 2 úû

del orden n. La matriz es simétrica y positivamente definida, es decir, todos sus autovalores son

positivos. Es fácil demostrar que los autovalores se hallan mediante de la fórmula

kp
l k ( A) = 2(1 - cos ) = 2(1 - cos kh) (4.15)
n +1

válida para cualquier orden n, donde h = p / (n + 1) . Usando (4.15) obtenemos

a ( A) = l1 ( A) = 2(1 - cosh) , b ( A) = ln ( A) = 2(1 - cosnh) (4.16)

Ya que cos ( n + 1)h = cosp = -1, y por lo tanto, cos nh = - cos h , según (4.13), tenemos

1 + cos h
n 2 ( A) = (4.17)
1 - cos h

4 - h2
Si h es pequeño, entonces cos h » 1 - h 2 / 2 , y n 2 ( A) = = O(h -2 ) , es decir, la matriz
h2

(4.14) es moderadamente mal condicionada. Tales matrices surgen a menudo al aproximar el

problema unidimensional de contorno para el operador de Laplace. •

Lamentablemente, no hay ninguna correlación entre el determinante y el número de condición

de una matriz. Por ejemplo, la matriz diagonal Dn = diag(10 -1 ,10 -1 ,K,10 -1 ) del orden n es bien

condicionada, ya que n (Dn ) = 1 para cada n. Sin embargo, det( Dn ) = 10 - n , es decir, el determinante

tiende al cero cuando n aumenta. Así, una matriz casi singular puede ser bien condicionada. Por otro

lado, demostremos ahora que la matriz

30
é 1 -1 -1 L -1 -1ù
ê 0 1 -1 L -1 -1ú
ê ú
ê0 0 1 L -1 -1ú
A=ê ú (4.18)
êL L L L L Lú
ê0 0 0 L 1 -1ú
ê ú
ë0 0 0 L 0 1û

del orden n cuyo determinante es uno, es mal condicionada. Examinemos el sistema (4.1) con la
r
matriz (4.18) y el vector columna b = (-1,-1,K ,-1, 1) T con todos sus componentes iguales a -1,

excepto el último componente que es uno. En una forma más detallada, este sistema tiene el aspecto

siguiente:

x1 - x 2 - x 3 -K- x n = -1
x 2 - x 3 -K- x n = -1
LLLLLL (4.19)
x n -1 - x n = -1
xn = 1

r
El sistema (4.19) tiene una sola solución x = (0, 0,K ,0, 1) T que obtenemos usando la carrera

inversa. Supongamos que en esta carrera se ha cometido un solo error: en lugar de bn = 1 se ha

introducido bn = 1 + d , donde d > 0 es muy pequeño en comparación con la unidad. Entonces, en

r r r
vez de la solución exacta x del sistema (4.19) obtendremos la solución aproximada x + e , donde el
r
error e = (e 1 , e 2 ,K , e n ) T satisface el sistema de ecuaciones

e 1 - e 2 - e 3 -K-e n = 0
e 2 - e 3 -K-e n = 0
LLLLLL (4.20)
e n -1 - e n = 0
en =d

31
De aquí obtenemos e n = d , e n -1 = d , e n - 2 = 2d , e n - k = 2 k -1 d , K , e 1 = 2 n - 2 d . En las

designaciones (2.16) tenemos

r r r r
e ¥
º max e i = 2 n-2 d , x ¥
= 1, d =d, b = 1, (4.21)
i ¥ ¥

y según (4.6) y (4.7),


r r
-1
e / x
n ¥ ( A) º A ¥
A ³ r ¥
r
¥
= 2 n- 2 (4.22)
¥
d / b
¥ ¥

Por ejemplo, si n=102, tenemos n ¥ ( A) ³ 2 100 > 10 30 , y por lo tanto, según la última igualdad en
r
(4.22), e ¥
= 2 100 d > 10 30 d . Particularmente, si d = 10 -15 (es decir, el único error cometido en la

carrera inversa es muy pequeño), no obstante, el error de la solución hallada es muy grande:
r
e ¥
> 1015 .

r r
Estimación del número de condición. Sea Ax = b un sistema lineal. Su solución formal es
r r
x = A -1b . Entonces, la solución del problema es equivalente a la búsqueda de la matriz inversa A -1 .

Antes de resolver este problema, es útil estimar el número de condición de la matriz A,

n ( A) = A A -1 . En un caso general es un problema difícil, ya que la matriz inversa A -1 y, por lo

tanto, el segundo factor A -1 son desconocidos. Sin embargo, ahora consideramos un grupo de

matrices que permiten estimar n ( A) = A A -1 bastante rápido. Introducimos otra matriz,

B = E - A , y escribimos el sistema original como

r r r
x = Bx + b (4.23)

El método que describimos ahora es para un grupo de tales matrices A que

32
B = E - A <1 (4.24)

para una norma matricial. En el capítulo VI, inciso 33 demostramos un teorema (Teorema 33.1) que
r
afirma que bajo la condición (4.24), el problema (4.23) tiene una sola solución x* y
r
r r b
x* º A-1b £ (4.25)
1- B
r
para cualquier vector b del espacio vectorial. El denominador en (4.25) es positivo debido a (4.24). Se

1
deduce de aquí que A -1 £ . Por otro lado, A = E - B < E + B £ 1 + E . Entonces, según
1- B

(4.7), tenemos

1+ E
n ( A) = A A -1 £ (4.26)
1- B

Ejemplo 4.5. Supongamos que A = E - B donde los elementos de la matriz B son

0.8
bij = × (-1) i + j , 1 £ i, j £ n (4.27)
n

Tenemos

1/ 2
n n
0.8 æ n ö
B 1 º max å bij =å = 0.8 , y B2£ B F
º çç å bij2 ÷÷ = 0.8
j =1 n è j =1 ø
i
j =1

Entonces, de acuerdo con la fórmula (4.26),

1+1
n ( A) = n (( E - B) £ = 10 ,
1 - 0.8

es decir, el número de condición de la matriz A es pequeño, y tanto la matriz A como el sistema


r r
Ax = b son bien condicionados. □

33
Ejercicios:

é1 a ù
1. Sea A(a) = ê ú una matriz donde a>0. Demuestre que A(a) se hace mal condicionada
ë1 - a û
cuando a se aproxima a cero. [Sugerencia: Hay que construir la matriz inversa A -1 (a) , y usando
n
1
la norma matricial A ¥
= max å a ij , demuestre que n ¥ ( A) = 1 + ].
1£i £ n a
j =1

2. Sea × a una norma matricial definida con cinco axiomas en § 3. Demuestre que

n a ( A) ³ max l i ( A) / min l i ( A) para cualquier matriz A, donde li ( A) es un autovalor de A.


i i

3. Demuestre que n 2 ( A) = max l i ( A) / min l i ( A) para cada matriz normal.


i i

4. Sea A una matriz no singular. Demuestre que n 2 ( A * A) ³ n 2 ( A) .


5. Usando las propiedades de normas matriciales, demuestre que n ( A) ³ 1 .

6. Sea A una matriz diagonal, A = diag{d1 ,..., d n } , y sea d i = 10 -i . Demuestre que n 2 ( A) aumenta

con n, y A se hace mal condicionada.


7. Demuestre que n (cA) = n ( A) para cualquiera matriz A y cualquier número c ¹ 0 .

8. Demuestre que n 2 ( A) = 1 si y sólo si A = cU , donde c ¹ 0 es un número y U es una matriz


unitaria.
9. Demuestre que n 2 ( A) = n 2 (VAU ) , donde V y U son dos matrices unitarias.
10. Demuestre que n ( AB ) £ n ( A)n ( B) .

11. Sean A y B dos matrices (A es no singular) y sea AB=E+P. Suponiendo que P es bastante
pequeña, estimen la norma A -1 - B en términos de B y P .
12. Compare la solución del sistema:
5.3433 x + 4.1245 y = 3.1417
5.3432 x + 4.1244 y = 3.1416
con la del sistema
5.343 x + 4.124 y = 3.142
5.343 x + 4.124 y = 3.142
que se obtiene mediante omitir la última cifra de la mantisa en todos los coeficientos. ¿Que número
de condición tiene la matriz del sistema original? [La solución del primer sistema es
x = 2.5776, y = -2.5776 , mientras que el segundo sistema tiene número infinito de soluciones].

34
§ 5. Problemas espectrales particulares

El problema espectral completo de una matriz consiste en la búsqueda de todos sus

autovalores y autovectores. Este problema surge en varios campos de física matemática, por ejemplo,

en el estudio de la estabilidad lineal de flujos hidrodinámicos o atmosféricos (vean, por ejemplo,

Skiba, 1998; Skiba y Adem, 1998). En general, el cálculo de todos los autovalores y autovectores es

un problema bastante difícil (Wilkinson, 1965). Sin embargo, a menudo en las aplicaciones es

necesario conocer sólo autovalores máximo o/y mínimo, o sólo algunos autovalores máximos y los

autovectores correspondientes. Aquí nos detendremos sólo en el método de potencias para determinar

algunos autovalores y autovectores particulares (Faddeev y Faddeeva, 1963; Ortega y Poole, 1981;

Marchuk, 1982; Golub y Ortega, 1992).


r n
Supongamos que A es una matriz de dimensión n que tiene un sistema completo {ei }i =1 de

autovectores normalizados de la manera siguiente:

r r
ei = ei 2
= 1. (5.1)

Tenemos
r r
Aei = li ei (i = 1,..., n) , (5.2)

r
donde li es autovalor correspondiente a ei . Por ejemplo, tal sistema de autovectores siempre existe

para cualquiera matriz normal. Además admitamos que

l1 > l2 ³ l3 ³ K ³ ln . (5.3)

Sea
r r r r
x0 = c1e1 + c 2 e2 + K + c n en (5.4)

un vector arbitrario no nulo, y

35
c1 ¹ 0 . (5.5)

Hallamos sucesivamente los vectores


r r
x k = Ax k -1 , k = 1,2,3,K . (5.6)

De acuerdo con (5.2), tenemos

r r æ n rö n
r n
r
x1 = Ax 0 = Aç å ci ei ÷ = å ci Aei = å ci l i ei ,
è i =1 ø i =1 i =1

y, en general,

r n
r r r
x k = å ci l ki ei = l k1 ( c1 e1 + h k ) , (5.7)
i =1

donde

k k
r æl ö r æl ö r
h k = c2 ç 2 ÷ e2 +K+ cn ç n ÷ en
è l1 ø è l1 ø

r
con la particularidad de que, en virtud de (5.3), la norma euclidiana h k tiende a cero con

k
l
velocidad 2 :
l1

r æl k
ö
hk = Oç 2 ÷ ®0 , k®¥ , (5.8)
çl ÷
è 1 ø

Tomando en consideración (5.7), obtenemos

r r r r r r
x k , x k -1 = l21k -1 c1 e1 + h k , c1 e1 + h k -1 )

r r r r r r
[
= l 21k -1 c12 + c1 e1 ,h k -1 + c1 h k ,e1 + h k ,h k -1 ] (5.9)

Teniendo en cuenta las desigualdades de Schwarz,

36
r r r r r r r r r r r r
e1 ,h k -1 £ e1 h k -1 = h k -1 , h k ,e1 £ h k , h k ,h k -1 £ h k h k -1 ,

y (5.8), hallamos

k -1
r r æl ö
x k , x k -1 = l 21k -1 ( c12 + Oç 2 ÷) (5.10)
çl ÷
è 1 ø

Análogamente obtenemos

r r æl m
ö
x m , x m = l 21m ( c12 + Oç 2 ÷) (5.11)
çl ÷
è 1 ø

Por consiguiente, k-ésima aproximación del autovalor l 1 se calcula por

r r æl k -1
ö
x k , x k -1
(l 1 ) k = r r = l 1 + Oç 2 ÷ (5.12)
x k -1 , x k -1 çl ÷
è 1 ø

Se deduce de (5.11) que

r r r æl k
ö
( c1 + Oç 2 ÷)
1/ 2 k
xk = xk , xk = l1 (5.13)
çl ÷
è 1 ø
r
y, por lo tanto, k-ésima aproximación del autovector e1 se calcula por

r r r r æl k
ö
(e1 ) k = x k / x k = ( sign l 1 ) k ( sign c1 ) e1 + Oçç 2 ÷
÷
(5.14)
è l1 ø

Así pues, debido a las condiciones (5.3), el proceso iterativo (5.6) permite hallar el valor propio l 1 ,
r
máximo según su módulo, y el vector propio correspondiente e1 . El error de k-ésima aproximación a
r
l 1 y e1 se determina por medio de las fórmulas (5.12) y (5.14), respectivamente. Se deduce de (5.8),

(5.12) y (5.14) que la velocidad de convergencia del proceso iterativo depende del valor de l 2 / l 1 , y

por lo tanto es rápida si él es pequeño y es lenta si él es un poco menor que uno.

37
r
Observación 5.1. Si l 1 > 1 , entonces, según (5.13), x k ® ¥ cuando k ® ¥ . Y si

r
l 1 < 1 , entonces x k ® 0 cuando k ® ¥ . Al realizar los cálculos con una computadora, ambos

casos son indeseables. En efecto, en el primer caso puede ocurrir que rebase el límite admisible y,
r
como resultado, se interrumpa el cálculo. En el segundo caso, la norma x k puede convertirse en cero

de máquina, y provocar la perdida de información. Para evitar ambas situaciones, es conveniente

realizar las iteraciones mediante las fórmulas modificadas, pero equivalentes:


r r r r r r r r r r
( e1 ) 0 = x 0 / x0 , x k = A ( e1 ) k -1 , (l 1 ) k = x k , ( e1 ) k -1 , ( e1 ) k = x k / x k (5.15)

El algoritmo (5.15) ya no tiene los referidos defectos y proporciona el mismo resultado que las

iteraciones (5.6), (5.12) y (5.14). •

Observación 5.2. Si inicialmente c1 = 0 (es decir, no se cumple (5.5)), lo cual es poco

probable, a expensas de los errores de redondeo, dentro de unas k iteraciones aparecerá, por regla
r r
general, un componente no nulo del vector x k correspondiente al autovector e1 . •

Observación 5.3. Sea Pn ( t ) = a 0 + a1 t + a 2 t 2 +K+ a n t n un polinomio algebraico de grado

n, y sea A y B dos matrices, además, B = Pn ( A) = a 0 E + a1 A + a 2 A 2 +K+ a n A n , donde E es matriz

unidad, entonces

l i ( B) = Pn (l i ( A)) (5.16)

donde l i ( A) y l i ( B) son autovalores de las matrices A y B, respectivamente. •

Consideramos ahora algunos ejemplos de la aplicación del método iterativo (5.15).

Ejemplo 5.1. Calculemos límites espectrales de una matriz simétrica A, es decir, el autovalor

máximo b ( A) = max l i ( A) , y autovalor mínimo a ( A) = min l i ( A) . Utilizando el método


i i

38
iterativo (5.15), se puede encontrar el autovalor de A máximo según el módulo, l$ ( A) . De la misma

manera, se puede calcular el autovalor máximo según el módulo, l$ ( B ) , de otra matriz simétrica

B = A - l$ ( A) E . Consideremos dos opciones que existen:

1. Si l$ ( A) > 0 , entonces b ( A) = l$ ( A) . Además, de acuerdo con (5.16), tenemos que

l i ( B) = l i ( A) - l$ ( A) £ 0 para cada i. Por eso, l$ ( B) = min l i ( A) - l$ ( A) , es decir,


i

a ( A) = l$ ( B) + l$ ( A) .

2. Si l$ ( A) < 0 , entonces a ( A) = l$ ( A) . Por lo tanto, l$ ( B) = max l i ( A) - l$ ( A) , y


i

$ ( B) + l
de nuevo, b ( A) = l $ ( A) . •

Observación 5.4. Si la matriz simétrica A tiene dos autovalores máximos según el módulo,

pero con signos opuestos, entonces para distintos vectores iniciales (5.4), las aproximaciones

sucesivas (l 1 ) k del proceso iterativo (5.15) convergen hacia números diferentes. A fin de evitar esta

situación es necesario desplazar el espectro de la matriz, es decir, aplicar el método del ejemplo 5.1 a

una matriz nueva A ¢ = A + cE , donde c es un número no nulo. •

Observación 5.5. Si la matriz A tiene autovalores múltiples, máximos según el módulo,

entonces para distintos vectores iniciales (5.4), las aproximaciones sucesivas (l 1 ) k del proceso

r
iterativo (5.15) convergen hacia un mismo número, pero los autovectores (e1 ) k convergen a vectores

no colineales. •

Ejemplo 5.2. Obtenemos la distancia r = min l i ( A) - l 0 entre un punto dado l 0 y el


i

autovalor próximo de una matriz simétrica A. Este problema surge al estudiar los fenómenos del tipo

39
de resonancia. Examinemos el caso que representa el mayor interés: l 0 pertenece al espectro de la

matriz A: a ( A) = min l i ( A) < l 0 < b ( A) = max l i ( A) . Sea l = max{l 0 - a ( A), b ( A) - l 0 } .


i i

Demostremos que

r = l 1 - l$ ( B) , (5.17)

1
2 { i
1
2 (
A - l 0 E ) es simétrica, y, en virtud de (5.16), l ( A) - l 0 } ³ 0
2
donde B = E - 2
l i ( B) = 1 -
l l

r2
1
{
para cada i. Se deduce que l$ ( B) = 1 - 2 l* ( A) - l 0 }
2
= 1- 2
, donde l* ( A) es el autovalor de
l l

A, inmediato a l 0 , es decir, la expresión (5.17) es justa. •

Ejemplo 5.3. Calculemos la 2-norma de una matriz A, y de su inversa A -1 . El conocimiento

de ambas normas es a menudo indispensable para optimizar un algoritmo numérico, o realizar varias

estimaciones teóricas de su estabilidad y/o convergencia. Las siguientes relaciones son válidas:

Aj , Aj A * Aj , j
= b ( A * A) = l$ ( A * A)
2
A = sup = sup (5.18)
j j ,j j j ,j

A -1j , A -1j ( A * A) -1 j , j
[ ]
-1 2 -1
A = sup = sup = a ( A * A) (5.19)
j j ,j j j ,j

En particular, según (4.13), el número de condición

n ( A) º A A -1 (5.20)

de una matriz simétrica A es igual a n ( A) = b ( A) / a ( A) .•

Ejemplo 5.4 (Cálculo del autovalor mínimo). Supongamos para simplicidad que A es una

matriz simétrica y positiva (es decir, b ( A) = l$ ( A) ), y se cumplen las desigualdades (5.3). Se puede

encontrar b ( A) usando el proceso iterativo (5.15). Introducimos otra matriz B = b ( A) E - A , que

40
también es positiva y simétrica. Por eso, el valor b ( B ) de nuevo se calcula por medio del proceso

(5.15). Es evidente que

a ( A) º min l i ( A) = b ( A) - b ( B) . (5.21)
i

Notemos que con la norma espectral (3.4), el número de condición (5.20) de nuestra matriz es

n 2 ( A) º A 2 A -1 2
= max l i ( A) / min l i ( A) = b ( A) / a ( A) (5.22)
i i

Por eso, cuando A es mal condicionada (es decir, cuando el numero (5.22) es muy grande), a ( A) es

un número relativamente pequeño y se obtiene de (5.21) como la diferencia de las números grandes.

Por eso, el algoritmo numérico (5.21) puede contener errores no sólo en la magnitud de a ( A) , sino

aún en el signo. •

Ejercicios:

1. Sea Pn ( t ) = a 0 + a1 t + a 2 t 2 +K+ a n t n un polinomio algebraico de grado n, y sea A y B dos


matrices; además, B = Pn ( A) = a 0 E + a1 A + a2 A 2 +K+ an A n , donde E es matriz unidad. Demuestre
que l i ( B) = Pn (l i ( A)) , donde l i ( A) y l i ( B) son autovalores de A y B, respectivamente.

2. Sea A una matriz hermitiana con la diagonal principal dominante ( aii > å aij para cada i).
j ¹i

Demuestre que A es positivamente definida si todos sus elementos diagonales son positivos.
r r r r
3. Sean l1 ,...,ln autovalores y sean u1 ,...,u n autovectores de una matriz A, es decir, Aui = li ui .
r r
Demuestre que para cada número complejo c , ( A + cE )ui = (li + c)u , es decir la matriz A+cE
tiene autovalores l1 + c,...,ln + c .
r r r r
4. Sea A una matriz no singular y Au = lu . Demuestre que A-1u = l-1u .
5. Sea A una matriz diagonal, A = diag{d1 ,..., d n } . Demuestre que d1 ,..., d n son autovalores de A.

6. Demuestre que det A = 0 si y sólo si A tiene autovalor nulo.


7. Demostrar que los autovalores de A son los mismos que los de AT .
8. Demostrar que si A y B son matrices de dimensión n, entonces los autovalores de AB son los
mismos que los de BA.

41
9. Demuestre que una matriz A es no singular si aii a jj > å aik åa jk para todos i ¹ j .
k ¹i k¹ j

10. Una matriz tridiagonal


é b1 c1 0 0 ù
êa O O 0 ú
J =ê 2 ú
ê 0 O O c n -1 ú
ê ú
ë 0 0 a n bn û
del orden n se llama matriz de Jacobi si ai ci -1 > 0 para i=2,…,n. Demuestre que para cada matriz
de Jacobi J existe una matriz diagonal no singular D = diag{ d1 ,..., d n } tal que DJD -1 es
c
simétrica. [ d i2 = d i2-1 i -1 , i=2,…,n , donde d1 ¹ 0 es arbitrario].
ai
11. Una matriz n ´ n , T = {t ij } se llama matriz de Toeplitz si cada diagonal contiene elementos
éa b 0 L 0 ù
êb a b O M ú
ê ú
iguales: t ij = t i - j , i,j=1,…,n. Por ejemplo, A = ê 0 O O O 0 ú es matriz simétrica
ê ú
ê M O b a bú
êë 0 L 0 b a úû
tridiagonal de Toeplitz (también se llama matriz de Jacobi). Demuestre que A tiene autovalores
æ πj ö r
l j = a + 2 b cosç ÷ y los autovectores correspondientes v j con componentes
è n +1ø
2 æ πjk ö
v j ,k = sin ç ÷ , j=1,…,n. Se deduce que dos matrices simétricas tridiagonales de
n +1 è n +1ø
Toeplitz del orden n tienen los mismos autovectores y, por lo tanto, son conmutativas.

42
§ 6. Valores propios y límites espectrales de matrices

Consideramos dos ejemplos de la convergencia del proceso iterativo (5.6).

Ejemplo 6.1. Aplicaremos el proceso iterativo (5.4), (5.6) cuando

é 2 0.5 -15
.ù é1ù
ê
A = ê 0.5 0 1 úú , y x 0 = êê1úú
r
(6.1)
êë-15
. 1 -1 úû êë1úû

é 1.000000 ù
Después de 85 iteraciones tenemos ( l 1 ) 85 = 2.624016 , y ( e1 ) 85 = êê 0.036666 úú . La convergencia
r

êë-0.403788úû

de iteraciones es lenta, debido a que los autovalores exactos de la matriz (6.1) son l 1 = 2.624015 ,

l 2 = 2.189657 , l 3 = -0.565641 , y por lo tanto, el valor de l 2 / l 1 es cercano a uno. •

Ejemplo 6.2. Aplicaremos el proceso iterativo (5.4), (5.6) cuando

é3 1 2 ù é1ù
A = êê4 1 -6úú , y x 0 = êê1úú .
r
(6.2)
êë 1 0 1 úû êë1úû

é 0.445042ù
= 11.344810 , y ( e1 ) 6 = ê 0.801938ú . La convergencia de
r
Después de seis iteraciones tenemos ( l 1 ) 6 ê ú
êë 1.000000 úû

iteraciones es rápida debido a que los autovalores exactos de la matriz (6.2) son l 1 = 11344810
. ,

l 2 = -0.515730 , l 3 = 0170914
. , y por consiguiente, el valor de l 2 / l 1 es pequeño. •

Para casi todas las matrices existe una dependencia continua de sus autovalores respecto a

perturbaciones pequeñas de sus elementos. Por ejemplo, para matrices normales es válida tanto la

estimación

max l i ( A) - l i ( B) £ A - B 2
, (6.3)
i

43
como la desigualdad de Wielandt-Hoffman

å [l ( A) - l i ( B)] £ A - B
2 2
i F
, (6.4)
i =1

como la afirmación siguiente.

Teorema 6.1 (de Wielandt-Hoffman). Sean A, B y C matrices normales del orden n, y

A=B+C . Si sus autovalores li , bi y g i están numerados de la manera siguiente:

l i £ l i +1 , b i £ b i +1 , y g i £ g i +1 para cada i, entonces

n n

å li - g i £ å bi
2 2
. (6.5)
i =1 i =1

En la parte derecha de las desigualdades (6.3) y (6.4) figuran la norma espectral (3.4) y

la norma de Frobenius (3.2), respectivamente.

Ejemplo 6.3. Demostremos la dependencia continua de autovalores de la matriz

é1 2 3 ù
ê
A = ê0 4 5 úú
êë0 0 4.001úû

respecto a una perturbación pequeña en su elemento. Ya que A es diagonal, tiene autovalores

l ( A) = {1, 4, 4.001} . Consideremos una matriz perturbada

é 0 0 0ù
A + dA , donde ê
dA = ê 0 0 0úú .
êë0.001 0 0úû

Sus autovalores son l ( A + dA) = {10001


. , 4.0582, 3.9427} . •

44
Sin embargo, existen matrices que no tienen dependencia continua. El conjunto de estas

matrices tiene medida nula en el espacio de todas las matrices. La celda de Jordan es un ejemplo

típico.

Ejemplo 6.4. Sea

é0 1 0 L 0 0ù
ê0 0 1 L 0 0ú
ê ú
êL L O O L Lú
A(e ) = ê ú (6.6)
êL L L O 1 0 ú
ê0 0 0 L 0 1ú
ê ú
ëe 0 0 L 0 0û

la matriz cuadrada 10 ´ 10 . Cuando e = 0 , la matriz (6.6) es celda de Jordan. Consideremos el


r r r
problema espectral: A(e ) u = lu . Es evidente que tanto autovector u = ( u1 , u2 , K , u10 ) , como

autovalor l de la matriz A(e ) dependen del valor de e . En efecto, es evidente que

u2 = lu1 , u3 = lu2 ,K, u10 = lu9 , eu1 = lu10 . Por eso, eu1 = lu10 = l 2 u9 = l 3 u8 =K = l10 u1 , es

decir, l10 = e , y, por lo tanto, l = 10 e . Así,


r
1) si e = 0 , entonces l = 0 y u = (1, 0,K, 0) .

r
. y u = (1, 10 -1 , 10 -2 , K , 10 -9 ) .
2) si e = 10 -10 , entonces l = 01

En suma, la perturbación muy pequeña e de la celda de Jordan A( 0) causa cambios drásticos en la

solución del problema espectral. •

Ejemplo 6.5 (de Givens). El espectro de la matriz

é1 + t cos(2 / t ) t sin(2 / t ) ù
A(t ) = ê (6.7)
ë t sin(2 / t ) 1 - t cos(2 / t ) úû

45
1 - t , y autovectores {cos(1 / t ), sin(1 / t )} y {sin( 1 / t ), cos(1 / t )} .
T T
tiene autovalores 1 + t y

Si A( t 0 ) tiene autovalor múltiple, entonces no hay seguridad de que autovalores cambian

continuamente en la vecindad del punto t 0 . En efecto, cuando t ® 0 , autovalores de la matriz (6.7)

están distribuidos densamente en el disco de unidad en el plano. Sin embargo, cuando t =0,

A(0) = E , y los autovalores ocupan todo el disco de unidad (Parlett, 1980). •

Formulemos varios teoremas que pueden ser útiles para localizar autovalores de una matriz.

Teorema 6.2 (Criterio de Gershgorin). Sea A = a ij { } una matriz compleja n ´ n . Entonces

n
todos sus autovalores se encuentran en la unión de los círculos, z - a kk £ Rk , donde Rk = åa
j =1, j ¹ k
kj

(k=1,2,...,n). Si la unión de unos m círculos ( m £ n ) está aislada de otros, entonces esta unión

contiene m autovalores.

Se puede encontrar la demostración del teorema 6.2, por ejemplo, en Lancaster (1969) o

é 1 10 -4 ù
Iserles (1998). Según el teorema 6.2, los autovalores de la matriz A = ê -4 ú pertenecen a dos
ë10 2 û

-4 -4 -4 -4
intervalos [1 - 10 , 1 + 10 ] y [2 - 10 , 2 + 10 ] .

Ejemplo 6.6. Consideremos el proceso iterativo (5.6) con la matriz

é-8 -2 4 ù
1 ê
A= -1 -4 2 úú
16 ê
êë 2 2 10úû

Según el teorema de Gershgorin todos los autovalores pertenecen a la unión de tres círculos:

z + 1/ 2 £ 3/ 8 , z + 1 / 4 £ 3 / 16 , y z - 5 / 8 £ 1 / 4 . Se deduce que el módulo de cada

46
autovalor es menor que uno, y por lo tanto, el proceso iterativo (5.6) converge para cualquier vector

inicial (5.4). •

3/8
3/16 1/4

-1 --1/2
1
2
- 1
4
0 5/8 1 x

Fig. 6.1. Círculos de Gershgorin para el ejemplo 6.6.

Teorema 6.3 (de Schur). Sea A matriz de n ´ n con la norma de Frobenius A F, y

autovalores l 1 , K , l n . Si B = 12 ( A + A * ) y C = 12 ( A - A * ) , entonces

n n n

å li å å Im(l
2 2 2 2 2 2
£ A F
, Re ( l i ) £ B F
, y i ) £ C F
(6.8)
i =1 i =1 i =1

Demostración. Existe tal matriz unitaria U que A = U * SU , donde S es una matriz triangular

superior, y autovalores l i de A son elementos diagonales de S. Ya que la norma de Frobenius

A F
es invariable respecto a cualquier transformación unitaria, tenemos A F
= S F
. Denotando los

elementos de S por sij , obtenemos

n n
= å li + å sij ³ å li
2 2 2 2 2
A F
= S F
. (6.9)
i =1 i< j i =1

Usando la igualdad B = 21 U * (S + S * )U , obtenemos

47
n 2 n
= å 21 (l i + l i ) + å 21 (sij + sij ) ³ å Re l i .
2 2 2 2
B F
= 1
2 (S + S * ) F
(6.10)
i =1 i¹ j i =1

Análogamente se prueba la última desigualdad (6.8) usando la fórmula C = 21 U * (S - S * )U . •

Corolario 6.1 (de Hirsch). Si l es autovalor de una matriz A , y

r = max a ij , s = max bij , t = max cij , (6.11)


i, j i, j i, j

donde aij , bij y cij son elementos de las matrices A, B y C del teorema 6.3, entonces

l £ nr , Re l £ ns , Im l £ nt . (6.12)

Ejercicios:

1. (Ciarlet, 1995). Sea A una matriz con diagonal principal estrictamente dominante:
aii > å aij = m i , 1 £ i £ n .
j ¹i

Demuestre que A no es singular, es decir, existe la matriz inversa A -1 .


[Sugerencia: det A ³ d1d 2 L d n , donde d i = aii - m i ].

2. Usando el teorema de Gershgorin demuestre que una matriz simétrica con diagonal principal
estrictamente dominante y elementos diagonales positivos, es positivamente definida.
é 0 1 0 i ù
ê 1 1 úú .
3. Encuentre los círculos de Gershgorin para la matriz ê 6 1
êi / 2 i 1 1 ú
ê ú
ë 0 1 / 2 1 / 2 - 2û

4. Usando el teorema de Gershgorin, demuestre que cada matriz simétrica con diagonal principal
estrictamente dominante y elementos diagonales positivos, es positivamente definida.
5. Demuestre que si para algún i y para todos los k ¹ i se cumplen las desigualdades
a kk - aii > å a kj + å aij , entonces el círculo de Gershgorin es z - aii £ Ri (véase el teorema
j ¹k j ¹i

6.2) contiene sólo un autovalor.


6. Demuestre que cualquier autovalor de una matriz A se encuentra por lo menos en uno de los
dominios

z - aii z - a jj £ å aik åa jk para todos los i ¹ j .


k ¹i k¹ j

48
7. En muchos casos, la consideración de ambas matrices (A y AT ) permite mejorar las estimaciones.
Demuestre que cualquier autovalor de una matriz A se encuentra por lo menos en uno de los
dominios

a 1-a
æ ö æ ö
z - aii z - a jj £ çç å aik å a jk ÷÷ ç å aki
ç å akj ÷÷
è k ¹i k¹ j ø è k ¹i k¹ j ø
para todos los i ¹ j si 0 £ a £ 1 .

8. Es preciso señalar que la inestabilidad de los autovalores no está necesariamente relacionada con
la existencia de autovalores multiples y menos con la existencia de celdas de Jordan (como en el
caso de la matriz A(0) en el ejemplo 6.4). En efecto, consideremos la matriz

é20 20 0 0 0 0 ù
ê 0 19 20 0 0 0 ú
ê ú
ê 0 0 18 20 0 0 ú
A(e ) = ê ú
ê0 0 0 O O 0ú
ê 0 0 0 O 2 20 ú
ê ú
êë e 0 0 O 0 1 úû

La matriz A(0) es triangular con sólo dos diagonales no nulos. Sus autovalores que coinciden con
los elementos diagonales, están bien separados, y no hay ningunas razones para esperar
inestabilidad. Sin embargo, demuestre que la variación en el término libre del polinomio
característico de A(e ) es 2019 e si e ¹ 0 . Ya que el producto de autovalores coincide con el
término libre, los autovalores tienen que cambiar fuertemente.
9. Muestre que dos matrices muy cercanas
é5 7 6 5 ù é5.1 7 6 5 ù
ê7 10 8 7 ú ê 7 10 8 7 ú
A=ê ú y A + dA = ê ú
ê6 8 10 9 ú ê 6 8 10 9 ú
ê ú ê ú
ë5 7 9 10û ë 5 7 9 10û
tienen polinomios característicos distintos,
l4 - 35l3 + 146l2 - 100l + 1 y l4 - 35.1l3 + 149l2 - 110.6l + 7.8 ,
y por lo tanto, autovalores distintos (con precisión de tres dígitos en la mantisa):
l1, 2,3, 4 = {0.010, 0.843, 3.858, 30.289} y l1, 2,3, 4 = {0.079, 0.844, 3.874, 30.303}.

10. Prepare un programa de cómputo para el método de potencia. Pruebe este programa usando las
matrices de los ejemplos 6.1 y 6.2.

49
Capítulo II. Métodos de aproximación y interpolación

Todos los objetos de las matemáticas numéricas son discretos, ya que se puede usar la computadora

sólo si trabajamos con escalares, vectores y matrices. Normalmente, antes de hacer cálculos, un

modelo continuo (diferencial) se aproxima por un modelo discreto. Al contrario, a menudo hay que

presentar en la forma continua los resultados numéricos o datos observados usando un método de

interpolación. Por ejemplo, hay que restablecer una función de malla en un dominio continuo con el

fin de estudiar sus propiedades o obtener su gráfico. En este capítulo consideramos varios métodos de

aproximación e interpolación, y analizamos los errores que introducen dichos métodos. Para un

estudio más profundo se recomiendan los libros de Forsythe y Wasow (1960), Godunov y Ryabeñkii

(1964), Richtmyer y Morton (1967), Lawson y Hanson (1974), Mesinger y Arakawa (1976), Becker y

otros (1981), Volkov (1990), Golub y Ortega (1992), Morton y Mayers (1994), Skiba (1994, 1998).

§ 7. Diferenciación numérica

En el análisis numérico, el concepto de aproximación es de gran importancia. En efecto, mientras que

el análisis diferencial considera funciones y operadores, el análisis numérico opera con vectores (o

funciones discretas) y matrices (o operadores discretos). Además, la proximidad de una función

discreta (o un problema, modelo discreto) a una función continua (un problema, modelo continuo) se

determina en una norma, y se llama error de aproximación. El grado de aproximación se caracteriza a

través del tamaño de una malla (métodos de diferencias finitas), o a través del número de truncación

de una series de Fourier (métodos de proyección).

La teoría de aproximación se basa en las dos afirmaciones siguientes.

50
Fórmula de Taylor. Sea f ( x) Î C[na ,a + h] , es decir, la función f ( x ) es continua junto con sus

derivadas f (k )
( x ) sobre un intervalo [a , a + h] , k=1,...,n. Entonces

h n -1 ( n -1) hn
f (a + h) = f (a ) + hf (1)
(a ) +K+ f (a ) + f (n)
(x ) (7.1)
(n - 1)! n!

donde x es cierto punto (desconocido) del intervalo [a , a + h] .

Por ejemplo, la función f ( x) = x pertenece a C[1, -1] , es decir, es continua. Sin embargo, no

pertenece a C[1-1,1] , ya que su primera derivada es discontinua en el punto x=0.

Lema 7.1. Sea f ( x) ÎC[ a ,b] , es decir, la función f ( x ) es continua sobre un intervalo [a , b] ,

y x i Î[ a , b] son ciertos puntos del mismo intervalo, i = 1,2,K, n . Entonces existe un punto x Î[ a , b]

tal que

1 n
å f (x i ) = f (x )
n i =1
(7.2)

Este resultado se deduce de las desigualdades evidentes

1 n
min f ( x ) £
x Î[ a ,b ]
å f (x i ) £ xmax
n i =1 Î[ a ,b ]
f ( x) (7.3)

y de la continuidad de la función en [ a , b] .

Como es bien conocido, la primera derivada de una función f ( x ) en punto x se define

mediante la fórmula

f ( x + Dx) - f ( x)
f (1) ( x) = lim (7.4)
Dx ®0 Dx

Si es difícil o imposible calcular el valor exacto de (7.4), es natural suponer que

51
f ( x + Dx ) - f ( x )
f (1)
(x ) @ (7.5)
Dx

¿Cual será el error, es decir, la diferencia entre el término izquierdo y el término derecho de esta

igualdad aproximada? Insistimos en que para analizar los errores de varias fórmulas aproximadas de

diferenciación numérica similares a (7.5), suele ser necesario que la función f ( x ) tenga cierta

derivada del orden más elevado que la derivada buscada.

Analicemos tres fórmulas elementales de diferenciación numérica que se usan muy a menudo.

Supongamos que x i = x 0 + ih , i = 0, ± 1, ± 2,... , donde h > 0 es el tamaño de la malla. Denotemos

f i = f ( x i ) , y f i ( n) = f ( n)
( x i ) . Sea f ( x) ÎC[2xi , xi +1 ] , es decir, las primeras dos derivadas de f ( x )

son continuas en el intervalo [ x i , x i +1 ] . Entonces, existe un punto x Î[ xi ,x i +1 ] tal que

f i +1 - f i h
f i (1) = - f ( 2)
(x ) (7.6)
h 2

Si f ( x) ÎC[3xi -1 , xi +1 ] , además de (7.6), tenemos

f i +1 - f i -1 h 2
f i (1) = - f ( 3)
(x ) , x Î[ xi -1 , xi +1 ] (7.7)
2h 6

A condición de que f ( x) ÎC[4xi -1 , xi +1 ] , es válida la fórmula

f i -1 - 2 f i + f i +1 h 2
f i ( 2) = - f ( 4)
(x ) , x Î[ xi -1 , xi +1 ] (7.8)
h2 12

Demostremos, por ejemplo, la relación (7.8). De acuerdo con la fórmula de Taylor (7.1), tenemos

h 2 ( 2 ) h 3 ( 3) h 4
f i ±1 = f i ± hf i (1) + fi ± fi + f (4)
(x ± ) (7.9)
2 6 24

52
donde el signo “±” puede ser sustituido en todas partes por “+” o “-”, además,

xi -1 < x - < xi < x + < xi +1 . Usando ambas expresiones (7.9) en (7.8), y tomando en consideración la

fórmula

f (4)
(x - ) + f (4)
(x + ) = 2 f (4)
(x ) (7.10)

donde, según el lema 7.1, x - < x < x + , obtendremos (7.8). Análogamente se demuestran (7.6) y

(7.7). Las fórmulas (7.6)-(7.8) son conocidas con el nombre de fórmulas de diferenciación numérica

con términos residuales, mientras que las expresiones

f i +1 - f i
f i (1) @ (7.11)
h

f i +1 - f i -1
f i (1) @ (7.12)
2h

f i -1 - 2 f i + f i +1
f i (2) @ (7.13)
h2

se denominan simplemente fórmulas de diferenciación numérica, a saber, la derivada de diferencias

en el punto x i , la derivada central en el punto x i , y la segunda derivada de diferencias en el punto x i ,

respectivamente.

Los errores de las fórmulas (7.11)-(7.13) se estiman por medio de las siguientes desigualdades

deducidas de las relaciones (7.6)-(7.8):

f i +1 - f i h
f i (1) - £ max f ( 2) (x ) º M 1 h (7.14)
h 2 x Î[xi , xi +1 ]

f i +1 - f i -1 h 2
fi (1)
- £ max f (3) (x ) º M 2 h 2 (7.15)
2h 6 x Î[ xi -1 , xi +1 ]

53
f i -1 - 2 f i + f i +1 h 2
f i ( 2) - £ max f ( 4) (x ) º M 3 h 2 (7.16)
h2 12 x Î[ xi -1 , xi +1 ]

donde Mi (i = 1,2,3) son distintas constantes. Se dice que el error de la fórmula (7.11) es O( h) , o de

primer grado respecto a h, mientras que el error de las fórmulas (7.12) y (7.13) es O( h 2 ) , o de

segundo grado respecto a h. También se dice que la fórmula (7.11) es del primer grado de exactitud

(respecto a h), y las fórmulas (7.12) y (7.13) son de segundo grado de exactitud (respecto a h). Por

ejemplo, sea h = 10 -1 . Entonces el error de la fórmula (7.14) es proporcional a 10 -1 , mientras que el

de (7.15) es proporcional a 10 -2 . Claro que (7.14) tendrá la misma aproximación en la malla más fina

con h = 10 -2 . Sin embargo, la malla nueva tiene dies veces más puntos, es decir, el número de

operaciones aritméticas aumenta considerablemente.

Ejemplo 7.1. Analicemos la aproximación del problema de Poisson

¶ 2j
- = cos x , 0 < x < p (7.17)
¶ x2

para el operador unidimensional de Laplace con las condiciones de contorno j (0) = 1; j (p ) = -1 .

Introducimos en el intervalo [0, p ] una malla con tamaño h = p / n : xi = ih , i = 0, 1,K, n ;

x0 = 0, xn = p . El problema diferencial se puede presentar en la forma de operador:

ì ¶ 2j ü
ï- ¶ x 2 ï ìcos x ü
ï ï ï ï
Aj ( x) º í ý= f ºí 1 ý (7.18)
ï j (0) ï ï -1 ï
ïî j (p ) ïþ î þ

Supongamos la solución j ( x) Î C[40,1] . Usando (7.13) consideremos el siguiente problema aproximado

54
ì fi -1 - 2fi + fi +1 ü
ï- h2 ï ìcos(ih) ü
ï ï ï ï
( A f )i º í
h h
f0 ý = ( f )i º í 1 ý
h
(7.19)
ï fn ï ï -1 ï
ï ï î þ
î þ

Denotemos por [j ] h una proyección de la solución exacta j ( x ) sobre la malla. Claro que [j ] h es

una función de malla. En nuestro ejemplo, en la calidad de [j ] h elegimos simplemente los valores

j ( xi ) en puntos de la malla. Evidentemente,

x +h / 2
1 i
[j ]h,i
h xi -òh / 2
= j ( x)dx

es otra proyección de la solución exacta j ( x ) sobre la malla. Por definición, el error de aproximación

del problema continua (7.18) por el problema discreto (7.19) se determina en la solución exacta como

A h [j ] h - A hj h º A h [j ] h - f h
(7.20)

donde

g º max g ( x i ) (7.21)
0< i < n

es norma en el espacio de las funciones de malla. La velocidad de convergencia de la norma (7.20)

hacia cero cuando h ® 0 se acepta como definición del grado de aproximación del problema

diferencial (en la solución exacta) por el problema discreto (esquema numérico). Tomando en cuenta

(7.8), obtenemos que

j i -1 - 2j i + j i +1 æ ¶ 2j ö h 2 (4) h 2 (4)
=ç 2÷ + j (x ) = cos(ih) + j (x ) (7.22)
h2 è ¶ x ø i 12 12

en puntos interiores de la malla, y por lo tanto,

55
h2
A [j ]h - f
h h
£ max j ( 4 ) (x ) = M h 2 , (7.23)
12 Î[ 0,1]
x

donde M es una constante finita, ya que j ( x) Î C[40,1] . Así pues, la aproximación del problema (7.18)

por (7.19) es O( h 2 ) , es decir, de segundo grado respecto al tamaño h. •

Notemos que las condiciones nulas de contorno en el ejemplo 7.1 se aproximan exactamente,

y, por lo tanto, no cambian el grado de aproximación. Para mostrar la influencia de las condiciones no

nulas de contorno, consideramos ahora otro ejemplo.

Ejemplo 7.2. Analicemos la aproximación de la misma ecuación (7.17) con las condiciones

¶f
modificadas de contorno: f (0) = 1; (p ) = 0 . El problema diferencial tiene la forma
¶x

ì ¶ 2f ü
ï - ¶ x2 ï
ïï ìcos x ü
ïï ï ï
Af ( x) º í f (0) ý = f º í 1 ý (7.24)
ï ¶f ï ï 0 ï
ï (p ) ï î þ
îï ¶ x þï

De nuevo, sea j ( x) Î C[40,1] , y consideremos un problema aproximado

ì fi -1 - 2fi + fi +1 ü
ï- h2 ï ìcos(ih) ü
ï ï ï ï
( Ahf h )i º í f0 ý = ( f )i º í 1 ý
h
(7.25)
ï fn - fn-1 ï ï 0 ï
ï ï î þ
î h þ

Ya que ahora

ì h 2 (4) ü
ïcos (ih) + 12 j (x ) ï
ïï ïï
( Ah [j ]h )i = í 1 ý, (7.26)
ï h (2) ï
ï j (J ) ï
ïî 2 ïþ

56
el error de aproximación del problema continuo (7.24) por el problema discreto (7.25) es igual a

ì h2 (4) ü
ï 12 j (x ) ï
ï ï
A h [j ] h - f h
=í 0 ý, (7.27)
ï h j ( 2 ) (J ) ï
ï2 ï
î þ

y, por lo tanto, a diferencia del ejemplo 7.1, la aproximación del problema (7.24) por (7.25) es O( h) ,

es decir, sólo de primer grado respecto a h:

A h [j ] h - f h
£Mh (7.28)

Claro que la aproximación empeoró por el cambio de la condición para la solución j ( x ) en el punto

extremo x = 1 . •

Ejemplo 7.3. Aproximamos ahora una ecuación parabólica bidimensional

¶j ¶ 2j
- = f (t , x ) , 0 < x < 1 , 0 < t < T (7.29)
¶ t ¶ x2

con la condición inicial

j ( 0, x ) = 0 , 0 < x < 1 (7.30)

y las condiciones de contorno

j ( t ,0) = j ( t ,1) = 0 , 0 £ t £ T . (7.31)

Además de la malla xi = ih (i = 0, 1,K, n) , introducimos otra malla en el intervalo temporal [ 0,1]

con tamaño t = T / m : t k = kt ( k = 0, 1,K , m) ; t 0 = 0 , t m = T . Supongamos que la solución

j ( t , x) Î C[20,T ] ´ C[40,1] , es decir, tiene dos derivadas continuas en t, y cuatro derivadas continuas en x.

Usando la notación j ik º j ( t k , xi ) , aproximemos en la malla el problema (7.29)-(7.31) de la manera

siguiente:

57
ìj ik +1 - j ik j ik+1 - 2j ik + j ik-1 ü
ï - ï ì fik ü
ï t h 2
ï ï ï
( A hj h ) ik º í j0 ý = ( f )i º í 0 ý
h k
(7.32)
ï jn ï ï0ï
ï ï î þ
î þ

Con las fórmulas (7.6) y (7.8), y la norma

g º max g(t k , xi ) (7.33)


k ,i

obtenemos que

t ¶ 2j h2 ¶ 4j
A h [j ] h - f h
£ max max ( t , x ) + (t , x ) = M h 2 + N t , (7.34)
0 < t < T 0 < x <1 2 ¶ t2 12 ¶ x 4

donde M y N son constantes finitas. Así, el problema discreto (7.32) aproxima el problema original

continuo como O(t + h 2 ) , es decir, con primer grado respecto a t , y con segundo grado respecto a

h. •

Puede encontrar más ejemplos en Godunov & Ryabeñkii (1964) y Marchuk (1982).

Ejemplo 7.4 (Aproximaciones cerca de una frontera no regular). Muchos problemas

bidimensionales tienen fronteras no regulares. En proceso de discretización, los puntos de malla

internos próximos a la frontera no tienen la distancia h y k de la frontera (Fig.7.1). Consideremos un

problema diferencial eliptico de segundo orden en un dominio D con frontera S (Fig.7.1). Los puntos

O, Q y T son regulares. Supongamos primero que la solución u está dado en S y, en particular, en

puntos R y S . El valor u P en el punto no regular P se puede encontrar mediante la interpolación lineal

a lo largo de x o y:

lS 1 lR 1
uP = uQ + uS , o uP = uT + uR .
1 + lS 1 + lS 1 + lR 1 + lR

58
En el caso cuando hay que saber también los valores de las primeras y segundas derivadas (u x )P ,

(u ) , (u )
y P xx P y (u yy )P en el punto P, se aplica el método siguiente (Ames, 1992). La función u ( x, y)

se extiende en la serie de Taylor cerca de P:

x2 y2
u ( x, y) = u P + x(u x )P + y(u y )P + (u xx )P + xy (u xy )P + (u yy )P + ... (7.35)
2 2

Suponiendo que P es el origen, es decir, P = (0,0) , los puntos R, S, T y Q se puede escribir como

(0, lR k ) , (l S h,0) , (0,-k ) y (-h,0) , respectivamente. Usando sus coordinadas en (7.35) e

ignorando terminos de O(h 3 ) y O(k 3 ) , obtenemos cuatro ecuaciones

y
Frontera NR

R aR
NP
lR k N aP NS
Q aS
P S
M k
lS h
h
O T

S
D
0 £ lR £ 1

0 £ lS £ 1

Fig.7.1. La geometría del punto no regular P cerca de la frontera.

59
é 0 lR k 0 1
2 (l R k ) 2 ù é (u x )P ù éu R - u P ù
0 ú ê (u y )P ú êu S - u P ú
ê úê ú ê ú
êl S h 0 (l S h ) 2
1
2
= (7.36)
ê 0 -k 0 1 2
2k
ú ê(u xx )P ú êuT - u P ú
ê úê ú ê ú
ëê - h 0 1 2
2h 0 ûú ëê(u yy )P ûú ëêuQ - u P ûú

cuyas soluciones son

é 1 l 1 - lS ù
(u x )P = h -1 ê u S - S uQ - u P ú + O(h 2 ) (7.37)
ë l S (1 + l S ) 1 + lS lS û

é 1 1 1 ù
(u xx )P = 2h -2 ê uS + u Q - u P ú + O ( h) (7.38)
ë l S (1 + l S ) 1 + lS lS û

é l 1 - lR ù
(u ) = k -1 ê
1
u R - R uT - u P ú + O(k 2 ) (7.39)
ë l R (1 + l R ) 1 + lR lR
y P
û

é ù
(u ) = 2k - 2 ê
1
uR +
1 1
uT - u P ú + O ( k ) (7.40)
ë l R (1 + l R ) 1 + lR lR û
yy P

Supongamos ahora que en la frontera S está dado la derivada normal de u

¶u ¶u ¶u
= cosa + sin a (7.41)
¶n ¶x ¶y

¶u
donde el ángulo a (con el eje x) especifica la dirección. En este caso, sabemos en la
¶n

æ¶ u ö
dirección a N R , N P y N S . Así, sabemos çç ÷÷ en el punto N cual puede ser aproximada
è ¶ n øN

como (u P - u M ) / PM . El valor uM se obtiene, por ejemplo, por la interpolación lineal entre Q

y O . Expresando varios largos en términos de h y a P obtenemos

æ¶u ö
u P = uQ (1 - tana P ) + uO tana P + h çç ÷÷ N seca P (7.42)
è¶ nø

60
Para determinar los valores de las primeras y segundas derivadas (u x )P , (u y )P , (u xx )P y (u yy )P

en el punto P, se aplica el método siguiente. Diferenciando (7.35) obtenemos

u x = (u x )P + x(u xx )P + y (u xy )P + ... (7.43)

u y = (u y )P + x(u xy )P + y (u yy )P + ... . (7.44)

Usando (7.42) podemos expresar las derivadas normales en los puntos R, N y S en términos de

las primeras y segundas derivadas de u en punto P. Así, encontramos

æ¶ u ö
çç [ ] [ ]
÷÷ = (u x )P + l R k (u xy )P cosa R + (u y )P + l R k (u yy )P sin a R (7.45)
è ¶ n øR

para el punto R , y dos relaciones afines para los puntos N y S . Si agregamos a estos tres

ecuaciones dos series de Taylor para uQ y uT obtenemos cinco ecuaciones para hallar las

derivadas (u x )P , (u y )P , (u xx )P , (u xy )P y (u yy )P en el punto P.

Ejercicios:

1. Encuentre el error de aproximación del esquema


j in+1 - j in
=
{( ) ( )
j in+1 - j in pi +1/ 2 - j in - j in-1 pi -1 / 2 }
t h2
¶j ¶ æ ¶j ö
para la ecuación diferencial = çç p ( x) ÷ en la región 0 < x < 1, t > 0 , con las condiciones
¶t ¶ xè ¶ x ÷ø
de contorno j (t ,0) = j (t ,1) = 0 . Aquí j in º j (t n , xi ); h = xi +1 - xi ; t = t n+1 - t n .

2. Demuestre que el término principal del error de aproximación del esquema


j in+1 - j in j n - 2j in + j in-1 ¶j ¶ j 2
= s i +1 para la ecuación =s tiene la forma
t h2 ¶t ¶ x2
1
2 tj tt - 121 s h 2j xxxx .

61
3. Analice el error de aproximación E de las siguientes fórmulas de integración para calcular la
b
integral I ( f ) = ò f ( x)dx :
a

a) la regla de los rectángulos: I ( f ) » (b - a) f (a) ;


a+b
b) la regla del punto céntrico: I ( f ) » (b - a) f ( );
2
b-a
c) la regla de los trapecios: I ( f ) » ( )[ f (a) + f (b)] ;
2
b-a é a+b ù
d) la regla de Simpson: I ( f ) » ( ) ê f (a) + 4 f ( ) + f (b)ú , la cual se puede interpretar
6 ë 2 û
como la combinación lineal de las reglas b) y c).
M M M M
[Resultados: a) E = 1 (b - a) 2 ; b) E = 1 (b - a) 2 ; c) E = 2 (b - a) 3 ; d) E = 4 (b - a) 5 ].
2 4 12 2880
4. (Golub y Ortega, 1992). Muestre que la regla de trapezoide integra cada función lineal exactamente
y que la regla de Simpson integra cada polinomio cúbico exactamente [Sugerencia: expandir el
polinomio cúbico alrededor del punto céntrico.]

62
§ 8. Operador de Laplace

El operador de Laplace desempeña un papel importante no sólo en física matemática, sino

también en métodos numéricos. Es útil especialmente para construir un sistema de funciones básicas

ortogonales cuando el dominio de definición de funciones tiene una forma compleja, y por lo tanto, no

existe ningún sistema de funciones básicas analíticas. En este caso, las funciones propias del operador

de Laplace (o los vectores propios del operador discreto de Laplace) representan una base ortogonal

con la particularidad de que estas funciones tienen valores nulos en la frontera del dominio. Además,

este operador se usa para describir términos viscosos o de difusión en varios problemas físicos

(dinámica de fluidos, dinámica de la atmósfera y el océano, termodinámica, etc.).

Considérese ahora las propiedades principales del operador de Laplace. Sea D un dominio

bidimensional limitado, con un contorno suave S . Supongamos que el operador de Laplace

¶2 ¶2
A º -D = - + (8.1)
¶ x2 ¶ y2

está definido en las funciones f ( x, y) que son continuas en D junto con sus primeras dos derivadas

parciales (dicha propiedad se denota por f ( x , y) Î C 2 ( D) ) , y

f ( x, y ) = 0 en S. (8.2)

Sea H un espacio de Hilbert que incluye todas las funciones reales f ( x , y) en D cuya norma

1/ 2
ì ü
f = íò f ( x , y) dxdyý
2
(8.3)
îD þ

es finita. El producto interno en H se define por

f , g = ò f ( x , y) g( x , y) dxdy . (8.4)
D

63
Lema 8.1. El operador (8.1), (8.2) es simétrico.

Demostración. En efecto,

Af , g = ò [- Df ( x , y)]g( x , y) dxdy
D

para cualesquiera funciones f , g Î C 2 ( D) . Usando la segunda fórmula de Green y (8.2), obtenemos

ì ¶ f ¶ gü
Af , g = - ò í g -f ýdS + ò f [- Dg ]dxdy = f , Ag , (8.5)

¶n ¶ nþ D

donde n es normal al contorno S. Según la identidad de Lagrange, el operador de Laplace es

simétrico, y por lo tanto, todas sus autovalores son reales. •

Corolario 8.1. El operador (8.1) también es simétrico si en lugar de la condición de Dirichlet

(8.2) se usa la condición mixta

¶ f
= -af en S (8.6)
¶n

En efecto, la integral de contorno en la parte derecha de la fórmula (8.5) es de nuevo nula. Cuando

a = 0 , la condición (8.6) se llama condición de Neumann.

Observación 8.1. Notemos que el problema

¶f
- Df = g , = 0 en S
¶n

con la condición de Neumann tiene la solución sólo si la función dada g(x) satisface la condición

ò g ( x)dx = 0 .
D

Lema 8.2. El operador (8.1), (8.2) es positivamente definido.


64
Demostración. En efecto, usando la primera fórmula de Green, obtenemos

¶f éæ ¶ f ö 2
æ¶ f ö
2
ù
Af , f = - ò f ds + ò êç ÷ +ç ÷ ú dxdy > 0 (8.7)
S
¶n Dêëè ¶ xø è ¶ yø úû

para cada función f ( x , y) no nula, ya que la integral de contorno es nula en virtud de (8.1). •

Corolario 8.2. Sea a = 0 . Entonces el operador (8.1), (8.6) es positivamente semidefinido.

En efecto, tenemos

éæ ¶ f ö 2 æ ¶ f ö 2 ù
Af , f = ò êç ÷ ú dxdy º ò Ñf
2
÷ +ç ³0 . (8.8)
Dêëè ¶ xø è ¶ yø ú
û D

La única diferencia, en comparación con el lema 8.2, es que el producto interno Af , f puede ser

nulo para cualquier función f ( x , y) = Const ¹ 0 en el dominio D. •

Corolario 8.3. El operador (8.1) también es positivamente definido si en lugar de la

condición de Dirichlet (8.2) se usa la condición

¶f
= -af en S (8.9)
¶n

con una constante a > 0 . El resultado se deduce directamente de (8.7).

Es evidente que la solución del problema espectral para el operador de Laplace depende del

dominio D y de la condición de contorno.

Ejemplo 8.1 (Marchuk, 1982). Ahora consideremos el operador de Laplace (8.1), (8.2)

cuando D es un cuadrado (0,1) ´ (0,1) . Es bien conocido que el problema espectral

- D ump = l mp ump en D
(8.10)
ump = 0 sobre S

tiene las funciones propias


65
ump ( x, y) = amp sin (mp x) sin( pp y) (8.11)

(m, p = 1,2,...) y los autovalores

l mp ( - D ) = ( m 2 + p 2 ) p 2 > 0 (8.12)

Es fácil demostrar que las funciones propias son ortogonales y pueden ser normalizadas a la unidad:

ump , uns = d mn d ps (8.13)

Se deduce de (8.12) que

a (-D) º min l mp (-D) = 2 p 2 , b (-D) º max l mp (-D) = ¥ (8.14)


m, p m, p

Por lo tanto, el operador (8.1), (8.2) es simétrico, positivo, ilimitado por arriba, además,

-Df , f ³ 2p 2 f , f . (8.15)

De las fórmulas (8.15) y (8.8) se deduce inmediatamente la desigualdad de Poincaré-Steklov para las

funciones definidos en el cuadrado (0,1) ´ (0,1) con valores nulos en su contorno:

1
f £ Ñf . (8.16)
p 2

Ya que el sistema de las funciones propias (8.11) es completo en el espacio H, cualquier función

f ( x , y) de H se puede presentar como una serie de Fourier:

f ( x , y ) = å å f mp ump ( x , y ) , (8.17)
m p

donde

f mp = f , ump (8.18)

66
{ }
es el coeficiente de Fourier de f ( x , y) asociado con la base ump ( x , y ) . De (8.18) y (8.13) se deduce

la igualdad de Parseval

= å å f mp
2 2
f ( x, y) . (8.19)
m p

Ya que la norma (8.19) es finita, f mp ® 0 cuando m, p ® ¥ . Notemos que la rapidez de

disminución de los coeficientes (8.18) aumenta con la suavidad de la función f(x). •

Observación 8.2. Cuando la geometría del dominio D es compleja, la solución del problema

espectral (8.10) se puede hallar únicamente mediante cálculos numéricos. •

Definición. Sea D h una malla en el dominio D caracterizada por su tamaño h. Cualquier

proyección de una función continua f sobre la malla D h se llama función de malla, y se denota por

f h . Sea A un operador diferencial. La aplicación f h ® ( Af ) h define un operador discreto A h en

el espacio de las funciones de malla. También se llama operador de diferencias. •

Ejemplo 8.2. Introducimos ahora en el cuadrado (0,1) ´ (0,1) una malla uniforme

( x k , y l ) ; x k = kh ; y l = lh ; k = 0,1,2,K, n ; l = 0,1,2,K, n ; h = 1 / n

con tamaño h; construimos en la malla un operador discreto de Laplace y comparamos sus

propiedades con las del operador original (8.1), (8.2). Definimos funciones de malla f h
º f kl por

medio de una proyección de funciones continuas f ( x , y) sobre puntos de la malla. Un ejemplo

simple de tal proyección es f kl = f ( x k , y l ) . Definimos en la malla un operador discreto de Laplace

-Dh por

f k +1,l + f k -1,l + f k ,l +1 + f k ,l -1 - 4 f kl
( - Dh f h ) kl = (8.20)
h2

67
Según (8.2), supongamos que

f kl = 0 sobre S h , (8.21)

donde S h es la frontera del dominio de malla, es decir, un conjunto de puntos de malla que están en

el contorno del cuadrado. Introducimos los siguientes operadores en diferencias finitas:

f k +1,l - f kl
( D x f h ) kl = , (8.22)
h

f kl - f k -1,l
(Ñ x f h ) kl = , (8.23)
h

f k ,l +1 - f kl
( D y f h ) kl = , (8.24)
h

f kl - f k ,l -1
(Ñ y f h ) kl = . (8.25)
h

Es fácil demostrar que

( - Dh f h ) kl = -( D x Ñ x f h ) kl - ( D y Ñ y f h ) kl . (8.26)

Introducimos un producto interno y una norma para las funciones de malla por medio de las fórmulas

n -1 n -1
f h , g h = h 2 å å f kl g kl (8.27)
k =1 l =1

y
h 1/ 2
f h
= f h, f (8.28)

h
Se puede demostrar que si dos funciones de malla f y g h satisfacen (8.21), entonces la primera y

la segunda fórmulas de Green también son válidas en la forma discreta:

n -1 n -1
- å (D x Ñ x f h ) kl ( g h ) kl = å (Ñ x f h ) kl (Ñ x g h ) kl , (8.29)
k =1 k =1

68
n -1 n -1
- å ( D x Ñ x f h ) kl ( g h ) kl = - å ( f h ) kl ( D x Ñ x g h ) kl (8.30)
k =1 k =1

Usando la fórmula (8.30) tanto para x como para y, obtenemos

- D h f h , g h = f h ,- D h g h , (8.31)

es decir, el operador discreto de Laplace -Dh es simétrico. Utilizando fórmula (8.29) para x y y,

obtenemos que

{[ ] }> 0,
n -1 n - 1
= h 2 å å (Ñ x f h ) kl ] + [( Ñ
2 2
- Dh f h , f h
y f h ) kl (8.32)
k =1 l =1

para cada función f h


no nula, y por lo tanto, el operador discreto de Laplace -Dh es positivamente

definido.

Por último, consideremos el problema espectral para el operador discreto de Laplace:

- Dh u mp
h
= lhmp u mp
h h
, u mp = 0 en S h . (8.33)

h
La solución del problema (8.34) representa autovectores u mp con componentes

u klmp = amp sin (mpkh) sin( pplh), 1 £ m, p, k , l £ n - 1 (8.34)

y autovalores

lhmp =
4
h 2 { }
sin 2 ( 12 mph) + sin 2 ( 12 pph) , 1 £ m, p £ n - 1 . (8.35)

Por eso

8 8
2
sin 2 ( 12 ph) £ lhmp £ 2 cos 2 ( 12 ph) . (8.36)
h h

Tomando en consideración que

69
ph p 2h2 ph
2
sin ( )= - O(h 2 ) , y cos2 ( ) = 1 - O(h 2 ) , (8.37)
2 4 2

tenemos
8
a ( - Dh ) @ 2p 2 £ lhmp £ b ( - Dh ) @ . (8.38)
h2

Comparando (8.38) y (8.14), y teniendo en cuenta que b ( - Dh ) ® ¥ cuando h ® 0 , obtenemos

que los autovalores mínimo y máximo del operador discreto de Laplace (8.20), (8.21) aproximan los

autovalores correspondientes del operador diferencial de Laplace (8.1), (8.2). Además, los

h
autovectores u mp son ortogonales en el sentido del producto interno (8.27), y por lo tanto, cada

h
función de malla f se representa por su serie de Fourier

f h
=å f mp h
u mp , f mp
= f h , u mp
h
(8.39)
m, p

mp
donde f es el coeficiente de Fourier. Si las funciones básicas de malla (8.34) están normalizadas a

h
uno, entonces para cada función de malla f se cumple la igualdad de Parseval (Morton y Mayers,

1994)

f h 2
= åå f mp 2
(8.40)
m p

Ejercicios:

1. Demuestre que el operador de Laplace sobre la esfera de radio a tiene en coordinadas esféricas
(l , m ) la forma
1 ¶2 1 ¶ é ¶ ù
D= + 2 ê (1 - m 2 ) ú
a (1 - m ) ¶l
2 2 2
a ¶m ë ¶m û
Aqui l es la longitud ( 0 £ l < 2p ), m = sin f , y f es la latitud ( - 1 £ m < 1).

2. Sea S la esfera, a = 1 es radio, y D el operador de Laplace sobre S. Para cada r real y positivo, se
puede definir la potencia r del operador de Laplace - D de la manera siguiente:
¥ ¥ ¥ n
(- D )r y = å [n(n + 1)]r Yn (y ) para cada función y = å Yn (y ) º å åy Y (l , m ) , donde
m m
n n
n =1 n =0 n =0 m = - n

70
Ynm (l , m ) es el armónico esférico, y nm es el coeficiente de Fourier de la función y , y
n
Yn (y ) = åy
m=- n
Y (l , m ) es la proyección ortogonal de la función y sobre el espacio de los
m m
n n

polinomios esféricos homogéneos del grado n (Skiba, 1989, 1994, 1997a). También se puede
definir los espacios de Hilbert H r con la norma y r = (- D )r / 2y , donde
1/ 2
ì
ï¥ n
2
ü
ï
y = íå å y nm ý . Demuestre que y £ 2-s / 2 y r +s
para cada función y Î H r + s y s>0.
ï
î n =0 m = - n ï
þ
r

3. Demuestre que el operador biármónico D2 sobre la esfera S es positivamente definido, es decir,


D2f , f > 0 para cada función f ¹ 0 , donde f , g = ò f ( x, y) g ( x, y)dxdy es producto escalar.
S

71
§ 9. Interpolación y extrapolación

Polinomios de Taylor. Sea f ( x ) ÎC[na+1


,b ]
, es decir, tiene n+1 derivadas continuas en el

segmento [a , b] . Recordemos que por polinomio de Taylor del n-ésimo grado de la función f ( x ) en

un punto x 0 Î[a , b] se entiende el polinomio

n (k)
f (x0 )
Qn ( x) = å (x - x0 ) k (9.1)
k =0 k!

que posee la propiedad de que

Qn( k ) ( x 0 ) = f (k)
( x 0 ) , k = 0,1,2, K , n (9.2)

Ya que n+1 derivadas de Q(x) y f ( x ) coinciden en el punto x 0 , el polinomio de Taylor asegura una

aproximación bastante buena de la función f ( x ) en una vecindad del punto x 0 . El error que surge al

sustituir la función f ( x ) por su polinomio de Taylor se expresa mediante el término residual de la

fórmula de Taylor, es decir,

f ( n +1) (x )
f ( x) - Qn ( x) = ( x - x 0 ) n +1 (9.3)
(n + 1)!

donde x es cierto punto (desconocido) situado estrictamente entre x y x 0 .

En vista de que la derivada f ( n +1)


( x ) es, por suposición, continua en el segmento [a , b] , debe

ser finita en dicho segmento, es decir,

M n+1 = max f ( n+1) ( x ) < ¥ (9.4)


x Î[ a ,b ]

De (9.3) y (9.2) se deducen las desigualdades

M n +1 n +1
f ( x ) - Qn ( x ) £ ( x - x0 ) (9.5)
(n + 1)!

72
M n +1 n +1
max f ( x ) - Qn ( x ) £ l , (9.6)
x Î[ a ,b ] (n + 1)!

(Volkov, 1990) donde

l = max {x 0 - a, b - x 0 } . (9.7)

La estimación (9.5) significa que el error local de aproximación de la función f ( x ) en vecindad del

n +1
punto x 0 a base del polinomio de Taylor (9.1) es O( x - x 0 ) , mientras que (9.6) sirve de

estimación del error máximo (o error absoluto) en todo el segmento [a , b] .

Ejemplo 9.1. Aproximemos la exponente f ( x ) = e x mediante el polinomio de Taylor en el

segmento [0,1] con un error absoluto no mayor que e = 10 -5 . Elegimos el punto x 0 en el centro del

segmento [0,1], x 0 = 0.5 con el fin de minimizar la magnitud l que figura en la estimación (9.6). Ya

que f (k)
( x ) = e x , tenemos

n
1
f (k)
(0.5) = e 1/ 2
, M n +1 = e , l = 0.5 , y Qn ( x ) = e 1/ 2
å k ! ( x - 0.5)
k =0
k
(9.8)

De acuerdo con (9.6) obtenemos

e
max e x - Qn ( x) £ Rn º n +1
, (9.9)
x Î[ 0,1] 2 (n + 1)!

Por lo tanto, R5 = 5.9 × 10 -5 y R6 = 4.3 × 10 -6 , es decir, conviene tomar n=6. □

Ahora consideremos otro problema. Hay que restablecer la gráfica de una función f (x )

usando sus valores dados en n puntos de una malla. En caso general, este problema no tiene única

solución. En efecto, sea {xi }i =0 una malla regular con tamaño h. Supongamos que en los puntos de
n +1

2p i 2p
malla xi = ih (i = 0,1,2,K, n + 1) se dan los valores f ( xi ) = sin de la senoide sin x de
(n + 1) (n + 1)h

73
2pn
longitud (n + 1)h . Es fácil demostrar que la senoide - sin x de longitud [(n + 1) / n]h tiene los
(n + 1)h

mismos valores en todos los puntos x i . En efecto, sea K = p / h el número de onda de la más corta

senoide que se puede presentar en la malla (su periodo es igual a dos tamaños de malla). Sustituyendo

K = p / h en la identidad sin k x º sin[ 2K - (2K - k )] x y usando la fórmula para sin(a - b ) ,

obtenemos

2p 2p 2p 2p
sin k x = sin x × cos( - k ) x - cos x × sin( - k)x .
h h h h

2p 2p
Sin embargo en los puntos de malla x = jh , sin jh = 0 y cos jh = 1 . Por lo tanto, de la
h h

última ecuación tenemos

sin k jh = - sin k * jh

donde k* = 2K - k . Así pues, si se conocen sólo valores en puntos de malla, entonces es imposible

distinguir la onda con el número k de la onda con el número 2K - k . El último significa que si

k > K , entonces la senoide con el número de onda k será presentada falsamente por la senoide con el

-1
número de onda k * . Supongamos que k = 2p /[( n + 1)h] , entonces k* = 2p - 2p æ n +1ö .
= 2p × ç ÷
h (n + 1)h è n ø

Así, la senoide sin k jh con el periodo de (n + 1) tamaños de malla puede ser interpretada

n +1
erróneamente como la senoide - sin k * jh con el periodo de tamaños de malla, y viceversa.
n

Para n=3, las gráficas de ambas senoides están presentados en Mezinger y Arakawa (1976). Este

ejemplo muestra que sin condiciones adicionales es imposible identificar una onda verdadera, y por lo

tanto, su periodo. En particular, se deduce que la determinación de los periodos de las oscilaciones de

varios campos climáticos usando los datos meteorológicos es un problema muy inestable y sus

resultados son inseguros.

74
Ahora empezamos a estudiar los métodos de interpolación con fin de restablecer una función

suave f (x) usando sus datos f ( xi ) en una malla.

Polinomio de interpolación de Lagrange (Bakhvalov, 1973). Supongamos que son

conocidos los valores de cierta función f ( x ) en distintos n+1 puntos x 0 , x1 ,K , x n :

f i = f ( xi ) , i = 0,1,2,K , n (9.10)

Surge el problema de restablecer aproximadamente la función f ( x ) en cada punto x Î[ x 0 , x n ] . Para

resolverlo, hay que constituir el polinomio algebraico Ln ( x ) del grado n , que adquiere en los puntos

xi los valores prefijados, es decir,

Ln ( xi ) = f i , i = 0,1,2,K , n (9.11)

y se domina polinomio de interpolación. A su vez, los puntos xi se llaman nodos de interpolación.

Definición. El restablecimiento de la función f ( x ) por medio de la fórmula f ( x) @ Ln ( x)

recibe el nombre de interpolación de la función f ( x ) (con ayuda de un polinomio algebraico). Si x

permanece fuera del segmento [ x 0 , x n ] , el procedimiento se llama extrapolación.

Teorema 9.1. Existe un solo polinomio de interpolación de n-ésimo grado que satisface las

condiciones (9.11).

Demostración. 1. La existencia. La existencia del polinomio de interpolación se establece

directamente al escribirlo. Sea n=1, entonces

x - x1 x - x0
L1 ( x) = f0 + f1 . (9.12)
x 0 - x1 x1 - x 0

Para n=2 ,

75
( x - x1 )( x - x 2 ) ( x - x 0 )( x - x 2 ) ( x - x 0 )( x - x1 )
L2 ( x) = f0 + f1 + f2 .
( x 0 - x1 )( x 0 - x 2 ) ( x1 - x 0 )( x1 - x 2 ) ( x 2 - x 0 )( x 2 - x1 )

Y, por último, en un caso general, para cualquier n natural tenemos

n
Ln ( x ) = å pni ( x ) × f i , (9.13)
i =0

donde

( x - x0 )L( x - xi -1 )( x - xi +1 )L( x - xn ) x - xj
pni ( x) = =Õ . (9.14)
( xi - x0 )L( xi - xi -1 )( xi - xi +1 )L( xi - xn ) j ¹i xi - x j

El polinomio (9.13), (9.14) satisface las condiciones (9.11) y se llama polinomio de interpolación de

Lagrange.

2. La unicidad. Admitamos que además del polinomio de Lagrange Ln ( x ) existe otro polinomio

~
algebraico Ln ( x ) de n-ésimo grado que también satisface las condiciones de (9.11):

~
Ln ( xi ) = f i , i = 0,1,2, K , n (9.15)

Entonces, de acuerdo con (9.11) y (9.15),


~
M n ( xi ) º Ln ( xi ) - Ln ( xi ) = 0 , i = 0,1,2, K , n , (9.16)

donde M n ( x ) es un polinomio algebraico de grado no mayor que n, y tiene, en virtud del teorema

fundamental, no más de n raíces, lo cual contradice las n+1 igualdades de (9.16). Por consiguiente,
~
Ln ( xi ) º Ln ( xi ) .

El teorema está completamente demostrado. □

Error de la interpolación por medio de polinomios de Lagrange. Estimamos ahora el error

de la interpolación (Powell, 1981; Volkov, 1990). Siempre se puede escribir la igualdad

76
f ( x) = Ln ( x) + Rn ( x) (9.17)

donde Rn ( x ) es un término residual, es decir, el error de interpolación. Hay que notar que el grado de

suavidad respecto de la función f ( x ) es de gran importancia para determinar el error de

interpolación. Supóngase que [a, b] º [ x 0 , x n ] y f ( x) ÎC[na+1


,b ]
, y buscamos Rn ( x ) de la forma

siguiente:

Rn ( x) = w n ( x) × rn ( x) , (9.18)

donde

w n ( x) = ( x - x 0 )( x - x1 )L( x - x n ) . (9.19)

Entonces,

w n ( xi ) = Rn ( xi ) = 0 , i = 0,1,2,K, n . (9.20)

Encontremos la función rn ( x ) . Fijemos un punto x Î[ a, b] tal que x ¹ xi , y analicemos la

siguiente función de t:

j ( t ) = Ln ( t ) + w n ( t ) × rn ( x) - f ( t ) (9.21)

Tenemos j ( xi ) = 0 ( i = 0,1,2, K, n), y j ( x) = 0 , es decir, la función (9.21) se reduce a cero

por lo menos en n+2 puntos del segmento [a , b] . Por lo tanto, su primera derivada j (1) ( t ) se reduce

a cero por lo menos en n+1 puntos de [a , b] , y su segunda derivada j ( 2 ) ( t ) se reduce a cero por lo

menos en n puntos de [a , b] , etc. Por consiguiente, existe por lo menos un punto x Î[ a, b] , en el

que j ( n+1) (x ) = 0 . Teniendo en cuenta la última fórmula y las fórmulas L(nn +1) (x ) = 0 y

w (nn +1) (x ) = (n + 1)! , se deduce de (9.21) la expresión

77
( n +1)
(n + 1)! × rn ( x ) - f (x ) = 0 (9.22)

Por lo tanto,

f ( n +1) (x )
rn ( x ) = (9.23)
(n + 1)!

Entonces

f ( n +1) (x )
Rn ( x) = w n ( x) , (9.24)
(n + 1)!

donde x Î[ a, b] es cierto punto desconocido. De la igualdad (9.17) se deduce la estimación del error

de interpolación en el punto x Î[ a, b] :

M n +1
f ( x ) - Ln ( x ) £ w n ( x) , (9.25)
(n + 1)!

y la estimación del error máximo de interpolación en todo el segmento [a , b] :

M n +1
max f ( x ) - Ln ( x ) £ × max w n ( x ) , (9.26)
x Î[ a ,b ] (n + 1)! x Î[ a ,b ]

donde

( n +1)
M n+1 = max f ( x) . (9.27)
x Î[ a ,b ]

Ejemplo 9.2. Estimamos el error de interpolación (aproximación) de la función f ( x) = x

en el punto x=116 y en todo el segmento [a , b] , donde a=100, b=144, por polinomio de

interpolación de Lagrange L2 ( x ) de segundo grado, construido con los nodos x 0 = 100 , x1 = 121 ,

y x 2 = 144 . Con el fin de calcular M 3 encontramos las primeras tres derivadas de f ( x ) :

78
1 -1/ 2 1 -3/ 2 3 -5/ 2
f (1)
( x) = x , f ( 2)
( x) = - x , f ( 3)
( x) = x .
2 4 8

Por eso, en virtud de (9.27),

3 3
M 3 = ×100 -5/ 2 = ×10 -5 .
8 8

A base de la desigualdad (9.25) obtenemos

3 1
116 - L2 (116) £ ×10 -5 × × (116 - 100)(116 - 121)(116 - 144)
8 3!

1
= ×10 -5 × 16 × 5 × 28 = 1.4 × 10 -3 .
16

En virtud de la estimación (9.26),

1
max x - L2 ( x) £ × 10 -5 × max ( x - 100)( x - 121)( x - 144) @ 2.5 × 10 -3 . •
x Î[ a ,b ] 16 x Î[ a ,b ]

Interpolación lineal. Consideremos la interpolación lineal (n=1) que es la más simple de

todas. Se realiza por medio de (9.12) y las fórmulas

L1 ( xi ) = f i , i = 0,1

Si introducimos las designaciones h = x1 - x 0 y q = ( x - x 0 ) / h , entonces la fórmula (9.12) de

la interpolación lineal se puede escribir de la forma

f ( x) @ L1 ( x) = L1 ( x 0 + qh) = (1 - q) f 0 + q f 1 . (9.28)

donde 0 £ q £ 1 .

79
f (x )

f0 f1

x0 x1 x

Fig.9.1. Interpolación lineal

En el lenguaje geométrico, la interpolación lineal significa la sustitución de la gráfica de la función

f(x) en el segmento [ x 0 , x1 ] por una cuerda que une los puntos ( x 0 , f 0 ) y ( x1 , f 1 ) (Fig.9.1). Según

(9.19), tenemos w 1 ( x ) = ( x - x 0 )( x - x1 ) , y

h2
max w 1 ( x) = max ( x - x 0 )( x - x1 ) = .
x Î[ x0 , x1 ] x Î[ x0 , x1 ] 4

Por eso, en virtud de (9.26), el error máximo de la interpolación lineal en el segmento [ x 0 , x1 ] se

estima como

M2 2
max f ( x ) - L1 ( x ) £ ×h , (9.29)
x Î[ a ,b ] 8

donde M 2 = max f (2)


( x) .
x Î[ a ,b ]

Ejemplo 9.3. Estimamos el error de la interpolación lineal de la función f ( x) = sin x , cuyas

valores se dan en la malla con el paso de 1°. El tamaño de la malla h es h = p / 180 . Ya que

¶2
M 2 = max (sin x ) £ 1 , el error de la interpolación lineal, de acuerdo con (9.29) no supera
x Î[ 0 , 2 p ] ¶ x 2

p2 1
× < 0.4 × 10 -4 . •
2
180 8
80
Forma de interpolación de Newton (Bakhvalov, 1973; Golub y Ortega, 1992).

Consideremos una malla regular de puntos xi con tamaño h, y datos f i = f ( xi ) (i = 0,1,2, K , n) .

Definimos diferencias finitas en cada punto de la malla por D f i = f i +1 - f i . Usando la última

fórmula, se puede determinar las diferencias finitas de mayor grado. Por ejemplo:

D f 0 = f1 - f 0
D f 0 = D f1 - D f 0 = f 2 - 2 f1 + f 0
2

D3 f 0 = f 3 - 3 f 2 + 3 f 1 - f 0
(9.30)
M
æ nö æ nö
Dn f 0 = f n - ç ÷ f n -1 + ç ÷ f n - 2 -K+( -1) f 0
n

è 1ø è 2ø

donde los coeficientes provenientes del binomio se dan por

æ nö n( n - 1)L ( n - i + 1)
ç ÷= (9.31)
è iø i!

En términos de (9.30), definimos un polinomio de grado n por

( x - x0 ) ( x - x 0 )( x - x1 ) 2
pn ( x ) = f 0 + Df 0 + D f 0 +K
h 2h 2

( x - x 0 )( x - x1 )L ( x - x n -1 ) n
+ D f0 (9.32)
n! h n

( x1 - x 0 )
Claro que pn ( x 0 ) = f 0 . Además, p n ( x1 ) = f 0 + ( f1 - f 0 ) = f1 y
h

( x2 - x0 ) ( x - x 0 )( x 2 - x1 )
pn ( x 2 ) = f 0 + ( f1 - f 0 ) + 2 ( f 2 - 2 f1 + f 0 )
h 2h 2 (9.33)
= f 0 + 2( f 1 - f 0 ) + ( f 2 - 2 f 1 + f 0 ) = f 2

Es fácil verificar que pn ( xi ) = f i (i = 3,4, K, n) , pero los cálculos son arduos.

81
Es interesante notar que el polinomio (9.32) es análogo discreto de los primeros n+1

términos de la expansión de Taylor en vecindad del punto x 0 (compare (9.32) con el polinomio de

Taylor (9.1)). Supongamos ahora que al conjunto de datos se agrega otra información

f n +1 = f ( x n +1 ) . Entonces, el polinomio de interpolación nuevo pn+1 ( x ) que satisface las condiciones

pn+1 ( xi ) = f i (i = 0,1,K, n + 1) se determina mediante el polinomio conocido pn ( x ) por medio de

la fórmula recurrente

( x - x 0 )( x - x1 )L ( x - x n ) n +1
pn +1 ( x) = pn ( x) + D f0 (9.34)
(n + 1)! h n +1

Precisamente esta propiedad hace la forma de la interpolación de Newton muy útil en la práctica, ya

que permite calcular fácilmente el nuevo polinomio (9.34). Este método de interpolación es

conveniente especialmente cuando hay que trabajar con series temporales, es decir, cuando x es

tiempo.

Ejercicios:

1. Demuestre que la fórmula (9.34) es válida.

2. Demuestre que el polinomio de Lagrange Ln (x) definido por la fórmula (9.13) coincide con el
polinomio de Newton (9.32) [Sugerencia: usar la presentación:
Ln ( x) = L1 ( x) + ( L2 ( x) - L1 ( x)) + ( L3 ( x) - L2 ( x)) + ... + ( Ln ( x) - Ln-1 ( x)) ].
1
3. Sea f ( x) = , donde h es un número complejo. Demuestre que
x-h
1 ( x - x0 ) ( x - x n )
f ( x) - Ln ( x) = × ××× .
x - h (h - x0 ) (h - x n )
4. Las diferencias del grado cero de f ( xi ) coinciden con los valores de la función f ( xi ) en
puntos de malla. Definimos las diferencias de primer grado f ( xi ; x j ) como
f ( x j ) - f ( xi )
f ( xi ; x j ) = las diferencias de segundo grado f ( xi ; x j ; xk ) como
x j - xi
f ( x j ; x k ) - f ( xi ; x j )
f ( xi ; x j ; x k ) = . Demuestre que, en general, las diferencias de k-ésimo
x k - xi

82
grado f ( x1 ;...; xk +1 ) se definen mediante las diferencias de k-1-ésimo grado según la
f ( x2 ;...; xk +1 ) - f ( x1 ;...; xk )
fórmula f ( x1 ;...; xk +1 ) = .
xk +1 - x1

5. Demostrar que para las reglas b)-d) del ejercicio 3 del § 7 el error de aproximación es
f ( n +1) (x~ )
b b

(n + 1)! òa
w n ( x) dx [Sugerencia: Usando (9.17) y (9.24), aproxime la integral I ( f ) = ò f ( x)dx
a
b
mediante la fórmula I ( f ) » ò Ln ( x) dx , donde Ln (x) es un polinomio de grado n. Use para el error
a
b ( n +1)
f ( x)
de aproximación òw
a
n ( x)
(n + 1)!
dx el teorema sobre un valor promedio, ya que en estos casos la

función w n (x) no cambia su signo en el segmento (a, b)].

6. (Bakhvalov, 1973). Sea x1 ,..., xn nodos de la cuadratura


b
b-a n
I ( f ) = ò f ( x) p( x)dx » å Dj f (x j ) .
2 j =1
a

Suponiendo que esta cuadratura es exacta para todos los polinomios del grado £ 2n - 1 ,
b
demostrar que òw
a
n ( x) Pn-1 ( x) p( x) dx = 0 para cualquier polinomio Pn-1 ( x) del grado máximo
n-1 y w n ( x) = ( x - x1 )( x - x2 ) L( x - xn ) .

83
§ 10. Minimización del error de interpolación

Sea dada cierta función f ( x ) ÎC[na+1


,b ]
sobre el segmento [a , b] , y una malla con n+1 puntos xi

(i = 0,1,2, K , n) . Surge la cuestión sobre de qué manera se deben elegir los nodos xi del polinomio

de interpolación de Lagrange (9.13) para que el error máximo de interpolación de la función f ( x )

sobre [a , b] sea mínimo. Según (9.26), dicho error depende tanto del M n+1 como del polinomio

(9.19):

M n +1
max f ( x ) - Ln ( x ) £ × max w n ( x ) (10.1)
x Î[ a ,b ] (n + 1)! x Î[ a ,b ]

Sin embargo, en la mayoría de los casos la información previa sobre M n+1 es desconocida, y el

problema es en general muy complejo y actualmente no se tiene solución. Por eso, ahora

consideremos un problema particular, es decir, de qué manera se deben elegir los nodos xi del

polinomio de interpolación de Lagrange (9.13) con el fin de minimizar el último factor max w n ( x )
x Î[ a ,b ]

en (10.1), y por consiguiente, también el error máximo. Debido a que max w n ( x ) es la norma del
x Î[ a ,b ]

polinomio w n ( x ) en el espacio C[ a ,b] de funciones continuas sobre [a , b] , este problema se reduce a

la búsqueda de un polinomio con la desviación mínima respecto a cero. Ya que este problema se

resuelve en términos de los polinomios de Chébyshev, primero estudiamos las propiedades principales

de dichos polinomios.

b+a b-a
Observación 10.1. Por medio de la fórmula t = + x , el segmento [ -11
, ] se
2 2

transforma en el segmento [a , b] . Además, cada polinomio f (x) sobre [ -11


, ] se transforma en el

84
æ 2t - (b + a) ö
polinomio g (t ) º f ç ÷ sobre [a , b] . Por lo tanto, es suficiente considerar el problema
è b-a ø

sólo sobre el segmento estándar [ -11


, ]. •

Polinomios de Chébyshev (Bakhvalov, 1973). El polinomio algebraico de Chébyshev

Tn ( x) de grado n (n ³ 0) sobre el segmento [ -11


, ] se define mediante la fórmula

Tn ( x) = cos (n arccos x) (10.2)

A primera vista es difícil afirmar que para cada n, la función (10.2) es un polinomio algebraico.

Demostremos que este afirmación es cierta. En efecto, cuando n=0 y n=1, tenemos

T0 ( x) = 1 , T1 ( x) = x (10.3)

Sustituyendo f = arccos x en la ecuación

cos(n + 1)f = 2 cos f cos nf - cos(n - 1)f (10.4)

que es solo otra forma de la fórmula trigonométrica cos(n + 1)f + cos(n - 1)f = 2 cos nf cos f ,

obtenemos la fórmula recurrente

Tn +1 ( x) = 2 xTn ( x) - Tn -1 ( x) (10.5)

(n=1,2,...) para construir todos los polinomios de Chébyshev. Usando (10.3) y (10.5), obtenemos

T2 ( x) = 2 x 2 - 1 , T3 ( x) = 4 x 3 - 3x

T4 ( x ) = 8x 4 - 8x 2 + 1 , T5 ( x) = 16x 5 - 20x 3 + 5x (10.6)

Así pues, Tn ( x) es realmente un polinomio algebraico del grado n. Nótense unas propiedades

principales de los polinomios de Chébyshev:

1. Cuando n es par (impar), el polinomio Tn ( x) es una función par (impar): Tn ( - x ) = ( -1) n Tn ( x ) .

2. Para cada n>0, el coeficiente pivote del polinomio Tn ( x) es igual a 2 n-1 .

85
3. En el intervalo [ -11
, ] , Tn ( x) tiene n raíces reales, las cuales se expresan por la fórmula

( 2i + 1) p
x i = cos , i=0,1,2,...,n-1 (10.7)
2n

En efecto, de acuerdo con (10.7) tenemos n × arccos x i = ( 2i + 1)p / 2 , y tomando en consideración

(10.2), obtenemos que (10.7) son las raíces de Tn ( x) .

4. Por la definición (10.2), tenemos max Tn ( x ) = 1 , además,


xÎ[ -1,1]

mp
Tn ( y m ) = ( -1) m , donde ym = cos , m=0,1,2,...,n (10.8)
n

En efecto, arccos y m = mp / n , y en virtud de (10.2), Tn ( y m ) = cos mp = ( -1) m .

5. Tn (±1) = (±1) n .

d
6. Tn ( x) £ n 2 , - 1 £ x £ 1 .
dx

dTn
7. (±1) = (±1) n n 2 .
dx

1
dx p
òT = cn donde c0 = 2 , y ck = 1 si k ³ 1 .
2
8. n ( x)
-1 1- x2 2

¥
9. Expanción de Chébyshev de una función es u ( x) = å u n Tn ( x) donde
n =1

1
2 dx
un = ò
pcn -1
u ( x) Tn ( x)
1- x2
.

Sea f (x) una función continua en el segmento [ -11


, ] . Denotamos la norma de f (x) por

f ( x) = max f ( x)
xÎ[-1,1]

86
Lema 10.1. Entre todos los polinomios de n-ésimo grado con el coeficiente mayor o igual

que la unidad, el polinomio

Tn ( x) = 21-n Tn ( x) , n ³1 (10.9)

tiene en el segmento [ -11


, ] la norma mínima (o desviación mínima de cero), es decir, no existe un

polinomio Pn ( x ) de n-ésimo grado con coeficiente pivote igual a uno que se verifique

max Pn ( x) < max Tn ( x) = 21-n (10.10)


xÎ[ -1,1] xÎ[ -1,1]

Demostración (Volkov, 1990). Supongamos lo contrario: existe un polinomio

Pn ( x) = a 0 + a1 x + a 2 x 2 +...+ a n -1 x n -1 + x n (10.11)

que satisface la desigualdad (10.10). Ya que el coeficiente pivote del polinomio Tn ( x ) también es

igual a uno, la diferencia M n -1 ( x ) º Tn ( x ) - Pn ( x ) es un polinomio algebraico de grado no mayor que

n-1; además, en virtud de (10.10), M n-1 ( x) ¹ 0 por lo menos en un punto del segmento [ -11
, ] . A su

vez, en n+1 puntos y m , con base en (10.8)-(10.10), el polinomio M n-1 ( x ) adopta valores de signos

alternativos distintos de cero. En efecto, supongamos, por ejemplo, que Tn ( y 0 ) = 1 , entonces,

M n -1 ( y 0 ) º Tn ( y 0 ) - Pn ( y 0 ) > 0 ,

M n -1 ( y1 ) º Tn ( y1 ) - Pn ( y1 ) < 0 ,

M n -1 ( y 2 ) º Tn ( y 2 ) - Pn ( y 2 ) > 0 ,

etc. Esto significa que el polinomio algebraico M n-1 ( x ) de grado menor que n se reduce a cero por

lo menos en n puntos, lo cual es imposible. El lema ha quedado demostrado. •

87
Corolario 10.1. Los polinomios de Chébyshev Tn ( x) se llaman polinomios de desviación

mínima respecto a cero.

Observación 10.2. Sea n ³ 1 . Se puede demostrar que si un polinomio (10.11) satisface la

condición max Pn ( x) = 21-n , entonces Pn ( x ) º Tn ( x ) .


xÎ[ -1,1]

Minimización del error de interpolación. Regresemos ahora a la estimación (10.1).

Tomemos, en calidad de nodos de interpolación en el segmento [ -11


, ] , las raíces del polinomio de

Chébyshev Tn+1 ( x) , es decir, los puntos

( 2i + 1) p
x i = cos , i=0,1,2,...,n . (10.12)
2(n + 1)

En este caso, el polinomio

w n ( x) = ( x - x 0 )( x - x1 )L( x - x n ) , (10.13)

cuyo coeficiente pivote es igual a uno, será proporcional al polinomio Tn+1 ( x) según la propiedad 2:

w n ( x) = 2 - n Tn +1 ( x ) , n ³ 1 . (10.14)

Se deduce de (10.14) y (10.9) que

w n ( x ) = Tn +1 ( x ) , n ³ 1 , (10.15)

y teniendo en cuenta la propiedad 4 de los polinomios de Chébyshev, la estimación (10.1) del error de

interpolación adquirirá el siguiente aspecto:

M n +1
max f ( x) - Ln ( x) £ (10.16)
x Î[ -1,1] 2 (n + 1)!
n

88
Observación 10.3. En virtud de Lema 10.1, la estimación (10.16) del error de la interpolación

en el segmento [-11,] no puede ser mejorada por medio de otra elección de los nodos de

interpolación. En este sentido, los nodos de interpolación (10.12) son óptimos. •

Ejercicios:

2 x - (b + a)
1. El polinomio Tn[a ,b ] ( x) = (b - a) n 21-2 n Tn ( ) es el polinomio de grado n con
b-a
coeficiente pivote igual a uno. Demuestre que entre todos los polinomios del grado n con el
[a ,b ]
coeficiente pivote igual a uno, el polinomio Tn ( x) tiene la desviación mínima de cero, es
decir, minimiza la norma f ( x) = max f ( x) .
xÎ[a ,b ]

2. Demuestre que los nodos óptimos de interpolación en un segmento arbitrario [a , b] son


1æ ( 2i + 1) p ö
x i = ç (b - a ) cos + b + a÷ , i=0,1,2,...,n. [Sugerencia: usar la observación 10.1, el
2è 2(n + 1) ø
ejercicio 1, y la fórmula (10.14)].

3. Demuestre la afirmación más estricta que el lema 10.1: si Pn ( x) = x n + ... ¹ Tn ( x) entonces


max Pn ( x) > 21-n .
xÎ[-1,1]

4. Demuestre que el polinomio de Chébyshev Tn (x) se puede presentar como


(
Tn ( x) = 12 ì
î
) (
n
2
n
ü )
í x + x - 1 + x - x - 1 ý . [Sugerencia: la fórmula recurrente (10.5) es la ecuación
2

þ
de diferencias con la ecuación característica m 2 - 2 xm + 1 = 0 , con las raíces m1, 2 = x ± x 2 - 1 .
Si x ¹ ±1 , entonces las raíces son simples y Tn ( x) = C1 m1n + C2 m 2n ].

89
§ 11. Aproximación mediante funciones básicas

Sistemas de funciones básicas. Sea H un espacio de Hilbert. Por ejemplo, si H es un espacio de

funciones definidas en un dominio D, entonces se puede introducir el producto interno y la norma por

medio de las fórmulas

f , g = ò f ( x) g ( x)dx (11.1)
D

y
1/ 2
ì ü
= íò f ( x ) dx ý
1/ 2 2
f = f,f (11.2)
îD þ

donde g ( x ) es la función complejo conjugada respecto a g ( x ) . En el caso de funciones de malla


r
f h
º f = ( f 1 , f 2 ,K, f n ) , el producto interno y la norma se introducen como

n
f h , g h = å f i gi (11.3)
i =1

y
h 1/ 2
f h
= f h, f , (11.4)

respectivamente. Notense que (11.2) y (11.4) representan un método estándar para definir la norma

mediante producto interno. El ángulo a entre dos elementos reales f y g del espacio H se define

por la fórmula

f ,g
cos a = (11.5)
f g

La definición es correcta debido a la desigualdad de Schwarz

f ,g £ f g (11.6)

Por analogía con el caso de funciones reales, y de acuerdo con (11.5), dos elementos f y g del

espacio H se llaman ortogonales si

90
f ,g = 0. (11.7)

Sea {f i } i = 0 una sucesión de elementos del espacio H.


m

Definición. El sistema de funciones {f i } i = 0 se llama linealmente independiente si de la


m

ecuación

åa f
i=0
i i =0 , (11.8)

se deduce que todos los coeficientes a i son nulos (i=0,1,2,...,m). Si por lo menos un coeficiente a i

es no nulo en (11.8), entonces el sistema {f i } i = 0 es linealmente dependiente. •


m

Definición. La matriz

é f 0 ,f 0 f 1 ,f 0 L f m ,f 0 ù
ê ú
ê f 0 ,f 1 f 1 ,f 1 L f m ,f 1 ú
(11.9)
ê L L L L ú
ê ú
êë f 0 , f m f 1 ,f m L f m ,f m úû

formada por productos internos de los elementos de la sucesión {f i } es conocida con el nombre de

matriz de Gram del sistema {f i } i = 0 . El determinante de la matriz (11.9) se llama determinante de


m

Gram (Volkov, 1990). •

La siguiente afirmación proporciona un criterio para determinar si algún sistema es

linealmente independiente.

Lema 11.1. El sistema {f i } i = 0 de elementos de H es linealmente dependiente si y sólo si el


m

determinante de Gram (11.9) es igual a cero.

91
Demostración. Þ Supongamos que el sistema {f i } es linealmente dependiente, es decir, existen

tales números {a i } , no todos iguales a cero, que se cumple (11.8). Si tomamos el producto interno de

la igualdad (11.8) sucesivamente con f 0 , f 1 , f 2 , etc., obtenemos las relaciones

åa
i=0
i f i ,f j = 0 ( j = 0,1,2, ..., m) (11.10)

que pueden interpretarse como un sistema homogéneo de ecuaciones algebraicas lineales con una

solución no nula {a i } i = 0 . Por consiguiente, el determinante del sistema (11.10), que coincide con el
m

determinante de Gram (11.9), es igual a cero.

Ü Ahora, al revés, supongamos que el determinante de Gram (11.9) es igual a cero, y demostremos

que el sistema {f i } es linealmente dependiente. En efecto, ya que el determinante del sistema (11.10)

es igual a cero, ese sistema homogéneo tiene cierta solución no nula {a~ i } i = 0 , y se puede escribir
m

å a~
i =0
i f i ,f j = 0 ( j = 0,1,2,..., m) . (11.11)

~ , sumando sobre j los resultados obtenidos, y usando


Multiplicando j-ésima igualdad (11.11) por a j

(11.2), hallamos

m 2

å a~ i f i
i=0
= 0. (11.12)

Por lo tanto

å a~
i=0
i fi = 0. (11.13)

~ son nulos, el sistema {f } es linealmente dependiente según la


Ya que no todos los números a i i

definición. El lema queda demostrado. •

92
Definición. El conjunto {f i } i = 0 de funciones no nulas se llama sistema ortogonal si
m

f i , f j = 0 para cada j ¹ i , 0 £ i, j £ m . (11.14)

Teorema 11.1 (de Pitágoras). Si dos elementos f y g del espacio H son ortogonales,

entonces

2 2 2
f +g = f + g (11.15)

Demostración. En efecto, usando (11.7), obtenemos

2 2 2 2 2
f +g = f + g, f + g = f + g + f , g + g, f = f + g .฀

Lema 11.2. Si un sistema {f i } i = 0 de funciones es ortogonal, también será linealmente


m

independiente.

Demostración. Efectivamente, tomando el producto interno de la igualdad (11.8) con cada función

f j obtendremos

2
a j f j ,f j = a j f j =0 , 0 £ j £ m, (11.16)

o a j = 0 para cada j , 0 £ j £ m , ya que la norma de cada función f j es positiva. ฀

Observación 11.1. Demostramos el lema 11.2 por otros dos métodos. Primer método: La

matriz de Gram (11.9) es diagonal para el sistema de funciones ortogonales y, en vista de que las

funciones son no nulas, el determinante de Gram es positivo, y lema 11.2 se deduce del lema 11.1.

Segundo método: Aplicando la fórmula de Pitágoras a la igualdad (11.8), obtenemos

m 2 m

åa if i = å ai
2 2
fi =0 , (11.17)
i =1 i =1

y por consiguiente, a i = 0 para cada i , 0 £ i £ m .฀

93
Ejemplo 11.1 (Funciones continuas). Para cada entero m>0 , las funciones

f i ( x) = cos ix , 0 £ i £ m (11.18)

forman la base ortogonal en el segmento [0, p ] con el producto interno

p
f , g = ò f ( x) g( x)dx , (11.19)
0

donde

f0 = p , y fj = p /2 , 1£ j £ m. (11.20)

En efecto, si j ¹ k , entonces

p p
1
f j ,f k = ò cos jx cos kx dx = ò [cos( j - k ) x + cos( j + k ) x ] dx
0
20

1 ì sin ( j - k )p sin ( j + k )p ü
= í + ý = 0.
2î j-k j+k þ

p p
p
Si j=k, entonces f j , f j = ò cos 2 jx dx = , ya que ò (cos
2
jx + sin 2 jx ) dx = p , y dos
0
2 0

integrales de la última fórmula son iguales. ฀

Es bien conocido que cada función f (x) , continua y simétrica sobre [ -p , p ] , se representa

como la serie de Fourier

¥
f ( x ) = å ci cos ix (11.21)
i =0

p p
con coeficientes ci = f , cos ix = ò f ( x) cos ix dx =2ò f ( x) cos ix dx ,
-p 0
y según (11.15),

94
p ¥

òp åc
2 2 2 2
f = f ( x ) dx = 2p c0 +p i . (11.22)
- i =1

La igualdad (11.22) se llama fórmula de Parseval (Morton y Mayers, 1994). Ya que la norma (11.22)

es finita, ci ® 0 cuando i ® ¥ . La rapidez de la convergencia de los coeficientes ci hacia cero

aumenta con la suavidad de la función f (x) (Skiba, 1994, 1998).

Ejemplo 11.2 (Funciones de malla). Para cada entero m>0 , introducimos en el segmento

2i + 1 p
[0, p ] la malla regular xi = × , (i=0,1,2,...,m). Las funciones de malla
m+1 2

æ 2i + 1 p ö
f j ( xi ) = cosç j × ÷ , j=0,1,2,...,m (11.23)
è m +1 2 ø

representan la base ortogonal si producto interno se define como

m
f , g = å f ( xi ) g ( xi ) (11.24)
i =1

m+1
Además, f0 = m + 1, y fj = para j>0. ฀
2

Problema de aproximación mediante funciones básicas. Consideremos ahora el problema

de aproximación de una función por medio de una base de funciones linealmente independientes. En

calidad de la base, a menudo, se eligen un sistema de polinomios algebraicos (por ejemplo,

polinomios de Legendre, de Chébyshev, etc.), o un sistema de funciones ortogonales (por ejemplo,

funciones trigonométricas, armónicas esféricas, etc.).

Definición. La función

95
m
F m ( x ) = å ci f i ( x ) , (11.25)
i =0

donde ci es un coeficiente numérico, se llama el polinomio generalizado por el sistema de funciones

{f i } im= 0 en espacio de Hilbert H.


Supongamos que una función f (x) pertenece al espacio H. Se plantea el problema de hallar

tal polinomio (11.25) que tiene una distancia mínima r ( f , F m ) hasta la función f(x).

Ejemplo 11.3 (aproximación lineal). Aproximemos la función f (x ) = e x por un polinomio

lineal p1 (x ) = a + bx en el segmento [ -1,1] a fin de que minimizar la distancia

r (e x , p1 (x )) = max e x - p1 (x ) . (11.26)
x Î[ -1,1]

Es bien conocido que cerca del origen (x=0), la función exponencial f (x ) = e x se presenta como la

serie de Taylor: e = 1 + x + 12 x + ... . Por eso, a primera vista el polinomio t 1 (x ) = 1 + x


x 2
nos

da una buena aproximación de la función exponencial e en el intervalo [ -1,1] . Sin embargo, el error
x

(11.26) de tal aproximación es igual a r (e x , t 1 (x )) = max e x - t 1 (x ) @ 0.718 , y no es mínimo.


xÎ[ -1,1]

En la realidad, el polinomio lineal que minimiza el error (11.26) es m1 (x ) = 1.2643 + 11752


. x,

además, r (e x , m1 (x )) = max e x - m1 (x ) @ 0.279 (Fig.11.1). ฀


xÎ[ -1,1]

96
f(x)
ex

3 m1 (x )

2
t 1 (x )

x
-1 0 1

Fig.11.1. Aproximación de e en el intervalo [ -1,1] por polinomios lineales.


x

Ya que en un espacio funcional de dimensión infinita, las métricas y normas diferentes no son

equivalentes, la solución planteada depende de la métrica r ( f , F m ) elegida, es decir, del criterio de

minimización. Por eso, es preciso tener en cuenta que la distancia entre un polinomio de

aproximación F m ( x) y la función f (x) puede ser pequeña en una métrica y grande en la otra.

Ilustramos ahora este hecho mediante un ejemplo:

Ejemplo 11.4. Consideremos dos distancias diferentes en el espacio de funciones continuas

en el segmento [0,1] :

r 1 ( f , g ) = max f (x) - g (x) (11.27)


xÎ[ 0,1]

1/ 2
ì1 ü
= íò f ( x) - g( x) dx ý .
1/ 2 2
r 2 ( f , g) º f - g = f - g , f - g (11.28)
î0 þ

97
n f(x)

x
A
0 1 B 1
n3

Fig.11.2. Gráfico de la función f (x) en el segmento [0,1] .

Sea g( x ) º 0 en [0,1] , y f ( x ) es no nula solo en un segmento [ A, B] de longitud 1 / n3 , donde su

valor máximo es igual a n (Fig. 11.2). En este caso, según (11.27) y (11.28), tenemos

r 1 ( f , g ) = max f (x) = n , (11.29)


xÎ[ 0,1]

y
1/ 2 1/ 2
ì1 ü ìB ü 1 1
r 2 ( f , g) = íò f ( x) dx ý = íò f ( x) dx ý
2 2
£ n2 × 3
= (11.30)
î0 þ îA þ n n

Así, cuando n aumenta, la distancia (11.29) entre f ( x ) y g ( x ) tiende al infinito, mientras que la

distancia (11.30) entre las mismas funciones tiende a cero. ฀

Ejercicios:

1. (Ortogonalización de Gram-Schmidt). Sea {f i } im= 0 un sistema de funciones linealmente


independientes (es decir, la base). Usando este sistema, construya la base ortogonal {y i }i =0 .
m

[Sugerencia: Aplique la inducción. Si m=0, entonces el sistema es trivial: y 0 = f 0 . Suponiendo


que el sistema ortogonal {y i }i =0 ya está construido, la siguiente función ortogonal y k +1 se busca
k

98
k
de la forma y k +1 = f k +1 - å a kiy i . En virtud de que las funciones {y i }i =0 son ortogonales,
k

i =0

f k +1 ,y i
obtenemos que a ki = ].
y i ,y i
k
r r
2. La transformada y j = å b jif i del ejercicio 1 se puede presentar en la forma vectorial: y = Bf .
i =0
Demostrar que det B = 1 , es decir, la matriz B (y por lo tanto, dicha transformada) no es singular.
[Sugerencia: demuestre que la matriz B es matriz triangular inferior, y todos sus elementos
diagonales son iguales a la unidad].
r r
3. Demuestre que la matriz A de la transformada f = Ay también satisface la condición det A = 1 .
[Sugerencia: Muestre que la matriz A = B -1 tiene la misma estructura que la matriz B ].

4. Demuestre que para un sistema {f i } i = 0 de funciones linealmente independientes no existe otra


m

r r
transformada z = Df tal que el sistema {z i }i =0 es también ortogonal y la estructura de la matriz
m

D coincide con la de B.
5. Aplique el proceso de ortogonalización descrito en el ejercicio 1 para ortogonalizar en el espacio
L2 (-1,1) el sistema f j ( x) = x , j = 0,1,2,3,... en el intervalo (-1,1). Demuestre que se
j

2 3 5
obtienen los polinomios ortonormales , x, (3x 2 - 1),..., diferenciados de los de Legendre
2 2 8
sólo por factores numéricos.

99
§ 12. Polinomio de la mejor aproximación media cuadrática

Supongamos que una función f (x) pertenece al espacio de Hilbert real H con la base {f i } i = 0 .
m

Se plantea el problema de hallar el polinomio

m
F m ( x ) = å ci f i ( x ) , (12.1)
i =0

que minimiza la distancia

1/ 2
r( f , F m ) º f - F m = f - F m , f - F m . (12.2)

Definición. La distancia (12.2) es conocida con el nombre de desviación media cuadrática

del polinomio F m ( x) respecto de la función f (x). El polinomio F *m ( x) que minimiza (12.2), se

denomina polinomio de mejor aproximación media cuadrática de la función f(x).

La siguiente afirmación indica que el problema de mejor aproximación media cuadrática ha

sido bien formulado (Lowson y Hanson, 1974; Volkov, 1990).

Lema 12.1. Si el sistema {f i } i = 0 de funciones es linealmente independiente, entonces para


m

cualquier función f (x) del espacio de Hilbert H, el polinomio F *m ( x ) de la mejor aproximación

media cuadrática existe y es único.

Demostración. De acuerdo con (12.2), tenemos

2
r 2 ( f , Fm ) º f - Fm = f - Fm , f - Fm

m m
= f - å ci f i ( x), f - å c j f j ( x)
i =0 j =0

100
m m m
= f , f + å å ci c j f i , f j - 2å ci f , f i . (12.3)
i =0 j =0 i =0

Por lo tanto, la magnitud r 2 ( f , F m ) representa una forma cuadrática respecto a los coeficientes

buscados ci del polinomio F *m ( x ) . Ya que la forma no es negativa para cualesquier ci , la misma (y

también, la distancia (12.2)) alcanza su valor mínimo no negativo. Igualando a cero las derivadas

parciales de la forma (12.3),

¶ 2
r ( f , F m ) = 0 , ( j = 0,1,2, K , m) , (12.4)
¶cj

obtenemos el sistema

åc
i =0
i f i , f j = f , f j , ( j = 0,1,2, K , m) (12.5)

de ecuaciones algebraicas lineales que se llama normal. Según el lema 11.1, el determinante del

sistema (12.5), que es un determinante de Gram, no es igual a cero. Por eso, el sistema (12.5) tiene

una sola solución {ci*} para cada función f (x). Estos {ci*} son los coeficientes del único polinomio

F *m ( x ) de la mejor aproximación media cuadrática de la función f (x) definido por (12.1). ฀

En la práctica se usan a menudo las aproximaciones medias cuadráticas de las funciones

mediante polinomios algebraicos, es decir, en calidad del sistema de funciones {f i } i = 0 se toman las
m

potencias de x : {1, x, x 2
}
, K , x m . Este sistema es linealmente independiente en el espacio C[ a ,b] de

las funciones continuas en el segmento [ a , b] para cualquier m. En un espacio lineal E n+1 de

dimensión n+1, donde las funciones se definen sólo en n+1 puntos de malla sobre un segmento

101
[ a, b] , {
el sistema 1, x , x 2 , K , x m } es linealmente independiente cada vez cuando m £ n . En

efecto, si

a 0 + a 1 x + a 2 x 2 +K+a m x m º 0 , (12.6)

entonces todos sus coeficientes a i tienen que ser nulos (i=0,1,...,m), ya que de lo contrario, un

polinomio algebraico de grado m puede reducirse a cero en más que m puntos.

Ejemplo 12.1. En el segmento [0,1] es necesario encontrar el polinomio F 1 ( x) = c0 + c1 x

de la mejor aproximación media cuadrática para la función f ( x) = x .

Resolución. La base tiene sólo dos funciones: f 0 ( x) = 1 , f 1 ( x) = x . Calculemos ahora los

elementos de la matriz de Gram:

1 1
1
f 0 , f 0 = ò dx = 1, f 1 , f 1 = ò x 2 dx = ,
0 0
3

1
1
f 0 , f 1 = f 1 , f 0 = ò x dx = .
0
2

1 1
2 2
Además, f , f 0 = ò x dx = , f , f 1 = ò x x dx = . Por consiguiente, el sistema normal
0
3 0
5

(12.5) acepta la forma

1 2 1 1 2
c0 + c1 = , c0 + c1 = .
2 3 2 3 5

4 4 4 4
De aquí, c0 = , c1 = , y F1 ( x) = + x . En este caso, la desviación media
15 5 15 5

cuadrática del polinomio F 1 ( x) respecto de la función f ( x) = x es igual a

102
1/ 2
ìï 1 æ 4 4 ö
2
üï 2
r ( f , F 1 ) = íò ç x - - x ÷ dx ý = .฀
ïî 0 è 15 5 ø ïþ 30

Observación 12.1. En el espacio C[ a ,b] pueden surgir dificultades relacionadas con el

cálculo de las integrales

b
1
f ,f i = ò f (x) x (i = 0,1,2,K , m) .
i
dx (12.7)
b-a a

Por eso el método de mínimos cuadrados se usa principalmente en la forma discreta (en E n+1 ). ฀

Aplicación de polinomios ortogonales. El sistema normal (12.5) se resuelve de la forma

más simple cuando el sistema de funciones básicas {f i } im= 0 es ortogonal. En este caso, la matriz de

Gram del sistema se convierte en matriz diagonal, y los coeficientes ci del polinomio (12.1) de la

mejor aproximación media cuadrática de la función f ( x ) tienen la forma siguiente:

f ,f i
ci = , (i = 0,1,2,K , m) (12.8)
f i ,f i

Dichos coeficientes se denominan coeficientes de Fourier de la función f ( x ) según el sistema

ortogonal {f i } i = 0 . De la fórmula (12.3), tomando en consideración la ortogonalidad de la base,


m

hallamos

m
- å ci2 f i
2 2
r ( f ,Fm ) = f
2
. (12.9)
i=0

De aquí se deduce con evidencia que al aumentar m (es decir, el número de las funciones

ortogonales), la distancia r 2 ( f , F m ) disminuye.

103
Observación 12.2. En el espacio E n+1 , si m=n y si el sistema {f i } im= 0 es ortogonal, el

mismo, forma una base en E n+1 . Entonces, para cualquier función f ( x ) del E n+1 habrá tal

n
F n ( x ) = å ci f i ( x ) F n ( x ) = f ( x ) , x Î {x i } i = 0 ,
n
polinomio que y por consiguiente,
i=0

r ( f , F n ) = 0 . El referido polinomio coincide, evidentemente, con el polinomio de la mejor

aproximación media cuadrática de f ( x ) . ฀

En cualquier segmento [ a, b] existe un sistema ortogonal y infinito de polinomios

algebraicos desde el punto de vista del producto interno

b
1
f ,g =
b-a ò f ( x ) g ( x ) dx .
a
(12.10)

Por ejemplo, los polinomios de Legendre

1 dn
Pn ( x ) = n n
( x 2 - 1) n (12.11)
2 n! d x

son ortogonales en el segmento estándar [ -11


, ]:

1
ì 0, j ¹ k
Pj , Pk = 1
2 ò j k
-1
P ( x ) P ( x ) dx = í 1 , j=k,
î 2 j +1
(12.12)

lo cual se comprueba integrando por partes. Evidentemente, Pn ( x ) es un polinomio algebraico de n-

ésimo grado, puesto que al diferenciar el polinomio ( x 2 - 1) n n veces, su grado se reduce

exactamente a n. Para los polinomios de Legendre es válida la fórmula recurrente

(n + 1) Pn +1 ( x) - (2n + 1) x Pn ( x) + n Pn -1 ( x) = 0 , (12.13)

por lo cual se puede hallar el polinomio de Legendre de cualquier grado, tomando en consideración

el hecho de que P0 ( x) = 1 , P1 ( x) = x . En particular,

104
1 1 1
P2 ( x) = (3x 2 - 1) , P3 ( x) = (5x 3 - 3x) , P4 ( x) = (35x 4 - 30x 2 + 3) .
2 2 8

Es importante señalar que

Pn ( - x) = ( -1) n Pn ( x) . (12.14)

Lema 12.2. Todas las raíces del polinomio de Legendre son reales, simples y se hallan

dispuestas en el intervalo (-1,1).

Demostración. Paso 1. Indicamos que el polinomio de Legendre Pn ( x) es ortogonal respecto a

cualquier polinomio algebraico X k ( x ) de grado k<n :

Pn , X k = 0 . (12.15)

En efecto,

k
X k ( x ) = å a j Pj ( x ) ; (12.16)
j =0

esta afirmación se deriva de la propiedad (12.12) de ortogonalidad de los polinomios de Legendre.

Paso 2. Supongamos lo contrario: que el polinomio Pn ( x) tiene dentro del intervalo (-1,1) sólo

k<n diferentes raíces reales de multiplicidad impar. Designemos esas raíces por x1 , x 2 , K , x k , y

definamos un polinomio de k-ésimo grado:

ì ( x - x1 )( x - x 2 )L ( x - x k ), si k > 0
X k ( x) = í . (12.17)
î 1 , si k = 0

Notemos que k=0 corresponde a la situación donde todas las raíces tienen multiplicidad par.

Evidentemente, el producto Pn ( x) X k ( x ) es un polinomio de (n+k)-ésimo grado, el cual no

cambia de signo en el intervalo (-1,1), cuyos raíces sólo pueden ser de multiplicidad par, y el cual

105
tiene que ser diferente de cero. Por eso Pn , X k ¹ 0 , lo cual contradice la igualdad (12.15). Por

consiguiente, el polinomio de Legendre Pn ( x) , de n-ésimo grado tiene en el intervalo (-1,1)

exactamente n raíces simples (de multiplicidad uno). ฀

Ejemplo 12.2. Hay que aproximar la función f ( x ) = x en el segmento [ -11


, ] mediante un

polinomio algebraico de cuarto grado y aplicar el método de mínimos cuadrados.

Resolución. Representemos el polinomio buscado F 4 ( x ) mediante los polinomios de Legendre:

4
F 4 ( x ) = å c j Pj ( x ) . (12.18)
j =0

De acuerdo con las propiedades de los polinomios de Legendre, tenemos

2j +1
1
cj =
2 ò x P ( x) dx .
-1
j (12.19)

Notamos que debido a la propiedad (12.14), c j = 0 para cada j impar. En particular, obtenemos

1 5 3
c0 = , c1 = 0 , c2 = , c3 = 0 , c4 = - . Por lo tanto,
2 8 16

1 5 3
F 4 ( x) = + (3x 2 - 1) - (35x 4 - 30x 2 + 3)
2 8× 2 16 × 8

15
= ( -7 x 4 + 14 x 2 + 1) .
128

En vista de que

1
1 1
òx
2 2
f = dx = ,
2 -1
3

según (12.9) obtenemos

4
- å c 2j Pj
2 2
r2 ( f ,F4 ) = f , (12.20)
j =0

106
y la desviación media cuadrática del polinomio F 4 ( x ) respecto a f ( x) = x en [ -11
, ] es

1/ 2
ìï 1 æ 1 ö 2 æ 5ö 2 1 æ 3 ö 2 1 üï 3
r ( f ,F4 ) = í - ç ÷ - ç ÷ -ç ÷ = .฀
îï 3 è 2 ø è 8ø 5 è 16ø 9 ýïþ 48

Ejercicios:

1. Sea {f i } i = 0 una base. Demuestre que la matriz de Gram es positivamente definida.


m

2. Sea f un elemento de un espacio de Hilbert H con el producto escalar (11.1) y la norma (11.2), y
sea R un subespacio lineal de H. Un elemento h0 de R se llama elemento de la mejor
aproximación de f si f - h0 = inf f - h . Demuestre que el elemento f - h0 (es decir, el error
hÎR

de aproximación) es ortogonal al subespacio R.

3. Demuestre que si f - h0 , h = 0 para un elemento h0 de R y para cada h de R, entonces el


elemento h0 de R es el elemento de la mejor aproximación de f.
m
4. Sea {f i } i = 0 una base ortogonal. Demuestre la desigualdad de Bessel: f , f ³ å f , f i
m 2
.
i =0

5. Encuentre en el intervalo [0,p ] el polinomio F 1 ( x) = c0 + c1 x de la mejor aproximación media


cuadrática para la función f ( x) = sin x + cos x . [Sugerencia: para el cálculo de los productos
internos f , f 0 y f ,f1 use las siguientes fórmulas:

ò x sin x dx = sin x - x cos x , y ò x cos x dx = cos x + x sin x ].

107
Capítulo III. Estabilidad y convergencia

En este capítulo se estudia la estabilidad de los esquemas y algoritmos numéricos respecto a errores

iniciales y errores en forzamiento. Se sabe que cuando varios errores se propagan a través de los

cálculos pueden aumentar considerablemente o sin ningún control. En este caso, decimos que el

esquema, o algoritmo numérico, es inestable. Es necesario señalar que la solución numérica obtenida

mediante cálculos inestables es inútil. Por ello, es de gran importancia construir y usar sólo

esquemas y algoritmos estables. Dos definiciones básicas de la estabilidad se introducen: la

estabilidad espectral de von Neumann y la estabilidad en una norma vectorial. Se demuestra el

teorema de Lax, según el cual para cualquier problema continuo lineal, tanto la aproximación del

problema por un problema discreto como la estabilidad del problema discreto (o esquema) son las

condiciones necesarias y suficientes para que converga la solución numérica hacia la solución exacta.

En el caso de un problema no lineal, la aproximación y estabilidad también son necesarias, pero no

son suficientes para la convergencia. Para un estudio más detallado se recomiendan los trabajos de

Forsythe y Wasow (1960), Godunov y Ryabeñkii (1964), Richtmyer y Morton (1967), Yanenko

(1971), Marchuk (1982), Golub y Ortega (1992), Skiba (1993b, 1997b), Skiba y Adem (1995),

Durran (1999).

§ 13. Concepto de estabilidad

En el ejemplo 1.1, nos encontramos con el problema de la estabilidad de un algoritmo numérico.

Con el fin de estudiar varios aspectos de este problema, analicemos en este párrafo algunos

ejemplos. Primero, comparemos las regiones de la estabilidad de soluciones de un problema

108
continuo (ejemplo 13.1) y de un problema discreto (ejemplo 13.2) que aproxima al problema

continuo.

Ejemplo 13.1 (problema continuo). Sea

d
y( x) = ly( x) + g ( x) , y( 0) = a (13.1)
dx

el problema original con la solución y ( x ) , y

d
ye ( x) = lye ( x) + g ( x) , ye ( 0) = a + e (13.2)
dx

un problema perturbado por un error e >0 introducido en el punto x=0, que tiene la solución

ye ( x) . Evidentemente, el problema para errores ze ( x) = ye ( x) - y( x) tiene la forma

d
ze ( x) = lze ( x) , ze ( 0) = e . (13.3)
dx

La solución del problema (13.3) es

z e ( x ) = e exp{lx} . (13.4)

y, por lo tanto,

z e ( x ) = e exp{Re l × x} . (13.5)

Es evidente que el comportamiento del error e depende del parámetro l :

1) Si Re l < 0 , entonces la solución y ( x ) es estable, ya que z e ( x ) ® 0 cuando x ® ¥ ,

es decir, el error e introducido en el punto x=0 tiende al cero cuando x aumenta.

109
2) Si Re l > 0 , entonces la solución y ( x ) es inestable, ya que ze ( x) ® ¥ cuando

x ® ¥ , y por lo tanto, el error e aumenta sin límites junto con x.

3) Si Re l = 0 , entonces la solución y ( x ) es estable, ya que ze ( x ) = e para cada x.

Así, la solución y ( x ) del problema (13.1) es estable respecto al error e si Re l £ 0 . □

Ahora vamos a ver cómo cambian las regiones de estabilidad de la solución al discretizar el

problema (13.1).

Ejemplo 13.2 (problema discreto). Aproximemos tanto el problema continuo original (13.1)

como el perturbado (13.2) por medio del método de Euler:

y n+1 = y n + h(l y n + g n ) , y0 = a , (13.6)

y n+1,e = y n,e + h(l y n,e + g n ), y0,e = a + e . (13.7)

Entonces el problema discreto para errores z n,e = y n,e - y n tiene la forma

z n+1,e = (1 + hl )z n,e , z 0,e = e , (13.8)

o, de otra manera, en los cálculos, el error inicial se propaga como

z n,e = (1 + hl ) z 0,e = (1 + hl ) e , n³0 .


n n
(13.9)

Por lo tanto,

n
{
z n,e = 1 + hl z 0,e = (1 + hRe l ) 2 + h 2 (Im l ) 2 } n/2
e , n ³ 0 , (13.10)

es decir, la solución y n del problema discreto es estable respecto al error e sólo si

(1 + h Re l ) 2 + h 2 (Im l ) 2 £ 1 . (13.11)

110
Es importante notar que, a diferencia del problema continuo (13.1), la solución numérica y n es

inestable no sólo cuando Re l > 0 , sino también cuando Re l = 0 . Además, si Re l < 0 , en virtud

de (13.11), la solución y n es estable sólo para h bastante pequeño:

2 Re l
h£ 2
. (13.12)
l

En particular, si l = Re l < 0 , entonces se deduce de (13.12) que h £ 2 / l , y por consiguiente,

h disminuye cuando l crece. Así, el esquema de Euler es condicionalmente estable (es decir, es

estable sólo bajo cierta condición). □

Es de gran importancia notar que la inestabilidad de un algoritmo numérico significa que

dicho algoritmo es prácticamente inútil, ya que siempre presenta errores de algún tipo en cálculos

(por ejemplo, errores iniciales por ignorancia de los valores exactos, o errores de redondeo). Ahora

demostraremos la inestabilidad de un algoritmo numérico que requiere dos condiciones iniciales para

empezar cálculos.

Ejemplo 13.3. Consideremos una fórmula recurrente:

y n+1 = 3y n - 2 y n-1 . (13.13)

Notemos que si y 0 = y1 = 1 entonces, según (13.13), y n = 1 para cada n>1. Aceptamos dichos

valores como la solución exacta. Ahora introducimos errores

y 0 ,e = 1 + e , y y1,e = 1 + 2e (13.14)

en dos valores iniciales, y repetimos cálculos usando la fórmula (13.13). La solución perturbada que

obtenemos tiene la forma

111
y n ,e = 1 + 2 n e . (13.15)

En efecto, cálculos directos nos dan

y 2 ,e = 3y1,e - 2 y 0,e = 3(1 + 2e ) - 2(1 + e ) = 1 + 2 2 e ,

y 3,e = 3y 2 ,e - 2 y1,e = 3(1 + 2 2 e ) - 2(1 + 2e ) = 1 + 2 3 e ,

etc. Supongamos que e = 10 -3 , lo que significa que los errores iniciales (13.14) son bastante

pequeños. Sin embargo, según (13.15), el error aumenta muy rápido y después de dies pasos supera

el valor de la solución exacta: y10,e = 1 + 2 10 × 10 -3 @ 1 + 1024


. (Fig.13.1).

yn = 1 + 2 n e

210 e
1+ e
1 y =1

0 10 n

Fig.13.1. Comportamiento de las soluciones exacta y perturbada.

112
Claro que es prácticamente imposible usar la fórmula (13.13) cuando los datos iniciales (13.14)

contienen errores más grandes que e = 10 -3 . □

Al estudiar la estabilidad de esquemas lineales simples con coeficientes invariables, se usa a

menudo el método espectral.

Ejemplo 13.4 (Godunov y Ryabeñkii, 1964). Consideremos un esquema explícito

f mn+1 - f mn f mn +1 - f mn
- =0 (13.16)
t h

para la ecuación unidimensional de transporte

¶f ¶f
= (13.17)
¶t ¶ x

en un dominio ilimitado: -¥ < x < ¥, 0 < t < T , donde t y h son tamaños de las mallas

temporal y espacial, respectivamente. Supongamos que f mn º f (t n , xm ) , y en el momento inicial

t=0, la solución tiene la forma de una onda con número real a :

f m0 = exp{ia m}

Buscamos la solución del esquema (13.16) de la forma

f mn = ln exp{ia m} (13.18)

Al sustituir (13.18) en (13.16) obtenemos

l - 1 e ia - 1
- = 0,
t h

o, de otra manera,

t t
l (a ) = 1 - + × e ia . (13.19)
h h

Es evidente que la condición necesaria para la estabilidad de la solución numérica es

113
fn £C f0
r r
, (13.20)
¥ ¥

para cada n , donde f n º max f mn (vease (2.16)) y la constante C no depende de t , h y n. Para


r
¥ m

la solución (13.18), tenemos

n
fn £ l (a ) × f 0
r r
, (13.21)
¥ ¥

y por lo tanto, (13.20) se satisface si

n
l (a ) £ C , (n = 0,1, ..., N ) , (13.22)

donde N = T / t , o bien,

l (a ) £ 1 + Kt , (13.23)

donde K no depende de a y t . La última estimación se deriva de la desigualdad

a b
æ 1 ö æ 1ö
ç1- ÷ ç1+ ÷ £ 1 (13.24)
è a ø è bø

(Godunov y Ryabeñkii, 1964). Para demostrar que la desigualdad (13.22) cumple con la condición

(13.23), elegimos a = 2, b = 1 . Entonces, C = 4 KT , ya que


Kt

( )
Ktn
l (a ) £ 1 + Kt £ (1 + Kt )
n n 1/ Kt
£ 4 KT .

De (13.19) y (13.23) se deduce una restricción para el tamaño τ de la malla con el fin de garantizar

la estabilidad de cálculos según el esquema (13.16).

Observación 13.1. La condición necesaria para la estabilidad (13.23) no permite el aumento

exponencial de la amplitud de la solución. Es aceptable sólo si la solución exacta crece

{
exponencialmente. Sin embargo, la solución exacta j ( x, t ) = Re F(0)e ik ( x+t ) del problema (13.17) }

114
no crece, ya que j ( x, t ) = F(0) . En este caso, normalmente la condición (13.23) se cambia por la

condición suficiente de la estabilidad: l (a ) £ 1 .

Ejemplo 13.5. Consideremos en el cuadrado (0,1)´ (0,1) la ecuación de onda

¶ 2j ¶ 2j
= (13.25)
¶t 2 ¶ x 2

con las siguientes condiciones iniciales y de frontera:

j (0, t ) = a(t ) j (1, t ) = b(t )


¶j (13.26)
j ( x,0) = p( x) ( x,0) = q( x)
¶t

La solución j ( x, t ) tiene que satisfacer a las siguientes condiciones de compatibilidad:

¶j ¶a
(0,0) = q (0) = ( 0)
¶t ¶t
(13.27)
¶j ¶b
(1,0) = q (1) = ( 0)
¶t ¶t

Supongamos que a(t)=0 y b(t)=0. En el dominio (0,1)´ (0,1) introducimos una malla regular

( xk , t j ) con los tamaños h y t: xk = kh; k = 0,1,..., K ; xK = 1; t j = jt ; j = 0,1,..., J ; t J = 1 .

Usaremos dos esquemas numéricos para hallar la solución aproximada f kj en puntos de la malla:

1) el esquema cruz:

f kj +1 - 2f kj + f kj -1 f kj+1 - 2f kj + f kj-1
= (13.28)
t2 h2

2) el esquema:

f kj +1 - 2f kj + f kj -1 f kj++11 - 2f kj +1 + f kj-+11 f kj+-11 - 2f kj -1 + f kj--11


= + (13.29)
t2 2h 2 2h 2

con las siguientes condiciones:

115
t 2 pk +1 - 2 pk + pk -1
f = 0, f = 0, f = pk , f = pk + tqk +
0
j j
K
0
k
1
k (13.30)
2 h2

Obtenemos la última condición usando la serie truncada de Taylor. Buscamos la solución numérica

de la forma de una onda del número n:

f kj =lnj sin (npkh) (13.31)

Sustituyendo (13.18) en (13.29) y luego en (13.30), llegamos a dos ecuaciones características:

l2n - 2(1 - m n2 )ln + 1 = 0 (esquema cruz), (13.32)

2
l2n - ln + 1 = 0 (esquema (13.29)), (13.33)
1 + m n2

t2 nph
donde m n2 =2 2
sin 2 . Por lo tanto,
h 2
ln = 1 - m n2 ± (1 - m n2 ) - 1
2
(13.34)

para el esquema cruz, y

1 1
ln = ± -1 (13.35)
1 + m n2 (1 + m )
2 2
n

t
para el esquema (13.29). Se deduce de (13.34) que si < 1 , entonces m n2 <2 y l n = 1 . Así, el
h
t
esquema cruz es estable bajo la condición < 1 . Según (13.35), siempre l n = 1 , es decir, el
h
esquema (13.29) es absolutamente estable. □

Ejercicios:

1. Consideremos la forma canónica de los esquemas homogéneos de un solo paso (Samarskii,


1971):
y n+1 - y n
r r
+ Ay n = 0
r
B
r
t
donde A y B son dos matrices. Demuestre que si B > 0 , A = A* > 0 , y B ³ 0.5t A , entonces el
esquema es estable en la norma y = Ay, y : yn £ y0 .
r r r r r
A A A

116
2. Demuestre que si B = B* > 0 , A = A* > 0 , y B ³ 0.5t A , entonces el esquema del ejercicio 1 es
estable también en la norma y = By, y : yn £ y0 .
r r r r r
B B B

y n+1 - y n
{ }
r r
+ A s y n+1 + (1 - s ) y n = 0 un esquema donde s > 0 es el peso, A ¹ A * , y
r r r
3. Sea
t
£ y0 .
rn
A > 0 . Demuestre que si s ³ 0.5 , entonces el esquema es estable: y
r

£ d Ay, y . Demuestre que si s ³ 1 - 1 , entonces el esquema del ejercicio 3 es


r2
4. Sea Ay
r r
2 td
estable : y £ y .
rn r0

117
§ 14. Estabilidad espectral

En este apartado estudiamos el criterio espectral de la estabilidad de von Neumann. El criterio está

basado en la aplicación de las series de Fourier, es cómodo y se usa a menudo en la práctica. Es

preciso notar que el método no es aplicable a los esquemas (las ecuaciones discretas) no lineales, y

por lo tanto, es necesario linearizar el problema antes de usarlo. Sin embargo, la solución de una

ecuación lineal se puede presentar en la forma de una serie de Fourier, donde cada componente de la

serie también es la solución del problema. Así, es posible verificar la estabilidad de un solo

armónico. Entonces, la estabilidad de todos los armónicos de la serie será la condición necesaria

para la estabilidad del esquema.

En seguida estudiamos el criterio espectral de von Neumann de la estabilidad de esquemas

numéricos aplicados para hallar la solución de la ecuación no estacionaria

¶f
r
+ Af = f , f (0) = g
r r r r
(14.1)
¶t

en un intervalo finito 0 £ t £ T (Godunov y Ryabeñkii, 1964; Richtmyer y Morton, 1967; Marchuk,

1982; Durran, 1999). El problema (14.1) ya es discreto en el espacio, y su solución f (t ) está dada
r

en el momento inicial t=0. Supongamos que la matriz A no depende de tiempo, es positiva y tiene

un conjunto completo de autovectores, es decir, todos los autovalores l n del problema espectral

Aun = l n un
r r
(14.2)

son positivos, y los autovectores u n son linealmente independientes y forman la base en el espacio
r

vectorial de las soluciones. Se puede discretizar el problema (14.1) en tiempo en cada subintervalo

[ ]
pequeño t j , t j +1 del tamaño t usando alguno de los esquemas numéricos

f j +1 - f j
r r
{ }
+ A af j +1 + (1 - a )f j = f j , f 0 = g
r r r r r
(14.3)
t
118
que dependen del parámetro a : 0 £ a £ 1. Los más conocidos de esta familia son el esquema

explícito ( a = 0 ):

f j +1 - f j
r r
+ Af j = f j , f 0 = g ,
r r r r
(14.4)
t

el esquema implícito ( a = 1 ):

f j +1 - f j
r r
+ Af j +1 = f j , f 0 = g ,
r r r r
(14.5)
t

y el esquema de Crank-Nicolson ( a = 0.5 ) (Crank y Nicolson, 1947):

f j +1 - f j ì f j +1 + f j ü r j
r r r r
f
r0 r
+ Aí ý = f , =g . (14.6)
t î 2 þ

Se puede escribir cada esquema de la siguiente forma:

f j +1 = Bf j + tSf j , f 0 = g ,
r r r r r
(14.7)

donde

B = E - tA , S = E (14.8)

para el esquema explícito (14.4),

B = ( E + tA) , S = ( E + tA)
-1 -1
(14.9)

para el esquema implícito (14.5), y

-1 -1
æ t ö æ t ö æ t ö
B = ç E + A÷ ç E - A÷ , S = ç E + A÷ (14.10)
è 2 ø è 2 ø è 2 ø

para el esquema de Crank-Nicolson (14.6).

Estabilidad espectral del esquema explícito. Introducimos las series de Fourier:

f j = å f nj u n , f j = å f nj u n , g j = å g n un ,
r r r r r r
(14.11)
n n n

119
donde

f nj = f j , v n ,
r r r
f nj = f j , v n , g n = g , v n ,
r r r
(14.12)

r
y v n es autovector del problema espectral para matriz adjunta:

A* vn = l n vn .
r r
(14.13)

Supongamos que dos sistemas de autovectores son ortonormales:

un , vm º vm* un = d nm .
r r r r
(14.14)

Sustituyendo (14.11) en (14.4), y usando el producto interno del resultado obtenido con un vector
r
v n , llegamos a la ecuación

f nj+1 = (1 - t l n )f nj + t f n j , f 0 = gn (14.15)

para el n-ésimo coeficiente de Fourier de la solución. Se deduce de (14.15) que

j
f = R gn + t å Rnj -i f ni -1 ,
j
n n
j
(14.16)
i =1

donde

Rn = 1 - t l n . (14.17)

Entonces

j
f £ Rn gn + t å Rn
j j -i
j
n f ni -1 , (14.18)
i =1

Tomando

fn º max f n j (14.19)
j

120
en lugar de f ni -1 y sumando los términos de la progresión geométrica (la suma S n de los

a0 + ra n
primeros n+1 términos de la progresión geométrica {a n }n =0 con la razón r es
n
Sn = ),
1- r
llegamos a la estimación
j
j 1 - Rn
f £ Rn
j
gn + t fn (14.20)
1 - Rn
n

Definición (Criterio de la estabilidad espectral de von Neumann). Si para cada n, el n-ésimo

coeficiente de Fourier de la solución de un esquema satisface la desigualdad

f nj £ Cn g n + Kn f n , (14.21)

donde constantes positivas Cn y Kn no dependen de j y t , entonces dicho esquema es estable.

Tomando en consideración (14.20), concluimos que el esquema explícito (14.4) satisface el

criterio de von Neumann si

Rn < 1. (14.22)

Usando (14.17), obtenemos que (14.22) se cumple si

t < 2 / max l n . (14.23)


n

En efecto, en este caso (14.18) acepta la forma

f nj £ g n + jt f n £ g n + T f n , (14.24)

donde T es longitud del intervalo temporal del problema (14.1). Entonces el esquema explícito es

estable sólo si el tamaño t de la malla temporal es bastante pequeño; además, la desigualdad

(14.23) es una condición constructiva que garantiza la estabilidad del esquema.

Estabilidad espectral del esquema implícito. Aplicando el mismo análisis al esquema

(14.5), llegamos a la ecuación

121
j -1
f = R gn + t å Rnj -i f ni ,
j
n n
j
(14.25)
i =0

para el n-ésimo coeficiente de Fourier, donde

1
Rn = , (14.26)
1+ t l n

y por lo tanto,

j
j 1 - Rn
f £ Rn
j
gn + t Rn f n . (14.27)
1 - Rn
n

Ya que todos los autovalores son positivos, en virtud de (14.26) obtenemos que para el esquema

implícito, la desigualdad (14.22) es válida para cada armónica n y cualquier tamaño t , es decir, el

esquema (14.5) es absolutamente estable (para cada t ).

Estabilidad espectral del esquema de Crank-Nicolson. Es fácil demostrar que en el caso

del esquema de Crank-Nicolson (14.6), llegamos a la ecuación

j
f = R gn + t m n å Rnj -i f ni -1 ,
j
n n
j
(14.28)
i =1

para el n-ésimo coeficiente de Fourier, donde

1 - 0.5t l n 1
Rn = , mn = . (14.29)
1 + 0.5t l n 1 + 0.5t l n

Ya que tanto Rn < 1 como m n < 1, se deduce de la desigualdad


j
j 1 - Rn
f £ Rn gn + tm n
j
fn (14.30)
1 - Rn
n

que el esquema de Crank-Nicolson también es absolutamente estable.

122
Ejercicios:

1. El criterio espectral de von Neumann es una condicion necesaria para la estabilidad.


j +1
Consideremos la ecuación (14.7) cuando f = 0 : f = Bf j . Demuestre que si la matriz de
j
r r r

paso B es normal ( BB * = B * B ), entonces el criterio von Neumann es también la condición


r j +1
necesaria para la estabilidad. [Sugerencia: use la estimación f £ B2fj
r
y la propiedad
2 2

de que la norma espectral B 2


de una matriz normal es igual al radio espectral de B].

2. Consideremos el problema ¶j - ¶j = 0 en el dominio - ¥ < x < ¥ . Demuestre que para el


¶t ¶x
n +1
f -f n
f -f
n n
j -1
-
= 0 que aproxima la ecuación diferencial, la condición suficiente
j j j
esquema
t h
de la estabilidad espectral de Neumann l £ 1 no se cumple para ningún t . [Sugerencia:
buscando la solución en la forma de un solo armónico f j = l exp(iaj ) , demuestre que
n n

l = 1 + r - re -ia , donde r = t / h = Const , y por tanto, l > 1 para cualquier t ].

¶j ¶j
3. Consideremos el problema - = 0 en el dominio - ¥ < x < ¥ . Demuestre que para el
¶t ¶ x
f nj+1 - f nj f nj+1 - f nj-1 t
esquema - - 2 (f nj+1 - 2f nj + f nj-1 ) = 0 que aproxima la ecuación
t 2h 2h
diferencial con el segundo grado respecto a h, el criterio de la estabilidad espectral de Neumann
se cumple para r = t / h £ 1 . [Sugerencia: buscando la solución de la forma f j = l exp(iaj ) ,
n n

2
demuestre que l = 1 + ir sin a - 2r 2 sin 2 a2 y, por tanto, 1 - l = 4r (1 - r ) sin a2 ].
2 2 4

4. Encuentre los valores de s > 0 que garantizan la estabilidad absoluta (para cualquier t / h 2 ) del
f nj+1 - f nj f nj++11 - 2f nj+1 + f nj-+11 f nj+1 - 2f nj + f nj-1
esquema =s + (1 - s ) para la ecuación de
t h2 h2
difusión. En el momento inicial los valores f j están dados.
0

5. Consideremos el esquema uin+1 = (1 - r )uin + ruin-1 (vea el ejemplo 15.1) para el problema de
t
transporte ¶j + v ¶j = 0 en el dominio - ¥ < x < ¥ . Aquí r = v es el número de Courant.
¶t ¶x h
Demuestre que una condición necesaria para la estabilidad es l £ 1 + Kt , donde
l =1 - r + r e -ikh , mientras que la condición suficiente es l £ 1 (vea (13.23) y (13.24))
[Sugerencia: Busque la solución en la forma j ( x, t ) = Re F(t )e
ikx
{
para obtener la ecuación }
n +1
F n +1
= (1 - r )F + r F e
n n - ikh
, o bien, la ecuación F =l F n
El esquema se llama estable si
l < 1 , neutral si l = 1 , e inestable si l > 1 ].

123
§ 15. Análisis de la estabilidad de los esquemas en las normas

Para usar el método de von Neumann en el estudio de la estabilidad espectral de un esquema

explícito hay que conocer el autovalor máximo b = max ln de la matriz del esquema, y por lo tanto,
n

este método, a pesar de su importancia, es difícil de aplicar para problemas complejos. Además, el

método espectral no dice nada sobre la estabilidad de la solución numérica en una norma vectorial

que, a menudo, es la característica única del proceso numérico. En este apartado, definimos la

estabilidad de los esquemas numéricos usando normas de la solución (Marchuk, 1982).

Consideremos el problema

¶f
r
+ Af = f , f (0) = g
r r r r
(15.1)
¶t

en un intervalo finito de tiempo 0 £ t £ T . El problema (15.1) ya es discreto en el espacio, y su

[ ]
solución f (t ) está dada en el momento inicial t=0. En cada subintervalo pequeño t j , t j +1 del
r

tamaño τ, el problema discreto (15.1) se puede escribir en la forma canónica

f j +1 = Bf j + tSf j , f 0 = g
r r r r r
(15.2)

En particular,

B = E - tA, S = E (15.3)

para el esquema explícito

f j +1 - f j
r r
+ Af j = f j , f 0 = g ;
r r r r
(15.4)
t

B = (E + tA) , S = (E + tA)
-1 -1
(15.5)

para el esquema implícito

124
f j +1 - f j
r r
+ Af j +1 = f j , f 0 = g ;
r r r r
(15.6)
t

-1 -1
æ t ö æ t ö æ t ö
B = ç E + A÷ ç E - A÷ , S = ç E + A÷ (15.7)
è 2 ø è 2 ø è 2 ø

para el esquema de Crank-Nicolson

f j +1 - f j ì f j +1 + f j ü r j
r r r r
ý= f , f = g
r0 r
+ Aí (15.8)
t î 2 þ

Definición. El esquema (15.2) se llama estable en una norma × si

f j £C g +K f ,
r r r
(15.9)

para cada j ( 0 < tj < T ), donde


r r
f = max f j (15.10)
j

y las constantes positivas C y K no dependen de j y t .

La solución formal de la ecuación (15.2) se puede presentar de la siguiente forma

j
f = B g +tå B S f
j -i
rj r r i -1
j
(15.11)
i =1

Estimando (15.11) con una norma, obtenemos

j
g +t å B
j j -i
f S f i -1
rj r
£ B
r
(15.12)
i =1

Usando (15.10), escribimos (15.12) como

125
j

åB
j j -i
f g +t S f
rj r
£ B
r
(15.13)
i =1

Ya que la suma S n de los primeros n+1 términos de la progresión geométrica {a i }i =0 con la razón r
n

a0 + ra n
es S n = , llegamos a
1- r

j
j 1- B
f g +t
rj r
£ B
r
S f (15.14)
1- B

Evidentemente, las condiciones

B <1 , S £1 (15.15)

son suficientes para la estabilidad del esquema (15.2) según la definición (15.9). En efecto, en este

caso tenemos

f
rj r
£ g +T f
r
(15.16)

y, por lo tanto, (15.9) cumple con C=1 y K=T.

Esquema explícito (15.4). Debido a (15.3), las condiciones (15.15) de la estabilidad del

esquema (15.4) se convierten en

E - tA < 1, E £1 (15.17)

En particular, al escoger la norma euclidiana (2.15) para estimar la solución numérica en (15.14),

obtenemos que en (15.17) se usa la norma espectral (la 2-norma matricial) definida por (3.4).

Entonces la segunda desigualdad se satisface automáticamente, y el esquema (15.3) es estable bajo

la condición

126
E - tA 2 º max 1 - t ln ( A) < 1 (15.18)
n

donde ln (A) es autovalor de la matriz A. Notamos que cuando A es positiva, la condición (15.18)

coincide con la condición (14.23) de la estabilidad espectral de von Neumann que limita el tamaño

de la malla de tiempo:

t < 2 / max ln ( A) . (15.19)


n

Esquema implícito (15.6). Debido a (15.5), las condiciones (15.15) de la estabilidad del

esquema (15.6) aceptan la forma

B = S = (E + tA)
-1
<1 (15.20)

En particular, al escoger la norma euclidiana (2.15) para estimar la solución numérica, obtenemos

que en (15.20) se usa la norma espectral, y por lo tanto, debido al lema 3.1, ambas condiciones

(15.20) se cumplen para cualquier t . Entonces, el esquema implícito es absolutamente estable no

sólo según la definición (14.21) de von Neumann sino también en la norma espectral según la

definición (15.9).

Esquema de Crank-Nicolson (15.8). En este caso, debido a (15.7), las condiciones (15.15)

de la estabilidad del esquema (15.8) se reducen a

-1 -1
æ t ö æ t ö æ t ö
ç E + A÷ ç E - A÷ < 1, ç E + A÷ £ 1 (15.21)
è 2 ø è 2 ø è 2 ø

En particular, al escoger de nuevo la norma euclidiana (2.15) para estimar la solución numérica,

obtenemos que en (15.21) se usa la norma espectral, y ambas condiciones (15.21) se cumplen para

127
cualquier t , debido al lema 3.1 y lema 3.2. Entonces el esquema de Crank-Nicolson también es

absolutamente estable no sólo según la definición (14.21) de von Neumann sino también en la norma

espectral según la definición (15.9).

Ejemplo 15.1 (Mezinger y Arakawa, 1976). Consideremos el esquema

uin+1 = (1 - r )uin + ruin-1 (15.22)

¶j ¶j
para la ecuación de transporte +v = 0 (véase (16.4)), donde v es la velocidad constante y
¶t ¶x

t t
r =v . Si r = v £ 1 , entonces
h h

u in +1 £ (1 - r ) u in + r u in-1 (15.23)

y, por lo tanto, el esquema es estable en la norma u n = max uin :


i

u n +1 £ u n (15.24)

Es el método directo y simple para verificar la estabilidad. Sin embargo, tiene aplicación limitada.

Ahora consideramos un método más general que se puede aplicar también para esquemas no

lineales. Si elevamos al cuadrado la expresión (15.22) y sumamos sobre todos los puntos de malla,

entonces obtenemos

å (u ) = å [(1 - r ) ]
I I
n +1 2
i
2
(uin ) 2 + 2r (1 - r )uin uin-1 + r 2 (uin-1 ) 2 (15.25)
i =1 i =1

Suponiendo condiciones periódicas (cíclicas), tenemos:

å (u ) = å (u )
I I
n 2 n 2
i -1 i (15.26)
i =1 i =1

128
t
Usando la condición r = v £ 1 , la fórmula (15.26) y la desigualdad de Schwarz:
h
1/ 2
ì I n ü
( ) å (u ) ( )
I I I

å íå ui = å u in
2 n 2 2
u un
£
i -1
n
i i -1 ý , (15.27)
i =1 î i =1 i =1 þ i =1

llegamos a la estimación

å (u ) £ [(1 - r ) ]å (u )
I I
n +1 2 n 2
i
2
+ 2r (1 - r ) + r 2 i , (15.28)
i =1 i =1

o bien,

u n +1 £ u n (15.29)

donde la norma se define como

1/ 2
æ I 2ö
u n = ç å u in ÷ ( ) . (15.30)
è i =1 ø

t
Así, con las condiciones cíclicas en la frontera del dominio, la condición de Courant r = v £1
h

garantiza la estabilidad del esquema (15.22).

Ejercicios:

1. Consideremos la forma canónica de los esquemas homogéneos de dos pasos (Samarskii, 1971):
y n+1 - y n-1 y n+1 - 2 y n + y n-1
r r r r r
+t R
2
+ =0
rn r
B Ay
2t t2
donde A, B y R son matrices. Demuestre que si B ³ 0 , R = R* > 0 A = A* > 0 , y R ³ 14 A ,
r n+1
£ Y n , donde la norma Y n +1 se define como
r r
entonces el esquema es estable: Y
y n+1 - y n y n+1 - y n
A( y + y ), y + y + t (R - 4 A)
r 2 r r r r
Y n+1 = 1 r n+1 r n r n+1 r n 2 1
, .
4
t t

129
y n+1 - y n
{ }
r r
+ A s y n+1 + (1 - s ) y n = 0 un esquema, donde s > 0 es el peso, y A = A* > 0 .
r
2. Sea
r r
t
r n+1
Demuestre que si s ³ 1 - 1 , entonces el esquema es estable en la norma × : y £ yn .
r
2
2 t A

3. Demuestre que el esquema del ejercicio 2 también es estable en la norma y = Ay, y :


r r r
A

y n+1 £ yn .
r r
A A

4. Transforme a la forma canónica (vea el ejercicio 1) el esquema

yin+1 - yin yin - yin-1


(1 + q ) -q = Lyin+1
t t
y n
- 2y + y
i +1
n n
i -1
donde Lyin = 2
i
, y analice su estabilidad. [Resultado: el esquema es estable si
h
1 td 4 ph 1 1 + 2q
q >- - , d = 2 sin 2 ]. [Sugerencia: B = E + tA , A = - L , R = A + E.
2 4 h 2 2 2t
Entonces,
1 1 1 + 2q æ1 1 + 2q ö
R- A = A+ E³ç d + E÷ > 0.
4 4 2t è4 2t ø

130
§ 16. Esquemas numéricos para la ecuación de transporte

Consideremos la ecuación de transporte

dj ¶j r ¶j ¶j ¶j ¶j
º + u × Ñj º +u +v +w =0 (16.1)
dt ¶ t ¶t ¶x ¶y ¶z

que es de gran importancia en física matemática, ya que describe el transporte de varias

substancias pasivas (contaminantes, calor, humedad, salinidad, densidad, etc.) por corrientes en los

fluidos, o por vientos en la atmósfera. Muchos aspectos numéricos relacionados con esta

ecuación, y en particular las propiedades de distintas mallas, las particularidades de varias

discretizaciones del problema y la estabilidad de los esquemas numéricos, han sido bien estudiados

y descritos (Godunov y Ryabeñkii, 1964; Mezinger y Arakawa, 1976; Skiba, 1993b; Morton y

Mayers, 1994; Thuburn, 1996; Le Veque, 1996; Durran, 1999). Si en cada punto del dominio, el

vector de la velocidad u ( x, y, z, t ) = (u, v, w) satisface la ecuación de continuidad


r

r ¶u ¶v ¶w
Ñ×u º + + = 0, (16.2)
¶x ¶y ¶z

entonces (16.1) se puede presentar en la forma conservadora

¶j r ¶j ¶ uj ¶ vj ¶ wj
+ Ñ × (j u ) º + + + =0 (16.3)
¶t ¶t ¶ x ¶y ¶z

Consideremos ahora en el dominio x Î [0,1], t Î [0,1] , la ecuación (16.1) unidimensional

¶j ¶j
+u =0 (16.4)
¶t ¶x

con la condición inicial

j (x,0) = f (x) (16.5)


131
en el momento t=0, donde f (x) es diferenciable. Además supongamos que la velocidad de

transporte es constante: u(x, t ) = Const , y las funciones f (x) y j (x, t ) son periódicas a lo largo de x:

f (1) = f (0), j (1, t ) = j (0, t ) (16.6)

Es fácil verificar que bajo estas condiciones, la forma analítica de la solución exacta del problema

(16.4), (16.5) es

j ( x, t ) = f ( x - ut ) (16.7)

Así, j (x, t ) = Const a lo largo de cada línea x - ut = Const llamada característica. Debido a

(16.7), la solución (16.7) representa la función f (x) que se mueve en la dirección del eje x si u

es positiva, y en la dirección opuesta si u es negativa. Si f (x) es una onda, entonces (16.7)

representa el proceso de la propagación de la onda (Fig.16.1).

Supongamos que u > 0 , y escribimos la ecuación (16.4) de la forma conservadora

¶j ¶ (uj )
+ =0 (16.8)
¶t ¶x

132
t
u

j (x , t ) características
A
j (x , 0)
j (x ,t )
A
0 x
j (x , 0)

Fig. 16.1. Propagación de los valores de una onda inicial a lo largo de las
características ( u(x, t ) = Const ; f (1) = f (0), j (1, t ) = j (0, t ) ).

Si u = u(x, t) es variable, entonces es difícil hallar la solución analítica. En este caso general es

necesario utilizar los métodos numéricos. Consideremos ahora las propiedades principales de

algunos esquemas bien conocidos para resolver numéricamente la ecuación (16.4). Con este fin,

introducimos las mallas regulares en el espacio y tiempo con tamaños h y t , respectivamente:

xi = ih; i = 0,1,2,..., I ; x I = 1 ; t n = nt ; n = 0,1,2,... . Denotamos como x in = x ( xi , t n ) la solución

de malla con la condición periódica x In = x 0n .

Un esquema que transporta incorrectamente. Aproximemos (16.4) por el esquema de

Euler y cambiemos la derivada en x por la diferencia central. Como resultado, para cada punto

(xi , t n ) obtenemos la ecuación

x in+1 - x in x i +1n - x i -1n


= -u (16.9)
t 2h

133
Sumando (16.9) sobre todos los puntos i y usando las condiciones periódicas, llegamos a

I I

åx = åx i
n +1 n
i , (16.10)
i =1 i =1

es decir, el valor integral de la solución numérica, igual que para la solución exacta, se conserva en

el tiempo. Sin embargo, el esquema (16.9) altera considerablemente el transporte local por eje x.

En efecto, supongamos que para n, x m = d > 0, y x i = 0 si i ¹ m . Entonces la ecuación (16.9)


n n

en el punto i = m + 1 se describe como

x mn++11 - x mn +1
= -u
(0 - d ) = ud
t 2h 2h

o bien, el valor x mn +1 = 0 en el momento t n cambia por el valor positivo

tu
x mn++11 = d (16.11)
2h

en el siguiente momento t n +1 . Es razonable y aceptable. Sin embargo, en el punto i = m ,

x mn+1 - x mn 0-0
= -u = 0,
t 2h

es decir,

x mn +1 = x mn = d (16.12)

Así pues, la solución en dicho punto no disminuye su valor en el tiempo como debe ser de

acuerdo con el método de las líneas características (Fig.16.1). Este resultado ya es poco razonable

y es peor en el punto i = m-1. En efecto,

x mn+-11 - x mn -1 ud
=-
t 2h

y, por consiguiente, en lugar de cero se obtiene el valor negativo

134
tu
x mn+-11 = - d (16.13)
2h

tu tu
el cual no puede ser aceptable. Notemos que los valores x mn+-11 = - d y x mn++11 = d disminuyen
2h 2h

tu
junto con el número de Courant . Entonces, a deferencia de la solución exacta cuyos valores
h

se propagan a lo largo de las líneas características a la derecha, los valores de la solución numérica

del esquema (16.9) se propagan en ambas direcciones demostrando varias alteraciones incluyendo

las oscilaciones falsas con valores negativos. Así, (16.9) es un ejemplo típico de un esquema no

monótono que transporta incorrectamente.

Dispersión numérica (Mezinger y Arakawa, 1976; Marchuk, 1982; Durran, 1999). La

{
ecuación (16.4) tiene la solución j ( x, t ) = Re F(t )e
ikx
} de la forma de onda si F(t ) satisface

dF
la ecuación de oscilación + ikuF = 0 con la frecuencia ku y velocidad de fase u. Ya
dt

que u = Const, todas las soluciones de onda (independientemente de su número k) se propagan

con la misma velocidad, es decir, la solución j (x, t ) se traslada sin cambio de forma (véase

(16.7)). Analizamos ahora la propagación de las soluciones de onda x j (t ) = Re F(t ) e


ikjh
{ } de la

dx j x j +1 - x j -1
ecuación (16.4) pero ya discreta en x: +u = 0 . En este caso, F(t ) satisface la
dt 2h

dF æ sin kh ö
ecuación de oscilación + ik ç u ÷F = 0 . Entonces, a diferencia del problema continuo
dt è kh ø

cuando todas las ondas tienen la velocidad de fase u, cada onda del problema discreto se propaga

sin kh
con su propia velocidad de fase u * (k ) = u que depende del número de onda k. Notamos
kh

que u * (k ) < u para cada k, es decir, las ondas numéricas se trasladan más lento, y dicha
135
velocidad disminuya su valor cuando k aumenta (es decir, para las ondas más cortas). Por

[ ]
ejemplo, si la resolución es buena ( kh << 1) entonces u * (k ) » u 1 - 16 (kh) 2 , es decir, el error en

la velocidad de fase tiene el segundo grado respecto a kh. Además, la onda con la longitud de dos

dx j
tamaños de la malla es inmóvil. En efecto, ya que x j +1 = x j -1 , entonces = 0 . Es necesario
dt

¶ (k u * (k ))
decir que este es un error considerable. La velocidad de grupo es = u cos kh , es decir,
¶k

la situación aquí aún peor. Este fenómeno explica la dispersión numérica de las ondas de distintas

escalas en el esquema (16.9) (Morton y Mayers, 1994; Durran, 1999).

El esquema de Godunov. Usamos de nuevo el esquema de Euler para aproximar la

ecuación (16.4) en tiempo, pero la diferenciación numérica hacia atrás para discretizar la derivada

en x. Como resultado, para cada punto ( xi , t n ) obtenemos el esquema de Godunov:

x in+1 - x in x n - x in-1
= -u i (16.14)
t h

(Godunov y Ryabeñkii, 1964). Analizando el esquema (16.14) igual que en el esquema anterior,

obtenemos

tu
x mn +1 = 0, x mn ++11 = d
h
æ tu ö
x mn = d , x mn +1 = ç1 - ÷d (16.15)
è hø
x mn -1 = 0, x mn +-11 =0

La primera ecuación es bastante razonable; la segunda indica que la perturbación se transportó de

la región inicial. Así, el esquema de Godunov transporta señal correctamente, ya que los valores

de la solución numérica se propagan en la dirección correcta. Sin embargo, la magnitud de la

136
solución disminuye; además, la tasa del proceso de disipación depende del número de

tu
Courant .
h

Estudiamos ahora la aproximación y estabilidad del esquema de Godunov para la ecuación

de transporte (16.4) con u = Const > 0:

j in+1 - j in j in - j in-1
+u = 0, (16.16)
t h

Aproximación y viscosidad numérica. El esquema (16.16) tiene el primer grado de

aproximación en t y h. En efecto, usando la serie de Taylor en la vecindad del punto (xi, tn),

obtenemos

¶j ¶j uh ¶ 2j t ¶ 2j
+u = - + O(t 2 + h 2 ) (16.17)
¶t ¶ x 2 ¶ x2 2 ¶ t 2

Debido a (16.4),

¶ 2j 2 ¶ j
2
=u (16.18)
¶ t2 ¶ x2

y, por tanto, el esquema (16.16), en lugar de la ecuación (16.4), aproxima la ecuación de

transporte y difusión

¶j ¶j ¶ 2j
+u =m (16.19)
¶t ¶x ¶ x2

en donde

u uh tu
m = (h - ut ) = (1 - ) (16.20)
2 2 h

tu
es la viscosidad artificial o numérica. Si el número de Courant es menor que uno, entonces
h

m > 0 , y el problema con la ecuación (16.19) está bien formulado según Hadamard, es decir, su

137
solución es única y depende continuamente de errores iniciales. Precisamente esta viscosidad es

tu
responsable de la disminución de la magnitud de la solución numérica de (16.15). Si =1,
h

entonces m = 0 y cada uno de los demás términos de la ecuación (16.17) denotados como

(
O t 2 + h2 ) también es nulo, es decir, el esquema explícito (16.16) tiene grado infinito de

aproximación en h y t , y su solución coincide con la solución exacta (lo cual es posible sólo

tu
cuando u = Const). En la teoría de los métodos numéricos, la condición £1 se llama
h

tu
condición de Courant, o de Courant-Fredrichs-Lewy (Durran, 1999). Y por fin, si > 1,
h

entonces el esquema (16.16), en lugar de la ecuación (16.4), aproxima a la ecuación

¶j ¶j ¶ 2j
+u = -m (16.21)
¶t ¶x ¶ x2

con viscosidad negativa. Es fácil demostrar que el problema con la ecuación (16.21) está mal

formulado en el sentido de Hadamard. Efectivamente, su solución es inestable respecto a errores

iniciales. Así pues, al escoger los tamaños t y h, es necesario satisfacer la condición de Courant

tu
£ 1 para resolver bien la ecuación de transporte (16.4).
h

Estabilidad. Investigamos la estabilidad espectral del esquema (16.16). El problema

espectral

w kp - w kp-1
u = l pw kp (16.22)
h

para el operador de dicho esquema tiene las autofunciones

w kp = eikph (16.23)

y los autovalores
138
uæ ph ö
l p = ç 2 sin 2 + i × sin ( ph)÷ (16.24)
hè 2 ø

Buscaremos la solución de la ecuación (16.4) de la siguiente forma

¥
j kj = åj
p =-¥
j ikph
pe (16.25)

donde k y j son índices de malla en espacio y tiempo, respectivamente, y el coeficiente de Fourier

j pj de la solución j j satisface la ecuación

j pj +1 - j pj
+ l pj pj = 0 (16.26)
t

y, por consiguiente,

(
j pj +1 = Tpj pj = 1 - tlp j pj ) (16.27)

Para la estabilidad es necesario que

1 - tlp £ 1 (16.28)

tu
Supongamos que la condición de Courant se cumple: £ 1 , entonces
h

2 2
2 æ tu ph ö æ tu ö
1 - tl p = ç1 - 2 sin 2 ÷ + ç ÷ sin ph =
2

è h 2 ø è øh
2
tu æ 2 ph ö æ tu ö æ 4 ph ö
= 1- 4 ç sin ÷+ç ÷ ç 4 sin + sin 2 ph ÷ =
hè 2 ø èhø è 2 ø
2
tu ph æ tu ö ph æ 2 ph ph ö
= 1 - 4 sin + 4ç ÷ sin 2
2
ç sin + cos2 ÷=
h 2 èhø 2 è 2 2 ø
æ tu öæ tu ö ph
= 1 - 4ç ÷ç1 - ÷ sin 2 ³0
è h øè hø 2

1 tu
ya que max{x(1 - x)} = . Así pues, el esquema de Godunov es estable si £ 1 . Notemos que la
0< x <1 4 h
misma condición garantiza la estabilidad en la norma (véase ejemplo 15.1).
Esquema implícito. Consideremos ahora el esquema implícito

139
j in+1 - j in j n+1 - j in-+11
+u i =0. (16.29)
t h

Es fácil demostrar que también tiene el primer grado de aproximación en t y h. Además, en cada

punto ( xi , t n+1 ) de la malla, (16.29) aproxima la ecuación

¶j ¶j ¶ 2j
+u =m (16.30)
¶t ¶x ¶ x2

donde

uh + u 2t
m= >0 (16.31)
2

Notamos que m es positivo para cualquier t y h. Por esto, el problema (16.30) siempre está bien

formulado según Hadamard. Debido a esta propiedad, el esquema (16.29) es absolutamente

estable. De nuevo vemos que el esquema explícito de Godunov es condicionalmente estable (sólo

a condición de Courant), mientras que el esquema implícito (16.29) es siempre estable. Sin

embargo, la realización del último esquema es más difícil que la del esquema de Godunov.

La presentación falsa de ondas y la inestabilidad no lineal (Mezinger y Arakawa,

1976). Consideremos ahora la ecuación no lineal

ut + u u x = 0 (16.32)

Es un caso muy simple (unidimensional) de las ecuaciones de Euler para un fluido ideal.

Demostremos que la presencia del término no lineal puede generar la inestabilidad. Esposible

K
plantear la solución del problema en la forma de una serie de Fourier: u = å ak (t ) sin kx , donde la
k =1

senoide con el número de onda máximo K = p / h es la más corta que se puede presentar en la

malla. Entonces el término u u x contendrá los productos de dos armónicos con distintos números

de onda: sin m x × sin n x . Sin embargo,


140
1
sin m x × sin n x = [cos(n - m) x - cos(n + m) x] (16.33)
2

Así, aunque los cálculos se empiezan con la función que contiene sólo ondas sin kx con k £ K , en

el proceso de interacción no lineal aparecen muy rápido los armónicos con número de onda k > K

y, como ya sabemos, tendrá lugar la presentación falsa de ondas en la malla (véase § 9) cuando

una senoide con el número de onda k > K sea presentada falsamente por la sinusoide con el

número de onda k* = 2K - k . Y cuando k es un poco mayor que K, k * es un poco menor que

K. En los métodos espectrales, cuando las series de Fourier están truncadas por el número K, el

fenómeno descrito causa la cascada de la energía y su acumulación falsa en los armónicos con los

números de onda cercanos a K y la inestabilidad (se llama inestabilidad no lineal).

Ejercicios:

f nj+1 - f nj 3f nj - 4f nj-1 + f nj-2


1. Sea +u = 0 un esquema que se usa para aproximar la
t 2h
ecuación de transporte (16.4). Determine el error de aproximación del esquema y encuentre
para t la región de la estabilidad del esquema.
2. Demuestre que el esquema de Lax-Wendroff

f nj+1 - f nj f nj+1 - f nj-1 u 2t f nj+1 - 2f nj + f nj-1


+u =
t 2h 2 h2
aproxima la ecuación (16.4) con el segundo grado respecto a t y h.
3. Demuestre que el esquema de Lax-Wendroff (vean el ejercicio anterior) es estable para
2
ætu ö
ç ÷ £1 .
è h ø

4. Investigue el grado de aproximación y analice la estabilidad del esquema de Lax-Fredrichs

f nj+1 - 12 (f nj+1 + f nj-1 ) f nj+1 - f nj-1


+u =0
t 2h
para la ecuación (16.4).

141
5. Determine los coeficientes c0 , c1 , c-1 del esquema f nj+1 = c1f nj+1 - c0f nj + c-1f nj-1 para la
¶j ¶j
ecuación +u = 0 de manera que obtenga el más alto grado de aproximación de la
¶t ¶x
solución j (t n+1 , x j ) cuando u>0. Verifique que el resultado es el esquema de Lax-Wendroff.

¶j ¶j ¶ 2j
6. (Skiba, 1993b; Skiba et al. 1996). Consideremos la ecuación +u =m con la
¶t ¶x ¶ x2
condición inicial j (0, x) = g ( x) en el intervalo [a,b], donde u > 0 y m > 0 son dos
constantes. Demuestre que el problema está bien formulado con las siguientes condiciones de
¶ ¶
contorno: m j + uj = f cuando x = a , y m j = 0 cuando x = b . [Sugerencia:
¶n ¶n
Verifique que la solución del problema es única y depende continuamente de la función inicial
g. Además, en el límite m ® 0 , la primera condición de contorno se reduce a la condición de
Dirichlet j (a) = f / u en “la entrada” del flujo, mientras que la segunda condición en el punto
x = b (en “la salida” del flujo) desaparece en la concordancia completa con las condiciones de
¶j ¶j
contorno para la ecuación de transporte +u = 0 sin difusión ].
¶t ¶x
a
¶ 2j æ ¶j ö ¶ 2j
7. Transforme = ç1 + d ÷ = 0 en dos ecuaciones de primer orden. Encuentre las
¶ t 2 çè ¶ x ÷ø ¶ x 2
características.

142
§ 17. Convergencia

Consideremos en un dominio D con la frontera S el problema diferencial abstracto

Aj = f en D , (17.1)

aj = g en S , (17.2)

donde j (x ) es la solución definida en D U S , mientras que A y a son operadores lineales

diferenciales, y f (x) y g (x ) son funciones conocidas en D y su frontera S, respectivamente. La

ecuación (17.2) representa la condición de frontera. En particular, el problema puede ser multi-

dimensional y no estacionario (Godunov y Ryabeñkii, 1964; Marchuk, 1982). Por ejemplo, en el

caso de un problema no estacionario tridimensional en el espacio, la variable x es un vector

x=(x,y,z,t). Un ejemplo simple del problema (17.1), (17.2) es el problema de contorno para el

operador unidimensional de Laplace:

¶2
- j ( x) = f ( x) si x Î (0,1) , (17.3)
¶x 2


j ( x) = 0 si x=0 y x=1. (17.4)
¶x

Sea

Ahj h = f h en Dh , (17.5)

a hj h = g h en S h (17.6)

un problema de diferencias obtenido al discretizar (17.1), (17.2) usando las mallas Dh y S h .

Entonces A h y a h son las matrices que representan los operadores A y a en los espacios

vectoriales para las funciones de malla (vectores) f h y g h . Es preciso notar que los vectores

143
j h , f h y g h pertenecen a tres distintos espacios vectoriales F , F, y G, ya que sus componentes

se calculan en las mallas Dh U S h , Dh y S h , respectivamente.

Lo que nos interesa es la relación entre las tres características más importantes de cada

proceso numérico:

1) la aproximación del problema diferencial (17.1), (17.2) por el problema discreto (17.5), (17.6);

2) la estabilidad de la solución numérica j h respecto a errores en f h y g h ;

3) la convergencia de la solución numérica j h hacia la solución exacta j (x ) cuando el tamaño h

de la malla tiende al infinito.

En efecto, antes de aplicar un método numérico en la práctica, hay que elegir una malla con un

tamaño h. Claro que el error de aproximación depende de h y disminuye si se usa una malla más

fina. Además, siempre hay ciertos errores introducidos tanto en el forzamiento como en las

condiciones iniciales y de frontera por desconocimiento de datos, o por errores de redondeo. La

estabilidad del algoritmo numérico permite hallar la solución j h con una buena exactitud, ya que

impide el incremento incontrolable de dichos errores en el proceso de cálculo. Por fin, en la

práctica hallamos la solución numérica j h sólo para un h pequeño, pero fijo. Y para asegurarse de

que la solución numérica j h hallada es cercana a la solución exacta j (x ) reviste gran importancia

saber que j h converge hacia la solución exacta j (x ) cuando el tamaño de malla h tiende al cero.

En este apartado demostramos que para los problemas lineales (17.1), (17.2) las dos

características: aproximación y estabilidad, garantizan la convergencia de la solución numérica j h

hacia la solución exacta j (x ) . Este resultado es conocido como el teorema de Lax (Marchuk,

1982; Morton y Mayers, 1994).

144
Definición 17.1. Se dice que el esquema de diferencias (17.5), (17.6) aproxima el

problema diferencial (17.1), (17.2) con n-ésimo grado respecto a h, si existen los números

constantes positivos h0 , M 1 y M 2 independientes de h tales que

A h (j ) h - f h
£ M 1h n (17.7)
F

a h (j ) h - g h £ M 2hn (17.8)
G

para cualquier h < h0 .

En la fórmula (17.7) (o en (17.8)), (j ) h es una proyección de la solución exacta j (x ) en

la malla del espacio F (espacio G ). El ejemplo más simple de la proyección (j ) h es la función de

malla que acepta los valores de la solución j (x ) en puntos de la malla.

Definición 17.2. Se dice que el esquema de diferencias (17.5), (17.6) es estable si existen

los números constantes positivos h0 , y C1 y C2 independientes de h tales que

jh F
£ C1 f h
F
+ C2 g h
G
(17.9)

para cualquier h < h0 .

Observación 17.1. La independencia de los números C1 y C2 del tamaño h en (17.9)

significa en el lenguaje físico que la sensibilidad del esquema estable respecto a variaciones en f h

y g h no aumenta al refinar la malla.

Teorema 17.1 (de Lax). Supongamos que el esquema (17.5), (17.6) es estable según la

definición 17.2 y aproxima el problema diferencial lineal (17.1), (17.2) con n-ésimo grado respecto

145
a h de acuerdo con la definición 17.1. Entonces, cuando el tamaño h de la malla tiende al cero, la

solución numérica j h converge hacia la solución exacta j (x ) con n-ésimo grado respecto a h:

(j ) h - j h £ (C1 M 1 + C 2 M 2 ) h n (17.10)
F

donde M 1 , M 2 , C1 y C2 son los números de (17.7)-(17.9).

Demostración. Sea h0 tan pequeño que se cumplen (17.7)-(17.9). En virtud de la estabilidad,

existe una sola solución j h para cada f h y g h , y para cualquier h < h0 . Al aplicar A h a la

diferencia (j ) h - j h , obtenemos

{ }
Ah (j ) h - j h = Ah (j ) h - Ahj h = Ah (j ) h - f h (17.11)

similarmente,

{ }
a h (j ) h - j h = a h (j ) h - g h (17.12)

Introduciendo las notaciones

dj h = (j ) h - j h , d f h = Ah (j ) h - f h , y d g h = a h (j ) h - g h

llegamos a otro problema

A h dj h = d f h en Dh , (17.13)

a h dj h = dg h en S h (17.14)

cuya estructura coincide con la del esquema (17.5), (17.6), y por lo tanto posee las mismas

propiedades de aproximación y estabilidad. Aplicando la estimación (17.9) al esquema (17.13),

(17.14), obtenemos

dj h F
£ C1 df h
F
+ C 2 dg h
G
£ C1 A h (j ) h - f h
F
+ C 2 a h (j ) h - g h
G
. (17.15)

146
Ahora, en virtud de (17.7) y (17.8), obtenemos

(j ) h - j h £ C1 M 1 h n + C 2 M 2 h n £ (C1 M 1 + C 2 M 2 ) h n (17.16)
F

El teorema quedo demostrado. □

Observación 17.2. Los grados de aproximación en (17.7) y (17.8) pueden ser distintos,

por ejemplo, n y m. En este caso, el grado de convergencia en (17.10) es igual a min{n, m}.

Observación 17.3. Según el teorema 17.1, sólo los esquemas estables tienen sentido, ya

que cualquier esquema inestable no está relacionado de ningún modo con aquel problema

diferencial original para el que se ha construido dicho esquema. Generalmente, en la práctica es

posible construir distintas variantes de esquemas que aproximen el problema original continuo.

Normalmente, se prefiere el esquema más estable y económico.

Observación 17.4. El problema (17.1), (17.2) es diferencial. Pero el Teorema de Lax es

válido para cualquier problema lineal continuo: diferencial, integral, o integro-diferencial. Se puede

demostrar que para un problema no lineal, las condiciones (17.7)-(17.9) son necesarias, sin

embargo, no son suficientes en general.

Ejemplo 17.1. Hallamos la solución j ( x, t ) del problema de Cauchy

¶j ¶j
Aj º +u = 0. (17.17)
¶t ¶x

aj º j ( x,0) = g ( x) (17.18)

en la banda - ¥ < x < ¥ , 0 £ t £ T , donde u = Const, y g(x) es dos veces continuamente

diferenciable en todo el eje x, además,

147
¶2
sup g ( x) = G < ¥ (17.19)
-¥< x <¥ ¶x2

La solución exacta del problema (17.17), (17.18) es

j (x, t ) = g (x - ut ) (17.20)

y, por lo tanto, j (x, t ) = Const a lo largo de cada característica x - ut = Const . Además, debido

a (17.19), la solución es acotada.

Introducimos las mallas regulares en el espacio y tiempo con tamaños h y τ,

respectivamente: xi = ih ; t n = nt ; n = 0,1,2,..., N +1; T = ( N + 1)t . Denotemos como

x in = x ( xi , t n ) el valor de la solución numérica en el punto ( xi , t n ) de la malla, y usemos el

esquema de Godunov (Godunov y Ryabeñkii, 1964):

x in+1 - x in x n - x in-1
(A x )
h ,t n
i º
t
+u i
h
=0 (17.21)

(a hx ) i º x i0 = g i (17.22)

Entonces, la condición inicial (17.18) se aproxima exactamente. Sin embargo, expandiendo x in+1 y

x in-1 en las series de Taylor en vecindad del punto ( xi , t n ) , obtenemos que el esquema tiene el

primer grado de aproximación respecto a h y t :

A h ,t (j ) h ,t - A h ,t x h ,t º A h ,t (j ) h ,t £ M 1 (h + t ) (17.23)

donde f = max sup f i n , y la función de malla (j ) h,t tiene valor j in en el punto ( xi , t n ) .


n i

Examinemos ahora la estabilidad del esquema de Godunov. Suponiendo que un error e in

en la parte derecha de (17.21) causa cierto error d in en la solución numérica x in , llegamos a la

ecuación para los errores:

148
æ tu ö n tu n
d in+1 = ç1 - ÷d i + d i -1 + te i ,
n
d i0 = 0 . (17.24)
è hø h

tu tu
d in+1 £ 1 - d in + d in-1 + t e in . (17.25)
h h

tu tu tu
Si £ 1 (la condición de Courant), entonces 1 - + =1 y
h h h

sup d in+1 £ sup d in + t e . (17.26)


i i

tu
Se deduce de (17.26) que el esquema de Godunov es estable si £ 1:
h

d £t ( N + 1) e £ T e (17.27)

Entonces, según el teorema de Lax,

(j ) h ,t - x £ T M 1 (h + t ) . (17.28)

es decir, la solución numérica converge hacia la solución exacta del problema de Cauchy con el

primer grado respecto a h y t .

Observación 17.5. Es conveniente dar la interpretación geométrica de la relación entre la

condición de Courant y la convergencia del esquema explícito de Godunov del ejemplo anterior.

Supongamos que u = 1 y T=1, entonces la solución exacta j (x, t ) = g (x - t ) es invariable a lo

largo de la característica x- t = Const y, en particular, j (0,1) = j (-1,0) = g (-1) . En este caso, la

t
condición de Courant es r = £ 1 , y el esquema (17.21), (17.22) se convierte en
h

x in+1 = (1 - r )x in + rx in-1 , x i0 = g i . (17.29)

Ya que ( N + 1)t = 1 , entonces x 0N +1 aproxima el valor j (0,1) (el punto C, Fig.17.1).

149
t

C=(0,1)

r<1 r>1

A B=(-1,0) D 0 x

Fig. 17.1. Dominios de influencia para x 0N +1 dependiente del número de Courant.

La situación más favorable es cuando r = 1 , ya que el esquema (17.29) aproxima el problema

diferencial exactamente y, según el método de las características, x 0N +1 depende sólo de g (-1) :

x 0N +1 = g (-1) (el punto B en Fig.17.1). Si r < 1 , entonces, de acuerdo con (17.29), el dominio de

1
influencia para el valor x 0N +1 es todo el segmento A0 = (- ,0) del eje x que incluye el punto
r

x = -1 (Fig.17.1). Al contrario, cuando r > 1 , el dominio de la influencia para el valor x 0N +1 es el

1
segmento D0 = (- ,0) que no incluye el punto x = -1 . Supongamos ahora que la función inicial
r

g(x) cambia un poco y suavemente en una vecindad pequeña del punto x = -1 situada fuera del

segmento D0, entonces, la solución exacta j (0,1) = g (-1) también se modifica. Por su parte,

la solución numérica x 0N +1 refleja dicho cambio en g(x) si r < 1 (ya que el punto x = -1 pertenece

al dominio de influencia A0), y no lo siente si r > 1 (ya que el punto x = -1 no pertenece al

dominio de influencia B0). La misma situación se representa cuando h y t tienden al infinito

150
conservando el número de Courant. Por eso, en el caso r > 1 no hay ni estabilidad, ni

convergencia.

Ejercicios:

1. Sea f j una función de malla. La variación total de la función f j se define como


TV (f ) = å f j +1 - f j . Un método (o esquema) se llama método (esquema) TVD (total
j

variation diminishing) si TV (f n+1 ) £ TV (f n ) . Se dice que un método conserva la monotonía


de la solución si la condición f 0j ³ f 0j +1 para todos j implica que f nj ³ f nj+1 para todos n y j
(Durran, 1999).
¿Por que un esquema que conserva la monotonía tiene que ser el esquema TVD?

2. ¿Por qué un esquema TVD no es necesariamente el esquema que conserva la monotonía?

æ 2ö
3. Consideremos la ecuación de Burgers en forma de flujo: ¶y + ¶ çç y ÷÷ = 0 . Demuestre que
¶t ¶x è 2 ø
ningún nuevo máximo o mínimo puede desarrollarse en una solución suave de esta ecuación.

151
Capítulo IV. Construcción de los esquemas numéricos

Por su simplicidad, el método de diferencias finitas es muy empleado en la construcción de

los esquemas numéricos para varios problemas de física matemática (Richtmyer, 1957; Marchuk,

1958, 1967, 1982; Forsythe y Wasow, 1960; Babuška y otros, 1966; Collatz, 1966; Richtmyer y

Morton, 1967; Samarski, 1968, 1971; Marchuk y Lebedev, 1971; Dahlquist y Björck, 1974; Lions y

Marchuk, 1974; Marchuk y otros, 1975; Mezinger y Arakawa, 1976, 1979; Marchuk y Skiba, 1976,

1992; Forsythe y otros, 1977; Mitchell y Griffiths, 1980; Ortega y Poole, 1981; Ames, 1992). En

este capítulo consideramos otros métodos de construcción de esquemas numéricos. Se llaman

métodos de proyección, ya que la solución aproximada se busca de un subespacio de dimensión

finita. Aquí consideramos el método de colocación, el método de Rayleigh-Ritz, el método de

Galërkin y el método espectral. Estudiamos las propiedades, las ventajas y desventajas de dichos

métodos. Se consideran funciones básicas globales y locales (splines o elementos finitos). Para

profundizar en el tema se recomiendan los trabajos de Godunov y Ryabeñkii (1964), Richtmyer y

Morton (1967), Prenter (1975), Mesinger y Arakawa (1976), Machenauer (1977), Becker y otros

(1981), Marchuk (1982), Marchuk y otros (1983), Golub y Ortega (1992), Durran (1999).

§ 18. Esquemas para una ecuación diferencial ordinaria

En este apartado consideremos varios esquemas con diferencias finitas para resolver la

ecuación diferencial ordinaria

d
y ( x) = f ( x, y ), x³a
dx (18.1)
y (a) = g

152
Claro que x puede representar el tiempo en (18.1). Introducimos en el dominio x ³ a la malla

uniforme con tamaño h: xk = a + kh , k=0,1,2,… . Denotamos el valor de la solución numérica en

punto x k por y k .

Método de Euler (Iserles, 1998). El método de Euler es el más simple para discretizar el

problema continuo (18.1):

yk +1 = yk + h f ( xk , yk ) , y0 = g , k = 0,1,2, L (18.2)

De acuerdo con la fórmula de Taylor, tenemos

¶y h2 ¶ 2 y h2 ¶ 2 y
y ( xk +1 ) = y ( xk ) + h ( xk ) + (x k ) = y ( x k ) + h f ( x k , y ( x k )) + (x k )
¶x 2 ¶x2 2 ¶x2

donde x k es cierto punto (desconocido) en el intervalo ( xk , xk +1 ) . Si la segunda derivada de y(x) es

acotada y h es pequeño, entonces al ignorar el último término en la fórmula anterior, llegamos a la

fórmula aproximada

y( xk +1 ) = y( xk ) + h f ( xk , y( xk )) (18.3)

que es la base del esquema de Euler (18.2). Claro que dicho esquema tiene el primer grado de

aproximación respecto a h.

Método de Heun. El método de Heun para el problema (18.1) consiste de dos etapas:

h
~
yk +1 = yk + h f ( xk , yk ) , yk +1 = yk + { f ( xk , yk ) + f ( xk +1 ,~yk +1 )} ,
2

y0 = g , k = 0,1,2,L (18.4)

153
Además, la primera etapa coincide con el esquema de Euler. El esquema de Heun también se llama

método de Runge-Kutta del segundo grado de aproximación respecto a h (Golub y Ortega, 1992).

Demostraremos este como la consecuencia de un análisis más general.

Esquema general del segundo grado de aproximación. Se puede escribir los métodos

(18.2) y (18.4) de la forma común

y k +1 = y k + h F( x k , y k ) . (18.5)

En efecto, F( x, y) º f ( x, y) corresponde al método de Euler, mientras que

1
F( x, y) º { f ( x, y) + f ( x + h, y + h f ( x, y))} (18.6)
2

transforma (18.5) en el método de Heun. Consideremos ahora el esquema (18.5) con

F( x, y) = c 2 f ( x, y) + c3 f ( x + c1 h, y + c1 h f ( x, y)) (18.7)

y escojamos los coeficientes c1 , c2 y c3 con fin de maximizar el grado de aproximación del

método. Para simplificar fórmulas, introducimos las siguientes notaciones: f º f ( x, y) ,

¶f ¶f ¶f ¶f
º ( x, y ) , º ( x, y ) y z = y + c1h f ( x, y) . Entonces, usando la expansión
¶x ¶x ¶y ¶y

¶f ¶f ¶f
f ( x + c1h, z ) = f ( x, z ) +c1h ( x, y + c1h f ) + O(h 2 ) = f + c1hf +c1h + O(h 2 )
¶x ¶y ¶x

en la serie de Taylor, escribimos (18.7) como

ì ¶f ¶f ü
F ( x, y ) = c 2 f + c 3 í f + c1 hf + c1 h + O(h 2 )ý
î ¶y ¶x þ

æ ¶f ¶f ö
= (c 2 + c3 ) f + c1c3 hçç f + ÷÷ + O(h 2 ) (18.8)
è ¶ y ¶x ø

154
Por otra parte, la solución exacta y(x) del problema (18.1) satisface la ecuación

1 ¶y 1 ¶2 y
{y( x + h) - y( x)} = ( x) + h 2 ( x) + O(h 2 )
h ¶x 2 ¶x

1 df 1 æ ¶f ¶f ö
= f + h + O(h 2 ) = f + hçç f + ÷÷ + O(h 2 ) (18.9)
2 dx 2 è ¶ y ¶x ø

De (18.8) y (18.9) tenemos

æ ö
1
{y ( x + h) - y ( x)} - F ( x, y) =(1 - c2 - c3 ) f + ( 1 - c1c3 )hçç f ¶f + ¶f ÷÷ + O(h 2 ) (18.10)
h 2 è ¶ y ¶x ø

Si

1
c 2 + c3 = 1 y c1c3 = (18.11)
2

entonces los dos primeros términos en (18.10) desaparecen para cualquier función f y, por lo tanto,

el error de aproximación del esquema (18.5), (18.7) es O(h 2 ) . Se puede demostrar que con la

estructura (18.7) es imposible mejorar la aproximación del esquema (18.5).

El sistema (18.11) contiene dos ecuaciones para tres coeficientes, es decir, hay un número

g
infinito de esquemas del segundo grado de aproximación. Al escoger c1 = , y resolver el sistema
2

(18.11) en términos de g , obtenemos el esquema

ìæ 1 ö 1 g g ü
y k +1 = y k + h íçç1 - ÷÷ f ( xk , y k ) + f ( xk + h , y k + h f ( xk , y k )) ý (18.12)
îè g ø g 2 2 þ

que tiene segundo grado de aproximación para cualquier número finito g ¹ 0 . En particular, cuando

g = 2 , el esquema (18.12) se convierte en el esquema de Heun. Notamos que en el límite g ® ¥ ,

(18.12) pierde el segundo grado y aproxima el esquema de Euler que tiene sólo el primer grado de

aproximación.

155
Método de Runge-Kutta (Golub y Ortega, 1992; Iserles, 1998). De todos los métodos de

Runge-Kutta, el más famoso es el esquema del cuarto grado de aproximación:

h
yk +1 = yk + {F1 + 2F2 + 2F3 + F4 } (18.13)
6

en donde

h h
F1 = f ( xk , yk ) , F2 = f ( xk + , yk + F1 ) (18.14)
2 2

h h h
F3 = f ( xk + , yk + F2 ) , F4 = f ( xk +1 + , yk + hF3 ) (18.15)
2 2 2

Repetimos que (18.13)-(18.15) tiene aproximación O(h 4 ) . □

Métodos de multipasos. En los métodos de Euler, de Heun y de Runge-Kutta, el valor

y k +1 depende sólo de yk . Por eso, cada uno de estos métodos se llama método de un solo paso

(one-step method). Ahora consideraremos varios métodos de multipasos.

Método “leap-frog”. El método de “leap-frog” para el problema (18.1) se escribe como

yk +1 = yk -1 + 2h f ( xk , yk ) , y0 = g (18.16)

Es de dos pasos y, por lo tanto, hay que conocer y 0 y y1 para empezar los cálculos según (18.16).

Normalmente, se usa el esquema de Euler para hallar y1 . Es fácil demostrar que (18.16) aproxima

(18.1) con el grado O(h 2 ) . □

Una clase importante de métodos de multipasos resulta del siguiente acercamiento. Si

integramos (18.1) sobre el intervalo [ xk , xk +1 ] , entonces obtenemos

156
xk +1 xk +1 xk +1
¶y
y ( xk +1 ) - y ( xk ) = ò
xk
¶x
( x)dx= ò f ( x, y( x))dx@ ò p( x)dx
xk xk
(18.17)

donde en el último término suponemos que p(x) es un polinomio que aproxima f(x,y(x)). Para

construir este polinomio se supone que y k , y k -1 ,..., y k - N son los valores aproximados de la solución

en los puntos xk , xk -1 ,...,xk - N , y se forma el polinomio de interpolación del grado N que satisface

las condiciones p( xi ) = f i , i=k, k-1,…, k-N , en donde f i = f ( xi , yi ) . En principio, se puede

integrar este polinomio explícitamente para obtener el método

xk +1

y ( xk +1 ) = y ( xk ) + ò p( x)dx
xk
(18.18)

Métodos de Adams-Bashforth (Bakhvalov, 1973; Golub y Ortega, 1992; Iserles 1998;

Durran, 1999). Si N=0, entonces el polinomio p(x) es la constante f k y (18.18) es simplemente el

método de Euler.

Si N=1, entonces el polinomio p(x) es la función lineal que interpola los puntos ( xk -1 , f k -1 )

y ( xk , f k ) :

x - xk x - xk
p( x) = p1 ( x) = f k - Df k = f k - ( f k -1 - f k ) . (18.19)
h h

Sustituyendo (18.19) en (18.18) obtenemos el esquema de Adams-Bashforth con la aproximación

O( h 2 ) :

h h
y k +1 = y k + hf k - Df k = y k + {3 f k - f k -1 } (18.20)
2 2

Entonces, es de dos pasos: el valor y k +1 depende de yk y y k -1 . El último término en la fórmula

(18.20) representa una modificación del esquema de Euler.

157
Similarmente, si N=2 entonces el polinomio p(x) es el polinomio de interpolación

cuadrático para los puntos ( xk -2 , f k -2 ) , ( xk -1 , f k -1 ) y ( xk , f k ) :

( x - x k )( x - x k -1 ) 2
p 2 ( x) = p1 ( x) + D fk (18.21)
2h 2

donde D2 f k = f k - 2 f k -1 + f k -2 . Sustituyendo (18.21) en (18.18) obtenemos el esquema de

Adams-Bashforth con la aproximación O(h 3 ) :

h 5 h
y k +1 = y k + hf k - Df k + hD2 f k = y k + (23 f k - 16 f k -1 + 5 f k -2 ) (18.22)
2 6 12

Es un esquema de tres pasos: el valor y k +1 depende de yk , y k -1 y yk -2 .

Por fin, el esquema de Adams-Bashforth con la aproximación O(h 4 ) es:

h
yk +1 = yk + (55 f k - 59 f k -1 + 37 f k -2 - 9 f k -3 ) (18.23)
24

Métodos de Adams-Moulton (Bakhvalov, 1973; Golub y Ortega, 1992; Iserles 1998;

Durran, 1999). Se usan los puntos xk +1 , xk , . . . x, k - N y se forma el polinomio de interpolación del

grado N+1 que satisface las condiciones p( xi ) = f i , i=k+1,k,…, k-N . Este procedimiento genera

una clase de métodos conocidos como métodos de Adams-Moulton. Si N=0, entonces p(x) es la

función lineal que interpola ( xk , f k ) y ( xk +1 , f k +1 ) , y el método correspondiente es

h
yk +1 = yk + { f k +1 + f k } (18.24)
2

llamado método de Adams-Moulton de segundo grado (o de Crank-Nicolson). Si N=2, entonces

p(x) es el polinomio cúbico que interpola ( xk +1 , f k +1 ) , ( xk , f k ) , ( xk -1 , f k -1 ) , y ( xk -2 , f k -2 ) . En este

caso, el método correspondiente es

158
h
yk +1 = yk + (9 f k +1 + 19 f k - 5 f k -1 + f k -2 ) (18.25)
24

llamado método de Adams-Moulton de cuarto grado de aproximación. Notamos que mientras que

los métodos de Adams-Bashforth son explícitos, los métodos de Adams-Moulton son implícitos, ya

que incluyen y k +1 en ambas partes de las fórmulas (18.24) y (18.25).

Ejercicios:

yk +1 - yk
1. Consideremos el esquema = a f ( yk ) + b f ( yk +1 ) para resolver la ecuación
t
dF
y ¢(t ) = f ( y ) , donde a + b = 1 . Aplique este esquema a la ecuación de oscilación = iwF y
dt
demuestre que el factor de ampliación A = F k +1 / F k se calcula mediante la fórmula
t 2h2
2
(
A = 1+ a - b
2 2
)1 + b 2t 2 h 2
, es decir, el esquema es neutral para a = b = 1/ 2 ( A = 1 ), es

disipativo para a < b ( A < 1 ), inestable para a > b ( A > 1 ). Sin embargo, es posible
demostrar que el esquema de Euler ( a = 1 ) satisface el criterio de estabilidad de von Neumann
si t < 1 .
2. La familia de los esquemas de dos niveles se puede escribir en la forma general
~y k +1 = y k + t a f ( y k )
y k +1 = y k + t {b f ( ~ y k ) + (1 - b ) f ( y k )} .
Demuestre que la familia de los esquemas con ab = 1 / 2 representa los métodos de Runge-Kutta
del segundo grado de aproximación O(t 2 ) , y en particular, que el método de Heun corresponde
a = 1, b = 1/ 2 .
3. Analice la estabilidad del esquema de Matsuno (Mezinger y Arakawa, 1976):

y k +1 = y k + t f ( y k ) ,
~ y k +1 = y k + t f ( ~
yk ) .

4. (Iserles, 1998). Demuestre que el método de multipasos


yk +3 + a 2 yk +2 + a1 yk +1 + a 0 yk = h(b 2 f k +2 + b1 f k +1 + b 0 f k )
aproxima la ecuación (18.1) con error O(h 4 ) sólo si a 2 + a 0 = 8 y a1 = 9 .

5. Demuestre que el método del ejercicio 1 no puede tener la aproximación O(h 4 ) y ser
convergente simultáneamente. [Sugerencia: El método se puede presentar en la forma
3 2

å am yk +m = hå bm f k +m .
m =0 m =0

159
Como resultado, su estabilidad se caracteriza mediante las raíces del polinomio
3
p( w) = å am w m . Según el teorema de Dahlquist (Iserles 1998), el método converge si y sólo si
m=0

su grado de aproximación es O(h n ) donde n ³ 1 y todos las raíces del polinomio p (w) están
dentro del disco del radio uno, además, cada raíz del módulo unitario es simple].
6. Determine el grado de aproximación del método
yk + 3 - y k = h( 83 f k + 3 + 9
8 f k +2 + 9
8 f k +1 + 83 f k )
Analicen su convergencia.
7. Halle la solución del problema
d2
u ( x) + u ( x) = x , 0 < x < 1
d x2
du
u (0) = 0, y (1) + u (1) = 1
dx
usando un tamaño de malla apropiado y el método de diferencias finitas.

160
§ 19. Esquema “leap-frog”.

En este apartado consideramos el esquema “leap-frog” (Golub y Ortega, 1992; Morton y

Mayers, 1994; Iserles, 1998; Durran, 1999). Ya sabemos que para el problema

d
y ( x) = f ( x, y ), x³a
dx (19.1)
y (a) = g

el esquema “leap-frog” tiene la forma

yk +1 = yk -1 + 2h f ( xk , yk ) , y0 = g (19.2)

y aproxima la ecuación original con O(h 2 ) . Para hallar y1 , se usa el esquema de Euler, y después se

utiliza (19.2) para hallar y2 , y3 , etc. Estudiaremos ahora las propiedades principales del esquema

usando varios ejemplos. El esquema, a pesar de que es muy simple, puede ser inestable, como

muestra el siguiente ejemplo.

Ejemplo 19.1 (Golub y Ortega, 1992). Consideremos el problema

dy
= -2 y + 1 , y (0) = 1 (19.3)
dx

Es fácil demostrar que su solución exacta,

1 1
y ( x) = e - 2 x + , (19.4)
2 2

es estable respecto a un error introducido en el punto x=0. En efecto, si la condición y(0) = 1 es un

poco perturbada: ye (0) = 1 + e , entonces la solución exacta perturbada es

æ1 ö 1
y e ( x) = ç + e ÷ e - 2 x + (19.5)
è2 ø 2

y la diferencia (error) d y( x) = y e ( x) - y( x) entre dos soluciones disminuye asintóticamente cuando

x aumenta, y siempre es menor que e : d y ( x) = e e -2 x .

161
Aplicamos ahora el método “leap-frog” al problema (19.3). Según (19.2), tenemos

y k +1 = y k -1 + 2h (-2 y k + 1) = -4hyk + y k -1 + 2h
(19.6)
y0 = 1

Para empezar cálculos con el esquema (19.6) se debe conocer y1 . Vamos a escoger

1 1
y1 = e -2 h + , (19.7)
2 2

es decir, el valor de la solución exacta (19.4) en el punto x=h. A pesar de que el método (19.6)

aproxima (19.3) con el grado O(h 2 ) , es inestable. En efecto, la solución analítica (19.4) aproxima

1
cuando x ® ¥ . Demostramos ahora que la solución numérica yk hallada con (19.6), (19.7)
2

1
no tiende al cuando k ® ¥ , es decir, la solución numérica no converge hacia la solución exacta
2

y, por tanto, según el teorema 17.1 de Lax, el esquema es inestable. Vemos que

y k = lk (19.8)

es la solución exacta de la ecuación (19.6) homogénea (sin el término 2h) si l satisface la ecuación

característica

l2 + 4hl - 1 = 0 (19.9)

o bien, cuando

l1, 2 = -2h ± 4h 2 + 1 . (19.10)

Así, l1 = 2h + 4h 2 + 1 > 1 , y l2 = -2h + 4h 2 + 1 < 1 . La solución general del problema no

homogéneo (19.6) es

yk = c1 l1k + c2 lk2 + wk (19.11)

162
donde los dos primeros términos representan la solución general del problema homogéneo, mientras

que wk es una solución particular del problema no homogéneo. En la calidad de wk tomamos la

solución constante:

1
wk = , k = 0,1,2,... (19.12)
2

Los constantes c1 y c2 en (19.11) se determinan por las condiciones y 0 y y1 . Cuando k ® ¥ ,

el primer término en (19.11) tiende al infinito de una manera oscilatoria (los signos de dicho término

alternan con k), mientas que el segundo término tiende al cero. Entonces el valor absoluto de la

1
solución yk tiende al infinito, a diferencia de la solución exacta (19.4) que aproxima . Así, la
2

solución numérica no converge hacia la solución exacta por la existencia del primer término y, por lo

tanto, el esquema “leap-frog” para la ecuación (19.3) es inestable, debido al teorema de Lax. □

Es preciso señalar que el primer término en la solución numérica (19.11) es artificial y

representa un modo numérico adicional generado por el esquema “leap-frog”. En efecto, si c1 = 0 ,

1
entonces la solución numérica aproxima , es decir, el mismo valor que la solución analítica.
2

Estudiemos este problema con más detalles en otro ejemplo.

Ejemplo 19.2. Consideremos la ecuación de oscilación

dF
= iwF (19.13)
dt

{
que surge en varias aplicaciones. Por ejemplo, el componente armónico j ( x, t ) = Re F(t )e
ikx
}
es

¶j ¶j
la solución de la ecuación de transporte =u si F(t ) satisface (19.13) con w = ku . O
¶t ¶x

163
bien, introduciendo la función U = u + iv en las ecuaciones de movimiento horizontal en el campo

de la fuerza de Coriolis

du dv
= fv , = - fu (19.14)
dt dt

llegamos de nuevo a la ecuación (19.13) con w = f .

La solución general de (19.13) es

F(t )= F(0) e iwt , (19.15)

o, para niveles discretos de tiempo t n = nt ,

F n º F(nt )= F(0) e iwnt (19.16)

Así, con cada paso t , el argumento de F se cambia por ángulo w t , sin embargo, su amplitud

F(0) es invariable. Por otra parte, según el esquema “leap-frog”, la solución numérica se calcula

mediante la fórmula

F n +1 = F n -1 + 2iw tF n (19.17)

Al buscar la solución de la forma

F n +1 = lF n , (19.18)

llegamos a la ecuación

l2 - 2ipl - 1 = 0 (19.19)

o bien,

l1, 2 = ip ± 1 - p 2 (19.20)

donde p = wt . Así, hay dos soluciones del tipo (19.18): F1n +1 = l1F1n y F 2n +1 = l 2 F n2 . Si

t ® 0 , entonces p ® 0 y, por lo tanto l1 = ip + 1 - p 2 ® 1 . Por eso, el primer modo F1n es

164
físico. De otra parte, cuando t ® 0 , l2 = ip - 1 - p 2 ® -1 , es decir, F 2n +1 ® -F n2 . Este

modo es artificial, o modo numérico, ya que no aproxima la solución exacta. En el caso especial,

dF n +1
cuando ω=0, la ecuación (19.13) y el esquema “leap-frog” se reducen a =0 y F = F n -1 ,
dt

respectivamente. Entonces la solución exacta es constante. Sin embargo, la solución numérica

depende de F 1 . En efecto, si F 1 = F 0 , entonces F n +1 = F n y la solución numérica tiene sólo

modo físico. Y si F 1 = -F 0 , entonces F n +1 = -F n y la solución del esquema tiene sólo modo

numérico. Así, es de gran importancia para el esquema “leap-frog” escoger bien la condición inicial

F 1 . Para un problema complejo, el valor F 1 es desconocido y, en general, la solución numérica

representa una combinación lineal de ambos modos:

F n = al1n F10 + bln2 F 02 (19.21)

donde las constantes a y b se determinan por las condiciones

F 0 = aF 10 + bF 02
(19.22)
F 1 = al1 F 10 + bl 2 F 02

La primera condición es física, ya que representa una aproximación de la condición inicial del

problema continuo, mientras que la segunda es numérica y surge de usar el esquema “leap-frog”.

Resolviendo las ecuaciones (19.22) respecto a aF10 y bF 02 , y sustituyendo los resultados en

(19.21), obtenemos

Fn =
1
l1 - l2
{ ( ) (
l1n F1 - l2 F 0 - ln2 F1 - l1F 0 )} (19.23)

Así, las amplitudes del modo físico y del numérico son proporcionales a F1 - l2 F 0 y

F 1 - l1 F 0 , respectivamente, es decir, ambos modos dependen de F 1 . Si F 1 = l1F 0 , entonces la

165
solución del esquema contiene sólo modo físico. Y si F 1 = l 2 F 0 entonces la solución del esquema

contiene sólo modo numérico. Ya que los valores l1 y l2 son desconocidos, es difícil eliminar el

modo numérico artificial. Aunque l1 es conocido y es posible filtrar el modo numérico en el

momento t1 = t , este puede aparecer en el proceso de cálculos, por ejemplo, por los errores de

redondeo. □

Observación 19.1. En el ejemplo 19.2, los valores absolutos de l1 y l2 son iguales a uno

y, por lo tanto, no causan inestabilidad. Sin embargo, la presencia de un modo artificial oscilatorio

puede introducir los errores adicionales en la solución numérica. En el ejemplo 19.1, la situación es

peor, ya que el modo artificial genera la inestabilidad y la ausencia de la convergencia de la solución

numérica hacia la solución exacta.

Ejemplo 19.3. Consideremos la ecuación de difusión

¶j ¶ 2j
=s 2 , s > 0 (19.24)
¶t ¶x

{
El componente armónico j ( x, t ) = Re F(t )e
imx
}
es la solución de la ecuación (19.24) si F(t )

satisface la ecuación

dF
= -kF , k = sm 2 (19.25)
dt

- kt
cuya solución F(t ) = F(0)e disminuye exponencialmente con tiempo. Pero la ecuación (19.25)

tiene la misma forma que (19.3) y, por consiguiente,

2
kt æ kt ö
l1, 2 = - ± ç ÷ +1 . (19.26)
2 è2ø

166
Así el esquema “leap-frog” es inestable aplicado a esta ecuación. En efecto, además del modo físico

que aproxima la solución exacta, dicho esquema contiene el modo numérico artificial cuya amplitud

aumenta con tiempo (Fig.19.1).

Solución con modo numérico

Solución exacta

Fig.19.1. Comportamiento de la solución exacta y de la


numérica de la ecuación (19.25).

Por eso, al resolver numéricamente la ecuación

dF
= iwF - kF (19.27)
dt

se usa a menudo el esquema

F n +1 = F n -1 + 2t (iw F n - kF n -1 ) (19.28)

que representa la combinación del esquema “leap-frog” (para el término de la oscilación) con el

esquema de Euler (para el término de difusión). Es fácil verificar que el esquema (19.28) es estable

si 0 < kt £ 2 .

167
Ejercicios:

1. La familia de esquemas de tres niveles se puede escribir en forma general como

y k +1 = a1 y k + a 2 y k -1 + t {b1 f ( y k ) + b 2 f ( y k -1 )}.
Demuestre que la familia tiene por lo menos aproximación O(t 2 ) si a1 = 1 - a 2 ,
b1 = 1/ 2(a 2 + 3) y b 2 = 1/ 2(a 2 -1) . Hay dos esquemas interesantes de esta familia:
a) el esquema “leap-frog” si a 2 = 1 .
b) el esquema de Adams-Bashforth del grado O(t 2 ) si a 2 = 0 .

2. Para resolver la ecuación de difusión unidimensional (19.24) se puede usar el esquema explícito
de Dufort-Frankel (por ejemplo, Durran, 1999):

f nj+1 - f nj-1 f nj+1 - (f nj+1 + f nj-1 ) + f nj-1


=s
2t h2
Demuestre que el esquema es absolutamente estable (es decir, estable para cada t ).
tu
3. Usando el número de Courant r = , determine el intervalo de estabilidad del esquema “leap-
h
f nj+1 - f nj-1 f nj+1 - f nj-1 ¶j ¶j
frog” +u = 0 para la ecuación de advección +u =0.
2t 2h ¶t ¶x
[Sugerencia: aplicando el análisis de von Neumann obtenemos que el esquema es estable si
r < 1 ].

4. Demuestre que si r=1 en el ejercicio 3, entonces existe el modo de la forma


f nj = n cos[p ( j - n) / 2] que crece débilmente.

5. Demuestre que la velocidad de fase física c fís y la velocidad de fase numérica ccom para el
esquema del ejercicio 2 tienen las formas

1 1
arcsin( r sin kh) y ccom = [p - arcsin( r sin kh)]
c fís =
kt kt
Compare el comportamiento del modo físico y del numérico con longitud 2h.

6. Linearice ut + uux = 0 mediante ut + aux = 0 donde a = max u( x, t ) . Verifique la condición de


x,t

t
estabilidad max u ( x, t ) < 1 si el esquema de leapfrog se usa a la ecuación linearizada.
2h x,t

7. Introduciendo las variables auxiliares v = u t , w = u x , se puede escribir la ecuación de onda


utt = u xx como el sistema vt = wx , wt = v x . Encuentre la condición de estabilidad para el
esquema explícito

168
1 é n+1 1 n
tëê ( )
ù 1
V j - V j +1 + V jn-1 ú = (
W jn+1 - W jn-1 )
2 û 2 h

1 é n+1 1
tëê ( ù 1
W j - W jn+1 + W jn-1 ú = ) (
V jn+1 - V jn-1 . )
2 û 2 h

169
§ 20. Métodos de proyección

En los apartados hemos estudiado la aplicación del método de diferencias finitas para aproximar un

problema continuo mediante cierto problema discreto. Muchos trabajos hansido dedicados a la

teoría de dicho método (véase § 18). En este apartado consideraremos otros métodos de

discretización llamados métodos de proyección (Godunov y Ryabeñkii, 1964; Rektorys, 1977;

Marchuk, 1982; Golub y Ortega, 1992; Priestley, 1992; Durran, 1999). Todos estos métodos se

basan en el mismo acercamiento cuando la solución exacta de un espacio de dimensión infinita se

aproxima por una solución numérica de un subespacio de dimensión finita. La solución numérica se

busca como la combinación lineal de las funciones básicas del subespacio. Así, la solución

aproximada se considera como una proyección de la solución exacta en dicho subespacio. Las

funciones básicas son linealmente independientes, conocidas y simples: funciones trigonométricas,

polinomios, armónicos esféricos, splines, etc. Su estructura depende del dominio de definición de la

solución del problema continuo y de las condiciones de frontera. Es preciso señalar que es más

conveniente usar como base un sistema de funciones ortogonales. Sin embargo, cuando la geometría

del dominio es compleja, es a menudo bastante difícil construir la base ortogonal. En estos casos, es

muy útil usar como base los elementos finitos que a menudo generan una base casi ortogonal. Los

métodos de proyección se distinguen por los criterios que aplican para hallar la solución

aproximada. Ahora consideremos algunos de estos métodos.

Sea

Au ( x) = f ( x) (20.1)

170
un problema continuo con un operador lineal A. Supongamos que la solución u(x) y la función

conocida f(x) están definidas en un dominio D y pertenecen a un espacio de Hilbert H con el

producto interno

f , g = ò f ( x) g ( x)dx (20.2)
D

y un sistema de las funciones básicas {f j ( x)}j =1 . Se puede presentar la solución exacta como la serie
¥

de Fourier

¥
u ( x) = å u jf j ( x) . (20.3)
j =1

Vamos a buscar la solución aproximada v(x) del problema (20.1) de la forma

N
v( x) = å v j f j ( x) , (20.4)
j =1

es decir, como la proyección en el subespacio de dimensión N generado por N funciones básicas

{f j ( x)}j =1 .
N

Método de colocación (Russell y Shampine, 1972; Russel, 1977). Primero consideremos el

criterio de colocación. Sean {xi }iN=1 puntos de la malla en el dominio D. Según el criterio de

colocación, se requiere que la solución aproximada (20.4) satisfaga la ecuación (20.1) en cada punto

x i de la malla:

N
Aå v j f j ( xi ) = f ( xi ) , i = 1,2,..., N , (20.5)
j =1

o bien,

171
N

åa v
j =1
ij j = f i , i = 1,2,..., N , (20.6)

donde

N
aij = å Af j ( xi ) , f i = f ( xi ) , (20.7)
j =1

Al resolver el sistema de las ecuaciones lineales algebraicas (20.6) hallamos v j y, por tanto, la

solución aproximada (20.4).

Observación 20.1. El método de colocación, a pesar de que es muy simple, tiene varias

desventajas. La más importante es que la solución numérica obtenida por este método depende no

sólo de la elección de la base {f j ( x)}j =1 y del número N de truncación de la serie de Fourier, sino
¥

también de la elección de los puntos x i de la malla. Además, si el operador A es simétrico, la matriz

A = {aij } puede perder esta propiedad importante, ya que en general,

N N
aij = å Af j ( xi ) ¹ å Af i ( x j ) =a ji . □
j =1 i =1

Observación 20.2. A pesar de que tanto en el método de diferencias finitas como en el

método de colocación los sistemas de ecuaciones se describen en los puntos de la malla, la

naturaleza de las soluciones numéricas es bastante distinta. En efecto, en el primer método, la

solución se define en los puntos de la malla, mientras que en el segundo, la solución se representa

mediante sus coeficientes de Fourier. Por lo tanto, en el método de diferencias finitas, para calcular

el valor de la solución en un punto x que no pertenece a la malla, hay que aplicar un método de

interpolación. En el método de colocación, el valor de la solución en cualquier punto x se calcula

por medio de la fórmula (20.4).

172
Método de Rayleigh-Ritz (Godunov y Ryabeñkii, 1964; Rektorys, 1977). Supongamos

que el operador A del problema (20.1) es simétrico y positivo:

Af , g = f , Ag , y Af , f > 0 para cada f y g.

Según el criterio variacional del método de Rayleigh-Ritz, se busca la solución aproximada (20.4)

que minimiza el funcional

J (v) = Av, v - 2 v, f (20.8)

definida en el subespacio de la dimensión N generado por N funciones básicas {f j ( x)}j =1 . Al


N

sustituir v(x) en (20.8) por (20.4) obtenemos

N N N
J (v) = åå Af i ( x), f j ( x) vi v j - 2å f ( x), f i ( x) vi (20.9)
i =1 j =1 i =1

Entonces, usando las condiciones


J (v ) = 0 , j = 1,2,..., N (20.10)
¶vj

necesarias para la existencia de un mínimo local, llegamos al sistema

r r
Av = f (20.11)

v = {v1 , v2 ,...,v N } es vector columna formado de los coeficientes desconocidos de la


r T
donde

solución aproximada (20.4), f = { f1 , f 2 ,..., f N } es vector columna formado por los productos
r T

internos f i = f ( x), f i ( x) , i = 1,2,..., N , y la matriz A con los elementos

aij = Af i ( x), f j ( x) (20.12)

173
se llama matriz de Gram de las funciones básicas. Al resolver el sistema de las ecuaciones lineales

algebraicas (20.11), hallamos v j y, por consiguiente, la solución aproximada (20.4).

Observación 20.3. Ya que en el método de Rayleigh-Ritz el operador A es simétrico, la

matriz (20.12) siempre es simétrica: aij = Af i ( x), f j ( x) = f i ( x), Af j ( x) = Af j ( x), f i ( x) = a ji .

Es una de las ventajas principales del método. Y si operador A es hermitiano, entonces la matriz A

también es hermitiana. Usando las propiedades del operador A, se puede introducir otro producto

interno:

f ( x), g ( x) A
= Af ( x), g ( x)

Por tanto, si la base {f j ( x)}j =1 es A-ortogonal: Af i ( x), f j ( x) = d ji , entonces la matriz (20.12) del
N

sistema (20.11) es diagonal y v j = f j / a jj . □

El criterio variacional del método de Rayleigh-Ritz se basa en la declaración de que el

problema original (20.1) es equivalente al problema de minimización de el funcional (20.8).

Demostremos ahora dicha equivalencia. En efecto, supongamos que el dominio F(A) del operador

A es denso en el espacio H, y la función u(x) de F(A) es la solución exacta del problema (20.1).

Sea h ¹ 0 un elemento arbitrario de F(A) , y a un número real. Cualquier elemento va de F(A)

se puede presentar de la forma va = u + ah . Entonces

J (va ) = A(u + ah), u + ah - 2 u + ah, f (20.13)

Debido a que A es simétrico, (20.13) se transforma en

174
J (va ) = J (u ) + 2a Au - f , h + a 2 Ah, h (20.14)

Ya que u(x) es la solución exacta de (20.1),

J (va ) = J (u ) + a 2 Ah , h (20.15)

Tomando en cuenta que A es positivo, tenemos

J (va ) > J (u ) (20.16)

para cualquier a ¹ 0 , es decir, la solución u(x) minimiza el funcional (20.8). Ahora demostremos la

declaración inversa. Supongamos que un elemento u(x) minimiza el funcional (20.8), es decir, se

cumple la desigualdad (20.16) y, según (20.14),

2a Au - f , h + a 2 Ah , h > 0 . (20.17)

Sin embargo, si Au - f , h ¹ 0 , entonces (20.17) no se cumple para cada a real. Por lo tanto,

Au - f , h = 0 , es decir, elemento Au - f es ortogonal a cualquier elemento h del dominio

denso F(A) del espacio H y, por consiguiente, u(x) es la solución del problema (20.1).

Método de Galërkin (Galërkin, 1915). Consideremos ahora el método de Galërkin que es

libre de las restricciones del método de Rayleigh-Ritz y sirve aunque el operador A no es simétrico

ni positivo (Godunov y Ryabenkii, 1964; Marchuk, 1982; Zienkiewicz y Morgan, 1983; Fletcher,

1984; Ames, 1992; Durran, 1999). Para cada función v(x) de F(A) , definimos por

rv ( x) = Av( x) - f ( x) (20.18)

175
el término residual del problema (20.1). Claro que ru ( x) = Au ( x) - f ( x) º 0 para la solución exacta

(20.3). Sin embargo, para la solución aproximada (20.4), el término residual (20.18) no es

idénticamente nulo, y el criterio de Galërkin es hallar tal solución aproximada de (20.4) que el

término residual es ortogonal a cada función básica f i (x) :

rv ( x), f i ( x) = 0 , i = 1,2,..., N (20.19)

Así, se busca la solución que satisface exactamente a la proyección de la ecuación (20.1) en el

subespacio generado por la base {f j ( x)}j =1 .


N

Usando (20.4) y (20.18) en (20.19) llegamos al sistema


r r
Av = f (20.20)

donde de nuevo v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } , f i = f ( x), f i ( x) , i = 1,2,..., N , y


r T
r T

a ij = Af i ( x), f j ( x) (20.21)

es la matriz de Gram. Al resolver el sistema de las ecuaciones lineales algebraicas (20.21) hallamos

v j y, por consiguiente, la solución aproximada (20.4).

Observación 20.4. Cuando el operador A es simétrico y positivo, la matriz (20.21) también

conserva la estructura simétrica del operador A. En este caso, los métodos de Galërkin y de

Rayleigh-Ritz dan el mismo resultado. Así pues, el método de Galërkin es más general que el

método de Rayleigh-Ritz. □

Durante las últimas décadas, el método de Galërkin se desarrolla en dos principales

direcciones. La primera dirección está relacionada con el uso de elementos finitos o funciones

176
básicas locales (Prenter, 1975; Becker y otros, 1981; Zienkiewicz y Morgan, 1983; Ames, 1992;

Pepper y Heinrich, 1993), mientras que la segunda dirección está relacionada con los métodos

espectrales usando funciones básicas globales (Cooley y Tukey, 1965; Mezinger y Arakawa, 1976;

Machenauer, 1977; Marchuk y otros, 1983; Skiba, 1989-1993a, 1998; Skiba y Adem, 1998; García

y Skiba, 1999). Notemos que en los métodos espectrales las funciones basicas siempre son

ortogonales.

Ejercicios:

1. Sea G = (0 < x1 < a) ´ (0 < x2 < b) un rectángulo. Demuestre que el sistema de funciones
2 mp x1 np x2
f mn ( x1 , x2 ) = sin sin ( m, n = 1,2,3,... ) es la base ortonormal en el espacio
ab a b
L2 (G) con el producto escalar f , g = ò f ( x1 , x2 ) g ( x1 , x2 )dx1 dx2 , es decir, f mn , f kl = d mk d nl ,
G

donde d mk es delta de Kronecker.

2. Con funciones básicas del ejercicio 1, resuelva en el rectángulo G el problema de Poisson


- Du = f en G , con la condición u = 0 en el contorno ¶G .

3. Para el problema - u xx + u = f (x) en (-1,1) con las condiciones de contorno u (-1) = 0 y


u(1) = 0 , se puede elegir la base siguiente: f n ( x) = x n (1 - x 2 ) , n=1,2,3,… . ¿Qué base se
puede elegir si f (x) es simétrica en (-1,1)? [Sugerencia: en este caso la solución también es
simétrica].
4. Compare el método de Rayleigh-Ritz con el método de cuadrados mínimos (§ 12), y demuestren
que la convergencia del método de Rayleigh-Ritz por lo menos no es peor que en el método de
cuadrados mínimos. [En el método de cuadrados mínimos, el operador no es necesariamente
simétrico].

5. Sea J (v ) = Av , v - 2 v , f , donde A es una matriz simétrica. Demuestre que existe un vector


r r r r r

u tal que J (u ) < J (v ) si y sólo si A es positivamente definida. En este caso, el funcional es


r r r
estrictamente convexo.

177
6. Consideremos el problema - ( pux ) x + qu = f en el intervalo (0,a). Para las condiciones
1 np x
u(0) = 0 y u (a) = 0 , se puede elegir la base fn ( x) = sin , n = 1,2,3,... . ¿Qué base se
n a
puede elegir si u x (0) - b u (0) = 0 y u x (a) + d u (a) = 0 , donde b ³ 0 y d ³ 0 ?

7. Consideremos de nuevo el problema del ejercicio 6. ¿Qué base se puede elegir si u (0) = 0 y
u x (a) + d u (a) = 0 , donde d ³ 0 ?

178
§ 21. Solución de un problema elíptico

Aplicamos ahora el método de diferencias finitas y los métodos de proyección para resolver

el siguiente problema elíptico:

d æ du( x) ö
çç p( x) ÷ + q ( x) u ( x) = f ( x) , 0 < x < 1
dxè d x ÷ø
(21.1)
u (0) = 0, u (1) = 0

Introducimos en el segmento (0,1) una malla regular con tamaño h = 1 /( N + 1) :

xi = ih , i = 0,1,..., N + 1 . (21.2)

Supongamos que la solución u(x) y las funciones p(x), q(x) y f(x) son bastante suaves en (0,1).

Introducimos el espacio de Hilbert de funciones en (0,1) con el producto interno

1
f , g = ò f ( x) g ( x)dx . (21.3)
0

Usando los métodos de § 8, es fácil demostrar que el operador

d æ du( x) ö
Au ( x) = çç p( x) ÷ + q ( x) u ( x) , x Î (0,1)
dxè d x ÷ø
(21.4)
u (0) = 0, u (1) = 0

del problema (21.1) es simétrico: Af , g = f , Ag para cada f y g. Además, si

p( x) £ p0 < 0 y q( x) ³ 0 en (0,1) , (21.5)

entonces el operador (21.4) es positivo definido: Ag , g > 0 para cada función g(x).

179
Método de diferencias finitas. Sea

ui = u ( xi ) , f i = f ( xi ) , pi +1/ 2 = p( xi + h / 2) , qi = q( xi ) (21.6)

proyecciones de las funciones en la malla. Notemos que si las funciones f, p y q tienen

discontinuidades en algunos puntos del segmento (0,1), entonces hay que usar otras proyecciones,

por ejemplo,

x xi +1 x
1 i +1 / 2 1 1 i +1 / 2
f i = ò f ( x)dx , pi +1 / 2 = òx p ( x ) dx q
, i = ò q( x)dx (21.7)
h xi -1 / 2 h i
h xi -1 / 2

Aproximando el problema continuo (21.1) por el problema discreto

1ì æ u i +1 - u i ö æ u - u i -1 öü
í p i +1 / 2 ç ÷ - p i -1 / 2 ç i ÷ý + q i u i = f i , i = 1,2,..., N
hî è h ø è h øþ
(21.8)
u 0 = 0 , u N +1 = 0

llegamos al sistema de las ecuaciones lineales algebraicas

r r
Au = f (21.9)

donde u = {u1 , u 2 ,...,u N } , f = { f1 , f 2 ,..., f N } , y A es la matriz simétrica tridiagonal:


r T
r T

1
aii = - {pi +1 / 2 + pi -1/ 2 } + qi , i = 1,2,..., N
h2
1
ai ,i +1 = 2 pi +1 / 2 , i = 1,2,..., N - 1 (21.10)
h
1
ai ,i -1 = 2 pi -1 / 2 , i = 2,..., N
h

Además, bajo la condición (21.5), la matriz A es positiva. El sistema (21.9) se resuelva fácilmente

por factorización.

180
Método de colocación. En la calidad de la base {f j ( x)}j =1 en H se puede escoger el sistema
¥

ortogonal de las funciones trigonométricas

f j ( x) = sin jpx , j = 1,2,... , (21.11)

o el sistema no ortogonal de los polinomios algebraicos

f j ( x) = x j (1 - x) , j = 1,2,... . (21.12)

La solución exacta se presenta como la serie de Fourier

¥
u ( x) = å u jf j ( x) . (21.13)
j =1

Notemos que las condiciones de frontera se cumplen automáticamente, ya que cada función básica

satisface dichas condiciones:

f j (0) = f j (1) = 0 , j = 1,2,... . (21.14)

Vamos a buscar la solución aproximada v(x) del problema (21.1) de la forma

N
v( x) = å v j f j ( x) , (21.15)
j =1

es decir, como la proyección en el subespacio H N de dimensión N generado por N primeras

funciones básicas {f j ( x)}j =1 . Según el criterio de colocación (Russel y Shampine, 1972), llegamos al
N

sistema
r r
Av = f (21.16)

donde v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } , f i = f ( xi ) , y A es la matriz con elementos


r T
r T

181
d æ df ( x) ö
aij = çç p( x) j ÷ + q( xi )f j ( xi ) , (21.17)
dxè d x ÷ø x= x
i

Al resolver el sistema (21.16) hallamos v j y, por tanto, la solución aproximada (21.15).

Observación 21.1. En el método de colocación, el operador simétrico (21.4) se presenta en

el espacio H N por la matriz asimétrica (21.17). Es una desventaja de dicho método en comparación

con el método de diferencias finitas cuya matriz (21.10) es simétrica. Además, a diferencia de la

matriz tridiagonal (21.10), la matriz (21.17) es densa debido al uso de las funciones básicas globales

(21.11) y (21.12). □

Ejemplo 21.1 (Golub y Ortega, 1992). Sea p( x) º -1 , q( x) = x 2 , y f ( x) = x 3 . Usando

la base (21.11), tenemos

¶ ¶2
f j ( x) = jp cos jpx , f j ( x) = - j 2p 2 sin jpx (21.18)
¶x ¶x 2

y, por lo tanto, el elemento (21.17) de la matriz A es

aij = ( xi2 + j 2p 2 ) sin jpxi (21.19)

Cuando se usa la base (21.12),

¶ ¶2
f j ( x) = x j -1{ j - ( j + 1) x} , f j ( x) = j x j -2 { j - 1 - ( j + 1) x} (21.20)
¶x ¶ x2

y el elemento (21.17) de la matriz A es

aij = - j xij -2 { j - 1 - ( j + 1) xi } + xij + 2 {1 - xi } . □ (21.21)

182
Método de Rayleigh-Ritz. Sea el operador A del problema (21.1) simétrico y positivo.

Entonces, según el criterio variacional del método de Rayleigh-Ritz, se busca la solución

aproximada (21.15) que minimiza la funcional

J (v) = Av, v - 2 v, f (21.22)

(Marchuk, 1982). Usando las condiciones


J (v ) = 0 , j = 1,2,..., N (21.23)
¶vj

llegamos al sistema (21.16), donde v = {v1 , v2 ,...,v N } , f = { f1 , f 2 ,..., f N } con f i = f ( x),f i ( x) ,


r T
r T

y la matriz de Gram A es simétrica y tiene elementos

a ij = Af i ( x), f j ( x) (21.24)

Consideramos de nuevo ejemplo 21.1. Usando (21.14) y integrando (21.24) por partes obtenemos

1
ì ¶2 ü 1
ì ¶ ¶ ü
a ij = ò í- f i ( x) + x f i ( x)ýf j ( x) dx = ò í f i ( x)
2
f j ( x) + x 2f i ( x)f j ( x)ý dx (21.25)
0 î ¶x
2
þ 0 î
¶x ¶x þ

Al resolver el sistema de las ecuaciones lineales algebraicas (21.16), hallamos v j y, por

consiguiente, la solución aproximada (21.15).

Observación 21.2. Ya que el operador A es simétrico, la matriz (21.24) también es

simétrica. Su estructura depende de la base. Por ejemplo, es densa tanto con la base (21.11) como

con la base (21.12). Sin embargo es diagonal si la base (21.11) es A-ortogonal:

aij = Af i ( x), f j ( x) º f i ( x), f j ( x) = d ij (21.26)


A

183
donde f ( x), h( x) A
es un nuevo producto interno definido por la segunda igualdad, y d ij es el

símbolo de Kronecker. □

Ejemplo 21.2. Consideremos de nuevo la ecuación (21.1) con p( x) º -1 , q( x) = x 2 , y

f ( x) = x 3 . Usando en (21.25) la base (21.11), llegamos a

1
1
aij = i 2p 2 d ij + ò x 2 sin ipx sin jpx dx . (21.27)
2 0

1
Además, f i = ò x 3 sin ipx dx . Notemos que en (21.27), el primer término a la derecha contribuye
0

sólo en los elementos diagonales de la matriz.

Debido a que tanto q(x) como f(x) son polinomios, es más fácil calcular elementos aij y f i

usando la base (21.12). □

Método de Galërkin. Según el criterio de Galërkin (Marchuk, 1982),

rn ( x), f i ( x) = 0 , i = 1,2,..., N (21.28)

donde

rn ( x) = Av( x) - f ( x) (21.29)

es el término residual del problema (21.1). La matriz del método de Galërkin coincide con la matriz

(21.24) del método de Rayleigh-Ritz. Entonces, ambos métodos dan el mismo resultado si el

operador A del problema (21.1) es simétrico y positivo y se usa el mismo sistema de funciones

básicas. Sin embargo, recordemos que para un operador A asimétrico o no positivo, puede aplicarse

sólo el método de Galërkin. Demostramos que la matriz (21.24) puede ser tridiagonal si se usa un

184
sistema especial de las funciones básicas con los soportes locales. En este caso, ambos métodos

compiten con el método de diferencias finitas.

Ejemplo 21.3 (Marchuk, 1982). Consideremos el problema (21.1) con funciones arbitrarias

p(x) y q(x). Introducimos en el intervalo [0,1] una malla {xk }kK=+01 , x0 = 0 , xK +1 = 1 , con el

tamaño variable hk +1 / 2 = xk +1 - xk , k=0, 1,…,K. En la calidad de las funciones básicas escogemos

ì 0 , si 0 £ x £ xk -1
ï( x - x ) / h
ï k -1 k -1 / 2 , si x k -1 £ x £ x k
f k ( x) = í , k=1,2,…,K (21.30)
ï ( x k +1 - x ) / hk +1 / 2 , si x k £ x £ x k +1
ïî 0 , si xk +1 £ x £ 1

(Véase Fig.21.1).

1 f k -1 ( x) f k (x) f k +1 ( x)

0 xk -2 x k -1 x k x k +1 xk + 2 1 x

Fig.21.1. Funciones básicas con soportes locales

185
Por el método de Galërkin, hallamos la solución numérica

K
v( x) = å v j f j ( x) (21.31)
j =1

Notemos que en cada segmento ( xk , xk +1 ) , la suma (21.15) contiene sólo dos términos no nulos:

v( x) = vk f k ( x) + vk +1f k +1 ( x) , (21.32)

donde los coeficientes de Fourier son en realidad los valores de la solución (21.31) en puntos de la

malla. También notemos que las funciones básicas (21.30) son casi ortogonales, ya que f k (x) es

ortogonal a todas f j (x) , excepto f k -1 ( x) , f k (x) y f k +1 ( x) :

ì 0 , si j £ k - 2
ï h
1 ïï k -1 / 2 / 6 , si j = k - 1

ò0 f k ( x)f j ( x) dx = í(hk -1/ 2 + hk +1/ 2 ) / 3 , si j = k (21.33)


ï h
k +1 / 2 / 6 , si j = k + 1
ï
ïî 0 , si j ³ k + 2

Según el criterio de Galërkin,

1
ì df ( x) df j ( x) ü
aij = ò í- p( x) i + q( x)f i ( x)f j ( x)ý dx

dx dx þ

ì df i ( x) df j ( x) ü
xi

= òx î í- p ( x )
dx dx
+ q( x)f i ( x)f j ( x)ý dx
þ
i -1

ì df i ( x) df j ( x) ü
xi +1

+ ò
xi
í- p( x)
î dx dx
+ q( x)f i ( x)f j ( x)ý dx
þ

Tomando en cuenta (21.34), obtenemos que sólo ai -1,i , ai ,i , y ai ,i +1 son no nulos, es decir la matriz

es tridiagonal. Además,

186
dfi -1 ( x) dfi ( x)
xi
ì ü p
ai ,i -1 = ò íî- p( x)
xi -1
dx dx
+ q( x)fi -1 ( x)fi ( x)ý dx = i -1 / 2 + qi -1 / 2
þ hi -1/ 2

dfi ( x) dfi +1 ( x)
xi +1
ì ü p
ai ,i +1 = ò íî- p( x)
xi
dx dx
+ q( x)fi ( x)fi +1 ( x)ý dx = i +1 / 2 + qi +1 / 2
þ hi +1 / 2

dfi ( x) dfi ( x)
xi
ì ü
aii = ò íî- p( x)
xi -1
dx dx
+ q( x)fi ( x)fi ( x)ý dx
þ

dfi ( x) dfi ( x)
xi +1
ì ü p p
+ ò íî- p( x)
xi
dx dx
+ q( x)f i ( x)fi ( x)ý dx = - i -1 / 2 - i +1 / 2 + qi
þ hi -1 / 2 hi +1 / 2

donde
xi xi +1
1 1
pi -1 / 2 =
hi -1 / 2 ò p( x) dx ,
xi -1
pi +1 / 2 =
hi +1 / 2 ò p( x) dx
xi

xi xi +1

qi -1/ 2 = ò q( x)f
xi -1
i -1 ( x)fi ( x) dx , qi +1/ 2 = ò q( x)f ( x)f
xi
i i +1 ( x) dx

xi +1 xi +1

qi = ò q( x)f ( x)f ( x) dx ,
xi -1
i i fi = ò f ( x)f ( x) dx .
xi -1
i

Como resultado, llegamos al sistema de las ecuaciones tripuntuales

æ pi -1 / 2 ö æp p ö æp ö
çç + qi -1 / 2 ÷÷ vi -1 - çç i -1 / 2 + i +1 / 2 - qi ÷÷ vi + çç i +1 / 2 + qi +1 / 2 ÷÷ vi +1 = f i (21.34)
è hi -1 / 2 ø è hi -1 / 2 hi +1 / 2 ø è hi +1 / 2 ø

i=1,…,K. □

Ejercicios:

1. (Rectorys, 1977). Usando el método de Rayleigh-Ritz, halle la solución del problema


- u xx = cos x , u(0) = 0 y u (p ) = 0 . [La solución exacta es u( x) = cos x + (2 / p ) x - 1 .
Debido a la simetría de la parte derecha de la ecuación, la base es f j ( x) = sin 2 jx . La
n
2 sin 2 jx
solución numérica es u ( x) =
p
å j (4 j
j =1
2
- 1)
].

187
2. Usando el método de Galërkin, halle la solución del problema - u xx = cos x , u x (0) = 0 y
u x (p ) = 0 . [La solución exacta es u( x) = cos x . Notemos que se cumple la parte derecha
p
con la condición necesaria (y suficiente) para resolver el problema: ò0
cos x dx = 0 .
cos jx
Debido a la simetría de la parte derecha de la ecuación, la base es f j ( x) = . La
j
n cj
solución numérica es u n ( x) = å a j cos jx, a j = . Ya que a1 = 1 y a j = 0 si j ³ 2 , la
j =1 j
solución numérica u n ( x) =u ( x) = cos x coincide con la solución exacta para cada n].

3. Transforme el problema - Du = f en un paralelogramo G al problema en un rectángulo si


los vértices de los ángulos tienen coordinados (0,0), (a,0), (k,b) y (a+k,b). Encuentren la
base para el paralelogramo G.

4. Resuelva por método de Rayleigh-Ritz o de Galërkin el problema D2 u = 1 en el anillo


{ }
G = ( x, y) : 1 < x 2 + y 2 < 2 con las condiciones:

¶n
u( x, y) = 0 en la frontera

{ }{ }
Γ = ( x, y) : x 2 + y 2 = 1 È ( x, y) : x 2 + y 2 = 2 del dominio G que representa la unión de
dos circunferencias con radios uno y dos. [Sugerencia: elija como la base las primeras
funciones g 2 ( x, y), xg 2 ( x, y), yg 2 ( x, y), x 2 g 2 ( x, y), xyg 2 ( x, y), y 2 g 2 ( x, y) , donde
( )(
g ( x, y) = x 2 + y 2 - 1 4 - x 2 + y 2 ]. )

188
§ 22. Splines

Los splines son de gran importancia en la construcción de funciones básicas especiales con suavidad

predeterminada (Ortega y Poole, 1981; Zienkiewicz y Morgan, 1983).

Spline cuadrático. A veces es necesario aproximar una función por medio de polinomios

distintos en diferentes partes del intervalo. Por ejemplo, hay que restablecer en el segmento [0,1]

una función continua f(x) usando distintos polinomios cuadráticos pi ( x) = ai 2 x 2 + ai1 x + ai 0 en los

segmentos I1 = [0,1/ 3] , I 2 = [1/ 3,2 / 3] y I 3 = [2 / 3,1] , y valores de f(x) en los siguientes puntos:

x 0 1/6 1/3 1/2 2/3 5/6 1

f(x) 1 4 2 1 0 2 1

En cada segmento tenemos tres valores de f(x) en tres distintos puntos x, y por eso es fácil

aproximar la función mediante polinomios cuadráticos pi (x) definidos por tres coeficientes. Como

resultado de la aproximación, obtenemos spline-función

ì - 90 x 2 + 33 x + 1, 0 £ x £ 1 / 3
ï
p ( x) = í - 6x + 4, 1/ 3 £ x £ 2 / 3 (22.1)
ï - 54 x + 93 x - 38 , 2 / 3 £ x £ 1
2
î

La función (22.1) es continua en [0,1]. Sin embargo, no es diferenciable en dos puntos: x=1/3 y

x=2/3.

Consideremos ahora otro problema: hay que restablecer en el segmento [0,1] una función

diferenciable f(x) usando polinomios cuadráticos en los segmentos I i (i=1,2,3) y valores de la

función en los siguientes puntos:

189
x x1 = 0 x2 = 1 / 3 x3 = 2 / 3 x4 = 1

f(x) f1 f2 f3 f4

Definimos p(x) de la manera siguiente: p( x) = pi ( x) si x Î I i (i=1,2,3). Además, tenemos ocho

ecuaciones

p i ( xi ) = f i , pi ( xi +1 ) = f i +1 , i=1,2,3 (22.2)

dpi -1 dp
( xi ) = i ( xi ) , i=2,3 (22.3)
dx dx

que garantizan la continuidad de la función p(x) y su primera derivada en el segmento [0,1]. Es

necesario especificar una relación más para que hallar nueve coeficientes aij (i=1,2,3; j=0,1,2), y

dp
determinar p(x) únicamente. Normalmente, se especifica un valor de (x) en algún nodo, por
dx

ejemplo,

dp1
( x1 ) = d1 (22.4)
dx

Las fórmulas (22.2)-(22.4) representan un sistema de nueve ecuaciones lineales para hallar todos los

coeficientes aij .

Para extender este acercamiento a un número arbitrario de nodos, decimos n, consideremos

n-1 intervalos I i . Definimos p(x) de la manera siguiente: p( x) = pi ( x) si x Î I i (i=1,2,…,n-1).

Además, tenemos 3n-4 ecuaciones

190
p i ( xi ) = f i , pi ( xi +1 ) = f i +1 , i=1,2,…,n-1 (22.5)

dpi -1 dp
( xi ) = i ( xi ) , i=2,3,….,n-1 (22.6)
dx dx

que garantizan la continuidad de la función p(x) y su primera derivada en el segmento [0,1]. De

nuevo, se puede usar (22.4) para hallar 3n-3 coeficientes aij (i=1,2,…,n-1; j=0,1,2), y determinar

p(x) únicamente. El sistema (22.4)-(22.6) se representa también como

ì a i 2 xi2 + a i1 xi + a i 0 = f i , (i = 1,2,..., n - 1)
ï
ï a i 2 xi +1 + a i1 xi +1 + a i 0 = f i +1 , (i = 1,2,..., n - 1)
2

í (22.7)
ï2a i 2 xi +1 + a i1 = 2a i +1, 2 xi +1 + a i +1,1 , (i = 1,2,..., n - 2)
ïî 2a12 x1 + a11 = d 1

(Golub y Ortega, 1992). Al introducir los vectores

a T = {a12 , a11 , a10 , a22 , a 21 , a20 , a32 , a31 , a30 ,..., a n-1, 2 , an-1,1 , an-1,0 }
r

y T = { f1 , f 2 , f 2 , f 3 , f 3 , f 4 ,..., f n-1 , f n-1 , f n ,0,...,0, d1 }


r

se puede escribir (22.7) en la forma matricial:

Aa = y
r r
(22.8)

Spline cúbico (Zienkiewicz y Morgan, 1983; Golub y Ortega, 1992). A menudo, para

obtener una buena aproximación de la solución de una ecuación diferencial, es necesario reconstruir

una función p(x) que tiene dos primeras derivadas continuas. Por ejemplo, la solución numérica de

la ecuación elíptica (21.1) por medio del método de colocación se reduce al problema (21.16) de

álgebra lineal donde los elementos matriciales (21.17) contienen segundas derivadas de las funciones

191
básicas en puntos de la malla. Así, hay que usar las funciones básicas que tienen en el dominio por lo

menos dos derivadas continuas.

Es preciso notar que este problema ya es imposible resolver con los polinomios cuadráticos,

y hay que usar los polinomios cúbicos pi (x) , o de más alto grado. Entonces, el problema que

consideramos ahora es reconstruir tal función p(x) que tiene dos derivadas continuas en el intervalo

total [ x1 , xn ] , y además,

p( x) = pi ( x) si x Î I i (i=1,2,…,n-1) (22.9)

donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 . Ya que p(x) y sus primeras dos derivadas son continuas,

obtenemos 3n-6 ecuaciones:

pi -1 ( xi ) = pi ( xi ) , pi¢-1 ( xi ) = pi¢ ( xi ) , pi¢¢-1 ( xi ) = pi¢¢( xi ) , i=2,…,n-1 (22.10)

dpi d 2 pi
donde pi¢ ( xi ) º ( xi ) y pi¢¢( xi ) º ( xi ) . Pero nos faltan n+2 condiciones adicionales para
dx dx 2

encontrar 4n-4 coeficientes desconocidos aij (i=1,2,…,n-1; j=0,1,2,3). Evidentemente, otras n

ecuaciones son las condiciones de interpolación o aproximación:

p i ( xi ) = f i (i=1,2,…,n-1), p n -1 ( x n ) = f n (22.11)

Sin embargo, todavía faltan dos condiciones. Spline p(x) se llama spline cúbico natural si, además

de (22.10) y (22.11), satisface las condiciones

p¢¢( x1 ) = p¢¢( xn ) = 0 (22.12)

192
Se puede demostrar que entre todos los splines cúbicos, el spline cúbico natural tiene la curvatura

mínima, es decir, si pˆ ( x) es otro spline cúbico que satisface las condiciones (22.10) y (22.11),

entonces

b b

ò [ p¢¢( x)] dx £ ò [ pˆ ¢¢( x)] dx


2 2
(22.13)
a a

donde a = x1 y b = xn . Se puede determinar p(x) por medio del sistema de ecuaciones lineales

(22.10)-(22.12) respecto a coeficientes aij . Es un sistema difícil de manejar debido a que la

estructura de su matriz es arbitraria. Sin embargo, para construir un spline cúbico natural existe otro

método que lleva a un sistema simple con la matriz tridiagonal respecto a los valores de la segunda

derivada p ¢¢( xi ) en los nodos de la malla. Luego, la función p(x) se determina por integración.

Ejercicios:

æ ö
1. Consideremos el problema Au = - å ¶ ç pij ¶u( x) ÷ + q u( x) = f ( x) , 0 < x < a , 0 < y < b ,
2

ç i , j =1
÷ ¶ xi è ¶x j ø
con las condiciones u(0, y) = u(a, y) = 0, u y ( x,0) = u y ( x, b) = 0 en el rectángulo
G = (0 < x1 < a) ´ (0 < x2 < b) . Construya la base ortonormal en G. [Solución:
-1 / 2
æ m2 n2 ö mp x np y
f mn ( x, y) = çç 2 + 2 ÷÷ sin cos , ( m = 1,2,3,...,; n = 0,1,2,3,...) ].
èa b ø a b
mp x np y
f mn ( x, y) = Amn sin cos . Encuentre las amplitudes Amn ].
a b
px
2. Usando el método de elementos finitos, aproxime la función u( x) = 1 + sin en el segmento
2
0 £ x £ 1 . Considere las funciones que consisten de los pedazos constantes y lineales y use el
método de Galërkin.
3. (Golub y Ortega, 1992). Sea f (x) una función con los siguientes valores dados: f (1) = 2 ,
f (2) = 3 , f (3) = 5 , y f (4) = 3 . Usando estos datos, encuentre el spline cuadrático que
satisface la condición p¢(1) = 0 .

193
4. Sea f ( x) = cos(px / 3) y sea P3 ( x) el polinomio cúbico cuyos valores coinciden con los de
f (x) en los puntos x = 0,1, 2, 3 . Use la estimación (10.1) para estimar el error de interpolación
max f ( x) - Pn ( x) .
xÎ[a ,b ]

194
§ 23. Cálculo de splines cúbicos naturales

Consideremos ahora un método especial para reconstruir un spline cúbico natural (22.10)-(22.12)

(Prenter, 1975; Ortega y Poole, 1981; Marchuk, 1982; Golub y Ortega, 1992). Es decir, hay que

hallar una función p(x) tal que tiene dos derivadas continuas en el intervalo total [ x1 , xn ] ,

p( x) = pi ( x) si x Î I i (i=1,2,…,n-1), (23.1)

donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 es un polinomio cúbico, y además,

p¢¢( x1 ) = p¢¢( xn ) = 0 (23.2)

Al principio, notamos que la segunda derivada pi¢¢(x) es una función lineal, y por lo tanto la fórmula

de la interpolación lineal produce

( x - xi )
pi¢¢( x) = pi¢¢( xi ) + [ pi¢¢( xi +1 ) - pi¢¢( xi )] (23.3)
hi

donde hi = xi +1 - xi , i=1,2,…,n-1. Si ahora integramos dos veces (23.3) por x en los límites de x i a

x, obtenemos dos fórmulas:

x
[ pi¢¢( xi +1 ) - pi¢¢( xi )]
pi¢ ( x) = pi¢ ( xi ) + ò pi¢¢(t )dt = pi¢ ( xi ) + pi¢¢( xi )( x - xi ) + ( x - xi ) 2 (23.4)
xi
2hi

x
pi ( x) = pi ( xi ) + ò pi¢ (t )dt = pi ( xi ) + pi¢ ( xi )( x - xi )
xi

( x - xi ) 2 [ pi¢¢( xi +1 ) - pi¢¢( xi )]
+ pi¢¢( xi ) + ( x - xi ) 3 (23.5)
2 6hi

Por conveniencia, usaremos las siguientes denotaciones:


195
f i = pi ( xi ) = pi -1 ( xi ) , f i¢ = pi¢ ( xi ) = pi¢-1 ( xi ) , f i¢¢= pi¢¢( xi ) = pi¢¢-1 ( xi ) (23.6)

Ante todo, sustituimos i por i-1 en (23.4) y luego ponemos x = xi a fin de obtener la primera

fórmula para f i¢ :

hi -1
f i¢ = f i¢-1 + ( f i¢¢+ f i¢-¢1 ) (23.7)
2

Luego, poniendo x = xi +1 en (23.5) y resolviendo la ecuación obtenida respecto a f i¢ llegamos a la

segunda fórmula para f i¢ :

f i +1 - f i h h
f i¢ = - f i¢+¢1 i - f i¢¢ i (23.8)
hi 6 3

Igualando las partes derechas de (23.7) y (23.8) obtenemos

hi -1 f i +1 - f i h h
f i¢-1 + ( f i¢¢+ f i¢-¢1 ) = - f i¢+¢1 i - f i¢¢ i (23.9)
2 hi 6 3

Eliminemos ahora f i¢-1 de (23.9). Con este propósito sustituimos i por i-1 en (23.8) y luego

sustituimos la expresión obtenida en lugar de f i¢-1 en (23.9). Como resultado, obtenemos

f i - f i -1 h h h f - fi h h
- f i¢¢ i -1 - f i¢-¢1 i -1 + ( f i¢¢+ f i¢-¢1 ) i -1 = i +1 - f i¢+¢1 i - f i¢¢ i ,´
hi -1 6 3 2 hi 6 3

y, por tanto,

f i¢-¢1 hi -1 + 2 f i¢¢(hi + hi -1 ) + f i¢+¢1 hi = g i , i=2,…,n-1 (23.10)

donde

æ f i +1 - f i f i - f i -1 ö
g i = 6çç - ÷ (23.11)
è hi hi -1 ÷ø

196
Con las condiciones (23.2), el sistema (23.10), (23.11) tiene n-2 ecuaciones lineales para hallar n-2

desconocidos f i¢¢ (i=2,…,n-1). Se puede escribir el problema en forma matricial:

r r
Hf = g (23.12)

r r
donde f T = { f 2¢¢, f 3¢¢,..., f n¢¢-1 } , g T = {g 2 , g 3 ,...,g n-1 }, y

é2(h1 + h2 ) h2 O 0 0 ù
ê h 2(h2 + h3 ) h3 O 0 ú
ê 2 ú
H =ê O O O O O ú (23.13)
ê ú
ê 0 O O 2(hn -3 + hn - 2 ) hn - 2 ú
êë 0 0 O hn - 2 2(hn -2 + hn -1 )úû

es una matriz muy buena, ya que es tridiagonal, simétrica y con la diagonal principal dominante.

Entonces H es positiva, sus autovalores son positivos y sus autovectores son ortogonales. Por eso,

es fácil resolver el problema (23.12) usando la eliminación de Gauss (sin cambio de filas ni

columnas) o el método de factorización. Las propiedades de la matriz H garantizan la estabilidad de

ambos métodos. Notamos que los métodos iterativos de Jacobi o de Gauss-Seidel convergen en este

caso. Después de hallar f i¢¢ , las primeras derivadas f i¢ se calculan mediante la fórmula (23.8).

Finalmente, encontramos los polinomios pi (x) de la fórmula (23.5):

( x - xi ) 2 ( x - xi ) 3
pi ( x) = f i + f i¢( x - xi ) + f i¢¢ + ( f i¢+¢1 - f i¢¢) (23.14)
2 6hi

donde i=1,2,…,n-1. Al evaluar el valor del spline p(x) en un punto x̂ , primero se debe encontrar

el intervalo I i que contiene este punto, y luego calcular el valor pi (xˆ ) del polinomio

correspondiente pi (x) .

197
Ejemplo 23.1 (Ortega y Poole, 1981; Golub y Ortega, 1992). Calculemos un spline cúbico

natural que tiene los valores siguientes:

x1 = 0 x2 = 1 / 4 x3 = 1 / 2 x4 = 3 / 4 x5 = 1
f2 = 2
f1 = 1 f3 = 1 f4 = 0 f5 = 1

r
Así, n=5, hi = 1 / 4 , el vector g T = {- 48, 0, 48} , y

é4 1 0ù
H = ê1 4 1úú

(23.15)
4
êë0 1 4úû

El sistema de ecuaciones (23.10) tiene la forma siguiente:

4 f 2¢¢ + f 3¢¢ = -192


f 2¢¢ + 4 f 3¢¢+ f 4¢¢ = 0 , f1¢¢= 0, f 5¢¢ = 0 (23.16)
f 3¢¢+ 4 f 4¢¢ = 192

Mediante la eliminación de Gauss, obtenemos

f1¢¢= 0, f 2¢¢ = -48, f 3¢¢ = 0, f 4¢¢ = 48, f 5¢¢ = 0 (23.17)

Luego hallamos f i¢ de la fórmula (23.8):

f1¢ = 6, f 2¢ = 0, f 3¢ = -6, f 4¢ = 0 (23.18)

Finalmente, después de determinar los polinomios pi (x) de la fórmula (23.5), obtenemos:

ì p1 ( x) = 1 + 6 x - 32 x 3 , 0 £ x £ 1/ 4
ï
ï p ( x) = 2 - 24( x - 1 / 4) + 32( x - 1 / 4) , 1 / 4 £ x £ 1 / 2
2 3
p( x) = í 2 (23.19)
ï p3 ( x) = 1 - 6( x - 1 / 2) + 32( x - 1 / 2) , 1/ 2 £ x £ 3 / 4
3

ïî p4 ( x) = 24( x - 3 / 4) - 32( x - 3 / 4) ,
2 3
3/ 4 £ x £ 1

En particular, p(0.35) º p2 (0.35) = 2 - 24(0.1) 2 + 32(0.1) 3 = 1.792 .

198
Ejercicios:

1. (Golub y Ortega, 1992). Sea f (x) una función con los siguientes valores dados: f (1) = 2 ,
f (2) = 3 , f (3) = 5 , y f (4) = 3 . Usando estos datos, encuentre el polinomio de interpolación
del grado 3 y escríbalo en la forma p( x) = a3 x 3 + a2 x 2 + a1 x + a0 .

2. Con los datos del ejercicio 1, encuentre el spline cúbico que satisface las condiciones
p¢¢(1) = 6; p¢¢(4) = -9 .

3. Resuelva el problema (23.12), (23.13) con el método de factorización presentado en § 31.


Demuestre que se cumplen las condiciones de la estabilidad del método de factorización.
4. Sea f (x) una función con los siguientes valores dados: f (1) = 3 , f (2) = 0 , f (3) = 4 , y
f (4) = 2 . Usando estos datos, construya el spline cúbico natural.

199
§ 24. Método de elementos finitos

El método de elementos finitos es actualmente uno de los más populares y poderosos para resolver

problemas diferenciales en los dominios de la forma compleja (Strang y Fix, 1973; Prenter, 1975;

Ciarlet, 1978; De Boor, 1978; Becker y otros, 1981; Marchuk y otros, 1983; Zienkiewicz y Morgan,

1983; Fletcher, 1984; Pepper y Heinrich, 1993; Iserles, 1998). Consideremos de nuevo un problema

elíptico

u ¢¢( x) + q( x) u ( x) = f ( x) , 0 < x < 1


(24.1)
u (0) = 0, u (1) = 0

d 2u
en el segmento [0,1], donde u ¢¢( x) º ( x) . Buscaremos una solución aproximada v(x) del
d x2
problema (24.1) de la forma
N
v( x) = å v j f j ( x) , (24.2)
j =1

es decir, v(x) es la solución del subespacio H N de dimensión N generado por N primeras funciones

básicas {f j ( x)}j =1 . Al aplicar el método de colocación, llegamos al sistema (21.16):


N

r r
Av = f (24.3)

v = {v1 , v2 ,...,v N } consiste de los coeficientes desconocidos v j de la fórmula


r T
donde el vector

(24.2), f = { f1 , f 2 ,..., f N } es el vector dado, f i = f ( xi ) , A es la matriz con elementos


r T

aij = f ¢j¢( xi ) + q( xi ) f j ( xi ) , i, j = 1,2,..., N , (24.4)

y xi = ih ( i = 0,1,..., N + 1 ) son puntos de una malla regular en el segmento (0,1) con tamaño

h = 1 /( N + 1) . En el caso general, la matriz A es densa en contraste a la matriz tridiagonal que surge

200
de aplicar el método de diferencias finitas. Por ejemplo, A es densa cuando las funciones básicas

{f ( x)}
j
N
j =1
son polinomios algebraicos o trigonométricos (§ 21). Sin embargo, ahora demostraremos

que la matriz (24.4) del método de colocación también acepta la forma tridiagonal si en calidad de

funciones básicas f j (x) se usan splines (Prenter, 1975; Golub y Ortega, 1992). Debido a (24.4), la

segunda derivada f ¢j¢(x) tiene que ser continua en los nodos x i de la malla y, por lo tanto, no se

puede usar splines lineales o cuadráticos como f j (x) . Vamos a usar ahora splines cúbicos con el

propósito de reducir lo más posible el ancho de la banda de la matriz A, a saber, obtener una matriz

tridiagonal.

Si q(x) es una función arbitraria, entonces A es tridiagonal sólo si

f ¢j¢( xi ) = f j ( xi ) = 0 cuando i - j ³ 2 (24.5)

Por ejemplo, la condición (24.5) se satisface si f j ( x) = 0 fuera del segmento [ x j -2 , x j +2 ] y, además,

f ¢j¢( x j -2 ) = f j ( x j -2 ) = f ¢j¢( x j +2 ) = f j ( x j +2 ) = 0 (24.6)

B-splines cúbicos. Recordamos que en el segmento [ x1 , x N ] , un spline cúbico p(x)

satisface a las condiciones siguientes:

p( x) = pi ( x) si x Î I i (i=1,2,…,N-1), (24.7)

donde pi ( x) = ai 3 x 3 + ai 2 x 2 + ai1 x + ai 0 es un polinomio cúbico, y además,

pi ( xi ) = pi -1 ( xi ) , pi¢ ( xi ) = pi¢-1 ( xi ) , pi¢¢( xi ) = pi¢¢-1 ( xi ) (24.8)

donde i=2,…,N-1. En el conjunto con N relaciones

201
p i ( xi ) = f i , i=1,2,…,N , (24.9)

las fórmulas (24.7) y (24.8) dan 4n-6 ecuaciones para determinar 4N-4 coeficientes ai 3 , ai 2 , ai1 , ai 0 .

En § 23 definimos splines cúbicos naturales que satisfacen dos condiciones adicionales:

p¢¢( x1 ) = p¢¢( x N ) = 0 (24.10)

Desafortunadamente un spline cúbico natural satisface las condiciones (24.5) sólo si es exactamente

igual a cero. Sin embargo, sin imponer las restricciones (24.10), se pueden construir otros splines

cúbicos definidos como

ì 0 , si x £ x j -2
ï 1
ï 3 ( x - x j -2 ) , x j - 2 £ x £ x j -1
3
si
ï 4h
ï 1 + 3 (x - x ) + 3 (x - x ) 2 - 3 (x - x )3 , si x j -1 £ x £ x j
ï j -1
4h 2
j -1
4h 3
j -1
B j ( x ) = í 4 4h
1 3 3 3
ï + ( x j +1 - x) + 2 ( x j +1 - x) 2 - 3 ( x j +1 - x) 3 , si x j £ x £ x j +1
ï 4 4h 4h 4h
ï 1
ï 4h 3 ( x j + 2 - x ) , x j +1 £ x £ x j + 2
3
si
ï 0 , si x ³ x j+2
î

(24.11)

Es fácil verificar que los splines B j (x) satisfacen (24.5) y (24.6). Notemos que B j ( x j ) = 1 ,

B j ( x j ±1 ) = 1 / 4 , y B j ( xi ) = 0 si i - j ³ 2 . El gráfico de la función B j (x) se representa en la

Fig.24.1. Las funciones B j (x) se llaman splines cúbicos básicos, o simplemente B-splines cúbicos,

ya que el sistema de B-splines {B j ( x)}j =1 representa una base para todos los splines cúbicos. En
N

efecto, sea xi = ih una malla regular ( i = 1,..., N ). Demostraremos ahora que cualquier polinomio

202
B j (x)

x j -2 x j -1 xj x j +1 x j +2

Fig.24.1. Gráfico del spline cúbico básico

cúbico c( x) = a3 x 3 + a2 x 2 + a1 x + a0 se puede presentar como combinación lineal de splines cúbicos

básicos:

N
c( x) = åa j B j ( x) (24.12)
j =1

Primero notemos que en un segmento [ xk , xk +1 ] , (24.12) tiene la forma

k +2
c( x) = åa
j = k -1
j B j ( x) (24.13)

donde a j son constantes incógnitas. Con el fin de hallar a j , escribimos (24.13) de otra manera:

k +2

åa
j = k -1
j B j ( x) = a3 x 3 + a2 x 2 + a1 x + a0 (24.14)

Tomando en cuenta que x Î [ xk , xk +1 ] , usando las fórmulas (24.11) e igualando los coeficientes para

cada potencia de x en ambas partes de la ecuación (24.14), llegamos al sistema de cuatro

ecuaciones lineales algebraicas para hallar cuatro coeficientes desconocidos a j .

203
Aplicación de B-splines. Regresamos ahora al problema elíptico (24.1). Vamos a usar B-

splines cúbicos para construir las funciones básicas {f j ( x)}j =1 que figuran en la matriz (24.4) del
N

método de colocación. Supongamos que xi = ih es una malla regular ( i = 0,1,..., N + 1 ), x0 = 0 y

x N +1 = 1 . Elegimos

f j ( x) = B j ( x) , si j=2,…,N-1,

f1 ( x) = 4 B1 ( x) - B0 ( x) , f N ( x) = 4 BN ( x) - BN +1 ( x) (24.15)

Es fácil verificar que todas las funciones básicas (24.15) satisfacen las condiciones de frontera:

f j (0) = f j (1) = 0 , j=1,…,N (24.16)

Por lo tanto, la solución aproximada (24.2) satisface automáticamente las mismas condiciones.

Valores del spline cúbico B j (x) y sus primeras dos derivadas en los puntos x j -1 , x j y x j +1 se

presentan en Tabla 24.1.

Tabla 24.1. Valores de B-spline cúbico B j (x) y sus derivadas B ¢j (x) y B ¢j¢ (x)

x j -1 xj x j +1
B j (x) 1/4 1 1/4
B ¢j (x) 3/4h 0 -3/4h
B ¢j¢ (x) 3 3 3
-
2h 2 h2 2h 2

204
Por definición (24.11), las funciones B j (x) , B ¢j (x) y B ¢j¢ (x) tienen valores nulos en otros puntos

de la malla. Entonces los elementos de la matriz (24.4) del método de colocación aceptan el aspecto

siguiente:

3
a ii = Bi¢¢( xi ) + q i Bi ( xi ) = - + qi , i = 2,..., N - 1
h2
3 q
a i ,i +1 = Bi¢¢+1 ( xi ) + q i Bi +1 ( xi ) = 2 + i , i = 1,..., N - 2 (24.17)
2h 4
3 q
a i ,i -1 = Bi¢¢-1 ( xi ) + q i Bi -1 ( xi ) = 2 + i , i = 3,..., N
2h 4

Los restantes elementos no nulos, en virtud de (24.15), tienen la siguiente forma:

27 15 6
a11 = - + q1 a21 = - + q2
2h 2 4 h2 (24.18)
6 27 15
a N -1, N = 2 + q N -1 a NN = - 2 + qN
h 2h 4

Así, si se usan los B-splines cúbicos como funciones básicas en (24.4), entonces la matriz A del

sistema (24.3) del método de colocación es tridiagonal, igual que en el método de diferencias finitas.

Además, el grado de aproximación para ambos métodos es igual a O(h 2 ) . Así, con la base (24.15),

el método de colocación es capaz de competir con el método de diferencias finitas. Mayor grado de

aproximación se puede alcanzar sólo con splines más suaves que los splines cúbicos. Por ejemplo, la

aproximación de grado O(h 4 ) se obtiene sólo con splines de quinto grado o más.

Las funciones básicas (24.15) representan un caso muy simple de los elementos finitos, es

decir, funciones que tienen valores no nulos solo en una pequeña parte del dominio (en nuestro caso,

el segmento [0,1]). Al usar los elementos finitos en el método de Rayleigh-Ritz o de Galerkin, la

mayoría de los elementos de la matriz (20.12) o (20.21) es nula, ya que aij es no nulo solo si las

funciones de prueba (elementos finitos) f i (x ) y f j (x) se traslapan. Un método de proyección con

205
elementos finitos se llama método de elementos finitos (Becker y otros, 1981; Marchuk y otros,

1983; Morton y Mayers, 1994).

Ejercicios:

1. Demuestre que todas las derivadas de la función

{
ì exp - 1 /( 4 - x 2 )
u ( x) = í
} si x Î (-2,2)
î 0 si x Ï (-2,2)

son continuas, y u (x) tiene soporte compacto en (-3,3). El último significa que existe un
segmento cerrado [a,b] en (-3,3) (por ejemplo, [-2,2]) tal que u (x) es nula fuera de [a,b].

2. Verifique que la función (24.11) es un spline cúbico que satisface las condiciones (24.5) y
(24.6).
3. Usando el método de elementos finitos, halle la solución del problema
d
u ( x) + u ( x) = 0 , en el intervalo 0 < x £ 1
dx
u (0) = 1

4. Usando el método de elementos finitos, halle la solución del problema


d2
u ( x) - u ( x) = 0 , - 1 < x < 1
d x2 .
u (-1) = 0, u (1) = 1
5. Usando el método de elementos finitos, halle la solución del problema
d2
u ( x) - u ( x) = 0 , 0 < x < 1
d x2
.
d
u (0) = 0, u (1) = 1
dx
6. Demuestre que usando la fórmula recurrente
x +1 / 2
ì1, si x £ 0.5
B m +1 ( x) = òB m ( y ) dy ,
B0 ( x ) = í
x -1 / 2 î0, si x > 0.5
donde x es un número real, and m = 0, 1, 2, ... se puede construir B-splines que son (m - 1) veces
diferenciables y no negativos, que aparecen fuera del intervalo [-m / 2 - 1 / 2, m / 2 + 1 / 2] , y
reducen a un polinomio de grado m encada uno de los intervalos [i, i + 1] para m non y
[i - 1 / 2, i + 1 / 2] para m par e i entero.

7. Dibuje los gráficos de las tres primeras B-splines del ejercicio 6:

206
ì1 - x , si x £ 1
B1 ( x) = í ,
î 0, si x ³ 1

ì2 - ( x - 0.5) 2 - ( x + 0.5) 2 , si x £ 0.5



B 2 ( x) = í ( x - 1.5) 2 , si 0.5 £ x £ 1.5 ,

î 0, si x ³ 1.5

ì(2 - x ) 3 - 4(1 - x ) 3 , si x £ 1

B3 ( x ) = í ( 2 - x ) 3 , si 1 £ x £ 2 .

î 0, si x ³ 2

207
§ 25. Método espectral

La particularidad característica que diferencia el método espectral de otros métodos de proyección

es que las funciones básicas forman la base ortogonal. En problemas unidimensionales el método

espectral se ha usado durante muchos años, y la teoría de las series de Fourier está muy

desarrollada. En las últimas décadas, el método espectral se usa también en problemas bi y

tridimensionales. Por ejemplo, en estudios de dinámica de la atmósfera se usan los armónicos

esféricos que forman la base ortogonal sobre la esfera (Machenauer, 1977; Priestley, 1992; Skiba,

1991, 1993a, García y Skiba, 1999).

Serie de Fourier. La oscilación armónica con tiempo t se describe por la fórmula

A sin(w t + f ) (25.1)

donde A es la amplitud de oscilación, w es la frecuencia angular, y f la fase que define el estado

inicial en el momento t=0. La función (25.1) es periódica con el periodo 2p / w . En general, una

función f(t) es periódica con un periodo p si f(t+p)= f(t) para cualquier t.

Cualquier función periódica continua (con el periodo 2p ) se representa mediante su serie de

Fourier:

¥
f (t ) = å (ak cos kt + bk sin kt ) (25.2)
k =0

Se puede escribir la serie (25.2) mediante las fórmulas de Euler:

e ix + e -ix e ix - e -ix
cos x = , sin x = (25.3)
2 2i

En efecto, definiendo c0 = a0 , ck = 12 (ak - ibk ) y c-k = 12 (ak + ibk ) , obtenemos

¥
f (t ) = åc
k = -¥
k e ikt , (25.4)

208
El producto interno se define mediante la fórmula

p
f ,g = ò f ( x) g ( x)dx
-p
(25.5)

para las funciones continuas, y la fórmula

M
f , g = å f ( xa ) g ( xa ) (25.6)
a =0

para las funciones de malla, donde xa = 2pa /( M + 1) , a = 0,1,2,...,M . La norma de una función,

tanto continua como discreta, se define por el producto interno como

1/ 2
f = f, f (25.7)

px
Observación 25.1. La sustitución t = transforma una función periódica f (t ) con un
2p
æ px ö
período p en la función periódica g ( x) = f ç ÷ con el periodo 2p .
è 2p ø

Teorema 25.1. Las funciones fk ( x) = eikx (k = 0,±1,±2,...) son ortogonales en el segmento

[- p ,p ]. Además,
ì2p , si j = k
f j ,j k = í (25.8)
î0 , si j ¹ k

para las funciones continuas (véase (25.5)), y

ìM + 1 , si ( j - k ) /( M + 1) es entero,
f j ,j k = í (25.9)
î 0 , en caso contrario

para las funciones de malla (véase (25.6)).

Demostración. 1. El caso continuo. Si j ¹ k , entonces

p x =p
e i ( j -k ) x
f j ,j k = ò e e ijx -ikx
dx = =0 (25.10)
-p
i( j - k ) x=-p

209
debido a que la función cos mx es par. Y si j = k , entonces

p p
f k ,j k = ò e e ikx -ikx
dx = ò 1dx = 2p (25.11)
-p -p

2. El caso discreto. Supongamos que los puntos de malla son xa = 2pa /( M + 1) . Tenemos

M M
ì 2pa ü
f j ,j k = å exp{ijxa }exp{- ikxa } = å exp íi( j - k ) ý (25.12)
a =0 a =0 î M + 1þ

ì 2p ü ( j - k)
Es una progresión geométrica con la razón q = exp íi ( j - k ) ý . Si es un número
î M + 1þ M +1

entero, entonces q=1 y la suma es igual a M+1. De lo contrario, q ¹ 1 , pero

M
q M +1 - 1
q M +1
= exp{i( j - k )2p } = 1 y, por lo tanto, f j ,j k = åq = a
= 0 . El teorema se ha
a =0 q -1

demostrado □

b
Sea f = å c jf j donde a = -¥, b = ¥ en el caso continuo, y b - a = M + 1 en el caso
j =a

b
discreto. Se deduce de aquí que f , f k = å c j f j , f k = ck f k , f k para cada k, a £ k £ b , y los
j =a

coeficientes de Fourier se definen por las fórmulas siguientes:

ì 1 p f ( x) exp{- ijx}dx , en el caso continuo


f ,f j ï 2p ò -p
cj = =í (25.13)
f j ,f j ïî M1+1 åa =0 f ( xa ) exp{- ijxa } , en el caso discreto
M

1 p 1 p
Para la serie (25.2), a j = c j + c- j =
p òp
-
f ( x) cos jx dx y b j = i(c j - c- j ) =
p ò p f ( x) sin jx dx .
-

Ejemplo 25.1. Sea

ì- 1, - p < x < 0
f ( x) = í (25.14)
î 1, 0 < x <p

210
la función discontinua. Sin embargo, pertenece al espacio de Hilbert L2 [-p ,p ] . Extendimos esta

función fuera del intervalo [-p ,p ] de manera periódica. Ya que f (x) es impar, entonces a j = 0

para cada j , mientras que

ì 0 , si j es par
1 0 1 p 2 p 2 1 - cos jp ï
bj = -
p òp
-
sin jx dx +
p ò 0
sin jx dx =
p ò 0
sin jx dx =
p j
=í 4
, si j es impar
ïî jp

Por consiguiente,

4æ sin 3x sin 5 x ö
f ( x) = ç sin x + + + ...÷ . □
pè 3 5 ø

Fórmula de Parseval. En varias aplicaciones es útil usar la fórmula de Parseval

¥ p

å cj
2
òp f ( x)
2 2
2p = f = dx (25.15)
j = -¥ -

Esta fórmula es válida sólo para las funciones cuya norma f está acotada.

Truncación de la serie de Fourier. La suma

N
f N (t ) = åc
k =- N
k e ikt , (25.16)

representa un truncamiento de la serie (25.4) por un número N que se llama número de truncación.

El error de aproximación de la función f(t), o de la serie (25.4), por la suma (25.16) se estima como

1/ 2
æ ö
åc
2
f (t ) - f N (t ) = ç 2p ÷ £ f (t ) (25.17)
ç j ÷
è j >N ø

Debido a (25.4), la n-ésima derivada de una función f(t) es

¥
f ( n ) (t ) = å (ik )
k = -¥
n
ck e ikt (25.18)

211
Por lo tanto,

f (t ) - f N (t ) £ N - n f ( n ) (t ) (25.19)

para cada función f (t ) del espacio C[n-p ,p ] , es decir, que tiene n derivadas continuas en el segmento

[- p ,p ]. El factor N - n caracteriza la rapidez con la que convergen las funciones truncadas f N (t )

hacia la función original f (t ) cuando el número de truncamiento N aumenta. Así, la rapidez de

convergencia se aumenta con el grado de suavidad n de la función f (t ) (Skiba, 1994, 1997a, 1998).

Malla equivalente. Consideremos una malla regular en el segmento [- p ,p ]:

xa = 2pa /(2M + 1) , a = 1,2,...,2M + 1 . (25.20)

donde h = 2p /(2M + 1) . Debido a (25.16), una función f ( x, t ) se puede aproximar por la

función truncada

M
f M ( x, t ) = åc k (t ) exp{ikx}, (25.21)
k =- M

Los valores de la función f M ( x, t ) en puntos xa definen una función discreta (función de malla)

M
fˆ ( xa , t ) = åc k (t ) exp{ikxa }, a = 1,2,...,2M + 1 (25.22)
k =- M

que también aproxima la función f ( x, t ) . Si los 2M+1 valores fˆ ( xa , t ) de la función de malla

están dados, entonces los 2M+1 coeficientes ck (t ) se determinan únicamente mediante las fórmulas

1 2 M +1 ˆ
ck (t ) = å f ( xb , t ) exp{- ikxb }, - M £ k £ M
2M + 1 b =1
(25.23)

ya que

212
1 2 M +1 ì1 , k = m
å exp{ikxa }exp{- imxa } = í (25.24)
2M + 1 a =1 î0 , k ¹ m

Así, las fórmulas (25.22) y (25.23) establecen la correspondencia biyectiva entre la función truncada

f M ( x, t ) y la función de malla fˆ ( xa , t ) . Se puede considerar ambas funciones como dos formas

equivalentes para representar (aproximar) la función original f ( x, t ) . Por eso, la malla (25.20) se

llama malla equivalente al número de truncamiento M de la serie de Fourier (25.21) de la

función f ( x, t ) .

Aplicación del método espectral a la ecuación de transporte (Machenauer, 1977).

Consideremos la ecuación unidimensional de transporte

¶f ¶f
+u =0 (25.25)
¶t ¶x

con la velocidad constante u . Se supone que la solución f ( x, t ) es periódica a lo largo de x en el

segmento [- p ,p ]. La solución aproximada f M ( x, t ) de la ecuación (25.25) se busca de la forma

(25.21) donde las funciones básicas son ortogonales debido al teorema 25.1. Si la solución es real,

entonces los coeficientes de Fourier satisfacen la condición

c-k (t ) = ck (t ) (25.26)

Es importante notar que el método espectral es el método de Galërkin con la base especial

fk ( x) = eikx . Sustituyendo (25.21) en (25.25) y usando el teorema 25.1, llegamos al sistema de

2M+1 ecuaciones

dck
= -ikuck , - M £ k £ M (25.27)
dt

213
Entonces, la solución del problema se representa por la serie (25.21) con los coeficientes

ck (t ) = exp{- ikut}, - M £ k £ M .

Ahora comparemos el método espectral con el método de diferencias finitas aplicando ambos

al problema (25.25). En particular, es interesante encontrar las ecuaciones discretas del método de

diferencias finitas que corresponden (son equivalentes) al sistema (25.27). Con este fin,

multipliquemos k-ésima ecuación (25.26) por exp{- ikx b } , y sumemos los resultados sobre k.

Usando (25.22), obtenemos

M
d ˆ
f ( xa , t ) = -u å ikck (t ) exp{ikxa }, a = 1,2,...,2M + 1 (25.28)
dt k =- M

Sustituyendo en (25.28) los coeficientes ck (t ) con la fórmula (25.22), llegamos a la ecuación

2 M +1
d ˆ
f ( xa , t ) = -u å fˆ ( xb , t ) g ( xa - xb ) , a = 1,2,...,2M + 1 (25.29)
dt b =1

donde

ì 2pk (a - b ) ü
{ }
M M
1 2
g ( xa - xb ) = å
2 M + 1 k =- M
ik exp ik ( xa - x b ) = - å
2M + 1 k =1
k sin í
î 2M + 1 þ
ý

Introduciendo los coeficientes

2 M
ì 2pmk ü (-1) k +1
gk = å m sin íî 2M + 1ýþ = 2 sin(pk /(2M + 1))
2M + 1 m=1
(25.30)

y usando su imparidad, g -k = - g k , se puede escribir (25.28) como

{ }
M
d ˆ
f ( xa , t ) = -u å g k fˆ ( xa +k , t ) - fˆ ( xa -k , t ) , a = 1,2,...,2M + 1 (25.31)
dt k =1

214
Entonces, el método espectral es equivalente a la aplicación del método de diferencias finitas en la

malla regular con la utilización de las derivadas centrales en diferencias para aproximar la derivada

¶f / ¶ x :

¶f
{ }
M
( xa , t ) » å g k fˆ ( xa +k , t ) - fˆ ( xa -k , t ) (25.32)
¶x k =1

Según (25.32), la derivada ¶f / ¶ x se determina mediante una serie trigonométrica truncada por el

número de onda M. Es importante notar que (25.31) incorpora todos los puntos de la malla excepto

el punto xa , es decir, la aproximación de la derivada es global y refleja el carácter global de las

funciones básicas fk ( x) = eikx usadas en el método espectral.

Ejercicios:

1. Demuestre que la serie de Fourie de la función f ( x) = sin( 3px) - 5 x 3 en el intervalo [- 1,1] se


presenta sólo mediante funciones básicas sin pjx .

2. Demuestre que la serie de Fourie de la función f ( x) = 7 x 2 - 5 x 4 en el intervalo [- 1,1] se


presenta sólo mediante funciones básicas cos jx .

3. Demuestre que la serie de Fourie de la función f ( x) = 2 sin( 5px) - 5 x 2 en el intervalo [- 1,1] se


presenta mediante las funciones básicas sin pjx y cos pjx .

4. Usando la fórmula (25.18), estime el error de truncación de las series de Fourier en los tres
ejercicios anteriores si N=10 y n=2.
5. (Iserles, 1998). Resuelva el problema
¢ 1 2
- ((1 + x)u ¢( x)) + u ( x) =
1+ x 1+ x
en el intervalo (0,1) con las condiciones u(0) = 0 y u (1) = 1 usando en el dominio [0,1] las
funciones básicas
px
f k ( x) = sin kpx (k=1,2,…,m), y f0 ( x) = sin
2
m
[Sugerencia: Busque la solución aproximada meniante la forma vm ( x) = f 0 ( x) + å c jf j ( x) ].
j =1

215
6. Los armónicos esféricos Ynm (l , m ) = Pnm (m ) eiml donde Pnm (m ) son funciones asociadas de
Legendre del grado n ³ 0 y del número de onda m ( - n £ m £ n ) forman la base ortonormal en
el espacio de funciones en la esfera del radio uno: Ynm , Yl k = d m k d nl . Aquí d m k es el símbolo de
Kroneker. Verifique que para cada n ³ 0 , el problema espectral - Dy = n(n + 1)y para el
operador esférico de Laplace tiene 2n+1 funciones propias que coinciden con los armónicos
esféricos Ynm (l , m ) (- n £ m £ n) y forman la base en un subspacio
H n = {y : - Dy = n(n + 1)y } de los polinomios esféricos homogéneos del grado n.

7. El teorema de adición para los armónicos esféricos del subspacio H n = {y : - Dy = n(n + 1)y }
es
4p n m
Pn0 ( x1 × x2 ) =
r r
å
2n + 1 m = - n
Yn ( x1 ) Ynm ( x2 ) ,

donde x1 y x2 son dos puntos en la superficie de la esfera del radio uno, y x1 × x2 = cosj es
r r
producto escalar de dos vectores-radios de estos puntos. Demuestren la estimación
n
2n + 1
åY
2
m
( x) = . [Sugerencia: Use la fórmula para x1 = x2 y la propiedad del polinomio de
4p
n
m=- n

Legendre: Pn0 (1) = 1 ].

8. Sea - Df = f , donde f y f son polinomios esféricos homogéneos del H n (véase el


ejercicio 7). Demuestre que sus coeficientos de Fourier se relacionan como f mn = n (n + 1) f mn .
9. Sea - Df = f , donde f es una función suave en la esfera. Demuestre que la solución mínima
¥ m
f del problema de Poisson es f = å å [n(n + 1)]-1 f nm . Verifiquen que cada función
n =1 m = -1

f + Const también es la solución. Explique por qué f 00 = 0 es la condición necesaria para


resolver el problema.

216
§ 26. Transformada rápida de Fourier

Ahora consideremos un algoritmo económico para calcular los coeficientes de Fourier {c j }j =0 para
N -1

una función

¥
f ( x) = åc j exp{ijx} (26.1)
j = -¥

cuyos valores son dados en los puntos 2pb / N , b = 0,1,2,..., N - 1 . Sabemos que

1 N -1
2pb ì j 2pb ü
cj =
N
å
b
f(
=0 N
) exp í- i
î N þ
ý (26.2)

Introduciendo las designaciones

ì 2p ü 1 2pb
w = exp í- i ý , ab = f( ) (26.3)
î Nþ N N

es posible presentar el problema de otra manera, es decir, hay que hallar los coeficientes

N -1
c j = å ab w jb donde wN = 1 (26.4)
b =0

Si por una operación designamos una multiplicación compleja más una adición compleja, entonces,

usando el esquema de Horner, hay que hacer N operaciones para calcular cada coeficiente c j , es

decir, se puede resolver este problema con N 2 operaciones. Sin embargo, con la transformada

rápida de Fourier, es necesario hacer sólo N (r1 + r2 + ... + rp ) operaciones si r1 × r2 Lrp = N . De esta

manera, si N = 2 7 = 128 entonces el número total de operaciones al usar la transformada rápida de

Fourier es 27 ×14 = 1792 en lugar de N 2 = 214 = 16384 .

217
La transformada rápida de Fourier fue desarrollada por Cooley y Tukey (1965), y ha causado

un cambio drástico en las aplicaciones del método de Fourier en los cálculos.

Consideremos ahora un caso especial de este método cuando N = 2 k . Ponemos en (26.4)

b = 2n cuando b es par, y b = 2n + 1 cuando b es impar, es decir, 0 £ n £ 12 N - 1 . Con las

nuevas designaciones, la fórmula (26.4) acepta el aspecto siguiente:

1
N -1 1
N -1

å a (w ) å a (w )
2 2
2 jn 2 jn
cj = 2n + 2 n +1 wj (26.5)
n =0 n =0

Sea a el cociente y g el resto al dividir j entre 1


2 N: j = a × 12 N + g . Debido a que w N = 1 ,

obtenemos

(w ) = (w ) (w ) ( ) (w ) ( )
1
2 jn 2 a 2Nn 2 gn an 2 gn gn
= wN = w2
Definiendo
1
N -1 1
N -1

å a (w ) 2 gn
å a (w )
2 2
g n
b(g ) = 2n , y d (g ) = 2 n+1
2
(26.6)
n =0 n =0

( g = 0,1,2,..., 12 N - 1 ) se puede escribir (26.5) de la forma

c j = b(g ) + w j d (g ) , j = 0,1,2,..., N - 1 (26.7)

Observación 25.1. Notamos que el cálculo de los coeficientes c j se reduce al cálculo de los

coeficientes b(g ) y d (g ) . Para hallar tanto b(g ) como d (g ) , aplicamos de nuevo la

transformada rápida de Fourier. Sin embargo, en lugar de sumar N = 2 k términos en la fórmula

original (26.4), ahora hay que sumar sólo 1


2 N = 2 k -1 términos en dos fórmulas (26.6). Después de

hallar b(g ) y d (g ) , el número de operaciones requeridas para calcular c j usando (26.7) no

j
supera 2 N = 2 × 2 k (N operaciones para calcular w , y otros N operaciones para hacer cálculos

según la fórmula (26.7). □

218
Luego, aplicando la misma idea a las sumas (26.6), reducimos la solución del problema

original (26.4) al cálculo de cuatro sumas del tipo (26.6), pero con 2 k - 2 términos cada uno, etc.

Designemos con p k el número total de operaciones requeridas para los coeficientes c j cuando

N = 2 k . Según este procedimiento, tenemos

pk £ 2 pk -1 + 2 × 2 k , k=1,2,3,… (26.8)

Ya que p0 = 0 y k = log 2 N , por inducción obtenemos que cuando N = 2 k , la transformada rápida

de Fourier resuelve el problema con pk £ 2k × 2 k = 2 N × log 2 N operaciones.

Ejercicios:

1. ¿Por qué la eficiencia máxima de la transformada rápida de Fourier se alcanza cuando N = 2 k ?


2p
2. Sea {xi } una malla regular con tamaño h. Demuestre que la senoide A sin x con la
(n + 1)h
2pn
longitud de (n + 1)h se interpreta erróneamente como la senoide B sin x con la longitud
(n + 1)h
de [(n + 1) / n]h , es decir, ambas senoides tienen los mismos valores en todos los puntos x i . El
caso particular n=3, A = -1 y B = 1 está presentado en Mezinger y Arakawa (1976). Encuentre
la relación entre A y B (véase § 9). Explique los signos opuestos de las amplitudes A y B de las
ondas.
3. Dibuje dos senoides del ejercicio 2 con n=2, n=4.
4. (Golub y Ortega, 1992). Sea L una matriz triangular inferior y sea U una matriz triangular
superior. Además, lij ¹ 0 para i ³ j y uij ¹ 0 para i £ j . Demuestre que en general todos los
elementos de la matriz LU son no nulos.
5. Encuentre los coeficientes c j del producto de dos polinomios
æ N -1 öæ N -1 ö 2 N -2
ç å a j x j ÷ç å b j x j ÷ = å c j x j
ç ÷ç ÷
è j =0 øè j =0 ø j =0
Muestre que es posible hacer esto con O( N × log 2 N ) operaciones.

6. Aplique la transformada rápida de Fourier a las series

N -1
pkj 2 N -1
pkj
c j = å ak sin , 1 £ j £ N -1 , ak = å c sin j .
k =1 N N j =1 N

219
Capítulo V. Métodos exactos para problemas lineales

Se usan métodos numéricos de álgebra lineal para resolver los sistemas de las ecuaciones

algebraicas lineales, hallar matrices inversas, calcular los determinantes, autovalores y

autovectores de las matrices. Todos los métodos desarrollados para resolver un sistema de

ecuaciones algebraicas lineales pueden dividirse en dos grupos. Al primer grupo pertenecen los

métodos exactos (o directos), es decir, los algoritmos que permiten obtener la solución de un

sistema a base de un número finito de operaciones aritméticas. Aquí figura la conocida regla de

Cramer para hallar la solución por medio de determinantes, el método de eliminación de Gauss y

otros métodos basados en la factorización-LU o la factorización QR de la matriz. Entre todos los

métodos de este grupo ocupa un lugar especial el método de factorización para las matrices

tridiagonales. Cabe señalar que a pesar de su gran importancia teórica, la regla de Cramer no se

usa en las computadoras, ya que requiere un número de operaciones aritméticas mucho mayor

que el método de Gauss. Normalmente, los métodos exactos se emplean para resolver los

sistemas lineales con las matrices n ´ n cuando el número n no es muy grande (por ejemplo, es

menor que un millón). El segundo grupo contiene los métodos aproximados, o iterativos. Estos

métodos se aplican cuando el número n de la matriz es grande. Estudiamos aquí el método de

Jacobi (iteraciones simples), el método de Gauss-Seidel, el método de SOR, etc. Para un estudio

más profundo de los métodos de ambos grupos se recomiendan los trabajos de Faddeev y

Faddeeva (1963), Fox (1964), Wilkinson (1965), Gantmacher (1966), Forsythe y otros (1977),

Lawson y Hanson (1974), Hageman y Young (1981), Marchuk (1982), Golub y Ortega (1992), y

Ciarlet (1995).

220
§ 27. Factorización LU

Todos los métodos exactos de solución de los sistemas de ecuaciones algebraicas lineales están

basados en una forma de factorización´de la matriz en el producto de dos matrices que tienen la

estructura simple. Empesamos a estudiar los métodos de factorización con el teorema LU (Parlett,

1980). Las condiciones de este teorema garantizan la existencia de la factorización A = LU ,

donde L es una matriz triangular inferior, y U es una matriz triangular superior. En efecto, si tal

factorización existe, entonces el problema original

r r
Ax = b (27.1)

se escribe como
r r
L(U x ) = b (27.2)

y se reduce a la solución sucesiva de los dos sistemas:

r r
Ly = b y Ux = y
r r
(27.3)

Ya que tanto L como U son matrices triangulares, cada uno de los sistemas (27.3) se resuelve

fácil y exactamente (véase en § 4 las fórmulas (4.18), (4.19)).

Teorema 27.1 (teorema LU). Sea A una matriz n ´ n . Designamos por Ak la matriz

k ´ k formada por intersección de primeras k filas y columnas de la matriz A. Si det( Ak ) ¹ 0 para

cada k (k=1,2,…,n-1), entonces existe sólo una matriz triangular inferior L = {lij } con mii = 1

(i=1,2,…,n), y sólo una matriz triangular superior U = {uij } tal que

LU = A (27.4)

221
Demostración. Usamos la inducción matemática con n. Para n=1, la factorización m11 = 1 ,

u11 = a11 es única. Supongamos que el teorema es válido para n=k-1, es decir, Lk -1U k -1 = Ak -1 .

Entonces, para n=k, presentamos Lk , U k y Ak de la forma siguiente:

éA d ù é Lk -1 0ù
r r
éU u ù
r
Ak = ê rkT-1 ú , Lk = ê r T ú , U k = ê rkT-1 (27.5)
ëc akk û ël 1û ë0 u kk úû

r r r r
donde c , d , l y u son vectores columnas con (k-1) componentes cada uno. Si identificamos el

producto Lk U k con la matriz Ak entonces obtenemos las cuatro ecuaciones:

r r r r r
Lk -1U k -1 = Ak -1 , Lk -1u = d , l T U k -1 = c T , l T u + u kk = a kk
r
(27.6)

Según la hipótesis de la inducción, las matrices Lk -1 y U k -1 están únicamente determinadas y son

no singulares, ya que

det( Lk -1 ) × det(U k -1 ) = det( Ak -1 ) ¹ 0 (27.7)

r r
y, por lo tanto, los vectores u y l también están únicamente determinados por el segundo y

tercero sistemas triangulares (27.6). Finalmente, el número u kk se determina de la última

ecuación (27.6). Entonces, Lk y U k están únicamente determinadas. El teorema queda

demostrado. □

Observación 27.1. Cuando det( Ak ) ¹ 0 para un número k (k=1,2,…,n-1), la factorización

LU de la matriz A puede no existir como lo muestra el siguiente ejemplo simple. Sea

é0 1ù
A=ê ú
ë1 1û

Suponiendo que la factorización A = LU existe, obtenemos

él 0 ù éu11 u12 ù él11u11 l11u12 ù é0 1ù


LU = ê 11 ú ×ê ú =ê ú=ê ú
ël 21 l 22 û ë 0 u 22 û ël 21u11 l 21u12 + l 22u 22 û ë1 1û
222
Ya que l11u11 = 0 , hay dos opciones: l11 = 0 (y, por tanto, la primera columna de la matriz LU es

nula), o u11 = 0 (y, por tanto, la primera fila de la matriz LU es nula). En ambos casos llegamos a

una contradicción. Entonces, A ¹ LU . □

Hay una variante especial de la factorización A = LU cuando A es una matriz simétrica y

positiva. Se llama factorización de Cholesky. La demostración está basada en la afirmación

siguiente:

Criterio de Sylvester. Una matriz simétrica A de orden n es positiva si y sólo si

det( Ak ) > 0 para cada k (k=1,2,…,n). □

Teorema 27.2. Si A es una matriz simétrica y positiva, entonces existe sólo una

factorización

A = RT R (27.8)

donde R es una matriz triangular superior con todos los elementos positivos en su diagonal

principal.

Demostración. Debido al teorema 27.1, A = LU . Notemos que det( Lk ) = 1 . Se deducen de aquí

las fórmulas

det( Ak ) = det( Lk ) × det(U k ) = det(U k ) (27.9)

y
det( Ak ) = u kk det( Ak -1 ) . (27.10)

Tomando en consideración (27.9), (27.10), y el criterio de Sylvester, obtenemos

det( Ak )
u11 = a11 > 0 , y u kk = >0 , k=2,3,…,n (27.11)
det( Ak -1 )

223
Introduciendo la matriz diagonal positiva D = diag{u11 , u 22 ,K, u nn } se puede escribir la

factorización de la forma

A = LU = LDD-1U = LDP

donde P = D -1U . Además, notemos que L y P son matrices triangulares, únicamente

determinadas, y con todos los elementos en sus diagonales principales iguales a uno. Por la

simetría de la matriz A, tenemos A = AT = P T DLT = LDP , o bien, L = P T = U T D -1 .

Definiendo la matriz R como R = D -1 / 2U , obtenemos

R T R = (U T D -1 / 2 )( D -1 / 2U ) = (U T D -1 )U = LU = A

El teorema queda demostrado. □

Ejemplo 27.1. Sea

é 1 -1 0 0 0 ù
ê- 1 2 - 1 0 0 ú
ê ú
A = ê 0 -1 2 -1 0 ú
ê ú
ê 0 0 - 1 2 - 1ú
êë 0 0 0 - 1 2 úû

Esta matriz es simétrica y positiva (según el criterio de Sylvester), y aparece al discretizar el

¶ 2j
operador Aj = -a 2
en la malla regular x i (i=0,1,…,6) con el tamaño h = a y las
¶x2

condiciones j1 = j 0 y j 6 = 0 en los puntos de la frontera. Según el teorema 27.2, la

factorización de A tiene forma A = R T R , donde

é1 - 1 0 0 0 ù
ê0 1 - 1 0 0 ú
ê ú
R = ê0 0 1 - 1 0 ú . □
ê ú
ê0 0 0 1 - 1ú
êë0 0 0 0 1 úû
224
Ejercicios:

1. Sea det( Ak ) ¹ 0 para cada k (k=1,2,…,n-1), pero det( A) = det( An ) = 0 (A es singular).


Demuestre que el resultado del teorema LU sigue siendo válido con la particularidad de que
u nn = 0 .

2. Sea A una matriz y sea A=LU su factorización LU. Demuestre que la matriz B=UL es
semejante a A, y por lo tanto, sus autovalores coinciden con los de la matriz A. [Sugerencia:
A = LBL-1 ].
3. Demuestre que la factorización A=LU conserva la estructura de banda de las matrices, es
decir, si aij = 0 para i - j ³ p , entonces lij = 0 para i - j ³ p y uij = 0 para j - i ³ p .

é 2 -1 4 0ù
ê 4 -1 5 1úú
4. Encuentre la factorización LU de la matriz ê .
ê- 2 2 - 2 3ú
ê ú
ë0 3 -9 4û

5. (Golub y Ortega, 1992). Sea A = R T R la factorización (27.8) de una matriz simétrica y


positiva A. Sea R ~ una matriz obtenida mediante el cambio del signo de cada elemento R de
ij
~ T ~
la i-ésima fila de R. Demuestre que A = R R . Esta significa que la factorización (27.8) no es
única. Sin embargo, es única cuando R tiene todos los elementos positivos en su diagonal
principal.

6. A veces, la factorización de Cholesky se presenta como A = BB T donde B es una matriz


triangular inferior con todos los elementos positivos en su diagonal principal (Ciarlet, 1995).
i -1
Las fórmulas de la factorización A = BB T son bii = aii - å bik2 para i = 1,..., n . Luego
k =1
j -1
aij - å bik b jk
bij = k =1
para i = j + 1,..., n . Usando estas fórmulas demuestre que la
b jj
factorización de Cholesky conserva la estructura de banda de las matrices, es decir, si aij = 0
para i - j ³ p , entonces bij = 0 para i - j ³ p .

é1 2 3 4 ù
ê ú
7. (Ciarlet, 1995). Encuentre la factorización de Cholesky de la matriz ê2 5 1 10 ú .
ê3 1 35 5 ú
ê ú
ë4 10 5 45û

8. Sea A una matriz simétrica, pero no todos sus elementos diagonales son positivos. ¿Cuántas
distintas factorizaciones de Cholesky existen en este caso?

225
§ 28. Método de Gauss

En este apartado estudiamos el método de Gauss (la eliminación gaussiana) que sigue siendo uno

de los más famosos y mejores métodos para resolver un sistema de ecuaciones lineales (Volkov,

1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles, 1998).

Un caso particular. Para facilitar la exposición del método de eliminación de Gauss,

examinemos un sistema de cuatro ecuaciones algebraicas lineales


r r
Ax = b , (28.1)

o bien,

åa
j =1
ij x j = bi , i=1,2,3,4 (28.2)

Es conveniente introducir nuevas designaciones: aij( 0 ) º aij y bi = ai(50) donde i,j=1,2,3,4.

Entonces el sistema (28.2) se puede escribir como

(0)
a11 x1 + a12
( 0)
x2 + a13
( 0)
x3 + a14
( 0)
x4 = a15( 0)
a21 x1 + a22 x2 + a23 x3 + a24 x4
(0) ( 0) ( 0) ( 0)
= a25
(0)
, (28.3)
(0)
a31 x1 + a32
( 0)
x2 + a33
( 0)
x3 + a34
( 0)
x4 = a35
(0)

a41 x1 + a42 x2 + a43 x3 + a44 x4


(0) ( 0) ( 0) ( 0)
= a45
(0)

o en una forma más compacta:

åa
j =1
(0)
ij x j = ai(50) , i=1,2,3,4 (28.4)

(0)
El coeficiente a11 , que multiplica la primera incógnita x1 en la primera ecuación (28.3), se

conoce como el pivote (elemento rector) en este primer paso de eliminación. Supongamos que

( 0)
a11 ¹ 0 . De lo contrario, por un cambio de filas y/o columnas siempre es posible hacer que la

( 0)
condición a11 ¹ 0 se cumpla. Al dividir la primera ecuación (28.3) entre a11
(0)
, obtenemos una

ecuación nueva:

226
x1 + a12
(1)
x2 + a13
(1)
x3 + a14
(1)
x4 = a15
(1)
(28.5)

donde a1(1j) = a1( 0j ) / a11


(0)
, j=2,3,4,5. Eliminemos la incógnita x1 en cada una de las ecuaciones del

sistema (28.3) a partir de la segunda, a base de sustraer la ecuación (28.5) multiplicada por el

coeficiente de x1 en la ecuación correspondiente. Las ecuaciones transformadas adquieren la

forma siguiente:

(1)
a 22 x2 + a 23
(1)
x3 + a 24
(1)
x4 = a 25
(1)

(1)
a32 x2 + a33
(1)
x3 + a34
(1)
x4 = a35
(1)
, (28.6)
a 42 x2 + a 43 x3 + a 44 x4 = a 45
(1) (1) (1) (1)

o bien,

åa
j =2
(1)
ij x j = ai(51) , i=2,3,4 , (28.7)

donde aij(1) = aij( 0) - a1(1j) × ai(10) , i=2,3,4; j=2,3,4,5.

(1)
Ahora supongamos que el pivote a 22 (1)
también es distinto de cero: a22 ¹ 0 . Entonces, al

dividir la primera ecuación (28.6) entre este coeficiente, obtendremos la ecuación

x2 + a23
( 2)
x3 + a24
( 2)
x4 = a25
( 2)
(28.8)

donde a2( 2j) = a2(1j) / a22


(1)
, j=3,4,5. Al eliminar, mediante la ecuación (28.8), la incógnita x2 en las

dos últimas ecuaciones del sistema (28.6), llegamos a las ecuaciones

( 2)
a33 x3 + a34
( 2)
x4 = a35
( 2)
, (28.9)
( 2)
a 43 x3 + a 44
( 2)
x4 = a 45
( 2)

o bien,

åa
j =3
( 2)
ij x j = ai(52) , i=3,4, (28.10)

donde aij( 2 ) = aij(1) - a2( 2j) × ai(21) , i=3,4; j=3,4,5.

227
( 2)
Si a33 ¹ 0 , entonces, dividiendo entre este pivote la primera ecuación (28.9), y restando

( 2)
la ecuación hallada, multiplicada por a43 de la segunda ecuación del sistema (28.9), obtenemos

x3 + a34
( 3)
x4 = a35
( 3)
(28.11)

( 3)
a44 x4 = a45
( 3)
(28.12)

donde a3(3j) = a3( 2j ) / a33


( 2)
, a 4(3j) = a 4( 2j) - a3( 3j) × a 43
( 2) ( 3)
, j=4,5. Por último, si a 44 ¹ 0 , entonces

x4 = a45
( 4)
(28.13)

( 4)
donde a45 = a45
( 3) ( 3)
/ a44 .

(0) (1) ( 2) ( 3)
Así pues, si los pivotes a11 , a 22 , a33 y a44 son distintos de cero, entonces el sistema

(28.3) es equivalente al siguiente sistema simplificado con una matriz triangular superior:

x1 + a12
(1)
x2 + a13
(1)
x3 + a14
(1)
x4 = a15
(1)

x2 + a23
( 2)
x3 + a 24
( 2)
x4 = a25
( 2)
(28.14)
x3 + a34
( 3)
x4 = a35
( 3)

x4 = a 45
( 4)

obtenido a base de unir las ecuaciones (28.5), (28.8), (28.11) y (28.13). El proceso de reducción

del sistema (28.3) a la forma triangular (28.14) se llama carrera directa del método de Gauss.

Luego, las incógnitas x1 , x2 , x3 , y x4 del sistema (28.14) se calculan por sustitución regresiva

según las fórmulas

x4 = a45
( 4)

x3 = a35
( 3)
- a34
( 3)
x4
(28.15)
x2 = a25 - a23 x3 - a24
( 2) ( 2) ( 2)
x4
x1 = a15 - a12 x2 - a13 x3 - a14
(1) (1) (1) (1)
x4

La búsqueda de las incógnitas mediante las fórmulas (28.15) se llama carrera inversa del método

de Gauss.

228
Observación 28.1. En la realidad, el método de Gauss se basa en la factorización
r r
A = LU de la matriz A del sistema original L(U x ) = b , y se reduce a la solución sucesiva del

r r r r
sistema Ly = b (la carrera directa) y del sistema U x = y (la carrera inversa). □

El caso general. Análogamente, utilizando el método de Gauss se resuelve el sistema de

un número arbitrario n de ecuaciones algebraicas lineales. Sea dado el sistema

åa
j =1
( 0)
ij x j = ai(,0n)+1 , i=1,2,…, n (28.16)

( 0)
Si a11 ¹ 0 y los pivotes aii(i -1) , i=2,3,…, n de las demás filas, que se obtienen en el curso de los

cálculos, son distintos de cero, entonces, el sistema (28.16) se reduce a la siguiente forma

triangular (la carrera directa):

n
xi + åa
j =i +1
(i )
ij x j = ai(,in)+1 , i=1,2,…, n (28.17)

donde

k = 1,2, K , n { j = k + 1, K , n + 1 {
akj( k ) = akj( k -1) / akk( k -1) ;
i = k + 1, K n + 1 { (28.18)

aij( k ) = aij( k -1) - akj( k ) × aik( k -1) }}}


La carrera inversa, donde las incógnitas se calculan por sustitución regresiva, se realiza por

medio de las fórmulas

xn = an( n,n)+1 ;
i = n - 1, n - 2, K , 1 (28.19)
ì n ü
í xi = ai ,n+1 -
(i )
å aij(i ) x j ý
î j =i +1 þ

229
r r
Observación 28.2. Sea dado el sistema Ax = b con una matriz A simétrica. Si la

eliminación gaussiana se realiza sin ningún cambio de filas y columnas, entonces se puede

demostrar por inducción que para cada paso k,

aij( k ) = a (jik ) ,

es decir, los elementos transformados de la matriz siempre forman matrices simétricas de la

dimensión n +1 - k . Si es el caso, entonces es necesario calcular sólo los elementos de estas

matrices que están en la diagonal principal y arriba de esa diagonal. □

r r
Factorización de Cholesky. Sea dado un sistema Ax = b donde A es una matriz

simétrica y positiva. En virtud del teorema 27.2, usamos la factorización A = R T R donde

R T = {rij } es una matriz triangular inferior con todos los elementos positivos en su diagonal

principal ( rii > 0 para cada i). Tenemos

é r11 L 0 O 0ù ér11 L ri1 O rn1 ù é a11 L a1i O a1n ù


êM O O O M úú êM O O O M úú êê M O O O M úú
ê ê
ê ri1 O rii O 0ú ê0 O rii O rni ú = ê ai1 O aii O ain ú (28.20)
ê ú ê ú ê ú
êO O O O Mú êO O O O M ú êO O O O M ú
êërn1 O rni O rnn úû êë 0 O 0 O rnn úû êëan1 O ani O a nn úû

Entonces (vease ejercicio 6 del apartado 27), r11 = (a11 ) ri1 = ai1 / r11
1/ 2
, (i=2,3,…, n). En

general,

i j
aii = å rik2 , aij = å rik r jk (j<i)
k =1 k =1

La factorización de Cholesky se puede presentar como

230
ìï æ j -1
2 ö
1/ 2

j = 1,2, K , n ír jj = çç a jj - å r jk ÷÷ ;
ïî è k =1 ø
ì j -1
üü
ïï a ij - å rik r jk ïï
ïï
(28.21)
i = j + 1, K n írij = k =1
ýý
ï r jj ïï
ïî ïþïþ

Observación 28.3. El algoritmo de Cholesky tiene las ventajas siguientes sobre el

método general de Gauss:

1) requiere la mitad de operaciones aritméticos,

2) la memoria requerida es también de la mitad,

3) conserva el ancho de la banda cuando A es una matriz de banda,

4) se puede guardar los valores rij en el lugar de aij .

Sin embargo, no es siempre posible realizar la eliminación de Gauss con una matriz simétrica

sin ningún cambio de filas y columnas. Por ejemplo, sea dada la matriz

é0 1 ù
A=ê ú
ë1 e û
Ya que el pivote de la primera fila es nulo, el cambio de columnas transforma a A en la matriz

é1 0ù
A=ê ,
ëe 1úû
es decir, destruye la simetría de la matriz original. Además, el ejemplo muestra que el algoritmo

de Gauss con una matriz simétrica puede ser inestable si e es muy pequeño: e << 1 . □

Ejercicios:

1. Demostrar que el método de eliminación de Gauss es equivalente a la multiplicación de la


r r
matriz A del sistema original Ax = b por una matriz triangular inferior F , además, FA=B
donde B es una matriz triangular superior con todos sus elementos diagonales iguales a uno.
Si denotemos C = F -1 , entonces A=CB está factorizada y los elementos de la matriz C se
j -1
calculen mediante las formulas: cij = aij - å cip bpj (i ³ j )
p =1

231
r r
2. La solución del problema Ax = b está relacionada estrechamente con la búsqueda de la
r
matriz inversa A -1 (en efecto, formalmente xr = A -1b ). Existe un algoritmo para calcular A -1
(Faddeev y Faddeeva, 1963) que usa la representación de las matrices en la forma de bloques:
éS
A=ê

D úû
y éK
A -1 = ê

N úû
. Demuestre que (
K = S - BD-1C )
-1
, M = - D -1CK ,
ëC ëM
( )
-1
N = D - CS -1 B , y L = -S -1 BN . Así, la búsqueda de la matriz inversa A -1 se reduce a
cuatro problemas con matrices de dimensión más pequeña.

3. Encuentre A -1 por el método del ejercicio 2 para la matriz simétrica A = éê S B ùú donde


C Dë û
é1.00 0.42 ù , é0.54 0.66 ù , é0.54 0.32 ù , é1.00 0.22 ù .
S=ê ú B=ê ú C=ê ú D=ê ú
ë0.42 1.00 û ë0.32 0.44 û ë0.66 0.44 û ë0.22 1.00 û
é 2.50758 - 0.12305 - 1.01148 - 1.37834 ù
ê- 0.12305 1.33221 - 0.26142 - 0.44745 ú
[Resultado: A -1 =ê ú . Notemos que la inversa de una
ê - 1.01148 - 0.26142 1.53183 0.44560 ú
ê ú
ë - 1.37834 - 0.44745 0.44560 2.00855 û
matriz simétrica también es simétrica, y por lo tanto, M = LT ].

4. Una matriz H = {hij } se llama matriz de Hessenberg si hij = 0 cuando i > j + 1 . ¿Cuántas
r r
operaciones se requieren para resolver el sistema H x = b por el método de eliminación de
Gauss?

232
§ 29. Factorización QR mediante transformaciones de Givens

Sea A una matriz real n ´ n . Ahora demostramos que siempre existe la factorización

A = QR (29.1)

donde Q es una matriz ortogonal, mientras que R es una matriz triangular superior (Faddeev y

Faddeeva, 1963; Parlett, 1980; Golub y Ortega, 1992). La factorización QR es de gran


r r
importancia para resolver el sistema de las ecuaciones algebraicas lineales Ax = b , ya que en este
r r
caso, la solución del problema original Q( R x ) = b se reduce a la solución sucesiva de dos

r r r r
sistemas simples: primero el sistema Q y = b y luego el sistema R x = y . El último sistema

coincide con el de la carrera inversa del método de Gauss, mientras que la solución del primer
r r r
sistema es y = Q -1b = QT b debido a que Q -1 = Q T para la matriz ortogonal.

Obtendremos la matriz Q como producto de matrices ortogonales simples basadas en la

matriz de rotación de la dimensión 2:

é cosJ sin J ù
ê- sin J cosJ ú (29.2)
ë û

Con fin de este, generalicemos estas matrices a matrices de dimensión n :

é 1 ù
ê O ú
ê ú
ê 1 ú
ê ú
ê cij L L L sij ú
ê M 1 M ú
ê ú
Pij = ê M O M ú (29.3)
ê M 1 M ú
ê ú
ê - sij L L L cij ú
ê 1 ú
ê ú
ê O ú
ê ú
ë 1 û

233
donde cij = cosJij y sij = sin Jij están situados en las filas y columnas i-ésima y j-ésima como se

indica. Las matrices (29.2) y (29.3) se llaman matrices de rotación del plano, o transformaciones

de Givens. Mientras que la matriz (29.2) define una rotación del plano, la matriz Pij realiza una

rotación del plano (i, j ) en el espacio de dimensión n.

Con el fin de lograr la factorización QR vamos a usar matrices Pij para transformar la

matriz original A en una matriz triangular superior, es decir, para reducir a cero todos los

elementos debajo de la diagonal principal de la matriz A. Como resultado, obtenemos la matriz R


r
de la factorización requerida. Designamos la fila i-ésima de la matriz A por a i . Al multiplicar A

por P12 , obtenemos la matriz

r r
é c12 a1 + s12 a 2 ù
ê- s ar + c ar ú
ê 12 1r 12 2 ú
P12 A = ê a3 ú (29.4)
ê ú
ê M ú
êë r úû
an

Si elegimos s12 y c12 de tal manera que

- s12a11 + c12a21 = 0 , (29.5)

entonces P12 A tiene elemento nulo en la posición (2,1), y los otros elementos de las primeras dos

filas son distintos de aquellos de A. Para satisfacer (29.5), elegimos

(
c12 = a11 a112 + a21
2
) -1 / 2
, (
s12 = a21 a112 + a21
2
)
-1 / 2
(29.6)

El denominador en (29.6) es distinto de cero si a21 ¹ 0 . Pero, si a21 = 0 entonces la meta ya está

alcanzada, y no es necesario aplicar P12 . Luego, aplicando sucesivamente las

transformaciones P13 , P14 ,..., P1n a la matriz resultante, obtenemos la matriz


234
P1n P1,n-1 LP13 P12 A = A1 (29.7)

que tiene todos los elementos nulos en la primera columna debajo de la diagonal principal.

Similarmente, la matriz

P2n P2,n-1 LP24 P23 A1 = A2 (29.8)

ya tiene elementos nulos en dos primeras columnas debajo de la diagonal principal. Continuando

de manera similar, obtenemos la matriz tridiagonal superior

Pn-1,n ( Pn-2,n Pn-2,n-1 )L( P2n P2,n-1 LP24 P23 )( P1n P1,n-1 LP13 P12 ) A = An-1 (29.9)

Introduciendo dos matrices

P = Pn-1,n ( Pn-2,n Pn-2,n-1 )L( P2n P2,n-1 LP24 P23 )( P1n P1,n-1 LP13 P12 ) (29.10)

R = An-1 , (29.11)

escribimos (29.9) como PA = R donde P es una matriz ortogonal, debido a que es el producto

(29.10) de las matrices ortogonales. Ya que Q = P -1 también es una matriz ortogonal, obtenemos

la factorización requerida

A = P -1 R = QR (29.12)

Observación 29.1. Sea U y V dos matrices ortogonales. Es fácil demostrar que el

producto UV y la matriz inversa U -1 también son ortogonales. En efecto,

(UV )T (UV ) = V T U T UV = V T (U T U )V = V T V = E ,

235
(U -1 )T U -1 = (U T ) -1U -1 = (UU T ) -1 = E -1 = E . □

4 3 2
Observación 29.2. La factorización QR requiere n multiplicaciones y n 3 adiciones.
3 3

Además, el cálculo de los valores cij y sij requiere O(n 2 ) operaciones aritméticas. Así, la

factorización QR requiere aproximadamente cuatro veces más de multiplicaciones y dos veces

más adiciones que la factorización LU (véase § 27). En § 30 consideramos la factorización QR

más económica basada en las transformaciones de Hauseholder. □

Ejercicios:

é1.00 0.42 0.54 0.66ù


ê0.42 1.00 0.32 0.44ú
1. Sea A = ê ú la matriz simétrica. Aplique el QR algoritmo para
ê0.54 0.32 1.00 0.22ú
ê ú
ë0.66 0.44 0.22 1.00 û
encontrar todos los autovalores de A. [Resultado: el polinomio característico es
l4 - 4l3 + 4.752l2 - 2.111856 l + 0.28615248 y autovalores (con la precisión de ocho
dígitos en la mantisa son l1, 2,3, 4 = {2.32274880 , 0.79670669 , 0.63828380 , 0.24226071}].

2. Sea A una matriz ortogonal y A=QR su transformación QR . ¿Qué estructura tiene la matriz
R?
3. (Golub y Ortega, 1992). Sea A=QR la transformación QR de una matriz A. ¿Cuál es la
relación entre det R y det A ?

4. Sea A una matriz normal y sean todos sus autovalores distintos según módulo ( li ¹ l j si
i ¹ j ). Entonces las matrices Ak de la transformación QR convergen a la matriz diagonal de
los autovalores de A.

5. Si A es una matriz de Hessenberg (véase el ejercicio 4, § 28) entonces todas las matrices Ak
de la transformación QR son también matrices de Hessenberg.
6. (Voevodin y Kuznetzov, 1984). Si A es una matriz hermitiana tridiagonal, entonces todas las
matrices Ak de la transformación QR son también matrices hermitianas tridiagonales.

236
§ 30. Factorización QR mediante transformaciones de Householder
rr r r
Definición. Cada matriz de la forma E - 2wwT donde wT w = 1 se llama transformación de

Householder.

rr
Es fácil demostrar que la matriz E - 2wwT es simétrica y ortogonal. En efecto,

( rr
1) E - 2wwT )T rr
= E - 2wwT ,

( rr
)(
rr
2) E - 2wwT E - 2wwT )T rr r r r r
= E - 4wwT + 4w(wT w)wT = E .

La transformación de Householder también se llama matriz de transformación elemental. Ahora

demostramos cómo utilizar las transformaciones de Householder para realizar la factorización QR


r
de una matriz A (Ortega y Poole, 1981; Golub y Ortega, 1992; Ciarlet, 1995). Sea a1 la primera

columna de A. Definimos el vector

r r
w1 = m1u1 (30.1)

donde
r
u1T = (a11 - s1 , a21,K, an1 ) (30.2)

r r
(
s1 = ± a1T a1 )1/ 2
, m1 = (2s12 - 2a11s1 )
-1 / 2
(30.3)

Notemos que el signo de s1 se elige opuesto al signo de a11 con el fin de evitar una posible

división entre cero en la fórmula (30.3) para m1 , es decir, la inestabilidad del algoritmo.

n
De la definición de s1 tenemos åa j =2
2
j1 = s12 - a112 y, por lo tanto,

é ù
( )
n
r r
w1T w1 = m12 ê(a11 - s1 ) + å a 2j1 ú = m12 a112 - 2a11s1 + 2 s12 - a112 = 1
2

ë j =2 û
r r
Entonces P1 = E - 2w1 w1T es la transformación de Householder. Además,

237
é ù
( )
n
r r 1
w1T a1 = m1 ê(a11 - s1 )a11 + å a 2j1 ú = m1 s12 - a11s1 =
ë j =2 û 2 m1

y, por lo tanto,

r r 2(a11 - s1 )m1
a11 - 2w1 w1T a1 = a11 - = s1 (30.4)
2 m1

r r 2a m
ai1 - 2wi w1T a1 = ai1 - i1 1 = 0 , i= 2,3,…, n (30.5)
2 m1

Las fórmulas (30.4) y (30.5) muestran que en la primera columna de la matriz P1 A , todos los

elementos situados debajo de la diagonal principal son iguales a cero:

r r r r r
P1a1 = a1 - 2(w1T a1 )w1 = (s1 ,0,...,0) ,
T
(30.6)

r r
es decir, una transformación ortogonal P1 = E - 2w1 w1T da el mismo resultado que (n-1)

transformaciones de Givens.
r
El segundo paso del método es análogo al primero. En lugar del vector a1 usaremos un
r
vector b2 = (b12 ,b22 ,K,bn 2 ) cuyos componentes representan la segunda columna de la matriz
T

r r
B = P1 A . Se usa la transformación de Householder P2 = E - 2w2 w2T definida por un vector

r r
w2 = m2u2 (30.7)

donde
r
u 2T = (0, b22 - s 2 , b32 , K, bn 2 ) (30.8)

y
r r
(
s2 = ± b2T b2 )
1/ 2
, m 2 = (2s22 - 2b22 s2 )
-1 / 2
(30.9)

238
son análogos a (30.3). Con esta transformación obtenemos que en las dos primeras columnas de

la matriz P2 P1 A , todos los elementos situados debajo de la diagonal principal son iguales a cero.

r r
Continuamos de la misma manera usando las transformaciones Pi = E - 2wi wiT donde los

r r
primeros (i-1) componentes del vector wi = m i ui son iguales a cero. Finalmente, obtenemos

Pn-1 Pn-2 L P2 P1 A = R (30.10)

donde R es una matriz triangular superior. Escribimos (30.10) como PA = R donde la matriz

P = Pn -1 Pn - 2 L P2 P1 es ortogonal, debido a que el producto de las matrices ortogonales es

también una matriz ortogonal. Ya que la matriz Q = P -1 también es ortogonal, obtenemos la

factorización requerida

A = P -1 R = QR (30.11)

r
Ahora veamos de qué manera se transforman otras columnas a i de la matriz A bajo la

matriz ortogonal P1 (i=2,3,…,n). Tenemos

r r
(
r r r r r r r
)
P1 A = A - 2w1 w1T A = A - 2w1 w1T a1 ,w1T a 2 , K,w1T a n , (30.12)

Así pues, la columna i-ésima de la matriz P1 A es

r r r r r r r r
ai - 2(w1T ai )w1 = ai - g 1 (u1T ai )u1 , (30.13)

donde

g 1 = 2m12 = (s12 - s1 a11 )


-1

r r
Es más económico trabajar directamente con g 1 y u1 en (30.13) sin formar el vector w1

explícitamente.

239
Observación 30.1. La factorización QR mediante las transformaciones de Householder

2 3 2
requiere n + O(n 2 ) multiplicaciones y n3 + O(n 2 ) adiciones. Entonces, mientras que el
3 3

número de adiciones coincide con el del método de las transformaciones de Givens, el número de

multiplicaciones es la mitad, es decir, el método nuevo es más económico. Sin embargo, hay

situaciones, donde la aplicación de las matrices de Givens es preferible. □

Observación 30.2. A pesar de que las factorizaciones de Givens y Householder son

estables numéricamente, la eliminación de Gauss es más económica para resolver un sistema de

ecuaciones lineales algebraicas. Sin embargo, la factorización QR es la parte básica del algoritmo

para resolver el problema espectral total. □

Reducción de Householder. El esquema de reducción de Householder tiene el aspecto

siguiente:

ì æ n 2ö
1/ 2
ü
ï s k = - sign (a kk )ç å a lk ÷ ï
ïr è l =k ø ï
ï ï
k=1,…,n-1 íu kT = (0, K ,0,a kk - s k ,a k +1, k , K , a nk )ý
k k (
ï g = s 2 - s a -1 ; a = s
ï k kk ) kk k
ï
ï
îï þï

rT r
ï a j = g k uk a j ü
ì ï
j=k+1,…,n í r r r ý □
îa j = a j - a j u k ï
ï þ

Ejercicios:
rr r r
1. Sea P = E - b wwT , donde wT w = 1 . Demuestre que P es ortogonal sólo si b = 2 .
r r r r r r
2. Sea x ¹ y , x 2
= y 2
, y y * x es real. Entonces existe tal transformación de Householder
r r
H que Hx = y.

3. Sea A = QR . Demuestre que A * A = R * R . La matriz R se llama factor de Cholesky de la


matriz A* A .

240
é2 - 1 1 ù
4. (Ortega y Poole, 1981). Realize la factorización QR de la matriz A = ê2 3 1ú .
ê ú
êë1 - 1 2úû

5. Sea A una matriz de banda (véase la definición en el ejercicio 3, § 27). Demuestre que la
factorización QR conserva la estructura de banda.

éA A3 ù
6. Sea una matriz A=ê 1 que tiene la forma de bloques. Demuestre que
ë0 A2 úû

det( A - lE) = det( A1 - lE) det( A2 - lE) , es decir, los autovalores de A resultan de la unión de

los autovalores de las matrices A1 y A2 .

241
§ 31. Problema de contorno para una matriz tridiagonal

Examinemos el sistema de ecuaciones algebraicas lineales del siguiente tipo especial

aij i -1 - bij i + cij i +1 = f i , i = 1,2,3..., N - 1 (31.1)

con las condiciones

j0 = a '0j1 + b0 , j N = a N j N -1 + bN (31.2)

en donde j0, j1, ..., jN son incógnitas, mientras que ai, bi, ci, fi y a0, aN, b0, bN son

parámetros dados (Godunov y Ryabeñkii, 1964; Marchuk, 1982; Volkov, 1990). Las ecuaciones

(31.1) se llaman tripuntuales, ya que cada ecuación enlaza únicamente tres valores desconocidos

j i -1 , j i y j i +1 . Además, supongamos que los parámetros del sistema satisfacen las siguientes

condiciones:

bi ³ ai + ci + d para cada i, d > 0 , (31.3)

a 0 < 1, a N £ 1 . (31.4)

Demostraremos más tarde que las condiciones (31.3) y (31.4) garantizan la existencia de una sola

solución del problema (31.1), (31.2) y permiten hallar esta solución utilizando un método exacto

llamado método de factorización que es estable y económico. El sistema (31.1), (31.2) también se

puede escribir en la forma vectorial:

r r
Aj = g (31.5)

r r
donde j = (j 0 ,j1 ,K,j N ) es el vector desconocido (la solución), g = (b 0 , f1 , f 2 ,K, f N -1 , b N ) es
T T

el vector dado, y

242
é 1 -a0 0 0 K 0 0 0 ù
êa - b c1 0 K 0 0 0 úú
ê 1 1

ê0 a2 - b2 c2 K 0 0 0 ú
A=ê ú (31.6)
êK K K K K K K Kú
ê0 0 0 0 K a N -1 - b N -1 c N -1 ú
ê ú
ëê 0 0 0 0 K 0 -aN 1 ûú

es la matriz tridiagonal de dimensión n+1, es decir, todos sus elementos no dispuestos en la

diagonal principal y en las dos diagonales vecinas son iguales a cero. El sistema (31.1) se

encuentra a menudo al resolver numéricamente un problema de contorno para la ecuación

diferencial parcial del segundo grado. Las ecuaciones (31.2) se llaman condiciones de contorno.

Sustituyendo la primera condición (31.2), j0 = a 0j1 + b0 , en la primera ecuación del

sistema (31.1), obtenemos

a1 (a 0j 1 + b 0 ) - b1j 1 + c1j 2 = f 1

o bien,

j1 = a1j2 + b1 (31.7)

donde
c1 a b - f1
a1 = , b1 = 1 0 (31.8)
b1 - a1a 0 b1 - a1a 0

Al introducir la expresión (31.7), hallada para j1 , en la segunda ecuación del sistema (31.1),

obtenemos una ecuación que relaciona j 2 y j 3 , etc. Supongamos que ya hemos obtenido la

relación

j k -1 = a k -1j k + bk -1 , k < N - 1 (31.9)

En la k-ésima ecuación del sistema (1) introducimos j k -1 en forma de (31.9):

a k (a k -1j k + bk -1 ) - bk j k + ck j k +1 = f k

243
Resolviendo esta ecuación respecto a j k obtenemos

j k = a k j k +1 + bk (31.10)

donde

ck a b - fk
ak = , bk = k k -1 (31.11)
bk - a k a k -1 bk - a k a k -1

Por consiguiente, los coeficientes de las ecuaciones (31.10) que enlazan los valores contiguos j k

y j k +1 (k = 1, 2, ..., N-1) se puede determinar por medio de las relaciones recurrentes (31.11), ya

que a 0 y b 0 están dados mediante (31.2).

Sustituyendo la expresión j N -1 = a N -1j N + b N -1 , deducida de (31.10) para k = N -1, en la

segunda condición de contorno (31.2) obtenemos

j N = a N (a N -1j N + bN -1 ) + bN (31.12)

donde a N y b N son coeficientes definidos por (31.2), mientras que a N -1 y b N -1 se han

calculado por medio de las fórmulas (31.11). De la ecuación (31.12) hallamos la incógnita j N :

b N + a N b N -1
jN = (31.13)
1 - a N a N -1

Luego, mediante la formula (31.10) se calculan por sustitución regresiva las demás incógnitas

j N -1 , j N -2 , ..., j 0 . Notemos que la fórmula (31.10) coincide (para k = 0) con la primera

condición de contorno (31.2). El proceso de cálculo de los coeficientes a k y b k por medio de

las fórmulas (31.11) donde k = 1, 2, ..., N-1, se llama carrera directa del método de

factorización. El otro proceso, la obtención de las incógnitas jk por medio de las fórmulas (31.10)

y (31.13), donde k = N -1, N-2, ..., 0, se llama carrera inversa del método de factorización.

244
En virtud de las condiciones (31.3) y (31.4), los cálculos mediante las fórmulas (31.11) y

(31.13) son correctos, es decir, sus denominadores no se reducen a cero. En efecto, admitamos

que para cierto k (0 < k < N -1) se verifica la desigualdad a k -1 < 1 . Por ejemplo, a0 < 1 . En

vista de que bk - a k > 0 , utilizando la condición (31.3), obtenemos

bk - aka k -1 ³ bk - ak × a k -1 > bk - ak > 0 (31.14)

y por tanto,

ck bk - ak
ak = £ <1
bk - aka k -1 bk - ak × a k -1

De aquí, por inducción se deduce que

ak < 1 (31.15)

para cada k ( k = 0,1,2,..., N - 1). Debido a (31.15) y (31.4),

bk - aka k -1 > 0 para cada k, (31.16)

1 - a N a N -1 > 0 , (31.17)

es decir, los denominadores de las expresiones (31.11) y (31.13) nunca se convierten en cero

durante el proceso de cálculo.

Observación 31.1. El método de factorización (31.10)-(31.13) se puede presentar en la

forma matricial:
r r
KS1 S 2j = F (31.18)

donde K es una matriz diagonal, S1 es una matriz tridiagonal inferior, y S 2 es una matriz

tridiagonal superior.
245
Método de disparo (Godunov y Ryabeñkii, 1964; Roberts y Shipman, 1972; Ortega y

Poole, 1981). Consideremos ahora otro algoritmo exacto para resolver el problema (31.1)-(31.4)

llamado método de disparo. Este método es más simple que el de factorización. Sin embargo, se

demostrará ahora que a diferencia del método de factorización, el método de disparo es inestable

y, por consiguiente, a menudo es inútil en la práctica.

Supongamos que el sistema (31.1) y (31.2) tiene la forma siguiente

ìa nj n -1 - bnj n + cnj n +1 = f n (0 < n < N )


í (31.19)
îj 0 = z , j N = y

Describimos el método de disparo. Escogiendo como el primer “disparo” j 0(1) = z y j1(1) = 0 ,

hallamos todos los valores j n(1) usando la ecuación (31.19) para índices n = 2,..., N . Claro que

j n(1) satisface las ecuaciones (31.19) y la primera condición j 0 = z , pero generalmente la

trayectoria del “disparo” no satisface la segunda condición, es decir, j N(1) ¹ y (Fig.31.1).

jn

j N( 2)

z j N(1)

1 y

0 1 2 3 … N-2 N-1 N n

Fig.31.1. Trayectorias j n(1) y j n( 2) de dos disparos.

246
Luego, supongamos que j 0(2 ) = z , j1(2 ) = 1 , y calculemos de nuevo todos los j n( 2) usando

(31.19). De nuevo, la trayectoria del segundo “disparo” j n(2 ) satisface las ecuaciones (31.19) y la

primera condición j 0 = z , pero, en general, no satisface la segunda condición, es decir, j N(2 ) ¹ y .

Consideremos ahora la combinación lineal de dos “disparos”:

j n = sj n(1) + (1 - s )j n( 2) , n = 0,1,2,..., N (31.20)

Es evidente, que j 0 = z para cada s , y j n satisface todas las ecuaciones (31.19). Escogemos

ahora s con el fin de satisfacer la segunda condición (31.2):

j N = sj N(1) + (1 - s )j N(2 ) = y , (31.21)

o bien,

y - j N(2 )
s= (31.22)
j N(1) - j N(2 )

Entonces las fórmulas (31.20) y (31.22) resuelven el problema (31.19). En caso de cálculos

ideales, sin errores, este algoritmo es bueno. Sin embargo, este es inestable y, por tanto,

prácticamente inapropiado para los números N grandes. Veremos un ejemplo que lo demuestra.

Ejemplo 31.1. Sea an º 1 , bn º 26 / 5 , c n º 1 y f n º 0 en el sistema (31.19). En este

caso, la solución exacta es

5 N -n - 5 n- N 5n - 5- n
jn = z + y (31.23)
5 N - 5- N 5 N - 5- N

Claro que se satisfacen las condiciones (31.3) y (31.4) y, por consiguiente, sin ningún problema se

puede resolver este sistema por el método estable de factorización. Aplicaremos ahora el método

247
de disparo para resolver dicho sistema. Es fácil hallar las trayectorias de dos disparos j n(1) y j n( 2)

con las condiciones j 0(1) = z , j1(1) = 0 y j 0(2 ) = z , j1(2 ) = 1 , respectivamente:

z z
j n(1) = - 5n + 5 2- n
24 24
(31.24)
5 - z n é 25 ù
j n(2 ) = 5 + ê5 - (5 - z )ú5 -n
24 ë 24 û

Notemos que max j n(1) y max j n(2 ) aumentan como 5N . Por eso, los números j N(1) y j N(2 )
n n

exceden los límites admitidos si N es bastante grande. Esto puede causar la interrupción de

cálculos. Aunque dicha interrupción no ocurra y j N(1) y j N(2 ) se hallan exactamente, hay otro

problema grave. Supongamos que al calcular 1-s se produce únicamente un error pequeño e.

Entonces, en lugar de la solución exacta j n calculada según (31.20), obtenemos la solución

aproximada j n + dj n donde dj n = e × j n(2 ) . Cuando n ~ N, el error dj n es proporcional a 5 N e .

Por eso, si N es grande, entonces el error dj N es mucho mayor que el valor j N de la solución

exacta acotada que no depende de N ( j N es igual a y ). Podemos ver que el método de disparo

genera errores grandes por su inestabilidad. □

Ejercicios:

é b1 c1 L 0 ù
êa b O M ú
1. Sea A=ê 2 2 ú una matriz tridiagonal, y sean d 0 = 1, d 1 = b1 , y
ê M O O cn -1 ú
ê ú
ë 0 L a n bn û
d k = bk d k -1 - ak ck -1 d k -2 , 2 £ k £ n. Demuestre que d k = det D k donde
é b1 c1 L 0 ù
êa b O M ú
Dk = ê 2 2 ú , 1£ k £ n.
ê M O O ck -1 ú
ê ú
ë 0 L ak bk û

248
2. Si todos los d k = det D k son distintos de cero, entonces la factorización LU de la matriz A del
ejercicio 1 es
éd1 ù
é 1 0 L 0ù ê d c1 L 0 ú
ê d0 úê 0 ú
ê da 2 1 O M úê 0 d2 O M ú
A = LU = ê 1
úê d ú.
ê M O O 0ú ê 1
d M O O c n -1 ú
ê 0 L a n n - 2 1ú ê ú
êë d n -1 ú ê d ú
û 0 L 0 n
êë d n -1 úû

3. Sea T = {t ij } una matriz tridiagonal n ´ n de Toeplitz (véase el ejercicio 15, § 3) y n>2.


Demuestre que T -1 es de Toeplitz si y sólo si T es triangular.
4. ¿Obtenemos una matriz tridiagonal si multiplicamos dos matrices tridiagonales?

249
§ 32. Condiciones periódicas de contorno

Consideremos de nuevo el sistema de ecuaciones algebraicas lineales tripuntuales

ai j i -1 - bi j i + ci j i +1 = f i , i = 1,2,3..., N (32.1)

con las condiciones periódicas de contorno

j 0 = j N , j N +1 = j 1 (32.2)

donde j 1 , j 2 ,...,j N son incógnitas, y ai, bi, ci, fi son parámetros conocidos. Este problema

surge a menudo en un nivel fraccionado (a lo largo de cada círculo de latitud) al aplicar el método

de separación para resolver los problemos de dinámica de la atmósfera (véase, por ejemplo,

Marchuk y Skiba, 1976, 1992). Se puede escribir el sistema (32.1), (32.2) de la forma vectorial:

r r
Ax = g (32.3)

r r
donde x = (x1 , K , x N ) es el vector incógnito (la solución), g = (g 1 , K , g N ) es un vector dado, y
T T

é- b1 c1 0 0 a1 ù
êa - b2 c2 0 0 úú
ê 2
A=ê L L L L L ú (32.4)
ê ú
ê 0 0 a N -1 - b N -1 c N -1 ú
êë c N 0 0 aN - bN úû

La matriz A es de dimensión n y se diferencia de la matriz tridiagonal

é- b1 c1 0 0 0 ù
êa - b2 c2 0 0 úú
ê 2
B=êL L L L L ú (32.5)
ê ú
ê 0 0 a N -1 - b N -1 c N -1 ú
êë 0 0 0 aN - bN úû

250
sólo por dos elementos situados en la esquina derecha superior y en la izquierda inferior.
r r
Definición. Para dos vectores columnas u y v no nulos de n componentes, el producto
rr
u v T es una matriz de dimensión n del rango 1 con los elementos u i v j . ð

r r
Sea u = (1,0, K,0, c N ) T y v T = (1,0, K,0, a N ) dos vectores que tienen sólo dos

componentes no nulos: el primero y el último. Se puede presentar la matriz A como

rr
A = C + uv T (32.6)

donde

C = B + diag{- 1,0, K ,0,-a1c N } (32.7)

Si la matriz C es no singular, entonces según la fórmula de Sherman-Morrison (Golub y Ortega,

1992),

(C + urvr )T -1 rr
= C -1 - a -1C -1u v T C -1 (32.8)

rr
para cada matriz u v T de dimensión n del rango 1, donde

r r
a -1 = 1 + v T C -1u (32.9)

Entonces la solución del sistema (32.3), es decir, del sistema

rr r r
(C + u v T ) x = g , (32.10)

tiene, debido a (32.8), la forma siguiente:

r
( rr
x = C + uv T )
-1 r r rr r r r r r
g = C -1 g - a -1C -1u v T C -1 g = y - a -1 (v T y) z (32.11)

donde

r r r r
y = C -1 g , z = C -1u (32.12)
251
y, según (32.9),

r r
a -1 = 1 + v T z (32.13)

Debido a (32.7) y (32.5), la matriz C es tridiagonal y, por lo tanto, se puede resolver ambos

sistemas
r r r r
Cy = g, Cz = u (32.14)

por el método de factorización descrito en § 31. Luego, usando la fórmula (32.13) calculamos
r
a -1 , y finalmente hallamos la solución requerida x del sistema original (32.3) por medio de la

ecuación (32.11):
r r r r r
x = y - a -1 (v T y ) z (32.15)

Observación 32.1. Los sistemas (32.14) tienen la misma matriz y, por lo tanto, se puede

resolver ambos sistemas simultáneamente (por ejemplo, usando procesadores paralelos). ð

Observación 32.2. El algoritmo descrito aquí es un poco más económico que la

eliminación de Gauss aplicada a la matriz original A.

Ejercicios:

1. Verifique la fórmula (32.6).


2. Verifique la fórmula de Sherman-Morrison (32.8).
3. Verifique la fórmula de Sherman-Morrison-Woodbury:

(C + UV )T -1
(
= C -1 - C -1U E + V T C -1U )
-1
V T C -1

donde U y V son dos matrices n ´ m , y UV T es la matriz del rango m. La fórmula de

Sherman-Morrison (32.8) es un caso particular de esta fórmula cuando m=1.

252
Capítulo VI. Métodos iterativos para problemas lineales

r r
Cuando la matriz A del sistema Ax = b es densa, o de dimensión grande, a menudo los métodos

iterativos son más efectivos y económicos. Estos métodos generan una sucesión de soluciones

aproximadas {x k } . En este capítulo consideramos sólo algunos de los métodos iterativos: el


r

método de Jacobi, el método de Gauss-Seidel, el método de sobre-relajaciones sucesivas, el

método de Richardson, y el método de direcciones conjugadas. La evaluación de cada método

iterativo se enfoca invariablemente sobre el problema de la rapidez de convergencia de las

iteraciones y sobre el problema de la realización del método. El objetivo principal de este

capítulo es analizar varios problemas que surgen en las aplicaciones de dichos métodos

incluyendo errores de iteración, convergencia de la solución numérica (aproximada) hacia la

solución exacta, optimización de un método iterativo con fin de acelerar su convergencia. Este

análisis ayudará elegir un método apropiado para resolver un problema particular de álgebra
r r
lineal. La forma más conveniente para empezar las iteraciones del problema Ax = b es
r r r
x = Bx + d . Sobre este tema se recomiendan los trabajos de Faddeev y Faddeeva (1963), van

Kempen (1966), Young, 1971, Forsythe y otros (1977), Marchuk (1982), Golub y Ortega (1992)

y Ciarlet (1995).

§ 33. Método de Jacobi (iteraciones simples)


r r
Sea a ii ¹ 0 ( i = 1,..., n) . Cambiamos Ax = b por un sistema equivalente

r r r
x = Bx + d (33.1)

253
r r
donde B = - D -1 A + E , D = diag{a11 , a22 ,K, ann }, y d = D -1b . El método de Jacobi, también

llamado iteraciones simples, se realiza por medio de la fórmula


r
x (k ) = Bx (k -1) + d , k = 1,2,3,...
r r
(33.2)

r
donde para empezar los cálculos se elige un vector x ( 0) inicial (Marchuk, 1982; Ciarlet, 1995).
r r r
Este vector se considera como la aproximación inicial de la solución exacta x* = Bx* + d del

problema (33.1), y las iteraciones x (k ) se llaman aproximaciones sucesivas de la solución exacta.


r

La pregunta interesante es: ¿ Cuándo las iteraciones (33.2) convergen hacia la solución exacta
r r r
x* = Bx* + d ? Exponemos el teorema que proporciona una condición suficiente para la

convergencia del método de Jacobi.

Teorema 33.1. Si B < 1 por lo menos en una norma matricial, entonces el sistema

r r
(33.1) tiene una sólo solución x* , y las iteraciones x (k ) definidas por la fórmula (33.2) convergen

r r
hacia la solución exacta x* para cualquier vector inicial x ( 0) con la velocidad equivalente a la de

una progresión geométrica con la razón B .

Demostración. La solución exacta satisface la ecuación

r r r
x* = Bx* + d (33.3)

Usando la desigualdad triangular para una norma vectorial, obtenemos

r r r r r
x* £ Bx* + d £ B x* + d ,

es decir,
r
r d
x* £ (33.4)
1- B
254
r r
De la última desigualdad se deduce la unicidad de la solución del sistema homogéneo x = Bx y,
r
por tanto, la existencia y unicidad de la solución x* del sistema (33.1) para cualquier término
r
independiente b . Ahora analicemos la convergencia del método. Sea

e (k ) = x (k ) - x*
r r r
(33.5)

el error de k-ésima iteración (aproximación). Restando la ecuación (33.3) de la ecuación (33.2),

hallamos

e (k ) = Be (k -1)
r r
(33.6)

y, consiguientemente, e (k ) = B k e (0 ) , donde B k es la k-ésima potencia de la matriz B, y e (0 ) es el


r r r

error inicial. Entonces,

e ( k ) £ B k e (0 ) £ B e (0 )
r r k r
(33.7)

Debido a la condición B < 1 y a la estimación (33.7), cuando k aumenta, el error e (k ) = x (k ) - x*


r r r

tiende al cero ( e ( k ) ® 0 ) coma una progresión geométrica con la razón B . Teorema ha


r

quedado demostrado. □

Observación 33.1. Mientras menor sea la norma B de la matriz, más rápida es la

convergencia. Esta propiedad se deduce directamente de (33.7). Consideremos la situación

cuando B es menor que uno, pero cerca a uno; entonces, la convergencia es muy lenta, y el

número de iteraciones necesarios para disminuir la norma e ( k ) del error e (k ) = x (k ) - x* depende


r r r r

significativamente del error inicial e (0 ) . En este caso, es deseable “adivinar” bien el vector inicial
r

r
x ( 0) . Sin embargo la elección de dicho vector no tiene importancia si la norma B es pequeña y

la convergencia es rápida. □
255
Observación 33.2. Sea ei(k ) i-ésimo componente del error e ( k ) de k-ésima iteración.
r

r
Como ei( k ) £ e ( k ) para cada i , todas los componentes ei(k ) tienden al cero con la misma

k r
velocidad: ei( k ) £ B e ( 0) . □

Observación 33.3. Recordemos que en un espacio vectorial, dos normas arbitrarias o p

y o q son equivalentes (véase (2.23)), es decir,

r r r
C x p£ x q £ K x p
(33.8)

r
para cualquier vector x del espacio y, en particular,

r r r
C e (k ) £ e (k ) £ K e (k ) (33.9)
p q p

Así, de la convergencia de las iteraciones en la norma o p se deduce su convergencia en la norma

o q , y viceversa. Entonces hay que encontrar sólo una norma matricial apropiada en el sentido

de que B < 1 . □

La elección de una norma apropiada de la matriz B requiere una experiencia, como se

deduce del ejemplo siguiente.

Ejemplo 33.1. Sea

é- 3 / 5 3 / 5ù
B=ê ú ,
ë 2 / 5 1/ 5û

la matriz del proceso iterativo (33.2). Calculemos la 1-norma y la 2-norma de la matriz. Tenemos

1/ 2
2
6 æ 2 2 ö 23
B 1 = max å bij = > 1 , y º çç åå bij
2
B2£ B ÷ = < 1.
1£i £ 2 5 F ÷ 5
j =1 è i =1 j =1 ø
256
Se deduce de aquí que se puede usar el teorema 33.1 sólo con la 2-norma, mientras que la 1-

norma es inútil. Para otra matriz,

é 4 / 5 1 / 10 ù
B=ê ú ,
ë- 1 / 5 3 / 5 û

por el contrario,

1/ 2
2
9 æ 2 2 ö 21
B 1 = max å bij = < 1 , B 2 £ çç åå bij
2
y ÷ = >1
1£i £ 2 10 ÷ 20
j =1 è i =1 j =1 ø

y por tanto, la 2-norma es inútil. Entonces, en el análisis de convergencia del método de Jacobi

hay que hallar una norma apropiada. □

Estimación del error de las iteraciones. Ahora derivamos unas estimaciones muy útiles

en la práctica que permiten estimar el error de k-ésima aproximación a través de la cercanía de las

dos últimos iteraciones x (k ) y x (k -1) . Según (33.6), tenemos


r r

x* = x (k ) + B( x* - x (k -1) )
r r r r
(33.10)

Restando de las ambas partes de (33.10) el vector x (k -1) , obtenemos


r

x* - x (k -1) = x (k ) - x (k -1) + B( x* - x (k -1) )


r r r r r r

y, por lo tanto,

x* - x (k -1) £ x ( k ) - x ( k -1) + B( x* - x ( k -1) ) £ x (k ) - x (k -1) + B ( x* - x ( k -1) ) ,


r r r r r r r r r r

o bien,

1 r (k ) r (k -1)
x* - x (k -1) £
r r
x -x (33.11)
1- B

257
Además, en virtud de (33.10) tenemos

x* - x ( k ) £ B x* - x (k -1)
r r r r
(33.12)

De las desigualdades (33.11) y (33.12), obtenemos finalmente la estimación básica

B
x* - x (k ) £ x (k ) - x (k -1)
r r r r
(33.13)
1- B

que permite evaluar el error de k-ésima aproximación a través de la diferencia entre las dos

últimas aproximaciones.

Anunciamos un criterio que ofrece una condición necesaria y suficiente para la

convergencia del método de Jacobi.

Teorema 33.2 (criterio de la convergencia). Supongamos que el sistema (33.1) tiene una
r r
sólo solución x* . Entonces las aproximaciones sucesivas (33.2) convergen hacia la solución x*

r
para cualquier vector inicial x ( 0) si y sólo si todos los autovalores de la matriz B están dentro de

un disco del radio unitario, es decir, si el radio espectral de B satisface la desigualdad r ( B) < 1 . □

Puede ocurrir que las condiciones proporcionadas por el teorema 33.2 sean cumplidas, y

las del teorema 33.1 no. Sin embargo, en general, no es fácil estimar el radio espectral de la

matriz B, y por tanto, utilizar el teorema 33.2. No obstante, ya sabemos un método iterativo

(véase § 5) para calcular r ( B) = max li ( B) . Además, ahora demostremos que el método de


i

r r
Jacobi para resolver el sistema Ax = b siempre converge para cada matriz A con la diagonal

principal dominante.

r r
Teorema 33.3. Sea Ax = b un sistema de las ecuaciones lineales algebraicas donde A es

una matriz con la diagonal principal dominante, es decir,


258
max å aij / aii < 1 (33.14)
i
j ¹i

r r
Entonces el método de Jacobi (33.2) converge hacia la solución única de la ecuación Ax = b

(33.1) para cualquier vector inicial x (0 ) .


r

Demostración. Presentemos la matriz A del sistema de la forma A = D - H , donde la matriz


r r
D = diag{a11 , a22 ,...,ann } es diagonal. Entonces el sistema original ( D - H ) x = b se transforma a

r r r r r
la forma x = Bx + d donde B = D -1 H , y d = D -1b . Usando la norma matricial

B ¥
= max å bij y la condición (33.14), obtenemos
i
j ¹i

aij
B ¥
= max å bij º max å <1 (33.15)
i
j ¹i
i
j ¹i aii

y, por lo tanto, según el teorema 33.1, las iteraciones (33.2) convergen. El teorema queda

demostrado. □

Además, notemos que la rapidez de convergencia aumenta junto con la dominación

diagonal por la disminución de la norma B ¥ .

Ejercicios:

1. Demuestre que el comportamiento asintótico del vector de error e (k ) = B k e (0 ) no es peor que


r r

(r ( B))k donde r (B) es radio espectral de la matriz B [Sugerencia: use la norma euclidiana
para los vectores e (k ) y e (0 ) , y la norma espectral para la matriz B k ].
r r

2. Demuestre que mientras menor sea el radio espectral r (B) de la matriz B, más rápida es la
convergencia. [Sugerencia: Use Observación 33.1].
3. Sea A una matriz simétrica. Consideremos un proceso iterativo no estacionario de la forma
r
x (k +1) = x (k ) - a k ( Ax ( k ) - b ) , donde a k > 0 depende del número de la iteración. Entonces
r r r
k
e (k ) = qk ( A)e (0 ) donde qk ( A) = Õ ( E - a i A) es un polinomio. Encuentre las raíces del
r r
i =1

259
polinomio algebraico q k (t ) . Minimice el error del proceso iterativo eligiendo q k (t ) en la
forma de los polinomios de Chébyshev (véase § 10).

4. (Ciarlet, 1995). Demuestre que qk ( A) 2 £ max qk (t ) , donde q k (t ) es el polinomio del


t
ejercicio 3, y el máximo se busca sobre todos los t del intervalo espectral de la matriz
simétrica A: l1 £ t £ ln .

5. Sea A una matriz antihermitiana de orden 2: A * = - A . Demuestre que los dos autovalores de
la matriz asociada con el método de Jacobi J = E - D -1 A son puros imaginarios, or reales.

é3 + d 1 2 ù
ê 3+d - 2 úú , donde d ³ 0 es un número pequeño, y sea Bd la matriz B
6. Sea Ad = ê - 1
êë - 2 2 3 + d úû
en el método de Jacobi (33.2). Los autovalores de la matriz B0 son {0, + i, - i}, y por lo tanto
el método de Jacobi diverge un mínimo. Demuestre que el método de Jacobi converge si
d > 0 [Sugerencia: Use el criterio de Gershgorin (teorema 6.2) para estimar los autovalores
de la matriz Bd ].

260
§ 34. Método de Gauss-Seidel

Consideremos el sistema de ecuaciones lineales

r r
Ax = b (34.1)

donde todos los elementos diagonales de la matriz A difieren de cero: a ii ¹ 0 ( i = 1,..., n) . Si

dividimos i-ésima ecuación del sistema (34.1) entre aii (i = 1,..., n ) , y después trasladamos todas

las incógnitas salvo x i a la derecha, entonces llegaremos a un sistema equivalente

r r r
x = Cx + d (34.2)

donde

ì- aij / aii , j ¹ i
, C = {cij }, cij = í
bi
di =
aii î 0 , j =i

En el método de Gauss-Seidel las iteraciones se realizan por medio de la fórmula

i -1 n
xi( k ) = å
j =1
cij x (jk ) + åc
j =i +1
( k -1)
ij x j + di (34.3)

donde xi(0 ) son arbitrarias ( i = 1,..., n; k = 1,2,... ). A diferencia de las iteraciones de Jacobi, para

obtener i-ésimo componente de k-ésima aproximación en el método de Gauss-Seidel se utilizan

inmediatamente todos los componentes x (jk ) obtenidos (con j < i ). Las condiciones de

convergencia de los métodos de Jacobi y de Gauss-Seidel no coinciden, pero se cruzan. En

algunos casos, el método de Gauss-Seidel proporciona una convergencia más rápida (Marchuk,

1982; Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995).

Consideremos de nuevo la ecuación (34.1). El método de Jacobi (iteraciones simples) y el

método de Gauss-Seidel se puede presentar en términos de las matrices L, D y U definidas por

261
é0 K K 0ù é0 a12 L a1n ù
êa 0 K 0úú ê0 0 L a2 n úú
L = ê 21 , U =ê
ê M M O Mú êM M O an-1,n ú
ê ú ê ú
ëan1 an 2 K 0û ë0 0 L 0 û

D = diag{a11 , a22 ,K, ann }

Es evidente que

A = L + D +U (34.4)

En particular, una iteración (un paso) de Jacobi tiene la forma

r r r
M J x ( k +1) = N J x ( k ) + b (34.5)

donde

M J = D, y N J = -(L + U ) (34.6)

Por otro lado, una iteración del método de Gauss-Seidel se realiza según la fórmula

r r r
M S x (k +1) = N S x (k ) + b (34.7)

donde

M S = D + L y N S = -U (34.8)

La forma canónica de ambos métodos iterativos es

r r r
Mx (k +1) = Nx (k ) + b (34.9)

donde M - N = A . La pregunta interesante es: ¿ Cuándo convergen las iteraciones (34.9) hacia la
r r
solución exacta x = A-1b ?

262
r
Teorema 34.1. Supongamos que b es un vector dado de dimensión n, y A = M - N es

una matriz no singular. Si M tampoco es singular, y el radio espectral r M -1 N de la matriz ( )


M -1 N satisface la desigualdad r (M -1 N ) < 1 , entonces las iteraciones x (k ) definidas por la
r

r r r
fórmula (34.9) convergen hacia la solución exacta x = A-1b para cualquier vector inicial x ( 0) .

r r r r r r
Demostración. Sea e (k ) = x (k ) - x el error de k-ésima iteración. Ya que Mx = Nx + b , tenemos

(
r r
) r
( r
M x (k ) - x = N x (k -1) - x )
y, por lo tanto,

r r
(
k r
e (k ) = M -1 Ne (k -1) = M -1 N e (0 ) )
Estimando el error en la norma euclidiana, obtenemos

r
e (k )
2
£ M -1 N
k

2
r
e (0 )
2
(
£ r M -1 N ) k r
e (0 )
2

Debido a que r (M -1 N ) < 1 , e (k )


r
® 0 . El teorema ha quedado demostrado. □
2

Ejemplo 34.1. Consideremos el método de Jacobi:

Dx (k +1) = -(L + U )x (k ) + b (34.10)

Sea A una matriz con la diagonal principal dominante, es decir, max å aij / aii < 1 . Esta
i
j ¹i

(
condición garantiza el cumplimiento de la desigualdad r M J-1 N J < 1 y, por consiguiente, la )
convergencia de las iteraciones. En efecto, r (M J-1 N J ) £ D -1 (L + U ) = max å aij / aii < 1 .
¥ i
j ¹i

Entonces, según el teorema 34.1, las iteraciones convergen (véase teorema 33.3). Además, la

rapidez de convergencia aumenta en función del grado de dominancia de la diagonal. □

263
Observación 34.1. El teorema 1 es un resultado teórico básico para los métodos

iterativos (34.9) de un paso. Notemos que, en general, es difícil aplicarlo para obtener

inmediatamente una conclusión sobre la convergencia, ya que normalmente el radio espectral de

la matriz iterativa es desconocido. Sin embargo, para clases particulares de matrices es bastante

fácil verificar que la condición de convergencia se satisface. Por ejemplo, sabemos que el método

de Jacobi converge para todas las matrices con la diagonal principal dominante. Ahora

demostramos que el mismo resultado también es válido para el método de Gauss-Seidel. □

Teorema 34.2. Sea A una matriz con la diagonal principal dominante:

a ii > å a ij , i=1,2,…,n (34.11)


j ¹i

Entonces el método de Gauss-Seidel converge hacia la solución única de la ecuación (34.1) para
r
cualquier vector inicial x (0 ) .

r r r r r
Demostración. Transformemos la ecuación Ax = b a la ecuación x = Hx + d donde
r r r
H = -(D + L) U , y d = (D + L ) b .
-1 -1
Sean l y v un autovalor y su autovector

correspondiente de la matriz H:

lvr = Hvr = -(D + L)-1Uvr

l (D + L)vr = -Uvr (34.12)

Supongamos que vk = max vi . La k-ésima ecuación de (34.12) es


1£i £n

æ ö
l çç a kk v k + å a kj v j ÷÷ = -å a kj v j (34.13)
è j <k ø j >k

264
Designemos

a kj v j a kj v j
a =å , b =å
j <k a kk v k j >k a kk v k

Entonces se puede escribir (34.12) como

l (1 + a ) = -b

y por lo tanto,

b b
l £ £ <1
1+a 1- a

Aquí usamos la desigualdad b < 1- a que se deduce de la estimación a + b £ a + b < 1 .

Demostramos que r(H)<1 y, según el teorema 34.1, el teorema 34.2 queda demostrada. □

Teorema 34.3. Sea A una matriz simétrica y positivamente definida. Entonces las

iteraciones de Gauss-Seidel convergen hacia la solución única de la ecuación (34.1) para


r
cualquier vector inicial x (0 ) .

Demostración. Ya que A es simétrica, tenemos U = LT y, por tanto, (34.4) acepta la forma

A = L + D + LT , donde L es una matriz triangular inferior con los elementos nulos en su diagonal

principal. Demostramos que todos los autovalores de la matriz G = M S-1 N S = -( D + L) -1 LT están

estrictamente dentro del círculo unitario. Ya que la matriz D es positiva, introducimos otra

matriz:

{ }{
G1 = D1 / 2 GD -1 / 2 = - D1 / 2 ( D + L) -1 LT D -1 / 2 = - D1 / 2 ( D + L) -1 D1 / 2 D -1 / 2 LT D -1 / 2 }
(
= - D -1 / 2 ( D + L) D -1 / 2 )
-1
LT1 = -( E + L1 ) -1 LT1 (34.14)

donde L1 = D -1 / 2 L D -1 / 2 . Las matrices G y G1 tienen los mismos autovalores. En efecto, si


265
r r
G1 x = lx (34.15)

r r
entonces G( D -1 / 2 x ) = l ( D -1 / 2 x ) . Por lo tanto es suficiente demostrar que r (G1 ) < 1.
r r r
Supongamos que el autovector x en (34.15) es unitario, es decir, x * x = 1 . Debido a (34.14) y

(34.15) obtenemos

r r
- ( E + L1 ) -1 LT1 x = lx

o bien,
r r
- LT1 x = l ( E + L1 ) x .

Entonces
r r r r r r r r
- x * LT1 x = l ( x * Ex + x * L1 x ) = l (1 + x * L1 x ) (34.16)

r r
Debido a que L1 tiene elementos reales, tenemos LT1 = L1 , y si x * L1 x = a + ib , entonces
*

r r
x * LT1 x = a - ib . Sustituyendo estos valores en la ecuación (34.16) obtenemos

2 a2 + b2 a2 + b2
l = =
1 + a + ib
2
(1 + 2a) + a 2 + b 2

Se deduce de aquí que l < 1 si 1+2a>0. Demostremos ahora la última desigualdad. Con este

fin notemos que la matriz D -1 / 2 A D -1 / 2 = D -1 / 2 ( L + D + LT ) D -1 / 2 = E + L1 + LT1 es positiva, es


r r r r
decir, 0 < 1 + x * L1 x + x * LT1 x = 1 + (a + ib) + (a - ib) = 1 + 2a . Por lo tanto, l < 1 . Según el

teorema 34.1, el teorema 34.3 queda demostrada. □

El teorema 34.3 se usa frecuentemente en los problemas elípticos donde a menudo las

matrices son simétricas y positivas.

266
Errores de los métodos. Ambos métodos iterativos, tanto el de Jacobi como el de Gauss-

Seidel, tienen la forma


r r r
x ( k +1) = Bx ( k ) + d (34.17)

El error de k-ésima iteración se estima como


r r
(r r
x ( k ) - x * = B k x (0 ) - x * ) (34.18)

Supongamos que la matriz B de dimensión n tiene n autovectores linealmente independientes.


r r r
Usando la base de los autovectores u i del problema espectral Bui = li ui , se puede escribir

n
r r r
x ( 0) - x * = åa u
i =1
i i (34.19)

y, por lo tanto, presentar el error de la forma

n
r r r
x (k ) - x * = å lkia i u i (34.20)
i =1

r r
Así, para reducir la amplitud a i en el i-ésimo componente del error inicial x (0) - x * por el factor

10 - m es necesario hacer k iteraciones, donde k se estima como

k m
li £ 10 -m , o k³ (34.21)
- lg li

Asintóticamente (para k grande), en la suma (34.20) el término con el autovalor máximo según

módulo es dominante y, por lo tanto, este término se usa para las estimaciones asintóticas.

Ejercicios:

1. Faddeev y Faddeeva (1963) mencionan que el proceso de Seidel


i -1 n
r r r
xik = å bij x kj + åb x ij
k -1
j + d i se obtiene de la forma x = Bx + d del sistema original
j =1 j =i +1
r r
Ax = b , B=E-A, mientras que el proceso iterativo definido por las fórmulas (34.2) y (34.3)
se llama método de Nekrasov (1892). Demuestre el teorema de Nekrasov: Si la matriz A es
r r
positiva, entonces el método (34.3) para el sistema Ax = b converge.
267
2. Demuestre que si los elementos diagonales de la matriz positiva A son positivos, entonces la
condición de Nekrasov (véase el ejercicio 1) es también necesaria para la convergencia.

3. (Golub y Ortega, 1992). Sea A = eL + D - U , donde U ¥


= 1 y e es un parámetro pequeño.
Encuentre la frontera superior del radio espectral de la matriz (eL + D) -1U de las iteraciones
de Gauss-Seidel.
4. Presentando la matriz A como A = P - N donde P es una matriz no singular, es posible
r r r
considerar el proceso iterativo Pxrk +1 = Nxrk + b para hallar la solución del problema Ax = b .
Demuestre que es válida la siguiente afirmación (Iserles, 1998): Si las matrices A y
P + P T - A son simétricas y positivas, entonces dicho proceso iterativo converge.

é3 2 1 ù
5. (Iserles, 1998). Consideremos la matriz simétrica y positiva definida A = ê2 3 2ú . Sus
ê ú
êë1 2 3úû
autovalores son 2 y 12 (7 ± 33 ) > 0 . Demuestre que el método de Gauss-Seidel para la matriz
A converge, y el método de Jacobi diverge [Sugerencia: el radio espectral de la matriz en el
método de Gauss-Seidel es menor que uno, y el radio espectral de la matriz en el método de
Jacobi es 16 (1 ± 33 ) > 1 ].

6. (Morton y Mayers, 1994). Sea A = L + D + LT una matriz simétrica y positiva definida, donde
D es la matriz diagonal de los elementos diagonales de A, y L es la matriz estrictamente
triangular que coincide con la parte correspondiente de la matriz A. Supongamos que l es un
autovalor y x es el autovector correspondiente del problema espectral Gxr = lxr para la matriz
r
iterativa G = M S-1 N S = -( D + L) -1 LT del método de Gauss-Seidel, además, el autovector está
r r
r* r x * LT x
normalizado por x Dx = 1 . Demuestre que l = - r r.
1+ x * Lx
7. (Ames, 1992). Demuestre que el método de Gauss-Seidel converge para el sistema

5 x1 + 3x2 + 4 x3 = 12
3x1 + 6 x2 + 4 x3 = 13
4 x1 + 4 x2 + 5 x3 = 13
mientras el método de Jacobi diverge. [Solución: x1 = x2 = x3 = 1 ].

8. El siguiente ejercicio de Collatz (1942) muestra lo contrario. Verifique que el método de


Jacobi converge para el sistema
x1 + 2 x2 - 2 x3 = 1
x1 + x2 + x3 = 3
2 x1 + 2 x2 + x3 = 5
mientras el método de Gauss-Seidel diverge. [Solución: x1 = x2 = x3 = 1 ].

268
§ 35. Otros métodos iterativos

Método de sobre-relajaciones sucesivas (successive over relaxation). En ciertos casos, una

modificación simple del método de Gauss-Seidel puede acelerar considerablemente la velocidad

de convergencia del método (Forsythe y otros, 1977; Marchuk, 1982; Morton y Mayers, 1994;

Ciarlet, 1995; Iserles, 1998). Sea x k la aproximación k-ésima conocida. Con el fin de hallar la
r

iteración siguiente x (k +1) , primeramente se calcula un valor intermedio por medio del método de

Gauss-Seidel:

1 æ ö
xˆ i( k +1) = ç bi - å aij x (jk +1) - å aij x (jk ) ÷ (35.1)
aii ç ÷
è j <i j >i ø

El valor final xi(k +1) de k+1-ésima iteración se encuentra luego mediante la formula

(
xi(k +1) = xi(k ) + w xˆi(k +1) - xi(k ) ) (35.2)

donde w es un parámetro que elegimos para acelerar la velocidad de convergencia. Con el fin de

escribir el método nuevo por una sola ecuación, sustituiremos (35.1) en (35.2)

w æç (k ) ö
xi( k +1) = (1 - w )xi( k ) + b - å a x ( k +1)
- å a x j ÷,
÷ (35.3)
aii çè
i ij j ij
j <i j >i ø

luego representamos (35.3) en la forma

aii xi(k +1) + w å aij xi(k +1) = (1 - w )aii xi(k ) - w å aij x (jk ) + w bi , i = 1,2,... ,n (35.4)
j <i j >i

Usando la presentación A = - L + D - U en lugar de (34.4), se puede escribir las relaciones (35.4)

en la forma matricial como

Dx ( k +1) - wLx ( k +1) = (1 - w )Dx ( k ) + wUx ( k ) + w b


r r r r r
(35.5)

269
La matriz D - wL es triangular inferior, ya que D es la matriz diagonal y L es la matriz triangular

inferior. Además, por suposición, tiene elementos diagonales no nulos. Por eso D - wL no es

singular, y

x ( k +1) = (D - wL) [(1 - w )D + wU ]x ( k ) + w (D - wL) b


r -1 r -1
r
(35.6)

Este método se llama método de sobre-relajaciones sucesivas (SOR). Si w = 1 , el método se

reduce al de Gauss-Seidel. Ahora demostramos que 0 < w < 2 es la condición necesaria para la

convergencia del método de SOR

Teorema 35.1. El método del SOR diverge si w £ 0 o w ³ 2 .

Demostración. Definimos la matriz H w como

H w = (D - wL )
-1
[(1 - w )D + wU ] (35.7)

Notamos que

det(D - wL) = det D -1 , y det[(1 - w )D + wU ] = det[(1 - w )D]


-1
(35.8)

y por tanto,

det Hw = det D -1 det[(1 - w )D] = (1 - w ) n (35.9)

Si la multiplicidad geométrica de cada autovalor li ( H w ) de la matriz H w es uno, entonces

det H w = l1 ( H w ) × l2 ( H w )Lln ( H w ) (35.10)

Comparando (35.9) con (35.10) obtenemos que

1 - w £ max× li ( H w ) (35.11)
1£i £ n

Pero, según el teorema 34.1, el método de SOR (35.6) converge si max× li ( H w ) < 1 . Entonces,
1£i £ n

1 - w < 1 es la condición necesaria para la convergencia del método, y por tanto, el método del

SOR diverge si w £ 0 o w ³ 2 . □

270
En general, la condición 0 < w < 2 no garantiza la convergencia del método. Sin

embargo, si la matriz A es hermitiana y positivamente definida, las iteraciones del método de


r r
SOR convergen hacia la solución exacta del sistema Ax = b para cualquier 0 < w < 2 y cualquier

vector inicial x (0 ) (teorema de Ostrowsky).


r

En la práctica, en general, no es fácil elegir un valor apropiado (óptimo) del parámetro w

para acelerar la convergencia del proceso iterativo. Sin embargo, para algunas clases de matrices

es posible optimizar las iteraciones. Formulamos ahora un teorema que a menudo es muy útil en

las aplicaciones, ya que permite elegir un parámetro óptimo w .

Teorema 35.2. Sea H w la matriz (35.7) del método de SOR, y sea m i autovalores de la

matriz iterativa J = D -1 ( L + U ) del método de Jacobi. Si todos los autovalores m i son reales y

m i < 1 entonces el valor óptimo w o del parámetro w se da en términos del radio espectral r (J )

de la matriz J como

2
wo = (35.12)
1+ 1- r 2 (J )

y siempre 1 < w o < 2 . El radio espectral correspondiente de la matriz H w es

r (Hw ) = w o -1 (35.13)

Ejemplo 35.1 (Iserles, 1998; Golub y Ortega, 1992). Consideremos un problema elíptico

- Df ( x) = g ( x) (35.14)

para el operador bidimensional de Laplace en un dominio cuadrado con las condiciones nulas de

contorno. En una malla regular con tamaño h = 1 /( N + 1) , el problema discreto tiene la forma

1
- ( f i -1, j - f i +1, j + f i , j -1 - f i , j +1 - 4 f ij ) = g ij , i= 1,2,…,N (35.15)
h2

271
El radio espectral r (J ) de la matriz J en este caso es r ( J ) = cosph y, según (35.12),

2
wo = (35.16)
1 + 1 - cos2 ph

Además, r ( H 1 ) = r 2 ( J ) es el radio espectral de la matriz del método de Gauss-Seidel, y

1 - 1 - cos2 ph
r (Hw ) = wo -1 = (35.17)
1 + 1 - cos2 ph

En particular, si N=44, entonces r ( J ) = 0.9976 , r ( H1 ) = r 2 ( J ) = 0.995 , w o = 1.87 , y

r ( H w ) = w o - 1 = 0.87 . Ya que r ( H 1 ) = r 2 ( J ) y r ( Hw ) » r 30 ( J ) , el método de Gauss-Seidel

converge dos veces más rápido y el método de SOR converge treinta veces más rápido que el de

Jacobi. •

Métodos de minimización. Algunos métodos iterativos para resolver el sistema


r r
Ax = b (35.18)

se pueden derivar usando métodos de minimización. Sea A una matriz simétrica y positiva. En

este caso, la función cuadrática

r 1r r r r
q( x ) = x * Ax - x *b (35.19)
2
r r r
alcanza su mínimo en el punto x = x* donde x* es la solución exacta del sistema (35.18).

Varios métodos de minimización se puede escribir de la forma

x (k +1) = x (k ) - a k p ( k )
r r r
(35.20)

donde p (k ) es el vector de dirección. Si p (k ) está dado, entonces se puede elegir a k con el


r r

objetivo de minimizar la función (35.19) a lo largo de la línea x ( k ) - a k p (k ) , es decir,


r r

q( x (k ) - a k p ( k ) ) = min q( x (k ) - a p ( k ) )
r r r r
(35.21)
a

Para x (k ) y p (k ) fijos, q( x (k ) - a p (k ) ) es la función cuadrática de a , y la minimización da


r r r r

272
r r
p (k ) , r (k )
a k = - r (k ) r (k ) (35.22)
p , Ap

r r r r r r r
donde r ( k ) = b - Ax ( k ) , y g , f = g * f es producto interno de dos vectores. Hay varias

r
opciones para elegir el vector p (k ) . Nosotros consideraremos aquí sólo las tres.

1. El método de Richardson (el método de descenso de mayor inclinación). En este método,

p ( k ) = rk .
r r

2. Otra estrategia es elegir p ( k ) = ek +1 donde ek = {0,...,0,1,0,...,0} es k-ésimo vector unitario


r r rT

básico, y a k se elige mediante la fórmula (35.22), k=0,1,…,n-1. La convergencia del método es

lenta, similar a la del método de Jacobi. Normalmente, n pasos según (35.20) son equivalentes a

una iteración del método de Gauss-Seidel.

3. Método de direcciones conjugadas. En este método,

r r r r
p (k ) , p ( j ) º p ( k ) , Ap ( j ) = 0 (35.23)
A

r
para cada j<k . Los vectores p (k ) definidos de esta manera se llaman vectores conjugados. Se

puede demostrar que si (35.22) y (35.23) se satisfacen entonces las iteraciones (35.20) convergen

a la solución exacta en n pasos como máximo, donde n es la dimensión de la matriz A. Esta

propiedad del método de direcciones conjugadas es de gran importancia teórica, ya que

demuestra que los dos grupos de métodos de solución del sistema de ecuaciones lineales

algebraicas, tanto exactos como iterativos, tienen puntos de intersección, es decir, no son

completamente distintos. Sin embargo, de el punto de vista práctico, esta propiedad es poco útil,

ya que los errores de redondeo no permiten obtener la solución exacta. Además, si la dimensión n

de la matriz es grande, entonces es necesario hacer muchas (exactamente n) iteraciones y, por lo


273
tanto, otros métodos iterativos son más económicos, ya que convergen más rápido (después de

pocas iteraciones).

Ejercicios:

1. Sea A una matriz hermitiana del sistema (35.18), y sea 0 < m min < m < m max su intervalo
espectral. Encuentre la condición para n ( A) = m max / m min (el número de condición de A) que
r
garantiza la convergencia y estabilidad del método x (k +1) = x (k ) - a k ( Ax ( k ) - b ) para la
r r r

elección arbitraria del parámetro a j = 1/ m j , m min < m j < m max , j=1,2,3,…, n , n es arbitrario.

2. Demuestre que la función cuadrática (35.19) se puede escribir como


1r r r r r
q( x - ap) = p* Apa 2 + p* (b - Ax )a - 12 x * (2b - Ax )
r r r r r
2
Minimice este función de a para x = x (k ) y p = p (k ) con el fin de obtener (35.22).
r r r r

3. Consideremos el método 2 del grupo (35.20) cuando p ( k ) = ek +1 donde ek = {0,...,0,1,0,...,0}


r r rT

es k-ésimo vector unitario básico, y a k se elige por la fórmula (35.22), k=0,1,…,n-1.


Demuestre que n pasos según (35.20) son equivalentes a una iteración del método de Gauss-
Seidel.
r r
4. Muestre que para la función cuadrática (35.19), Ñq( x ) = Ax - b .
r

r r
5. Sea A una matriz simétrica y positiva. Demuestre que la única solución del sistema Ax = b es
el único mínimo de la función (35.19).
6. Sea A una matriz simétrica y positiva, y sea B una matriz diagonal y positiva. Analice la
convergencia del proceso iterativo x (k +1) = x (k ) - aB -1 ( Ax ( k ) - b) . [Sugerencia: el método
r r r

iterativo es equivalente al método de Jacobi con la matriz E - aB -1 A ].


r r r
7. Método de Richardson x (k +1) = x (k ) - a k p ( k ) , p ( k ) = b - Ax ( k ) para resolver Ax = b converge
r r r r r

para cualquier matriz positiva definida A si parametros a k son bastante pequeños.

274
Capítulo VII. Métodos iterativos para problemas no lineales

A menudo, la única manera de resolver una ecuación no lineal, o un sistema de ecuaciones no

lineales es mediante un método iterativo. Como ya sabemos, en el caso de un sistema de


r r
ecuaciones lineales Ax = b puede existir una sola solución exacta x y, por lo tanto, si un proceso
r

r r
iterativo x k converge hacia la solución exacta x , entonces la convergencia es global, es decir,

r
para cualquier vector inicial x 0 . El carácter de la convergencia cambia drásticamente si la

ecuación es no lineal. Sea una ecuación con la incógnita x:

f ( x) = 0

donde f (x) es una función no lineal de x. En general, las cuatro opciones son posibles:

1) la ecuación tiene una sola solución;

2) la ecuación tiene cierto número finito de soluciones;

3) la ecuación tiene un conjunto infinito de soluciones;

4) la ecuación no tiene ninguna solución.

Por ejemplo, la ecuación f ( x) º sin x = 0 tiene una sóla solución en el segmento [p / 2, 3p / 2] ,

tres soluciones en el segmento [0, 2p ] , un conjunto infinito de soluciones en el intervalo

(- ¥, ¥) , y no tiene ninguna solución en el intervalo (0, p ) . Por lo anterior, para dos diferentes
aproximación iniciales, un proceso iterativo x k puede aproximar distintas soluciones de la

ecuación no lineal, es decir, la convergencia es local.

En este capítulo consideramos varios métodos iterativos, y en particular, el famoso

método de Newton. En cada caso se examina la rapidez de convergencia de las iteraciones. Para

ahondar en el tema se recomiendan los trabajos de Rheinboldt (1974), Hageman y Young (1981),

Marchuk (1982), Golub y Ortega (1992).

275
§ 36. Método iterativo para resolver una ecuación no lineal

Es conveniente escribir la ecuación

F ( x) = 0 (36.1)
de la forma

x = j (x) (36.2)

donde j (x) es una función no lineal dada ( j ( x) = x + F ( x) ). Más abajo enunciamos y

demostramos un teorema que proporciona suficientes condiciones de existencia, en cierto

segmento, de una sola solución de la ecuación (36.2). Este teorema también indica el método

iterativo y estimaciones del error de la referida solución aproximada.

Definición (condición de Lipschitz). Se dice que la función j (x) satisface, en el

segmento [a, b], la condición de Lipschitz con una constante a , si para cualesquiera

x1 , x2 Î [a, b] se verifica la desigualdad

j ( x1 ) - j ( x 2 ) £ a x1 - x 2 (36.3)

Observación 36.1. En particular, si la función j (x) es continuamente diferenciable en el

segmento [a, b] , ella satisface en [a, b] la condición de Lipschitz con la constante

d
a = max
j ( x) (36.4)
dx xÎ[a ,b ]

En efecto, sea y = x + nh y j ( x + ih) = j ( xi ) , j ( x) = j ( x 0 ) . Entonces,

n -1 n -1
dj
j ( x) - j ( y ) £ å j ( xi +1 ) - j ( xi ) £ h å (x i ) £ a x - y
i =0 i =0 dx
donde xi < x i < xi +1 . □

Teorema 36.1 (Volkov, 1990). Supongamos que la función j (x) satisface en el

segmento [x 0 , x 0 + r ] la condición de Lipschitz con la constante a , además

0 <a <1 (36.5)

276
0 £ j ( x0 ) - x 0 £ (1 - a )r (36.6)

Entonces la ecuación (36.2) tiene en el segmento [x 0 , x 0 + r ] una sola solución x* :

x* = lim x k (36.7)
k ®¥

donde x 0 es el extremo izquierdo del segmento [x 0 , x 0 + r ],

x k = j ( x k -1 ) , k=1,2,… (36.8)

En este caso tienen lugar las estimaciones

x* - x k £ r a k (36.9)

a
x* - x k £ x k - x k -1 (36.10)
1-a

donde k=1,2,… , y

j ( x0 ) - x0
r= £r (36.11)
1-a

Demostración. Paso 1 (acotación de j (x) ). Antes que nada demostremos que la sucesión

numérica recurrente {x k } puede ser realmente hallada mediante la fórmula (36.8) y que dicha

sucesión se encuentra totalmente en el segmento [x0 , x0 + r ] perteneciendo al segmento dado

[x0 , x0 + r ]. Supongamos, para simplificar la cuestión, que x0 = 0 . Entonces, el segmento

[x0 , x0 + r ] coincidirá con el segmento [0, r ], y teniendo en cuenta la elección (36.11) de r , se

cumplirá la igualdad

j (0) = (1 - a ) r (36.12)

En la desigualdad (36.3) pongamos x1 = x, x2 = 0, x Î [0, r ] , y obtendremos

j (0) - a x £ j ( x) £ j (0) + a x (36.13)

277
De la igualdad (36.12) y la desigualdad derecha (36.13) se deduce que la función j (x) esta

acotada en [0, r ], además

j (x) £ r (36.14)

Paso 2 (inducción). Supongamos que x 0 , x1 , K , x m -1 ya fueron hallados por medio de la

fórmula (36.8), y que los mismos satisfacen la condición

0 £ xk £ r (36.15)

Por ejemplo, cuando m=2, x 0 = 0 , x1 = j ( x 0 ) = j (0) , y en virtud de (36.12), x1 obedece a la

desigualdad (36.15). Demostremos que x m = j ( x m -1 ) también satisface la desigualdad (36.15).

Con el fin de demostrar la desigualdad izquierda (36.15), es decir, x m ³ 0 , examinemos el caso

0 £ x m -1 £ min {r , j (0) / a }. Utilizando la igualdad (36.8) para k=m así como la desigualdad

izquierda (36.13), obtenemos

x m = j ( x m -1 ) ³ j (0) - a x m -1 ³ j (0) - a min {r , j (0) / a } ³ j (0) - a {j (0) / a } ³ 0

si r > j (0) / a , y

x m = j ( x m -1 ) ³ j (0) - a x m -1 ³ j (0) - a min {r , j (0) / a } ³ j (0) - ar > 0

si r < j (0) / a . Si r > j (0) / a , hay que considerar adicionalmente el caso j (0) / a £ x m -1 £ r .

Restando de la igualdad (36.8) con k=m la igualdad (36.8) con k=m-1, y teniendo en cuenta la

condición de Lipschitz (36.3), hallamos

x m - x m -1 = j ( x m -1 ) - j ( x m - 2 ) £ a x m -1 - x m - 2

Luego, análogamente obtenemos

278
x m -1 - x m - 2 £ a x m - 2 - x m -3 ,

etc. Dentro de un número finito de pasos llegaremos a la desigualdad

xm-1 - xm-2 £ a m-2 x1 - x0 £ a m-2 x1 = a m-2j (0) (36.16)

donde x0 = 0 y x1 = j (0) > 0 . De aquí, teniendo en cuenta que 0 <a <1,

xm-1 ³ j (0) / a ³ a m-1j (0) , y la desigualdad trivial x m - x m -1 ³ - x m - x m -1 , hallamos

x m ³ x m -1 - x m - x m -1 > a m -1j (0) - a m -1j (0) = 0 (36.17)

Por consiguiente, se deduce de aquí la desigualdad izquierda (36.15) para k=m. A su vez, la

desigualdad derecha (36.15) se deduce directamente de (36.8) y (36.14).

Paso 3 (convergencia del proceso iterativo). Demostremos ahora que la sucesión {x k } es

fundamental. Teniendo en cuenta la desigualdad (36.16), la cual evidentemente es válida para

cualquier m natural y x 0 arbitrario, así como la desigualdad x1 - x 0 = j ( x 0 ) - x 0 £ r que se

deduce de las condiciones (36.5) y (36.6), hallamos

n+ p n+ p n+ p
1-a p r
xn+ p - xn £ åx
m = n +1
m - x m -1 £ åa
m = n +1
m -1
x1 - x0 < r åa
m = n +1
m -1
= ra n

1-a
<a n
1-a
.

Como a n ® 0 cuando n ® ¥ , las últimas relaciones muestran que la sucesión {x k } es

fundamental. Por eso existe el límite (36.7) y, además, en vista de que la sucesión {x k } se

encuentra en el segmento [x0 , x0 + r ] , resulta que x* Î [x0 , x 0 + r ] .

Paso 4 (existencia de la solución). La función dada j (x) satisface la condición de

Lipschitz (36.3) en el segmento [x0 , x0 + r ] , lo cual significa, en particular, que la función j (x)

279
es continua en dicho segmento. Esto permite pasar al límite en la igualdad (36.8) cuando k ® ¥ .

Como resultado, obtenemos la igualdad

x* = j ( x* ) (36.18)

la cual muestra que x* Î [x0 , x 0 + r ] es la solución de la ecuación (36.2). La existencia de la

solución queda demostrada.

Paso 5 (unicidad de la solución). Admitamos que el punto x** Î [x 0 , x0 + r ] también es la

solución de la ecuación (36.2), es decir,

x** = j ( x** ) (36.19)

Restando de (36.18) la igualdad (36.19) y teniendo en cuenta la condición de Lipschitz (36.3),

obtenemos

x* - x** = j ( x* ) - j ( x** ) £ a x* - x** ,

es decir, x* - x** £ a x* - x** . Esta desigualdad es posible si existe la condición (36.5), solo

cuando x* = x** . La unicidad de solución también queda demostrada.

Paso 6 (estimaciones de la convergencia). Aún debemos establecer las estimaciones

(36.9) y (36.10) para el error x* - x k de la solución aproximada x k de la ecuación (36.2).

Utilizando las igualdades (36.18) y (36.8), y también la condición de Lipschitz, hallamos

x* - x k = j ( x* ) - j ( x k -1 ) £ a x* - x k -1 = a j ( x* ) - j ( x k - 2 )

£ a 2 x* - x k - 2 £ K £ a k x* - x 0 (36.20)

280
Debido a que x* Î [x0 , x 0 + r ] , tenemos x* - x 0 £ r . De aquí y de (36.20) se deduce la

estimación (36.9):

x* - x k £ r a k (36.21)

De las igualdades (36.8) y (36.18) obtenemos

x* - x k -1 = j ( x* ) - x k -1 + [x k - j ( x k -1 )]

de la cual, mediante la condición de Lipschitz, obtenemos

x* - x k -1 £ x k - x k -1 + a x* - x k -1 ,

o bien,

1
x* - x k -1 £ x k - x k -1
1-a

De aquí, utilizando la primera desigualdad en la cadena de desigualdades (36.20), llegamos a la

estimación (36.10). Por lo tanto, el teorema queda totalmente demostrado. •

Observación 36.2. También es válida otra variante del teorema 36.1 cuando el segmento

[x0 , x0 + r ] es sustituido por el segmento [x 0 - r , x 0 ] y en lugar de (36.6) figura la condición

x0 - j ( x0 )
0 £ x0 - j ( x0 ) £ (1 - a )r y r= .□
1-a

Ejemplo 36.1. Examinemos la ecuación

1æ aö
x = j ( x) º çx + ÷ (36.22)
2è xø

donde a es un número, 1
2
£ a £ 1 . Su solución es x* = a .

281
Tratemos de utilizar el teorema 36.1. Pongamos x 0 = a , r=1-a, es decir, elijamos

[x0 , x0 + r ] = [a,1]. Estimemos la constante de Lipschitz:

¶j 1æ a ö 1- a 1
a = max ( x) = max ç1 - 2 ÷ = £
a £ x £1 ¶ x a £ x £1 2
è x ø 2 2

Como vemos, la función j (x) satisface en el segmento [a,1] la condición de Lipschitz (36.3) con

a = 12 . Así pues, se cumple la condición (36.5). Comprobemos ahora la condición (36.6).

Teniendo en cuenta que x 0 = a , hallamos

1 1
j ( x0 ) - x0 = (a + 1) - a = (1 - a) = (1 - a )r
2 2

Por lo tanto, también se cumple la condición (36.6). Así pues, el teorema 36.1 garantiza que en el

segmento [a,1] la ecuación (36.22) tiene una sola solución ( x* = a ). Para calcularla se puede

utilizar, según (36.8), el método de iteraciones:

1æ a ö
x0 = a, xk = j ( xk -1 ) º çç xk -1 + ÷ , k=1,2,… (36.23)
2è xk -1 ÷ø

El error en el proceso de cálculo se estima por la desigualdad (36.10), la cual es más exacta que la

(36.9). Esta manera de calcular de raíz cuadrada se emplea en algunos ordenadores. □

Ejercicios:

3
1. Encuentre la constante de Lipschitz de la función x en el segmento [1,4].

2. (Bakhvalov, 1973). El método (36.8) es conveniente para encontrar las raíces p a , donde p es
entero. El problema es equivalente a la solución de la ecuación x p - a = 0 . La fórmula en
p -1 a
este caso acepta el aspecto xn+1 = xn + p -1 . Prepare un programa para hacer cálculos
p pxn
según esta fórmula. [Sugerencia: En la calidad del valor inicial x 0 se puede elegir el valor
p
Qk (a ) donde Qk (x) es el polinomio de grado k de la mejor aproximación de x.

282
17 a
3. Sea 1 £ a £ 4 . Calcule a usando x0 = p1 (a) = + , donde p1 ( x) es el polinomio lineal
24 3
de la mejor aproximación de la función x en el intervalo 1 £ a £ 4 (véase ejemplo 11.3).

4. Explique porqué la condición 0 £ j ( x0 ) - x 0 £ (1 - a )r en el teorema 36.1 es una restricción


para elegir el valor inicial x 0 .
5. Demuestre que la función g ( x) = ( x - 1) 3 ln x tiene un mínimo en x=1 aun cuando
d 2g
(1) = 0 .
dx 2

283
§ 37. Método iterativo para un sistema de ecuaciones no lineales

La interpretación geométrica de las iteraciones. Las iteraciones

x k = j ( x k -1 ) , k=1,2,… (37.1)

pueden ser interpretadas geométricamente. La solución x* de la ecuación

x = j (x) (37.2)

es la abscisa del punto de intersección de la recta y=x y la curva y = j (x) .

y y=x

y = j (x)

0 x0 x1 x 2 x 3 x* x

Fig.37.1. Iteraciones para 0 < j ¢( x) < 1 .

y = j (x)

0 x0 x2 x* x 3 x1 x

Fig.37.2. Iteraciones para - 1 < j ¢( x) < 0 .

284
Las iteraciones convergentes se muestran en las figuras 37.1 y 37.2. De estas se deduce

geométricamente que si las desigualdades 0 < j ¢( x) £ a < 1 se verifican en la vecindad del punto

x* , entonces la sucesión {x k } converge monótonamente hacia x* , del lado donde se encuentra la

aproximación inicial (Fig. 37.1). Cuando - 1 < -a £ j ¢( x) < 0 , las aproximaciones sucesivas se

sitúan consecutivamente por distintos lados de la solución x* (Fig. 37.2). En el último caso,

siempre la desviación x k respecto a x* no supera x k - x k -1 :

x* - x k £ x k - x k -1

Notamos que la convergencia será tanto más rápida cuanto menor sea j ¢(x) .

Observación 37.1. Si la función j (x) que entra en la ecuación (37.2) no satisface la

condición de Lipschitz con una constante a < 1 , las iteraciones x k = j ( x k -1 ) pueden dividir. Por

ejemplo, examinemos la ecuación

x = j ( x) º bx , b > 1

Evidentemente, la función j (x) satisface en todo el eje x la condición de Lipschitz con una

constante a = b > 1 , y no satisface esa condición con ninguna constante menor que la unidad en

cualquier segmento. La referida ecuación x = bx tiene una sola solución x* = 0 . Sin embargo,

para cualquier x 0 ¹ 0 , x k = b k x0 ® ¥ cuando k ® ¥ . •

Solución de un sistema de ecuaciones no lineales. Introduzcamos en el espacio vectorial

n-dimensional la distancia
r r r r
r ( x, y) = x - y (37.3)

285
r r
entre los vectores x y y mediante una norma o vectorial. En la calidad de la norma se puede

1/ 2
r r æ n ö
= x , x = ç å xi2 ÷
r r
elegir x ¥
= max xi , norma euclidiana x 2
, o cualquier otra norma.
1£i £ n
è i =1 ø

Entonces,
r r
ì r ¥ ( x , y ) = max xi - yi
r r ï i
r ( x, y) = í r r ì n 2ü
1/ 2
(37.4)
ï r 2 ( x , y ) = íå ( xi - yi ) ý
î î i =1 þ

r r r r
{ }
Definición. Denotamos por S ( y 0 , r ) = x : r ( x , y 0 ) < r la esfera abierta del radio r con el

r r
centro en el punto y 0 . Este conjunto contiene todos los vectores x que se encuentran a una

r
distancia del centro y 0 menor que r. Además por
r
{ r r r
}
S ( y 0 , r ) = x : r ( x , y 0 ) £ r denotamos la

r r
esfera cerrada del radio r con el centro en el punto y 0 . Así pues, la esfera cerrada S ( y 0 , r ) es la

r r
esfera abierta S ( y 0 , r ) más todos los vectores que se encuentran a distancia r del centro y 0 .

Examinemos un sistema de n ecuaciones no lineales con n incógnitas


r r r
x = j (x ) (37.5)

j ( x ) = {j1 ( x ),j 2 ( x ),K,j n ( x )}


r r r r r
donde es una función vectorial dada de la variable

x = {x1 , x2 ,K, xn } . Enunciamos sin demostrar el siguiente:


r

r r r
Teorema 37.1. Sea dada, en la esfera serrada S ( y 0 , r ) la función vectorial j (x ) , con la

r r r
particularidad de que para cualesquier x , y Î S ( y 0 , r ) se cumple la desigualdad

r (j ( x),j ( y)) £ a r (x, y )


r r r r rr
(37.6)

y además

r (j ( y 0 ), y 0 ) £ (1 - a )r
r r r
(37.7)

286
r r
donde a es un número, 0 £ a < 1 . Entonces, en S ( y 0 , r ) existe una sola solución x* de la

ecuación (37.5) con la particularidad de que

r r
x* = lim xk (37.8)
k ®¥

r r
donde x0 Î S ( y 0 , r ) arbitrariamente,

r r r
xk = j ( xk -1 ) , k=1,2,… (37.9)

Además, se cumplen las desigualdades

r (x* , xk ) £ a k r (x* , x0 ) £ 2a k r
r r r r
(37.10)

a
r (x* , xk ) £ r (xk , xk -1 )
r r r r
(37.11)
1-a

Observación 37.2. En el caso unidimensional (n=1), el teorema 37.1 no coincide con el

teorema 36.1, ya que la esfera S ( y 0 , r ) se reduce al segmento [x0 - r , x0 + r ] mientras que en el


r

teorema 36.1 se figura el segmento [x 0 , x 0 + r ]. □

Observación 37.3. Como se conocen r y a , es posible predecir el número de iteraciones

k, con el que el error r ( x* , xk ) será menor que un número dado e > 0 . En efecto, si 2a k r < e ,
r r

1 e
entonces a k < e / 2r . De aquí k > ln .□
ln a 2r
r r
Observación 37.4. La transformación del espacio vectorial (operador) j (x ) que satisface
r r
la condición de Lipschitz (37.6) con 0 £ a < 1 se llama aplicación contractiva. Si la función j (x )

es contractiva en todo el espacio, entonces la condición (37.7) no es necesaria. Sin embargo, en

esta situación también es conveniente introducir la condición (37.7) para localizar la solución

única en el espacio. □

287
r r r
Observación 37.5. En el caso particular del sistema x = Bx + b de ecuaciones lineales,
r r r r
j ( x ) = Bx + b , donde B es una matriz, y si B < 1 , dicho operador es contractivo en todo el

espacio. Efectivamente,

r (j ( x ),j ( y ) ) = Bx - By £ B x - y = B r ( x , y )
r r r r r r r r r r

donde B sirve como la constante de Lipschitz a , además, a = B < 1. Por consiguiente, para

r
las iteraciones de Jacobi x (k ) = Bx (k -1) + b es válida la estimación (37.11) que coincide con la
r r

estimación (33.13). □

Estimación de la constante de Lipschitz. Ahora mostraremos un método para evaluar la

constante de Lipschitz a . Supongamos que la función vectorial j ( x ) = {j1 ( x ),j 2 ( x ),K,j n ( x )}


r r r r r

r
tiene derivadas parciales continuas respecto a cada variable x i en la esfera cerrada S ( y 0 , r ) ,

i=1,2,…,n. Denotemos

a ij = max ¶j i / ¶x j (37.12)
S

r r r
Sea x , y Î S ( y 0 , r ) . De acuerdo con la fórmula de incrementos finitos de Lagrange, tenemos

¶j i r i
(z )(x j - y j )
n
j i ( x ) - j i ( y) = å
r r
(37.13)
j =1 ¶ x j

r r
donde z i Î S ( y 0 , r ) es cierto punto intermedio (desconocido). Con ayuda de la matriz

é ¶j1 r 1 ¶j1 r 1 ù
ê ¶x (z ) L (z ) ú
¶ xn
ê 1
ú é ¶j r ù
F=ê L L L ú º ê i (z i )ú (37.14)
¶x
ê ¶j n (z n ) L ¶j n (z n )ú ëê j úû
r r
ê ¶ x1 ¶ xn ú
ë û

las relaciones (37.13) pueden ser agrupadas en la igualdad vectorial

288
j ( x ) - j ( y ) = F (x - y )
r r r r r r
(37.15)

de aquí hallamos

r (j ( x ),j ( y ) ) = j ( x ) -j ( y ) £ F r ( x , y ) ,
r r r r r r r r r r

es decir,

r m (j ( x ),j ( y ) ) £ F r m (x, y ) ,
r r r r r r
m m = ¥, 2

donde F m £ am , y

1/ 2
n æ n n ö
a ¥ = max åa ij , a 2 = çç ååa ij2 ÷÷ (37.16)
1£i £ n
j =1 è i =1 j =1 ø

Ejemplo 37.1 (Volkov, 1990). Es necesario explicar la existencia de solución del sistema

de ecuaciones

x2 æ x + x2 ö
x1 = j1 ( x1 , x2 ) = 1.1 - sin + ln ç1 + 1 ÷
3 è 5 ø (37.17)
xx
x2 = j 2 ( x1 , x2 ) = 0.5 + cos 1 2
6
r
( )
en la vecindad del punto y 0 = y10 , y20 = (1,1) .

Elegimos la métrica r ¥ ( x , y ) = max { x1 - y1 , x 2 - y 2 } y suponemos que r=1. Entonces


r r

r
la esfera cerrada S ( y 0 ,1) es un cuadrado cerrado:

r
{ r r r r
}
S ( y 0 ,1) = x : r ( x, y 0 ) £ 1 = {x : 0 £ xi £ 2; i = 1,2}

Hallamos las derivadas parciales

¶j1 1 ¶j1 1 x 1
= , = - cos 2 +
¶ x1 x1 + x2 + 5 ¶ x2 3 3 x1 + x2 + 5

¶j 2 x xx ¶j 2 x xx
= - 2 sin 1 2 , = - 1 sin 1 2
¶ x1 6 6 ¶ x2 6 6

289
2 2
De aquí, teniendo en cuenta que sin < , obtenemos
3 3

¶j 1 r 1 ¶j1 r ì1 1 1 ü 2
a 11 = max ( x ) = , a12 = max ( x ) £ max í - , ý =
¶ x1 xÎS ¶ x
r
î3 9 5 þ 9
r
xÎS 5 2

¶j 2 r 22 2 ¶j 2 r 2
a 21 = max (x) < = , a 22 = max (x) < .
¶ x1 ¶ x2
r r
xÎS 63 9 x ÎS 9
Usando (37.16) hallamos

2
ì1 2 2 2ü 4
a ¥ = max åa ij £ max í + , + ý = < 1.
1£i £ 2
j =1 î5 9 9 9þ 9
Así pues, la condición (37.6) del teorema 37.1 queda cumplida con a = 4 / 9 < 1 . Aclaremos, si se

r ¥ (j ( y 0 ), y 0 ) < 0.5 < (1 - a ¥ )r = 5 / 9 , es decir, (37.7) también se


r r r
cumple (37.7), tenemos

r
cumple. Según el teorema 37.1, el sistema (37.17) tiene en el cuadrado S ( y 0 ,1) una sola solución
r
x* . En virtud de (37.11),

r r 4
r ¥ (x* , xk ) £ r ¥ (xk , xk -1 ) =
5
r r 4
5
{ }
max x1( k ) - x1( k -1) , x2( k ) - x2( k -1) . □

Ejercicios:

1. Explique por qué el método iterativo (36.8) diverge si la constante de Lipschitz de la función
j (x) es mayor que uno. De un ejemplo. Muestre su explicación gráficamente.
2. (Ciarlet, 1995). Encuentre por el método de aproximaciones sucesivas la única solución del
sistema no lineal
ì- 5 x1 + 2 sin x1 + cos x 2 = 0
í .
î4 cos x1 + 2 sin x 2 - 5 x 2 = 0
3. Sea j ( x) = x + sin x + 1 . Demuestre que el proceso iterativo x k = j ( x k -1 ) converge en el
intervalo [1.6, 2.9] hacia la solución única para cualquier x 0 de este intervalo.

4. Encuentre la solución de las ecuaciones no-lineales simultáneas


x 2 + xy + y 2 = 3
sin x - y 2 = 0
suponiendo que ( x0 , y0 ) = (1,1) sea una buena aproximación inicial.

290
§ 38. Método de Newton

Analicemos una ecuación con una sola incógnita

f ( x) = 0 (38.1)

El siguiente teorema proporciona condiciones que garantizan la existencia de una sola solución

para la ecuación (38.1).

Teorema 38.1. Si f Î C2 [a, b] , f (a) f (b) < 0 , es decir, si f (x) adquiere en los

extremos del segmento [a, b] valores de signos opuestos, y si f ¢¢(x) no cambia de signo en [a, b] ,

la ecuación (38.1) tiene en [a, b] una sola solución (raíz) x* .

La afirmación del teorema es bastante evidente. Para las condiciones del teorema son

posibles cuatro casos diferentes: 1) f ¢¢( x) > 0 , a > 0 , b < 0 ; 2) f ¢¢( x) > 0 , a < 0 , b > 0 ;

3) f ¢¢( x) < 0 , a > 0 , b < 0 ; y 4) f ¢¢( x) < 0 , a < 0 , b > 0 . La existencia de la solución x* se

deduce de la continuidad de f (x) en [a, b] y de la suposición de que f (a) f (b) < 0 . Si la

referida solución no fuera única para la condición de f (a) f (b) < 0 , el signo de f ¢¢(x) cambiaría.

Adoptemos x 0 para el extremo del segmento [a, b] donde la función f (x) tiene el mismo

signo que f ¢¢(x) . Omitimos el caso poco importante donde f ¢¢( x) º 0 en [a, b] . Denotemos por

w el segmento cuyos extremos son los puntos x 0 y x* (Fig. 38.1). Para las condiciones del

teorema 38.1, la función f ¢(x) es monótona en w , además

m1 = min f ¢( x) = f ¢( x* ) > 0 (38.2)


w

ya que de lo contrario la función f (x) no podría cambiar de signo manteniendo invariable el

signo de f ¢¢(x) . Pongamos

291
M 1 = max f ¢( x) = f ¢( x0 ) > m1 > 0 (38.3)
w

M 2 = max f ¢¢( x) > 0 (38.4)


[a ,b ]

Método de Newton (Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles, 1998).

Este método, también llamado método de las tangentes, consiste en lo siguiente. Examinemos en

el punto x0 una tangente a la curva y = f (x) definida por la ecuación

Y = f ( x0 ) + ( x - x 0 ) f ¢( x 0 ) (Fig. 38.1).

a x* w
x3 x2 x1 x0 x

Fig. 38.1. Iteraciones de Newton ( f ¢¢( x) > 0 , a < 0 , x0 = b > 0, w = ( x* , x0 ) ).

Suponiendo que Y = 0 , hallamos el punto x1 de intersección de la tangente con el eje de

abscisas:

f ( x0 )
x1 = x 0 - (38.5)
f ¢( x0 )

Tras construir la tangente en el punto x1 (Fig.38.1) obtenemos, mediante una fórmula análoga, el

punto x 2 de intersección de esta última tangente con el eje x, etc.:

292
f ( x k -1 )
x k = x k -1 - (38.6)
f ¢( x k -1 )

Los razonamientos geométricos muestran claramente que para las condiciones del teorema 38.1,

la sucesión iterativa {x k }, obtenida mediante la fórmula (38.6), converge monótonamente hacia

la solución buscada x* de la ecuación (38.1).

La convergencia de las iteraciones de Newton. Estimemos la velocidad de convergencia

en el método de Newton. Tomando en consideración que f ( x* ) = 0 y utilizando la fórmula de

incrementos finitos de Lagrange, hallamos

f ( x k -1 ) = f ( x* ) - f ( x k -1 ) = f ¢(x ) x* - x k -1 ³ m1 x* - x k -1

donde x Î w es cierto punto, y m1 se define por (38.2). Teniendo en cuenta esta relación, así

como (38.3) y (38.6), obtenemos

f ( x k -1 ) x* - x k -1
x k - x k -1 = ³ m1 (38.7)
f ¢(x ) M1

En virtud de la convergencia monótona de la sucesión {x k } hacia x* , tenemos

x k -1 - x* = x k -1 - x k + x k - x* ,

es decir,

x* - x k = x* - x k -1 - x k - x k -1

De aquí, a base de (38.7), llegamos a la desigualdad

x* - x k -1
x* - x k £ x* - x k -1 - m1 = a x* - x k -1
M1

donde

293
m1
0 £a =1- <1 (38.8)
M1

La desigualdad

x* - x k £ a x* - x k -1 (38.9)

establece que el error x* - x k disminuye por lo menos como progresión geométrica de razón

a < 1 . Esta es la característica de las iteraciones iniciales. Después, cuando el error disminuya

bastante, aumentará la velocidad de convergencia en el método de Newton. Demostrémoslo.

De acuerdo con la fórmula de Taylor, tenemos

( x* - x k -1 ) 2
0 = f ( x* ) = f ( x k -1 ) + ( x* - x k -1 ) f ¢( x k -1 ) + f ¢¢(x )
2

donde x Î w es cierto punto, o bien,

f ( x k -1 ) f ¢¢(x )
x* = x k -1 - - ( x* - x k -1 ) 2 (38.10)
f ¢( x k -1 ) 2 f ¢( x k -1 )

Restando de (38.10) la igualdad (38.6) y utilizando la estimación

f ¢¢(x ) M
£b = 2
2 f ¢( x k -1 ) 2m1

llegamos a la desigualdad x* - x k £ b (x* - x k -1 ) . Escribámosla de la forma siguiente:


2

b x* - x k £ [b (x* - x k -1 )]2 (38.11)

De aquí se deduce que en cuanto en cierto k se cumpla la desigualdad b x* - x k < 1 (en virtud de

(38.9) eso ocurrirá necesariamente), el error comenzará a disminuir rápidamente según la ley

cuadrática. Después de n iteraciones adicionales tendremos

294
1
[b (x* - x k )]2
n
x* - x k + n £ (38.12)
b

Por ejemplo, si b x* - x k = 0.9 y n=8, entonces 2 n = 256 , y [b (x* - xk )]256 < 10 -11 .
Método simplificado de Newton. Si el cálculo de la derivada f ¢(x) es difícil, en vez de

la fórmula (38.6) se usa la fórmula siguiente:

f ( x k -1 )
x k = x k -1 - , k=1,2,3,… (38.13)
f ¢( x0 )

En este caso, la ley cuadrática (38.11) ya no se cumple. Sin embargo, todavía se mantiene la

convergencia según la progresión geométrica establecida por la desigualdad (38.9).

Relación entre el método de Newton y el método (37.1). La ecuación f ( x) = 0 es

equivalente a la ecuación

x = j ( x) º x + lf ( x) (38.14)

si l ¹ 0 . El método iterativo (37.1) convergerá tanto más rápidamente cuanto menor sea j ¢(x) ,

es decir, la constante de Lipschitz. Exijamos que se verifique j ¢( x k -1 ) = 0 , o bien,

1 + lf ¢( x k -1 ) = 0 y, por consiguiente,

1
l=- (38.15)
f ¢( x k -1 )

Entonces, de acuerdo con la fórmula x k = j ( x k -1 ) de las iteraciones (37.1),

f ( x k -1 )
x k = j ( x k -1 ) = x k -1 - (38.16)
f ¢( x k -1 )

Por lo tanto, hemos llegado al método de Newton.

Método de Newton para un sistema de ecuaciones. Sea dado un sistema de ecuaciones

no lineales

295
r r
f ( x) = 0 (38.17)
r r r r r r
donde f ( x ) = { f 1 ( x ), f 2 ( x ), K , f n ( x )} y f i (x ) es dos veces continuamente diferenciable en

r
vecindad de la solución x* de la ecuación (38.17).
r
La matriz F (x ) que tiene la forma
r r
é ¶f 1 ( x ) ¶f 1 ( x ) ù
ê ¶x L
¶ xn ú
r ê 1 ú
F (x) = ê L L L ú (38.18)
r r
ê ¶f n ( x ) ¶f n ( x ) ú
ê ¶x L
ë 1 ¶ x n úû

r r r
se llama matriz de Jacobi del sistema de funciones f i (x ) en el punto x . Si det F ( x ) ¹ 0 ,

r r
entonces denotemos por F -1 ( x ) la matriz inversa de la matriz de Jacobi F (x ) . En este caso de n

dimensiones, el método de Newton tiene la forma


r r r r r
x ( k ) = x ( k -1) - F -1 ( x ( k -1) ) f ( x ( k -1) ) , k=1,2,3,…, (38.19)

mientras que el método simplificado de Newton adopta la forma


r r r r r
x ( k ) = x ( k -1) - F -1 ( x (0) ) f ( x ( k -1) ) , k=1,2,3,…, (38.20)
r
La simplificación consiste en que la matriz inversa F -1 ( x ( 0) ) se determina una sola vez, y no en

cada iteración, como en (38.19).

r
Observación 38.1. Si det F ( x* ) ¹ 0 y si la aproximación inicial se toma bastante cerca
r
de la solución exacta x* , las iteraciones (38.19) y (38.20) convergerán en la 1-norma o 2-norma
r
hacia x* . El carácter de la convergencia es el mismo que para n=1, es decir, a partir de cierto

momento las iteraciones (38.19) convergerán muy rápidamente según la ley cuadrática, mientras

que para las iteraciones (38.20) sólo se garantiza la convergencia con arreglo a la progresión

geométrica. □

296
Ejercicios:

1. (Ortega y Poole, 1981). Sea x* el cero (la raíz) de una función f (x) que tiene dos derivadas
continuas. Supongamos que f ¢( x* ) = 0 , pero f ¢( x) ¹ 0 en una vecindad de x* . Demuestre
que el limite de la función j (x) de la fórmula (38.16) existe y es igual a x* cuando x ® x* .

2. Sea f ( x) º x 2 + 4 x + 5 = 0 . Describa el comportamiento de las iteraciones de Newton.

3. Demuestre que las iteraciones de Newton convergen hacia la solución única de la ecuación
x 2 + 4 x + 4 = 0 para cualquier punto inicial x0 ¹ -2 .

4. Demuestre que las iteraciones de Newton convergen hacia la solución única de la ecuación
e x + x + 1 = 0 para cualquier punto inicial x 0 .

5. (Ciarlet, 1995). Analice la convergencia del método de Newton al aplicarlo al sistema


ì- 5 x1 + 2 sin x1 + cos x 2 = 0
í .
î4 cos x1 + 2 sin x 2 - 5 x 2 = 0
1
6. Analice la convergencia del método xk +1 = (4 - a 3 xk3 ) xk .
3
7. Usando el método de Newton encuentre las raíces del polinomio x 3 + x 2 - 26 x + 24 .

297
§ 39. Otros métodos iterativos para problemas no lineales

Método de bisección. Analicemos una ecuación con una sola incógnita

f ( x) = 0 (39.1)

en un segmento [a, b] con la particularidad de que f (a) f (b) < 0 . Supongamos que las

condiciones del teorema 38.1 se cumplen, es decir la ecuación (39.1) tiene una sola solución

(raíz) x* en el segmento [a, b] .

y y = f (x)

x*

a x2 x3 x1 b x

Fig. 39.1. Iteraciones del método de bisección ( f (a) < 0 , f (b) > 0 ).

Sea f (a) < 0 , f (b) > 0 , y f ¢( x) > 0 (Fig.39.1). El método iterativo más simple para

aproximar la solución exacta x* es el método de bisección. Elegimos x1 = 12 (a + b) . Ya que

f ( x1 ) > 0 (Fig.39.1), entonces la raíz x* se encuentra entre a y x1 (si f ( x1 ) < 0 , entonces la

raíz x* se encuentra entre x1 y b). Elegimos x 2 = 12 (a + x1 ) y dejamos el segmento [x1 , x 2 ] que

contiene el punto x* . Después, x3 = 12 ( x1 + x 2 ) . Continuamos este proceso dejando cada vez el

segmento que contiene la solución de acuerdo con el teorema 38.1.

298
Evidentemente, cada paso del método de bisección reduce la longitud del segmento conteniendo

x* por el factor 2. Por lo tanto, después de m pasos, dicha longitud será (b - a) 2 - m , y este da la

estimación del error de aproximación:

xm - x* £ 2 - m b - a (39.2)

Observación 39.1. El método de bisección es insensible a errores en el cálculo de los

valores f ( xi ) si el signo de f ( xi ) se determina correctamente. Sin embargo, si el signo f ( xi )

es incorrecto, la decisión errónea se tomará al elegir el segmento siguiente. •

Método de secantes. Una de las desventajas del método de bisección es que puede

converger con bastante lentitud. Para reducir el segmento inicial por un factor grande, por

ejemplo, 10 6 que corresponde a la exactitud de seis cifras decimales, hay que hacer, según la

6
estimación (39.2), unas m = @ 20 iteraciones. Una vía posible para acelerar el método
log 10 2

de bisección es usar los valores f ( xi ) en vez de sus signos, y lo más sensillo para utilizar esta

información es escoger como el punto siguiente xi +1 el cero de la función lineal que interpola

f (x) entre los puntos xi -1 y x i (Fig.39.2).

( xi , f ( xi ) )

xi -1 xi +1 x* x i x

(xi-1 , f ( xi-1 ))

Fig. 39.2. Iteraciones del método de secantes.

299
Se llama método de secantes. En la situación favorable presentada en Fig.39.2, la aproximación

xi +1 mediante el método de secantes es obviamente mejor que la obtenida por el método de

bisección como la mitad del segmento ( xi -1 , xi ) . La función de la interpolación lineal de f (x) en

(xi -1 , xi ) se define como


x - xi -1 x - xi
l ( x) = f ( xi ) - f ( xi -1 ) (39.3)
xi - xi -1 xi - xi -1

y la raíz de esta función es

xi -1 f ( xi ) - xi f ( xi -1 )
xi +1 = (39.4)
f ( xi ) - f ( xi -1 )

Así pues, con fin de acelerar la convergencia del proceso iterativo, se puede combinar el método

de secantes con el método de bisección.

Observación 39.2. Para cálculos, es preferible escribir el método de secantes (39.4) de la

forma

f ( xi )
xi +1 = xi - (39.5)
di

donde

f ( xi ) - f ( xi -1 )
di = = tg a (39.6)
xi - xi -1

La forma (39.5) permite evitar el resultado nulo artificial para xi +1 . Además, nos muestra que el

método de secantes lleva al método de Newton cuando xi -1 tiende a x i . •

Iteraciones de Picard. En muchas situaciones se puede presentar el sistema no lineal


r r
f ( x) = 0 (39.7)

de la forma
r r r r r
f ( x ) = Ax + h ( x ) (39.8)

300
r r
donde A es una matriz no singular, y h (x ) es una función vectorial no lineal. El método de

Picard es
r r r
xi +1 = - A -1 h ( xi ) , i=0,1,2,… , (39.9)

es decir, en cada iteración es necesario resolver el sistema


r r r
A xi +1 = - h ( xi ) (39.10)

Ejemplo 39.1 (Golub y Ortega, 1992). Hay que hallar la solución de la ecuación

v¢¢( x) = 3v( x) + x 2 + 10v 3 ( x) , 0 < x < 1 (39.11)

con las condiciones de contorno

v(0) = v(1) = 0 (39.12)

Sea xi = ih , i = 0,1,K, n + 1 una malla con tamaño h = 1/(n + 1) . Al discretizar la ecuación

(39.11) mediante el método de diferencias finitas, llegamos al sistema

- vi +1 + 2vi - vi -1 + h 2 (3vi + i 2 h 2 + 10vi3 ) = 0 , (i = 1,2,3,K, n) (39.13)

v0 = vn+1 = 0 (39.14)
r r
Así pues, la función no lineal h (v ) del proceso (39.10) se define mediante la fórmula

(hr(vr)) = h (3v
i
2
i + i 2 h 2 + 10vi3 ) (39.15)

r
donde v = {v1 ,v2 ,K,vn } , y la matriz A del proceso es tridiagonal:
T

é 2 -1 0 L 0 0 ù
ê- 1 2 - 1 L 0 0 ú
ê ú
ê 0 -1 2 L 0 0 ú
A=ê ú (39.16)
êL L L L L L ú
ê 0 0 0 L 2 - 1ú
ê ú
ëê 0 0 0 L - 1 2 ûú

301
Es de importancia notar que la matriz A es invariable y, por lo tanto, la factorización LU se hace

una sola vez y después se usa repitidamente en el proceso de iteraciones. •

Ejercicios:

1. (Golub y Ortega, 1992). Aplique el método de Picard al problema v¢¢( x) = g ( x, v) , 0 < x < 1 ,
cuando:
a) g ( x, v) = v 4 ( x) , v(0) = 0, v(1) = 1/ 2 ;
b) g ( x, v) = v( x) + v 2 ( x) , v(0) = 0, v(1) = 0 ;
c) g ( x, v) = xv 3 ( x) , v(0) = 0, v(1) = 1;
2
d) g ( x, v) = e v + 2 - e x , v(0) = 0, v(1) = 1 ;

2. ¿Cuándo las iteraciones de Picard convergen para las ecuaciones del ejercicio 1?

302
Capítulo VIII. Métodos se separación

La solución de un problema complejo y multidimensional se puede reducir a menudo a la solución

consecutiva de unos problemas más simples (con frecuencia unidimensionales) usando uno de los

métodos de separación (Peaceman y Rachford 1955; Douglas y Rachford 1956; Marchuk, 1982).

Dicha reducción es posible cuando un operador (o una matriz) del problema original es

positivamente semidefinido y se descompone en la suma de dos (o más) operadores (matrices)

positivamente semidefinidos y de estructura simple. Estos métodos permiten separar no sólo varias

dimensiones, sino también varios procesos físicos en modelos complejos. Se usan, por ejemplo, en

los modelos de dinámica de la atmósfera y de los océanos (Marchuk y otros 1975, 1983). Son

especialmente convenientes para separar los procesos de advección y difusión de los procesos

químicos en los modelos de transporte de contaminantes. En este capítulo se consideran cuatro

métodos principales de este tipo: el método de estabilización (Peaceman y Rachford, 1955), el

método de predicción-corrección (Douglas y Jones, 1963; Douglas y otros, 1963), y dos variantes

del método “componente-por-componente” (Marchuk, 1958; Yanenko, 1959). Los métodos de

separación se aplican no sólo a los problemas no estacionarios, sino también a la solución de un

problema estacionario mediante un proceso iterativo. Para estudiar a fondo dichos métodos, se

recomiendan los trabajos de Bagrinovskii y Godunov (1957), Yanenko (1971), Birkhoff y Varga

(1959), Douglas y Jones (1963), Douglas y otros (1963), Godunov y Ryabenkii (1964),

D’yakonov (1964, 1972), Marchuk (1982), Marchuk y otros (1975), Marchuk y Skiba (1976,

1992), Skiba (1995).

303
§ 40. Método de estabilización

Consideremos en el intervalo de tiempo [0, T ] el problema no estacionario

dj
r
+ Aj = f en [0, T ]
r r
dt (40.1)
j (0) = g
r r

donde la matriz A es positivamente semidefinida ( A ³ 0 ) y se representa como la suma

(descomposición)

A = A1 + A2 (40.2)

de las matrices A1 y A2 , también positivamente semidefinidas:

A1 ³ 0 , A2 ³ 0 (40.3)

Supongamos que la solución j (t ) de (40.1) es un vector bastante suave en tiempo. Se puede


r

considerar el problema (40.1) como un problema no estacionario en el espacio vectorial de

dimensión finita, o bien como el resultado de la discretización de un sistema de ecuaciones

diferenciales parciales.

Cuando la matriz A no depende de tiempo, se recomiendan dos métodos de separación: el

método de estabilización (Peaceman y Rachford, 1955; Douglas y Rachford, 1956) y el método de

predicción-corrección (Douglas y Jones, 1963; Douglas y otros, 1963). Estudiaremos ahora el

primer método.

r
Método de estabilización. I. Primero supongamos que la ecuación es homogénea: f = 0 .

El esquema del método de estabilización para hallar la solución aproximada del problema (40.1)-

(40.3) en cada intervalo [t j , t j +1 ] tiene la forma

æ t öæ t ö j j +1 - j j
r r
ç E + A1 ÷ç E + A2 ÷ + Aj j = 0, j 0 = g (40.4)
r r r
è 2 øè 2 ø t

304
Aproximación. Demostremos que la ecuación (40.4) aproxima el problema (40.1)-(40.3)

con segundo grado respecto a t. Efectivamente, mediante transformaciones algebraicas se puede

escribir (40.4) de la forma

æ t2 ö j j +1 - j j j j +1 + j j
r r r r
ç E + A1 A2 ÷ +A = 0, j 0 = g (40.5)
r r
è 4 ø t 2

Por lo tanto, si la solución es bastante suave y

t
Ai << 1, i = 1,2 , (40.6)
2

entonces la ecuación (40.5) tiene el mismo grado de aproximación que el esquema de Crank-

Nicolson

j j +1 - j j j j +1 + j j
+A = 0, j 0 = g , (40.7)
t 2

es decir, tiene el segundo grado de aproximación respecto a t. Notemos que (40.6) representa una

limitación para escoger el tamaño t.

Estabilidad. Analicemos ahora la estabilidad del esquema (40.4). Es fácil demostrar que

dicho esquema se puede describir como

æ t öæ t ö r j +1 æ t öæ t ö r j r0 r
ç E + A1 ÷ç E + A2 ÷j = ç E - A1 ÷ç E - A2 ÷j , j = g , (40.8)
è 2 øè 2 ø è 2 øè 2 ø

o bien, como
-1 -1
æ t ö æ t ö æ t öæ t ör
j = ç E + A2 ÷ ç E + A1 ÷ ç E - A1 ÷ç E - A2 ÷j j
r j +1 (40.9)
è 2 ø è 2 ø è 2 øè 2 ø

Introduciendo un vector nuevo

r æ t ör
y j = ç E + A2 ÷j j (40.10)
è 2 ø
305
obtenemos

y j +1 = Ty j
r r
(40.11)

donde

-1 -1
æ t ö æ t öæ t öæ t ö
T = ç E + A1 ÷ ç E - A1 ÷ ç E - A2 ÷ ç E + A2 ÷ (40.12)
è 2 ø è 2 ø è 2 ø è 2 ø

es la matriz de transición del momento t j al momento t j +1 . De la ecuación (40.11) se deduce la

estimación

j +1
y £ T ×y j
(40.13)

para el vector y j +1 en la norma euclidiana, además,


r

T £ T1 × T2 (40.14)

donde

-1
æ t öæ t ö
Ti = ç E - Ai ÷ç E + Ai ÷ , i = 1,2 (40.15)
è 2 øè 2 ø

Para derivar (40.14) usamos la identidad

-1 -1
æ t ö æ t ö æ t öæ t ö
ç E + Ai ÷ ç E - Ai ÷ = ç E - Ai ÷ç E + Ai ÷ (40.16)
è 2 ø è 2 ø è 2 øè 2 ø

que se deduce de la identidad

-1 -1
æ t ö æ t ö æ t öæ t ö
ç E - Ai ÷ ç E - Ai ÷ = ç E + Ai ÷ç E + Ai ÷ (40.17)
è 2 ø è 2 ø è 2 øè 2 ø

306
-1
t t
En efecto, multiplicando (40.17) por æç E + Ai ö÷ æç E - Ai ö÷ de la izquierda y aprovechando que
è 2 ø è 2 ø

t t
las matrices æç E - Ai ö÷ y æç E + Ai ö÷ se conmutan, obtenemos (40.16). Así pues, el problema de
è 2 ø è 2 ø

la estabilidad del esquema se reduce a la estimación de las normas de las matrices Ti. Aplicando el

lema de Kellogg (lemma 3.2) a (40.15), llegamos a la igualdad

T º T 2
£1 (40.18)

y, por consiguiente, en la norma euclideana obtenemos

y j +1 £ y i (40.19)
r r

en la norma euclidiana. La desigualdad (40.19) demuestra la estabilidad del algoritmo respecto al

vector y . Sin embargo nuestro objetivo final es establecer la estabilidad del algoritmo respecto a
rj

j j del problema original (40.4). De (40.19) y (40.10) tenemos


r
la solución

æ t ö r j +1 æ t örj
ç E + A2 ÷j £ ç E + A2 ÷j (40.20)
è 2 ø è 2 ø

Usando la notación

æ t ör r r 12
ç E + A2÷j = (C 2 ,j
j ) = jr (40.21)
è 2 ø C2

donde

æ t * öæ t ö
Ci = ç E + Ai ÷ç E + Ai ÷ , i = 1,2 (40.22)
è 2 øè 2 ø

es fácil demostrar que la matriz Ci es positivamente definida (Ci > 0) y × C2


es realmente la

norma. Por lo tanto

j j +1 £ jj
r r
(40.23)
C2 C2

307
Concluimos que si ambas matrices Ai son positivamente semidifinidas (Ai ³ 0) y no dependen de

tiempo, entonces el esquema (40.4) es absolutamente estable en la C2 -norma, y aproxima el

problema (40.1) con el segundo grado en t. La propiedad de que Ai no depende de tiempo es muy

importante y se usa no sólo en (40.11), sino también en (40.23) para introducir la C2 -norma.

El método de estabilización (40.4) se puede realizar convenientemente de la siguiente

manera

F j = Aj j
r r

æ t ör
+ x = -
rj
ç E A 1÷ F
è 2 ø (40.24)
æ t ör r
ç E + A2 ÷h = x
è 2 ø
j = j + th
r j +1 r j r

x y h son dos vectores auxiliares. Notemos que la primera y cuarta relaciones son
r r
donde

explícitas, mientras que la segunda y tercera describen relaciones implícitas. En efecto, para

realizar la segunda y tercera etapas del algoritmo (40.24) hay que hallar formalmente dos matrices

-1 -1
æ t ö æ t ö
inversas ç E + A1 ÷ y ç E + A2 ÷ . Ya que las matrices separadas A1 y A2 son simples, a
è 2 ø è 2 ø

menudo es posible realizar las etapas 2 y 3 fácilmente por medio de la factorización (véase § 27 y

§ 31) sin aplicar un método iterativo.

II. Consideremos ahora el problema (40.1) no homogéneo ( f ¹ 0 ) donde A = A1 + A2 ,


r

A1 ³ 0 , A2 ³ 0 . En este caso, el esquema del método de estabilización es

æ t öæ t ö j j +1 - j j
r r
+ Aj j = f j j0 = g
r
ç E + A1 ÷ç E + A2 ÷ (40.25)
r r r
è 2 øè 2 ø t

donde

308
r r
f j = f (t j + 1 ) (40.26)
2

Se puede demostrar que el esquema (40.25), (40.26) aproxima el problema original (40.1) con el

segundo grado en t. Investigamos la estabilidad del esquema (40.25). En este caso

-1
æ t ö rj
y = Ty + t ç E + A1 ÷ f
r j +1 rj
(40.27)
è 2 ø

donde de nuevo usamos el vector y introducido por la fórmula (40.10). De (40.25) tenemos
rj

-1
æ t ö
y £ T ×y + t ç E + A1 ÷
r
× fj
r j +1 rj
(40.28)
è 2 ø

Usando la desigualdad T £ 1 , obtenemos

-1
æ t ö
y £y + t ç E + A1 ÷
r
× fj
r j +1 rj
(40.29)
è 2 ø

Transformaciones simples llegan a

-1 -1
rj æ t ö æ t örj æ t ö æ t ör
f = ç E + A2 ÷ ç E + A2 ÷ f £ ç E + A2 ÷ × ç E + A2 ÷ f j (40.30)
è 2 ø è 2 ø è 2 ø è 2 ø

Teniendo en cuenta (40.21), (40.10) y (40.30), de (40.29), se deduce que

-1 -1
æ t ö æ t ö
j £ j + t ç E + A1 ÷
r
× ç E + A2 ÷ × fj
r j +1 rj
(40.31)
C2 C2
è 2 ø è 2 ø C2

Debido al lema 3.1,

-1
æ t ö
ç E + Ai ÷ £1 (40.32)
è 2 ø

Usando la última estimación, llegamos a la desigualdad

j j +1 £ jj +t f j
r r r
C2 C2
(40.33)
C2

309
Aplicando repetidamente este fórmula a fin de reducir el índice j, obtenemos

jj + jt f
r r
£ g = g +T f
r r r
C2 C2
(40.34)
C2 C2 C2

donde g es vector inicial, t es tamaño de la malla de tiempo y


r r
f = max f j (40.35)
C2 j C2

Por consiguiente, si las matrices Ai son positivamente semidefinidas y sus elementos no dependen

de tiempo, entonces el esquema (40.25) del método de estabilización es absolutamente estable y

aproxima el problema (40.1) con el segundo grado en t. De nuevo, se puede realizar dicho

esquema en cuatro etapas:

F j = Aj j - f j ,
r r r
f j = f (t j + 1 )
r r
2

æ t ör
ç E + A1 ÷x = - F
rj
è 2 ø (40.36)
æ t ör r
ç E + A2 ÷h = x
è 2 ø
j j +1 = j j + th
r r r

Ejercicios:

du
1. Consideremos el problema: + (a1 + a2 )u = f (t ), 0 £ t £ T , u(0) = u0 , donde
dt
a1 ³ 0, a2 ³ 0 son unos números. Demuestre que el esquema
j j +1 / 2 - j j
+ a1j j +1 / 2 = f1 (t j +1 / 2 ) , j 0 = u0 ,
t
j j +1 - j j +1 / 2
+ a2j j +1 = f 2 (t j +1 / 2 )
t
tiene aproximación O(t ) para cualesquier a f1 (t ) y f 2 (t ) = f (t ) - f1 (t ) ,

¶j
+ Aj = 0 donde A = {aij } es una
r
r
2. Consideremos un sistema de ecuaciones diferenciales
¶t
matriz simétrica y positivamente semidefinida ( A ³ 0 ). Sea A = A - + A + donde A - es la
matriz triangular inferior de los elementos de A, y A + es la matriz triangular superior de
los elementos de A, además, los elementos diagonales de ambas matrices son
310
aii- = aii+ = 0.5aii . Las matrices A - y A + son positivamente semidefinidas, ya que
A- = ( A+ )* y
Ax , x = A + x , x + A - x , x = A + x , x + ( A + ) * x , x = 2 A + x , x = 2 A - x , x .
r r r r r r r r r r r r r r

Consideremos el esquema de Samarskii (1971):


j j +1 / 2 - j j j j +1 - j j +1/ 2
r r r r
+ A-j j +1 / 2 + A+j j = 0 , + A-j j +1/ 2 + A+j j +1 = 0 .
r r r r
t /2 t /2
r j +1 / 2 r j +1
Para hallar j y j hay que resolver dos problemas muy simples con las matrices
t t
triangulares E + A- y E +
A+ (vease § 27). Demuestre que el esquema es
2 2
absolutamente estable [Sugerencia: Eliminando j j +1 / 2 de las ecuaciones, obtenemos el
r

esquema de estabilización (40.4)].

¶j ¶ 2j ¶ 2j
3. Sea = + la ecuación de calor en un dominio rectangular, y sean
¶ t ¶ x2 ¶ y2
(L1j ) ij = h -2 (j i +1, j - 2j i , j + j i -1, j ) y (L 2j ) ij = h -2 (j i , j +1 - 2j i , j + j i , j -1 ) las diferencias
¶ 2j ¶ 2j
finitas que aproximan las derivadas y en una malla regular con tamaño h.
¶ x2 ¶ y2
Consideremos el esquema de Douglas y Rachford (1956):
j j +1 / 2 - j j j j +1 - j j +1 / 2
r r r r
r j +1 / 2
= L1j + L 2j , = L 2 (j j +1 - j j ) .
rj r r
t t
a) Demuestre que el esquema tiene aproximación O(h 2 + t )
b) Demuestre que el esquema es estable.

311
§ 41. Método de predicción-corrección.

Consideremos otro método de separación llamado de método de predicción-corrección

(Douglas y Jones, 1963; Douglas y otros, 1963) para resolver el problema no estacionario

dj
r
+ Aj = f en [0, T ]
r r
dt (41.1)
j ( 0) = g
r r

donde la matriz A es puede presentar como A = A1 + A2 . Supongamos que todas las matrices son

positivamente semidefinidas e invariables. Descomponemos el intervalo total 0 £ t £ T en

subintervalos t j £ t £ t j +1 de longitud t. El método de predicción-corrección contiene los dos

pasos siguientes:

t
1) Primero se halla la solución aproximada en el momento t j + 1 = t j + , usando el esquema
2 2

del primer grado de aproximación en t con una reserva bastante grande de estabilidad

(predicción).

2) Luego la solución auxiliar obtenida en el primer paso se corrige usando el esquema del segundo

grado de aproximación (corrección) en el intervalo total (tj, tj+1).


r
I. Consideremos primero la ecuación homogénea: f = 0 . En este caso, se puede escribir

el esquema de predicción-corrección de la siguiente forma (Marchuk, 1982):

ìx - j j
r r
+ A1x = 0,
r
ï
ï t 2
predicción : í r
j +1 2
j x
r
ï -
+ A2j j +1 2 = 0
r
(41.2)
ï t 2
î
j j+1 - j j
r r
+ Aj j +1 2 = 0, j 0 º g
r r r
corrección :
t

312
Si eliminamos el vector auxiliar x de las dos primeras ecuaciones del sistema (41.2), entonces
r

obtenemos

æ t öæ t ö r j +1 / 2 r j
ç E + A1 ÷ç E + A2 ÷j =j
è 2 øè 2 ø (41.3)
j j +1 - j j
r r
+ Aj j +1 / 2 = 0
r
t

j j +1 / 2 , llegamos a la ecuación
r
Excluyendo

-1 -1
j j +1 - j j æ t ö æ t ö r
r r
+ Aç E + A2 ÷ ç E + A1 ÷ j j = 0, j 0 = g (41.4)
r r
t è 2 ø è 2 ø

Analicemos ahora el problema de aproximación. Con este objetivo, escribimos (41.4) de la forma

æ t öæ t ö j j +1 - j j
r r
ç E + A1 ÷ç E + A2 ÷ + Lj j = 0 (41.5)
r
è 2 øè 2 ø t

donde

-1 -1
æ t öæ t ö æ t ö æ t ö
L = ç E + A1 ÷ç E + A2 ÷ Aç E + A2 ÷ ç E + A1 ÷ (41.6)
è 2 øè 2 ø è 2 ø è 2 ø

Admitiendo que

t
Ai < 1, i = 1,2 (41.7)
2

es fácil demostrar que

L = A + O(t 2 ) (41.8)

Ya que el esquema de estabilización

æ t öæ t ö j j +1 - j j
r r
ç E + A1 ÷ç E + A2 ÷ + Aj j = 0 . (41.9)
r
è 2 øè 2 ø t

313
( )
tiene aproximación O t 2 , concluimos que, el esquema de predicción-corrección también tiene

aproximación de segundo grado respecto a t.

Ahora analicemos la estabilidad del esquema (41.2). Primero, escribimos (41.4) en la

siguiente forma

æ t öæ t ö u j +1 - u j
r r
ç E + A1 ÷ç E + A2 ÷ + Au j = 0
r
(41.10)
è 2 øè 2 ø t

donde

-1 -1
r æ t ö æ t ö r
u j = ç E + A2 ÷ ç E + A1 ÷ j j (41.11)
è 2 ø è 2 ø

Notemos que el esquema (41.10) coincide con el del método de estabilización y, por lo tanto, es

estable en la C2 -norma:

u j +1 £ uj
r r
(41.12)
C2 C2

con

æ t öæ t ö
C2 = ç E + A2 * ÷ ç E + A2 ÷ . (41.13)
è 2 øè 2 ø

Sustituyendo (41.11) en (41.12), y usando la fórmula

æ t ör
= (C2u , u ) 2 = ç E + A2 ÷u
r r 1
u
r
(41.14)
è 2 ø
C2

obtenemos

-1 -1
æ t ör æ t öæ t ö æ t ö r
u j +1 = ç E + A2 ÷u j +1 = ç E + A2 ÷ç E + A2 ÷ ç E + A1 ÷ j j +1
r
C2
è 2 ø è 2 øè 2 ø è 2 ø

314
-1 -1
æ t ö r æ t ö r
= ç E + A1 ÷ j j +1 £ ç E + A1 ÷ j j (41.15)
è 2 ø è 2 ø

o bien,

j j +1 £ jj
r r
(41.16)
C1-1 C1-1

donde

-1 -1
-1 æ t ö æ t ö
C1 = ç E + A1* ÷ ç E + A1 ÷ (41.17)
è 2 ø è 2 ø

es una matriz simétrica y positivamente definida. Así, la estabilidad del esquema (41.2) en la

C1-1 -norma queda demostrada. Por lo tanto, si las matrices Ai son positivamente semidefinidas

( A1 ³ 0 , A2 ³ 0 ) y sus elementos son independientes del tiempo, entonces el esquema (41.2) es

absolutamente estable y aproxima el problema diferencial homogéneo con segundo grado en t .


r
II. Consideremos ahora el problema (40.1) no homogéneo ( f ¹ 0 ). En este caso, el

método de predicción-corrección se formula de la siguiente manera

x -j j ü
rr
+ A1x = f j
r r
ï
t 2 ï
r j + 12 r
j -x r j + 12 ïï
+ A2j =0 ý (41.18)
t 2 ï
j -j
r j +1 r j
r j+ 1 ï
+ Aj 2 = f j ï
r
t ïþ
r r
donde f j = f (t 1 ) . Se puede demostrar que (41.18) aproxima el problema original (41.1) con el
j+
2

segundo grado en t. La estabilidad de (41.18) se establece de la siguiente manera. Eliminamos

r j + 12
j y x , y llegamos a la ecuación
r

315
-1 -1
j j +1 - j j æ t ö æ t ö æ rj t rjö rj
r r
+ Aç E + A2 ÷ ç E + A1 ÷ ç j + f ÷ = f (41.19)
t è 2 ø è 2 ø è 2 ø

Usando la notación

-1
æ t ö æ rj t rjö
y = ç E + A1 ÷ çj + f ÷
rj
(41.20)
è 2 ø è 2 ø

escribimos la ecuación (41.19) como

-1 -1 -1
y j +1 - y j æ t ö æ t ö r æ t ö æ f j + f j +1 ö
r r r r
+ ç E + A1 ÷ Aç E + A2 ÷ y j = ç E + A1 ÷ ç ÷
t è 2 ø è 2 ø è 2 ø ç 2 ÷
è ø

Por lo tanto,

-1 -1 -1
é t ö æ t ö ùrj æ t ö æ f j + f j +1 ö (41.21)
r r
æ
y = ê E - t ç E + A1 ÷ Aç E + A2 ÷ úy + t ç E + A1 ÷ çç ÷
r j +1
è 2 ø è 2 ø è 2 ø 2 ÷
ë û è ø

Tenemos

-1 -1 -1 -1
æ t ö æ t ö æ t ö éæ t öæ t ö ùæ t ö
E - t ç E + A1 ÷ Aç E + A2 ÷ = ç E + A1 ÷ êç E + A1 ÷ç E + A2 ÷ - tAúç E + A2 ÷
è 2 ø è 2 ø è 2 ø ëè 2 øè 2 ø ûè 2 ø
-1 -1
éæ t ö æ t öù éæ t öæ t ö ù
= êç E + A1 ÷ ç E - A1 ÷ú êç E - A2 ÷ç E + A2 ÷ ú
ëêè 2 ø è 2 øûú ëêè 2 øè 2 ø ûú

De acuerdo con (40.16) y lema 3.2, obtenemos

-1
t ö æ f j + f j +1 ö
r r
æ
y £y + t ç E + A1 ÷ × çç ÷
r j +1 rj
(41.22)
è 2 ø è 2 ÷
ø

Aplicando (41.22) repetidamente con fin de reducir el índice j, y tomando en cuenta (41.20) y la

desigualdad tj £ T , llegamos a

t rj r t r
jj +
r
f £ g+ f0 +T f
r
(41.23)
2 2 C1-1
C1-1 C1-1

316
donde
r r
f = max f j , (41.24)
C1-1 j C1-1

es decir, el método de predicción-corrección (41.18) es estable en la C1-1 -norma para cada tamaño

t:

jj
r
£ g + 2T f
r r
C1-1 C1-1
.
C1-1

Por consiguiente, si las matrices Ai son positivamente definidas y sus elementos son

independientes del tiempo, entonces el esquema (41.18) es absolutamente estable y aproxima el

problema diferencial con segundo grado en t con tal que el forzamiento f y la solución exacta son
r

bastante suaves.

Observación 41.1. En conclusión notemos que la reserva de estabilidad de la parte

predicción del esquema (41.18) es bastante grande y hace al esquema absolutamente estable aun

en el caso de que la parte corrección sea absolutamente inestable, como muestra el siguiente

ejemplo.

Ejemplo 41.1. Consideremos el caso particular cuando una matriz A representa el

operador de Laplace de dos dimensiones en el cuadrado unitario D con la condición de que la

solución desaparece ( j = 0 ) en la frontera de D. Entonces la corrección tiene la forma

j k ,l j +1 - j k ,l j -1 j k +1,l j - 2j k ,l j + j k -1,l j j k ,l +1 j - 2j k .l j + j k .l -1 j
- - =0 (41.25)
2t h2 h2

donde h y t son los tamaños de las mallas en el espacio y tiempo, respectivamente. Para

simplificar los cálculos, consideramos sólo valores enteros de j . Buscamos la solución de la forma

j k ,l j = l j sin( mpkh) × sin( pplh) (41.26)

317
donde j es el índice de tiempo en la parte izquierda, y la potencia en la parte derecha. Sustituyendo

(41.26) en (41.25), llegamos a la ecuación

l2 + 8a mp l - 1 = 0 (41.27)
donde

t æ mph pph ö
amp = ç sin
2
2
+ sin 2 ÷ (41.28)
h è 2 2 ø
Si elegimos la raíz negativa

l = -4amp - 1 + 16amp
2
(41.29)

entonces l > 1 , y

j j / j 0 = l ® ¥, cuando t ® 0
j
(41.30)

Notemos que el índice j aumenta cuando t ® 0 ( 0 £ tj £ T ). Se deduce de (41.30) que el

esquema “corrección” (41.25) es absolutamente inestable (para cualquier t ). Sin embargo, la

reserva de estabilidad de la parte “predicción” es tan grande que el método total predictor-

corrector es absolutamente estable.

Ejercicios:

1. Consideremos para el problema del ejercicio 3 (§ 40), el esquema de Peaceman y


Rachford (1955):
j j +1 / 2 - j j j j +1 - j j +1 / 2
r r r r
r j +1 / 2
= L1j + L 2j , = L1j j +1 / 2 + L 2j j +1 .
rj r r
t /2 t /2
Demuestre que el esquema es estable.

¶j ¶ 2j ¶ 2j
2. Sea =s( 2 + ) la ecuación de calor en un dominio rectangular ( s > 0 ).
¶t ¶ x ¶ y2
1 1
(1 - n x L1 )j j +1 = (1 + n x L1 + n y L 2 )j j
r r
Consideremos el esquema:
2 2
donde (L1j ) ij = j i +1, j - 2j ij + j i -1, j , (L 2j ) ij = j i , j +1 - 2j ij + j i , j -1 , n x = st / hx2 y
n y = st / h y2 . Usando el método espectral de von Neumann, demuestre que el esquema es
inestable si n y > 0.5 .

3. Concideremos para resolver el problema del ejercicio 2, el esquema de D’yakonov (1964):


318
1 1 1 1
(1 - n x L1 )j j +1/ 2 = (1 + n x L1 )(1 + n y L 2 )j j , (1 - n y L 2 )j j +1 = j j +1 / 2
r r r r
2 2 2 2
r j +1 / 2 r j r j
Analice las condiciones de frontera para el vector auxiliar j , j = p si para cada j
sobre la frontera del rectángulo.
4. Desarrolle el algoritmo de predicción-corrección para la ecuación de difusión no lineal
ut = (u n u x ) x

319
§ 42. Método componente-por-componente. Problema homogéneo

Los métodos de estabilización y de predicción-corrección son de la misma exactitud y

absolutamente estables con la particularidad de que los operadores (o matrices) son positivamente

semidefinidos (Ai ³ 0). Sin embargo, estos métodos son útiles sólo si los elementos de las

matrices Ai no dependen de tiempo. Lamentablemente, si Ai depende de tiempo, entonces el

análisis de la estabilidad dado en §40 y §41 no es válido. Ahora consideremos otro método que es

exento de dicha restricción. El método se llama componente-por-componente (component-by-

component method) y fue desarrollado por Yanenko (1959, 1971), Marchuk y Lebedev (1971), y

Marchuk (1982). Consideremos de nuevo el problema

dj
r
+ Aj = f en [0, T ]
r r
dt (42.1)
j ( 0) = g
r r

donde la matriz A es positivamente semidefinida ( A ³ 0 ) y se representa como la suma

(descomposición)

A = A1 + A2 (42.2)

de las matrices A1 y A2 también positivamente semidefinidas:

A1 ³ 0 , A2 ³ 0 (42.3)

Sin embargo, ahora ellas dependen de tiempo: Ai = Ai (t ) . Suponiendo que los elementos de Ai

son bastante suaves en tiempo, aproximemos estas matrices en el segmento (t j , t j +1 ) por

L i = Ai æç t j + 1 ö÷ , L j = Aæç t j + 1 ö÷
j
(42.4)
è 2ø è 2ø

r
Consideremos primero el problema homogéneo (42.1): f = 0 .

320
Esquema de Yanenko. En cada segmento de tiempo (t j , t j +1 ) , el esquema de Yanenko

(1971) del método componente-por-componente consiste en la aplicación consecutiva de los

esquemas de Crank-Nicolson (Crank y Nicolson, 1947) para cada operador separado L i :


j

r j + 12 r j + 12
j -j j +j jj
r r
+ L1 =0
j

t 2 (42.5)
r j+ 1 r j +1 r j + 12
j j +1 - j 2 j j +j
r
+ L2 =0
t 2

j j +1 / 2 , el sistema de las ecuaciones se reduce a una sola


r
Después de eliminar el vector auxiliar

ecuación

j j +1 = T jj j
r r
(42.6)

donde

-1 -1
æ t ö æ t öæ t ö æ t ö
T = ç E + L 2 j ÷ ç E - L 2 j ÷ ç E + L1 j ÷ ç E - L1 j ÷
j
(42.7)
è 2 ø è 2 øè 2 ø è 2 ø

Aproximación. Antes que nada, consideremos el problema de aproximación. Suponemos que el

tamaño t es tan pequeño que

t
L i < 1,
j
(42.8)
2

y expandimos el operador T j en la serie de potencia. Tenemos

2[ ]
t2
T = E - tL +
j j
(L 1 )
j 2
+ 2L 2 j L 1 j + (L 2 j ) - O(t 3 )
2
(42.9)

Si los operadores L i se conmutan, es decir, si


j

L1 j L 2 j = L 2 j L1 j , (42.10)

entonces (42.9) se puede escribir como


321
t2
T j = E - tL j +
2
(L ) j 2
( )
-O t3 (42.11)

La fórmula (42.11) coincide con la del esquema de Crank-Nicolson para la matriz L j del

problema original (42.1) en (t j , t j +1 ) . Ya que el último esquema aproxima el problema (42.1) con

el segundo grado en t (es decir, O(t 2 ) ), el esquema de Yanenko (42.5) también aproxima (42.1)

con error O(t 2 ) si los operadores L i se conmutan, y con primer grado en t (es decir, O(t ) ), si
j

L i no son conmutativos.
j

Estabilidad. Debido a (42.7),

T j = T1 j T2j (42.12)

donde

-1
æ t jö æ t jö
Ti = ç E + L i ÷ ç E - L i ÷
j
(42.13)
è 2 ø è 2 ø

la estabilidad del esquema (42.5) se deduce de la desigualdad

T j
£ T1 j T2j £ 1 (42.14)

válida en virtud del lema 3.2 de Kellogg (en la norma espectral).

Esquema de Marchuk. En la mayoría de los problemas que se presentan en la práctica,

las matrices L i no conmutan. Ya sabemos que en este caso el esquema de Yanenko aproxima el
j

problema (42.1) únicamente con primer grado en t, y que para disminuir el error de aproximación

de dicho esquema es necesario pasar con t muy pequeño, es decir, hacer más operaciones

aritméticos. Estudiamos ahora el esquema de Marchuk (1982) que es más económico, ya que tiene

segundo grado de aproximación en tiempo ( O(t 2 ) ) aunque las matrices L i no conmutan. El


j

322
esquema de Marchuk representa una versión simétrica del esquema de Yanenko en el intervalo

doble (t j -1 , t j +1 ) :

j j -1 2 - j j -1 j j
j -1 2
+ j j -1 ü
r r r r
+ L1 = 0ï
t 2
ï
j -j j j +j
r j r j -1 2 r j r j -1 2
+ L2 =0 ï
t 2 ï
ý (42.15)
j -j j j +j
r j +1 2 r j r j +1 2 r j
+ L2 =0 ï
t 2 ï
ï
j -j j j +j
r j +1 r j +1 2 r j +1 r j +1 2
+ L1 = 0ï
t 2 þ

donde

L i j = Ai t j( ) (42.16)

j j -1 / 2 , j j y j j +1 / 2 son vectores auxiliares. Se puede demostrar, que


r r r
y

j j +1 = T jj j -1
r r
(42.17)

j
donde la matriz de paso T es

-1 -1
æ t jö æ t j öæ t jö æ t jö
T = ç E + L1 ÷ ç E - L1 ÷ç E + L 2 ÷ ç E - L 2 ÷ ´
j

è 2 ø è 2 øè 2 ø è 2 ø
-1 -1
æ t j ö æ t j öæ t jö æ t jö
´ ç E + L 2 ÷ ç E - L 2 ÷ç E + L1 ÷ ç E - L1 ÷
è 2 ø è 2 øè 2 ø è 2 ø

= E - 2tL +
(2t )
j
2
(L j )2 - O(t 3 ) (42.18)
2

Aproximación. El grado de aproximación de la matriz T es O(t 2 ) , ya que coincide con el de la


j

matriz de paso

r é
j j +1 = ê E - 2tL j +
(2t ) (L ) ùjr
2
j 2 j -1
(42.19)
ú
ë 2 û

323
del esquema de Crank-Nicolson en el mismo intervalo:

j j +1 - j j -1 j j +1 + j j -1
r r r r
+ Lj =0 (42.20)
2t 2

Es preciso notar que el esquema (42.15) posee el segundo grado de aproximación únicamente por

su simetría en (t j -1 , t j +1 ) y resuelve el problema relacionado con las matrices no conmutativas L i .


j

Estabilidad. Ya que

T j = T1 j T2j T2j T1 j (42.21)

donde

-1
æ t jö æ t jö
Ti j = ç E + L i ÷ ç E - L i ÷ (42.22)
è 2 ø è 2 ø

es decir, tienen la estructura de las matrices (42.13) con la particularidad de que L i se definen
j

por (42.16) en lugar de (42.4). Tomando en cuenta que

1- j
j× jT £ 1+ j
j
r r
(42.23)

y usando de nuevo la norma euclidiana para vectores, la norma espectral para matrices y el
lema 3.2, obtenemos

T j £ T1 j T2j T2j T1 j £ 1 (42.24)

Así pues,

j j +1 £ j j -1
r r
(42.25)

en la norma euclidiana, o
jj £ g (42.26)
r r

Por lo tanto, el método simétrico componente-por-componente es absolutamente estable en la

norma euclidiana.

Observación 42.1. Si la matriz A es antisimétrica, es decir,

324
Aj , j = 0 para cada j ¹ 0 ,
r r r
(42.27)

el problema homogéneo (42.1) posee la ley de conservación:

j (t ) = j (0) = g , t Î (0, T ) (42.28)


r r r

En este caso es de gran importancia separar la matriz A de tal manera que las matrices Ai también

son antisimétricas:

Aij ,j = 0 para cada j ¹ 0 , i=1,2


r r r
(42.29)

En efecto, si (42.27) se satisface en cada momento de tiempo, entonces

L jij ,j = 0 para cada j, y para cada j ¹ 0 , i=1,2


r
(42.30)
r r

debido a (42.4) y (42.16), y por tanto, el esquema de Yanenko (42.5) posee la ley

j j +1 = j j = g ,
r r r
(42.31)

mientras que el esquema de Marchuk (42.15) posee la ley

j j +1 = j j -1 = g . (42.32)
r r r

Notemos que las leyes (42.31) y (42.32) garantizan la estabilidad y son muy importantes cuando

hay que hallar la solución del problema dentro de un periodo largo (0,T). Estas propiedades son la

consecuencia directa del uso de los esquemas de Crank-Nicolson en (42.5) y (42.15) en cada etapa

de separación. Cualquier otro esquema, incluyendo los esquemas de estabilización y de predicción-

corrección no conservan dicha norma.

Ejercicios:

1. Consideremos las ecuaciones del modelo linearizado de “agua somero” (Mezinger y Arakawa,
1976):
¶u ¶u ¶h ¶h ¶h ¶u
+c +g =0 , +c +H = 0.
¶t ¶x ¶x ¶t ¶x ¶x

325
Separe este problema en dos:
¶u ¶u ¶h ¶h
+c =0 , +c =0,
¶t ¶x ¶t ¶x
y
¶u ¶h ¶h ¶u
+g =0 , +H = 0.
¶t ¶x ¶t ¶x
Aplique el método de Marchuk para construir el esquema numérico y analice su estabilidad
usando el método espectral de von Neumann.
2. Analice la estabilidad del esquema
u n+1 - u n dh n h n+1 - h n du n+1
+g =0 , +H =0
t dx t dx
que aproxima el segundo sistema separado del ejercicio 1.

¶j ¶ 2j ¶ 2j
3. Sea = + la ecuación de calor del ejercicio 3, § 40. Consideremos el
¶ t ¶ x2 ¶ y2
esquema con pesos en la malla con distintos tamaños h1 y h2 en x y y:
j j +1 / 2 - j j
r r
= s 1L1j j +1 / 2 + (1 - s 2 )L 2j j ,
r r
t
r j +1 r j +1 / 2
j -j
= s 2 L 2j j +1 + (1 - s 1 )L1j j +1/ 2 ,
r r
t
donde
(L1j ) ij = h1-2 (j i +1, j - 2j i , j + j i -1, j ) y (L 2j ) ij = h2-2 (j i , j +1 - 2j i , j + j i , j -1 ) .
1 hi2
Demuestre que si s i = - (i=1,2), entonces el esquema tiene aproximación
2 12t
O(h 4 + t 2 ) , donde h 2 = h12 + h22 .

326
§ 43. Método componente-por-componente. Problema no homogéneo

En este apartado, continuamos el estudio del método componente por componente para el caso de
r
un problema no homogéneo (42.1) cuando f ¹ 0 . En particular, demostramos la aproximación y

estabilidad del esquema de Marchuk (Marchuk, 1982), y damos los algoritmos de su realización.

Además, generalizamos dicho esquema al caso donde la matriz A es la suma de n matrices simples.

Consideremos en cada intervalo doble (t j -1 , t j +1 ) el esquema

æ t j ö r j -1 2 æ t jör ü
ç E + L1 ÷j = ç E - L1 ÷j j -1 ï
è 2 ø è 2 ø ï
t jö rj t j ö r j -1 2 ï
æ
( )
rj æ
ç E + L 2 ÷ j - t f = ç E - L 2 ÷j ï
è 2 ø è 2 ø ï (43.1)
t j ö r j +1 2 æ t jö rj rj ý
æ
ç E + L 2 ÷j = ç E - L2 ÷ j + t f ï
ï
( )
è 2 ø è 2 ø
ï
æ t j ö r j +1 æ t j ö r j +1 2 ï
ç E + L1 ÷j = ç E - L1 ÷j
è 2 ø è 2 ø ïþ

= f (t j ) . De (43.1) tenemos
rj r
donde L i se define por (42.16) y f
j

rj
j j +1 = T jj j -1 + 2tT1 T2 f
r r j j
(43.2)

j
donde T j y Ti se definen por (41.21) y (42.22), respectivamente.

Aproximación. Usando series de las potencias del pequeño parámetro t (véase la formula (42.18)),

obtenemos

é
j j +1 = ê E - 2tL j +
r (2t ) (L ) ùjr
2
j 2 j -1
+ 2t (E - L j ) f j + O(t 3 )
r
(43.3)
ú
ë 2 û

o, de otra forma,

j j +1 - j j -1
r r
+ L j (E - tL j )j j -1 = (E - tLj ) f j + O(t 2 )
r r
(43.4)
2t

Pero
327
r j -1
r j -1 æ dj ö
j = j + çç ÷÷ t + O(t 2 )
rj (43.5)
è dt ø

Con ayuda de la relación

r j -1
æ dj ö
÷÷ = -L jj j -1 + f j + O(t )
r
çç
r (43.6)
è dt ø

se puede eliminar la derivada dj de la fórmula (43.5). Entonces tenemos


r

dt

j j = (E - tL j )j j -1 + tf j + O(t 2 )
r r r
(43.7)

Así

(E - tL )jr ( )
j -1
r
= j j - tf j + O t 2
j r
(43.8)

Sustituyendo (43.8) en (43.4), obtenemos

j j +1 - j j -1
r r
+ Ljj j = f j + O(t 2 )
r r
(43.9)
2t

Es evidente que el esquema (43.9) aproxima el problema original no homogéneo (42.1) en el

intervalo (t j -1 , t j +1 ) con segundo grado en t y, por tanto, el esquema (43.1) también aproxima el

problema (42.1) con el grado O(t 2 ) .

Estabilidad. Estimaremos (43.2) usando la norma euclidiana para vectores y la norma espectral

para matrices:
rj
j j +1 £ T j × j j -1 + 2t T1 × T2 × f
r r j j
(43.10)

Aplicando el lema 3.2, obtenemos que Ti j £ 1 y, por tanto,

T j £ T1 × T2 × T2 × T1 £ 1
j j j j
(43.11)

Por consiguiente,

328
j j +1 £ j j -1 + 2t f j
(43.12)

Usando la fórmula (43.12) repetidamente llegamos a


r r
j j £ g + tj f £ g + T f
r r r
(43.13)

donde
r r
f = max f j (43.14)
j

De la (43.13) se deduce que en el caso de la ecuación no homogénea, el esquema del método

componente-por-componente es también absolutamente estable respecto a errores en el vector


r r
inicial g y forzamiento f .

Notemos que las ecuaciones del esquema (43.1) se pueden escribir de otra forma:

æ t j ö r j -2 3 æ t jör ü
ç E + L1 ÷j = ç E - L1 ÷j j -1 ï
è 2 ø è 2 ø ï
æ t j ö r j -1 3 æ t j ö r j -2 3 ï
ç E + L 2 ÷j = ç E - L 2 ÷j ï
è 2 ø è 2 ø ï
rj ï (43.15)
j =j + 2tf
r j +1 3 r j -1 3
ý
æ t j ö r j +2 3 æ t jör ï
ç E + L 2 ÷j = ç E - L 2 ÷j j +1 3 ï
è 2 ø è 2 ø ï
æ t j ö r j +1 æ t j ö r j + 2 3 ïï
ç E + L 1 ÷ j = ç E - L1 ÷j
è 2 ø è 2 ø ïþ

En efecto, eliminando los vectores auxiliares de nuevo llegamos a la fórmula (43.2).

Consideremos ahora el caso general cuando la matriz A del problema

dj
r
en [0, T ]
r r
+ Aj = f
dt (43.16)
j ( 0) = g
r r

se puede presentar como la suma

A = A1 + A2 + ... + An (43.17)

329
de n matrices positivamente semidefinidas ( Ai ³ 0 , i=1,2,…,n). Cada matriz Ai puede ser

relacionada con un proceso físico o con una sola dimensión espacial. En cada intervalo doble

(t j -1 , t j +1 ) , el esquema de Marchuk tiene la forma

æ t j ö r j -[( n-1) / n ] æ t jör


ç E + L1 ÷j = ç E - L1 ÷j j -1
è 2 ø è 2 ø
LLL
t jö rj t j ö r j -(1 / n )
æ
( )
rj æ
ç E + L n ÷ j - t f = ç E - L n ÷j
è 2 ø è 2 ø (43.18)
t j ö r j +(1 / n ) æ t jö r
æ
( )
r
ç E + L n ÷j = ç E - Ln ÷ j j + t f j
è 2 ø è 2 ø
LLL
æ t j ö r j +1 æ t j ö r j +[( n-1) / n ]
ç E + L1 ÷j = ç E - L1 ÷j
è 2 ø è 2 ø

( )
donde de nuevo L i j = Ai t j , i=1,…,n. Otra forma de realizar el esquema es siguiente

æ t j ö r j -[(n+1-i ) /( n+1)] æ t j ör
ç E + L i ÷j = ç E - L i ÷j j -[(n+ 2-i ) /( n+1)]
è 2 ø è 2 ø
i = 1,2,..., n ;
r
j j +[1 /( n+1)] = j j -[1 /( n+1)] + 2t f j ;
r r
(43.19)

æ t j ö r j +[i /( n+1)] æ t ör
ç E + L n-i + 2 ÷j = ç E - L jn-i + 2 ÷j j +[(i -1) /( n+1)]
è 2 ø è 2 ø
i = 2,3,..., n + 1

Resumen. El método componente-por-componente de Yanenko es absolutamente estable

si Ai ( t ) ³ 0 para cada i. En la solución exacta suave, este método aproxima al problema original

con primer grado de aproximación en t , si las matrices L i no conmutan, y con segundo grado
j

de aproximación si L i son conmutativas. El método de Marchuk, como una variante simétrica del
j

método de Yanenko, es libre de dicha restricción, ya que tiene aproximación O(t 2 ) aunque las

330
r
matrices L i no conmutan. Si f = 0 y las matrices L i son antisimétricas, entonces cada uno de
j j

estos métodos posee un ley de conservación.

Ejercicios:

1. Consideremos la clase de las ecuaciones diferenciales parciales,


¶y
r
= Ly º L1y + L2y ,
r r r
¶t
donde L , L1 , y L2 son matrices que no dependen de tiempo. La solución exacta se puede
t2 2 t3 3
presentar en la forma y (t ) = exp(tL )y (0) = ( E + tL + L + L + ...)y (0) . Analice el
r r r
2 6
grado de aproximación del esquema
yr s = ( E + tL1 )yr n
yr n+1 = ( E + tL2 )yr s
en dos casos: 1) L1 y L2 no conmutan: L1 L2 ¹ L2 L1 ; 2) L1 y L2 conmutan: L1 L2 = L2 L1 .
r n
dy r r
2. Sea B + Ay = f un esquema estable, donde B = E + t å Ri , y todas las matrices Ri son
dt i =1

hermitianas, positivamente definidas, y conmutativas Ri R j = R j Ri . Demuestre que en este


r
dy r r
caso el esquema factorizado B1 B2 L Bn + Ay = f con Bi = E + tRi es también estable.
dt
3. A pesar de que el esquema (43.19) es estable para cualquier t , la elección del tamaño t no
puede ser arbitrario por razones de aproximación. Demuestre que al pasar de un nivel
fraccionado a otro, la solución puede cambiar su signo si t es bastante grande.

331
§ 44. Aplicación del método de separación

En este apartado mostramos cómo se puede aplicar el método de separación en la práctica

(Marchuk y otros, 1975, 1983; Marchuk y Skiba, 1976, 1992; Skiba, 1993b; Skiba y Adem, 1995;

Skiba, 1997b; Skiba y otros, 1996).

Ejemplo 44.1. Consideremos la ecuación de transporte de una substancia pasiva

dj
=0 (44.1)
dt

donde
d ¶ ¶ ¶ ¶
= +u +v +w (44.2)
dt ¶ t dx ¶y ¶z

es la derivada individual, y u, v, w son los componentes del vector tridimensional de la velocidad

r
u = ui + vj + wk
r r r
(44.3)

determinado como
dx dy dz
u= , v= , w= (44.4)
dt dt dt

La ecuación (44.1) requiere cierta condición inicial. En el caso de una área limitada, se requieren

también ciertas condiciones en la frontera.

Apliquemos el método componente-por-componente para la ecuación de transporte de

dos dimensiones. Consideremos un conjunto de partículas que se mueven en un dominio

D = { 0 £ x £ a , 0 £ y £ b} en el plano (x, y) por sus trayectorias. En la mecánica de fluidos este

problema se describe con la ecuación

¶j ¶j ¶j
+u +v =0 (44.5)
¶t ¶x ¶y

bajo la condición inicial

332
j (x, y,0) = g (44.6)

Aquí u = u( x , y , t ), v = v( x , y , t ) son los componentes de la velocidad. Supongamos que en

cada punto del rectángulo D, dichos componentes satisfacen la ecuación de continuidad

¶u ¶v
+ =0 (44.7)
¶x ¶y

Sean j, u y v las funciones periódicas en D. El operador de la ecuación (44.5) tiene la

forma

¶j ¶j
Aj = u +v (44.8)
¶x ¶y

Es fácil demostrar que el operador A es antisimétrico, es decir, el producto interno Aj ,j es

nulo para cada j ¹ 0 . En efecto, por definición,

( Aj , j ) = ò dxò dyæçç u ¶j + v ¶j ö÷÷j


a b

(44.9)
0 0 è ¶x ¶y ø

Usando la relación

æ ¶j ¶j ö ¶ æ j2 ö ¶ æ j2 ö
çç u +v ÷÷j = çç u ÷÷ + çç v ÷÷ (44.10)
è ¶ x ¶ y ø ¶ x è 2 ø ¶ y è 2 ø

y las condiciones periódicas, obtenemos Aj ,j = 0 . Ahora, intentaremos descomponer el

operador A en la suma de dos operadores A1 y A2 , también antisimétricos:

Aij ,j = 0 , i=1,2 (44.11)

Es preciso notar que la descomposición formal del operador A dada en la forma

¶ ¶
A1 = u , A2 = v (44.12)
¶x ¶y

333
no satisface las condiciones (44.11). Efectivamente, los valores

(A1j ,j ) = - 1 ò ò j 2 ¶ u dxdy, (A 2j ,j ) = - 1 ò ò j 2 ¶ v dxdy


a b a b

200 ¶x 200 ¶y

no son nulos en el caso general. Para satisfacer (44.11), vamos a elegir A1 y A2 en la forma un

poco más compleja:

¶j j ¶ u ¶j j ¶ v
A1j = u + , A 2j = v + (44.13)
¶x 2¶x ¶y 2¶y

En virtud de (44.7), A1 + A 2 = A . Además,

¶j j 2 ¶ u ¶ æj2 ö æj2 ö ¶ u ¶ æ j2 ö
j A1j = j u + =u ç ÷+ç ÷ = çu ÷
¶x 2 ¶x ¶ x çè 2 ÷ø çè 2 ÷ø ¶ x ¶ x çè 2 ÷ø

y, por consiguiente,

Aij ,j = 0 , i=1,2 (44.14)

Entonces, se puede utilizar la variante simétrica del método componente-por-componente para

resolver el problema de transporte dentro de cada intervalo doble de tiempo (t j -1 , t j +1 ) de tamaño

pequeño 2t:

j j -1 2 - j j -1 æ j ¶ 1 ¶uj ö j j -1 2 + j j -1 ü
+ çç u + ÷÷ × = 0ï
t è ¶x 2 ¶x ø 2 ï
j -j
j j -1 2
æ j ¶ 1 ¶ v ö j +j
j j j -1 2 ï
+ çç v + ÷÷ × =0 ï
t è ¶ y 2 ¶ y ø 2 ï
ý (44.15)
j j +1 2 - j j æ j ¶ 1 ¶ v j ö j j +1 2 + j j
+ çç v + ÷÷ × =0 ï ï
t è ¶y 2 ¶yø 2
ï
j j +1 - j j +1 2 æ j ¶ 1 ¶ u j ö j j +1 + j j +1 2 ï
+ çç u + ÷÷ × = 0ï
t è ¶x 2 ¶x ø 2 þ

Cada ecuación en (44.15) es el esquema de Crank-Nicolson aplicado a un problema separado

unidimensional. Las funciones de malla j j +1 / 2 y j j -1 / 2 son auxiliares, mientras que j j +1 y j j -1


334
son las soluciones numéricas. Evidentemente, el esquema (44.15) conserva la norma euclidiana de

la solución numérica:

j j +1 = j j -1 = K = g (44.16)

y, por lo tanto, es absolutamente estable (estable para cada t ). •

Ejemplo 44.2. Notemos que el método de separación está desarrollado sólo para los

problemas de la forma de evolución:

¶j
+ Aj = f (44.17)
¶t

Ahora mostramos como se puede transformar un problema que no tiene esta forma a un problema

evolutivo. En el dominio D = {0 £ x £ 1, 0 £ y £ 1} con la frontera S e intervalo de tiempo (0,T ),

consideremos la ecuación de onda

¶ 2j ¶ 2 ¶j ¶ 2 ¶j
= a + a en D ´ (0, T ) (44.18)
¶ t2 ¶ x ¶ x ¶ y ¶ y

con las siguientes condiciones iniciales en el momento t=0:


j ( x, y,0) = p( x, y) , j ( x, y,0) = q( x, y ) (44.19)
¶t

donde p = p( x, y) y q = q( x, y) son conocidas y a 2 = a 2 ( x, y ) es la velocidad de propagación

de la onda. Claro que (44.18), (44.19) no tiene la forma evolutiva (44.17) y, por tanto, no se

puede aplicar el método de separación directamente al problema (44.18), (44.19). Pero es posible

escribir dicho problema de otra manera:

335
¶u ¶j
-a =0
¶t ¶x
¶v ¶j
-a =0 (44.20)
¶t ¶y
¶j æ ¶ au ¶ av ö
-ç + ÷=0
¶ t çè ¶ x ¶ y ÷ø

con las siguientes condiciones iniciales en t=0:

u ( x, y,0) = u 0 ( x, y ) , v( x, y,0) = v 0 ( x, y ) , j ( x, y,0) = p( x, y) (44.21)

donde u 0 ( x, y ) y v 0 ( x, y ) tienen que satisfacer la ecuación

¶ au 0 ¶ av 0
+ = q ( x, y ) (44.22)
¶x ¶y

Introduciendo la matriz

é ¶ ù
ê 0 0 -a ú
ê ¶ xú
¶ ú
A=ê 0 0 -a
ê ¶ yú , (44.23)
ê¶ ú
ê (a×) - ¶ (a×) 0 ú
ëê ¶ x ¶ y ûú

y el vector j = {u, v,j } de la solución, escribimos el problema (44.20) de la forma vectorial


r T

¶j
r
+ Aj = 0 en D ´ (0, T ),
r
¶t (44.24)
j (0) = j 0 en D
r r

Definimos el producto interno en nuevo espacio de los vectores j = {u, v,j}


r T
y

f = {w, f ,f }T como
r

(jr,fr ) = ò {wu + fv + fj}dD . (44.25)


D

336
Entonces, usando las condiciones periódicas es fácil demostrar que A es antisimétrica:

( Ajr, jr ) = - ò í ¶ auj + ¶ avj ýdD = - ò aunj dS = 0


ì ü
(44.26)
D î ¶x ¶y þ S

Por lo tanto, la norma

1/ 2
ì ü
r
{
j = íò u 2 + v 2 + j 2 dDý } . (44.27)
îD þ

de la solución se conserva en tiempo. Presentamos A como la suma de dos matrices:

A = A1 + A2 donde

é ¶ ù é ù
ê 0 0 -a ê ú
¶ xú ê0 0 0 ú
ê ú ¶ ú
A1 = ê 0 0 0 ú , A2 = ê0 0 -a (44.28)
ê ¶ yú
ê ¶ (a×) 0 0 ú ê ú
ê¶ x ú ¶
ë û ê0 - (a×) 0 ú
êë ¶y úû

Evidentemente, A1 y A2 también son antisimétricas

( Aijr, jr ) = 0 , i = 1,2 (44.29)

Usando en cada intervalo (t j , t j +1 ) el método componente-por-componente, obtenemos

j j +1 / 2 - j j j j +1 / 2 + j j
r r r r
+ A1 = 0, (44.30)
t 2

j j +1 - j j +1 / 2 j j +1 + j j +1 / 2
r r r r
+ A2 =0, (44.31)
t 2

o, en la forma escalar,

337
u j +1 / 2 - u j ¶ æ j j +1 / 2 + j j ö
= a çç ÷÷
t ¶x è 2 ø
v j +1 / 2 - v j
=0
t (44.32)
j +1 / 2 j +1 / 2
j -j j
¶ æ u +u ö j
= ça ÷÷
t ¶ x çè 2 ø

y
u j +1 - u j +1 / 2
=0
t
v j +1 - v j +1 / 2 ¶ æ j j +1 + j j +1 / 2 ö
= a çç ÷÷
t ¶y è 2 ø (44.33)
j +1 j +1 / 2 j +1 j +1 / 2
j -j ¶ æ v +v ö
= çç a ÷÷
t ¶y è 2 ø

Tomando en cuenta las relaciones u j +1 = u j +1/ 2 y v j +1 / 2 = v j , reducimos (44.32), (44.33) al

sistema

u j +1 - u j ¶ æ j j +1 / 2 + j j ö
=aç ÷÷
t ¶ x çè 2 ø
j +1 / 2 j +1 (44.34)
j -j j
¶ æ u +u j ö
= ça ÷÷
t ¶ x çè 2 ø

v j +1 - v j ¶ æ j j +1 + j j +1 / 2 ö
=a ç ÷÷
t ¶ y çè 2 ø
j +1 (44.35)
j - j j +1 / 2 ¶ æ v j +1 + v j ö
= ça ÷÷
t ¶ y çè 2 ø

Expresando u j +1 y v j +1 de las primeras ecuaciones (44.34) y (44.35) y sustituyendo los

resultados obtenidos en las segundas ecuaciones de dichos sistemas, respectivamente, obtenemos

j j +1 / 2 + j j j j +1 + j j +1/ 2
el sistema de dos ecuaciones para las funciones j j +1 / 4 = y j j +3 / 4 = .
2 2

Ejemplo 44.3. Consideremos la ecuación de Poisson


338
¶ 2j ¶ 2j
Dj º + = f ( x, y ) (44.36)
¶ x2 ¶ y2

en una área limitada D con la condición j ( x, y) = 0 en la frontera S del dominio D. Demostramos

ahora que la solución j ( x, y ) del problema (44.36) se puede hallar como un límite, cuando

t ® ¥ , de la solución U ( x, y, t ) del siguiente problema no estacionario:

¶ U ¶ 2U ¶ 2U
= + - f ( x, y ) en D , (44.37)
¶ t ¶ x2 ¶ y2

U ( x, y, t ) = 0 en S , (44.38)

U ( x, y,0) = g ( x, y) en t = 0 , (44.39)

donde g(x,y) es una función arbitraria en D. Escogemos como la base ortogonal las autofunciones

Gn ( x, y ) del problema espectral

DG n ( x, y ) = l n G n ( x, y )
(44.40)
G n ( x, y ) = 0 en S

con autovalores negativos l n . Usando en (44.37)-(44.39) las series de Fourier

U ( x, y, t ) = åU n (t )Gn ( x, y ), f ( x, y ) = å f n Gn ( x, y ), g ( x, y ) = å g n Gn ( x, y )
n n n

(44.41)

para U ( x, y, t ) , f ( x, y) y g(x,y), obtenemos la ecuación


U n (t ) - lnU n = - f n , U n (0) = g n (44.42)
¶t

para cada coeficiente U n (t ) de la solución U ( x, y, t ) o, bien,

339
U n (t ) = g n e lnt +
fn
ln
(1 - e )
lnt
(44.43)

fn
Ya que l n es negativo, el límite lim U n (t ) = no depende de la condición inicial g(x,y), ni
t ®¥ ln

fn
del tiempo. Además los valores límites coinciden con los coeficientes de Fourier j n = de la
ln

solución j ( x, y ) del problema original estacionario (44.36). Notemos que la solución del

problema no estacionario (44.37)-(44.39) se puede hallar usando el método de separación. □

Ejemplo 44.4 (D’yakonov, 1971, 1972). En el proceso de cálculos con un esquema de

separación hay que imponer de manera apropiada las condiciones de frontera en los pasos

fraccionados (es decir, para las funciones auxiliares). Consideremos el problema

¶j ¶ 2j ¶ 2j
= + + f ( x, y, t ) , j ( x, y,0) = u ( x) (44.44)
¶ t ¶ x2 ¶ y2

en un dominio rectangular D = {0 £ x £ a; 0 £ y £ b} con la frontera S donde la solución

satisface la condición

j ( x, y, t ) = v( x, y, t ) si ( x, y) Î S (44.45)

Vamos a usar un esquema factorizado

df
r
+ Lf = f , Bi = E - tL i
r r
B1 B2 (44.46)
dt

fi +1, j - 2fij + fi -1, j fi , j +1 - 2fij + fi , j -1


donde L1 + L 2 = L , (L1f )ij = , y (L 2f )ij =
r r
.
h 2
h2

Usaremos el algoritmo

B1f1 = F = ( B1 B2 + tL)f n + tf n
r r r r
(44.47)

B2f n+1 = f1
r r
(44.48)
340
en cada intervalo (t n , t n+1 ) . Para el problema (44.48) la condición de frontera S se define por

(44.45): f n+1 = v n+1 . Sin embargo, hay que calcular la condición en S para el vector auxiliar f1 en
r r r

el problema (44.47) de tal manera que no se perjudique la aproximación. Para cada número fijo de

j es un problema unidimensional en el intervalo 0 < x < a . Las condiciones para f1 cuando x = 0


r

y x = a se determinan mediante la ecuación (44.48):

f1 = B2 vr n+1 = ( E - tL 2 )vr n+1 = vr n+1 - tL 2 vr n+1


r
(44.49)

Sólo bajo las condiciones (44.49) el problema (44.47), (44.48) es equivalente al problema (44.46).

Ejercicios:

1. Construir el algoritmo de separación para hallar la solución del problema estacionario (44.36)
usando la ecuación (44.37).
2. Demostrar que bajo las condiciones (44.49) el problema (44.47), (44.48) es equivalente al
problema (44.46).
3. Aproximar en el ejemplo 44.1 los operadores separados (44.1) por matrices antisimétricas.

341
Referencias

Ames, W.F., Numerical Methods for Partial Differential Equations. Boston, Academic

Press, 1992.

Babuška, I., E. Vitásek, y M. Práger, Numerical Processes for Solving Differential

Equations. Nueva York, Interscience, 1966.

Bagrinovskii, K.A, y S.K. Godunov, Difference Schemes for Multi-dimensional Problems.

Doklady Akademii Nauk SSSR, 115, p.431, 1957.

Bakhvalov, N.S., Numerical Methods. Vol. 1, Moscú, Nauka, 1973 (en ruso).

Becker, E., G. Carey, y J. Oden, Finite Elements, An Introduction. NJ., Prentice-Hall,

Englewood Cliffs, 1981.

Bellman, R., Introduction to Matrix Analysis. Nueva York, McGrow-Hill, 1960.

Birkhoff, G., y R.S. Varga, Implicit Alternating Direction Methods. Trans. Amer. Math.

Soc., 92 (2), 1959.

Ciarlet, P.G., The Finite Element Method for Elliptic Problems. Amsterdam, North-

Holland, 1978.

Ciarlet, P.G., Introduction to Numerical Linear Algebra and Optimisation. Cambridge,

Cambridge University Press, 1995.

Collatz, L.O., The Numerical Treatment of Differential Equations. Berlin, Springer-Verlag,

1966.

Collatz, L., Functional Analysis and Numerical Mathematics. Nueva York, Academic

Press, 1966.

Cooley, J.W., y J.W. Tukey, An Algorithm for Machine Calculation of Complex Fourier

Series. Math. Comp., 19, 90, 1965.

342
Crank, J. and P. Nicolson, A Practical Method for numerical Evaluation of Solutions of

Partial Differential Equations of the Heat Conduction Type. Proc. Cambridge Philos.

Soc., 43, 50-67, 1947.

Dahlquist, G., and A. Björck, Numerical Methods. Prentice-Hall, Englewood Cliffs, N.J.,

1974.

De Boor, C., A Practical Guide to Splines. Springer-Verlag, New York, 1978.

Douglas, J., and H. Rachford, On the numerical solution of heat conduction problems in

two and three space variables. Trans. Amer. Math. Soc., 82 (2), 421-439, 1956.

Douglas, J., and B.F. Jones, On predictor-corrector methods for nonlinear parabolic

differential equations. SIAM J., 11 (1), 195-204, 1963.

Douglas, J., R.B. Kellogg, and R.S. Varga, Alternating direction methods for n space

variables. Math. Comput., 17, 83, 1963.

Durran, D.R., Numerical Method for Wave Equations in Geophysical Fluid Dynamics.

Springer, New York, 1999.

D’yakonov, E.G., Different schemes of second order accuracy with a splitting operator for

parabolic equations without mixed partial derivatives. Zh. Vychisl. Mat. I Mat. Fiz.,

Moscow, 4, 935, 1964.

D’yakonov, E.G., Difference Methods for the Solution of Boundary Problems. Moscow

University Press, Moscow (en ruso), Vol. 1 (Stationary Problems, 1971), Vol. 2

(Nonstationary Problems, 1972).

Faddeev, D.K., and Faddeeva, V.N., Computational Methods of Linear Algebra. San

Francisco: H.W. Freeman, 1963.

Fletcher, C.A.J., Computational Galerkin Methods. Springer-Verlag, New-York, 1984.

343
Forsythe, G.E., and C.B. Moler, Computer Solution of Linear Algebraic Systems. Prentice-

Hall, Englewood Cliffs, N.J., 1967.

Forsythe, G.E., M.A. Malcolm, and C.B. Moler, Computer Methods for Mathematical

Computations. Prentice-Hall, Englewood Cliffs, N.J., 1977.

Forsythe, G.E., and W.R. Wasow, Finite Difference Methods for Partial Differential

Equations. J. Wiley, New York, 1960.

Fox, L., An Introduction to Numerical Linear Algebra. Oxford University Press, London,

1964.

Franklin, J.N., Matrix Theory. Prentice-Hall, Englewood Cliffs, N.J., 1968.

Galërkin, B.G., Rods and Plates. Series occurring in various questions concerning the

elastic equilibrium of rods and plates. Vestnik Inzhenerov (Boletín de los Ingenieros),

19, 897-908, 1915.

Gantmacher, F.R., Theory of Matrices. Vol. 1-2, Dunod, Paris, 1966.

García I.P., and Yu.N. Skiba, Simulation of exact barotropic vorticity equation solutions

using a spectral model. Atmósfera, 12 (4), 223-243, 1999.

Godunov, S.K., and V.S. Ryabeñkii, The Theory of Difference Schemes – An Introduction.

Fizmatgiz, Moscow, 1962 (Russian); North Holland, Amsterdam, 1964.

Golub, G., Numerical methods for solving linear least squares problems. Numer. Math., 7,

206-216, 1965.

Golub, G., and W.Kahan, Calculating the singular values and pseudoinverse of a matrix.

SIAM J. Numer. Anal., Ser. B, 2, 205-224, 1965.

Golub, G., and C.F. van Loan, Matrix Computations. North Oxford Academic, Oxford,

1986.

344
Golub, G.H., and J.M. Ortega. Scientific Computing and Differential Equations.

Introduction to Numerical Methods. Academic Press, Boston, 1992.

Hageman, L.A., and D.M. Young, Applied Iterative Methods. Academic Press, New York,

1981.

Halmos, P.R., Finite-Dimensional Vector Spaces. Springer-Verlag, Berlin, 1974.

Henrici, P., Error Propagation for Difference Methods. Wiley, New York, 1963.

Henrici, P., Essentials of Numerical Analysis: with Pocket Calculator Demonstrations. J.

Wiley, New York, 1982.

Householder, A.S., Principles of Numerical Analysis. McGrow-Hill, New York, 1953.

Householder, A.S., The Theory of Matrices in Numerical Analysis. Blaisdell, New York,

1964.

Iserles, A., A First Course in the Numerical Analysis of Differential Equations. Cambridge

University Press, Cambridge, 1998.

Johnson, C., Numerical Solution of Partial Differential Equations by the Finite Element

Method. Cambridge University Press, Cambridge, 1988.

Lancaster, P., Theory of Matrices. Academic Press, New York, 1969.

Lancaster, P., and M. Tismenetsky, Theory of Matrices, with Applications. Academic Press,

New York, 1985.

Lawson, C., and R. Hanson, Solving Least Squares Problems. Prentice-Hall, Englewood

Cliffs, N.J., 1974.

Lax, P.D., and B. Wendroff, On the stability of difference schemes with variable

coefficients. Comm. Pure Appl. Math., 15 (4), 1962.

Le Veque, R.J., High-resolution conservative algorithms for advection in incompressible

flow. SIAM J. Numer.Anal., 33, 627-665, 1996.


345
Lions, J.L., and G.I. Marchuk, Sur les Methodes Numeriques en Sciences Physiques et

Economiques. Dunod, Paris, 1974.

Machenauer, B., Spectral methods. In Numerical Methods Used in Atmospheric Models.

Vol.2, GARP Publication Series, 17, WMO/ICSU, 1977, p. 124.

Marchuk, G.I., Numerical Methods in the Design of Nuclear Reactors. Atomizdat,

Moscow, 1958 (en ruso).

Marchuk, G.I., Numerical Methods in Weather Prediction. Leningrado, Gidrometeoizdat

1967 (en ruso).

Marchuk, G.I., Methods of Numerical Mathematics. Springer-Verlag, Berlin, 1982.

Marchuk, G.I., and V.I. Lebedev, Numerical Methods in Neutron Transport Theory.

Atomizdat, Moscow, 1971 (in Russian).

Marchuk, G.I., A.A. Kordzadze, and Yu.N. Skiba, Calculation of the basic hydrological

fields in the Black Sea. Izvestiya, Atmospheric and Oceanic Physics, 11 (4): 229-237,

1975.

Marchuk, G.I., V.I. Kuzin, and Yu.N. Skiba (1983): Projection-difference method for the

calculation of conjugate functions for a model of heat transfer in the atmosphere-

ocean-soil system. In: Actual Problems of Numerical and Applied Mathematics,

Nauka, Novosibirsk, 149-154, 1983 (in Russian).

Marchuk, G.I., and Yu.N. Skiba, Numerical calculation of the conjugate problem for a

model of the thermal interaction of the atmosphere with the oceans and continents.

Izvestiya, Atmospheric and Oceanic Physics, 12 (5): 279-284, 1976.

Marchuk, G.I., and Yu.N. Skiba, Role of the adjoint equation solution in estimating the

mean temperature anomalies. Atmósfera, 5 (3): 119-133, 1992.

346
Mezinger, F., and Arakawa, A., Numerical Methods Used in Atmospheric Models, GARP

publications series, No. 17, Vol.1, WMO, 1976.

Mezinger, F., and Arakawa, A., Numerical Methods Used in Atmospheric Models, GARP

publications series, No. 17, Vol.2, WMO, 1979.

Mitchell, A.R., and Griffiths, D.F., The Finite Difference Method in Partial Differential

Equations. Wiley-Interscience, New York, 1980.

Morton, K.W., and D.F. Mayers, Numerical Solution of Partial Differential Equations.

Cambridge University Press, Cambridge, 1994.

Ortega, J.M, and W.G. Poole, Jr., An Introduction to Numerical Methods for Differential

Equations. Pitman Publishing Inc., 1981.

Parlett, B.N., The Symmetric Eigenvalue Problem. Prentice-Hall, Englewood Cliffs, N.J.,

1980.

Peaceman, D.W., and H.H. Rachford, The nimerical solution of parabolic and elliptic

differential equations. SIAM J., 3 (1), 1955.

Pepper, D.W., and J.C. Heinrich, The Finite Element Method. Basic Concepts and

Applications. Taylor & Francis, Series in Computational and Physical Processes in

mechanics and Thermal Sciences, 1993.

Powell, M.J.D., Approximation Theory and Methods. Cambridge University Press,

Cambridge, 1981.

Prenter, P., Splines and Variational Methods. Wiley, New York, 1975.

Priestley, A., The Taylor-Galerkin method for the shallow-water equations on the sphere.

Mon. Wea. Rev., 120, 3003-3015, 1992.

Rektorys, K., Variational Methods in Mathematics, Science and Engineering. Dr. Reidel

Publishing Company, Dordrecht, 1977.


347
Rheinboldt, W.C., Methods for Solving Systems of Nonlinear Equations. CBMS-NSF

Regional Conference Series, Vol. 14, SIAM, Philadelphia, 1974.

Richtmyer, R.D., Difference Methods for Initial Value Problems. Interscience, New York,

1957.

Richtmyer, R.D., and K.W. Morton, Difference Methods for Initial Value Problems. Wiley,

New York, 1967.

Roberts, S., and J. Shipman, Two-Point Boundary Value Problems: Shooting Methods.

American Elsevier, New York, 1972.

Russell, R., A comparison of collocation and finite differences for two-point boundary

value problems. SIAM J. Numer. Analysis, 14, 19-39, 1977.

Russell, R., and L. Shampine, A collocation method for boundary value problems.

Numerische Math., 19, 1-28, 1972.

Samarskii, A.A., Necessary and sufficient conditions of stability of two-layer difference

schemes. Doklady AN SSSR, 181 (4), 1968.

Samarskii, A.A., Introduction to the Theory of Difference Schemes. Nauka, Moscow, 1971

(Russian).

Skiba, Yu.N., Mathematical Problems of the Dynamics of Viscous Barotropic Fluid on a

Rotating Sphere. Department of Numerical Mathematics, USSR Academy of Sciences,

Moscow, 1-178, 1989 (en ruso), Indian Institute of Tropical Meteorology, Pune, India,

1-211, 1990 (en inglés).

Skiba, Yu.N., Liapunov instability of the Rossby-Haurwitz waves and dipole modons. Sov.

J. Numer. Analysis & Math. Modelling, 6 (6), 515-534, 1991.

Skiba, Yu.N., Rossby-Haurwitz wave stability. Izvestiya, Atmos. Ocean. Physics, 28 (5),

388-394, 1992a.
348
Skiba, Yu.N., Stability of barotropic modons on a sphere. Izvestiya, Atmos. Ocean. Physics,

28 (10-11), 765-773, 1992b.

Skiba, Yu.N., Dynamics of perturbations of the Rossby-Haurwitz wave and the Verkley

modon. Atmósfera , 6 (2): 87-125, 1993a.

Skiba, Yu.N., Balanced and absolutely stable implicit schemes for the main and adjoint

pollutant transport equations in limited area. Revista Internacional de Contaminación

Ambiental, 9 (2), 39-51, 1993b.

Skiba, Yu.N., On the long-time behavior of solutions to the barotropic atmosphere model.

Geophysical & Astrophysical Fluid Dynamics, 78 (1-4), 143-167, 1994.

Skiba, Yu.N., Finite-difference mass and total energy conserving schemes for shallow

water equations, Russian Meteorology and Hydrology , 2, 35-43, 1995.

Skiba, Yu.N., and J. Adem, A balanced and absolutely stable numerical thermodynamic

model for closed and open oceanic basins. Geofísica Internacional, 34 (4), 385-393,

1995.

Skiba, Yu.N., J. Adem, and T. Morales-Acoltzi, Numerical algorithm for the adjoint

sensitivity study of the Adem ocean thermodynamic model. Atmósfera, 9 (2), 147-

170, 1996.

Skiba, Yu.N., On dimensions of attractive sets of viscous fluids on a sphere under quasi-

periodic forcing. Geophysical and Astrophysical Fluid Dynamics, 85 (3-4), 233-242,

1997a.

Skiba, Yu.N., Air pollution estimates. Wourld Resource Review, 9 (4): 542-556, 1997b.

Skiba, Yu.N., Spectral approximation in the numerical stability study of nondivergent

viscous flows on a sphere. Numerical Methods for Partial Differential Equations, 14

(2), 143-157, 1998.


349
Skiba, Yu.N., and J. Adem, On the linear stability study of zonal incompressible flows on a

Sphere. Numerical Methods for Partial Differential Equations, 14 (5), 649-665, 1998.

Stewart, G.W., Introduction to Matrix Computations. Academic Press, New York, 1973.

Stewart, G.W., and Ji-guang Sun. Matrix Perturbation Theory. Academic Press, New York,

1990.

Strang, G., and G. Fix, An Analysis of Finite Element Method. Prentice-Hall, New York,

1973.

Thuburn, J., Multidimensional flux-limited advection schemes. J. Comp. Physics, 123, 74-

83, 1996.

Thompson, P.D., 1961. Numerical Weather Analysis and Prediction. Macmillan, 170 pp.

van Kempen, H.P.M., On the convergence of the classical Jacobi method for real

symmetric matrices with non-distinct eigenvalues. Numer. Math., 9, 11-18, 1966.

Voevodin, V.V., and Yu.A. Kuznetzov. Matrices and Calculations. Nauka, Moscow, 1984.

Volkov, E.A., Métodos Numéricos, Mir, Moscú, 1990 (en español).

Wilkinson, J.H., The Algebraic Eigenvalue Problem. Londres y Nueva York, Oxford

University Press (Clarendon), 1965.

Yanenko, N.N., On a difference method for the multi-dimensional heat equation. Doklady

AN SSSR, 125, (6), 1959.

Yanenko, N.N., The Method of Fractional Steps. Nauka, Novosibirsk, 1967 (en ruso);

Springer-Verlag, Berlin, 1971.

Young, D., Iterative Solution of Large Linear Systems. Academic Press, New York, 1971.

Zienkiewicz, O.C., and K. Morgan, Finite Elements and Approximation. Wiley, New York,

1983.

350

View publication stats

También podría gustarte