Jmapunte

1 Sucesiones de números reales
1.1 Números reales

En el conjunto de los números reales tenemos definidas dos operaciones bina-
rias, suma y producto, y una relación de orden
(a, b) → a + b
(a, b) → ab
a ≤ b.
Ellos cumplen los siguientes axiomas:
A1 Conmutatividad de la suma. Para todo par ordenado (a, b) de números

reales, a + b = b + a.
A2 Asociatividad de la suma Para toda terna (a, b, c) de números reales,

(a + b) + c = a + (b + c).
A3 Existencia de elemento neutro, o “cero”, para la suma. Existe un
número real, que denotamos “0”, con la condición de ser a + 0 = a para
todo número real a.
A4 Existencia de elemento inverso, u opuesto, para la suma. Existe, para

cualquier número real a, un número real, −a, que satisface a + (−a) = 0.
A5 Conmutatividad del producto. Para todo par ordenado de números reales

(a, b), se tiene ab = ba.
A6 Asociatividad del producto. Para toda terna de números reales (a, b, c),
se tiene (ab)c = a(bc).
A7 Existencia de unidad para el producto. Existe un número real, “1”,

1 6= 0, tal que a 1 = a para todo número real a.
A8 Existencia de elemento inverso para el producto. Para todo número real

a, a 6= 0, existe un número real, a−1 , o 1/a, que satisface aa−1 = 1.
A9 Distributividad del producto con respecto a la suma. Para toda terna

de números reales (a, b, c), vale que a(b + c) = ab + ac.
A10 Transitividad del orden. Si a ≤ b y b ≤ c, entonces a ≤ c.
A11 Antisimetrı́a del orden. Si a ≤ b y b ≤ a, entonces a = b.

1 Sucesiones de números reales 2
A12 Para dos números reales cualesquiera a, b, es a ≤ b, o b ≤ a.

A13 a ≤ b ⇒ a + c ≤ b + c para todo número real c.
A14 0 ≤ a y 0 ≤ b implican 0 ≤ ab.
A15 Axioma de completitud. Todo conjunto acotado superiormente tiene

supremo.
De estos axiomas se deducen las siguientes propiedades:

P1 El elemento neutro para la suma es único, pues si hubiera dos, digamos
0 y 00 , serı́a 0 = 0 + 00 = 00 .
P2 a + b = a + c ⇒ b = c. En particular, el opuesto de a, −a, es único.
Luego −(−a) = a. Escribimos a − b en lugar de a + (−b).
P3 ab = 0 es equivalente a a = 0 o b = 0.
P4 El conjunto de los números reales, sin el 0, satisface los mismos axiomas

con respecto al producto (Axiomas 5, 6, 7 y 8) que el conjunto de todos los
números reales con respecto a la suma (Axiomas 1, 2, 3 y 4). Luego aquéllos
satisfacen las mismas propiedades que éstos para la suma. A saber,
el elemento neutro para el producto es único.
Si a 6= 0 y ab = ac, entonces b = c. En particular, el inverso es único.

Además (a−1 )−1 = a.
Si b 6= 0, entonces ab−1 (= a(1/b)) también se escribe a/b.
El cero no tiene inverso, ya que a0 = 0 para todo número real a.
P5 Si a 6= 0, b 6= 0, entonces (ab)−1 = a−1 b−1 .
P6 Se tiene (−a)b = a(−b) = −(ab). En particular, −a = (−1)a.
P7 Cuando a ≤ b y a 6= b, se escribe a < b. Ası́, a ≤ b es equivalente a

a < b o a = b.
P8 Para dos números reales cualesquiera a, b vale una y sólo una de las
siguientes relaciones
a < b, a = b, b < a
(b < a también se escribe a > b).
P9 a ≤ b y b < c implican a < c.

P10 a ≤ b y c ≤ d implican a + c ≤ b + d. Si además a < b o c < d, entonces
a + c < b + d.
P11 a ≤ b es equivalente a a + c ≤ b + c. a < b es equivalente a a + c < b + c.
P12 Las relaciones a ≤ b, 0 ≤ b − a, a − b ≤ 0, −b ≤ −a, son equivalentes.

Las siguientes relaciones son también equivalentes: a < b, 0 < b − a, a − b <
0, −b < −a.
P13 Si a ≥ 0, b ≥ 0, entonces a + b ≥ 0. Más aún, es a + b > 0 o a = b = 0.
P14 Para cualquier número real a, se define

½
a si a ≥ 0
|a| =
−a si a < 0.
Se tiene | − a| = |a|, |a| = 0 si y sólo si a = 0.
P15 Si α > 0, entonces la relación |a| ≤ α es equivalente a −α ≤ a ≤ α.

|a| < α es equivalente a −α < a < α.
P16 Para a, b reales cualesquiera, se tiene
|a + b| ≤ |a| + |b|,
||a| − |b|| ≤ |a − b|.
P17 Si c ≥ 0, entonces a ≤ b ⇒ ac ≤ bc.
P18 Regla de los signos
{a ≥ 0 y b ≤ 0} ⇒ ab ≤ 0
{a ≤ 0 y b ≤ 0} ⇒ ab ≥ 0
{a > 0 y b > 0} ⇒ ab > 0
{a > 0 y b < 0} ⇒ ab < 0
{a < 0 y b < 0} ⇒ ab > 0.
P19 Para dos números reales cualesquiera a, b se tiene |ab| = |a||b|.

P20 Si a > 0, entonces a−1 > 0. Si c > 0, entonces la relación a ≤ b es
equivalente a ac ≤ bc, y la relación a < b es equivalente a ac < bc. La relación
0 < a < b es equivalente a 0 < b−1 < a−1 .
P21 Para cualquier número real a se define


 1 si a > 0
sig (a) = −1 si a < 0

0 si a = 0.
Sigue que sig (ab) = sig (a) sig (b), a = |a| sig (a).
P22 Las relaciones 0 < a1 ≤ a2 , 0 < b1 ≤ b2 , implican a1 b1 ≤ a2 b2 . Si
además a1 < a2 o b1 < b2 , entonces a1 b1 < a2 b2 .
P23 La relación a2 ≤ b2 es equivalente a |a| ≤ |b|. La relación a3 ≤ b3 es

equivalente a a ≤ b.
1.2 Sucesiones numéricas

Consideremos una aplicación
N 7→ R,
esto es, una ley de correspondencia que asigna a cada número natural n un
número real an . Estos números reales an , imagen de los números naturales,
quedan ordenados de acuerdo con la relación “<” que existe en N. Debe
entenderse “ordenados” con respecto a su enumeración, no con respecto a su
valor numérico:
a1 , a2 , a3 , · · · .
Esto se llama una sucesión de números reales. También se la indica {an }.

Ejemplos
{1/n} = 1, 1/2, 1/3, · · ·
{1/2n } = 1/2, 1/4, 1/8, · · ·
{n} = 1, 2, 3, · · ·
½ ¾
n+1
= 2, 3/2, 4/3, · · ·
n
0, 1/2, 0, −1/3, 0, 1/4, 0, −1/5, · · ·
0, 1, 0, 2, 0, 3, · · ·
0, 1, 0, 11, 0, 111, · · ·
0, 49, 0, 499, 0, 4999, · · ·
{1} = 1, 1, 1, · · · .
Puede ocurrir que an se aproxime a un determinado número real l a medida

que n crece. En este caso l se llama lı́mite de la sucesión dada, y se indica
l = lim an , o bien an → l cuando n → ∞.

n→∞
La definición precisa es la siguiente:
l = limn→∞ an si y sólo si para cada ² > 0, arbitrario, existe un

número natural n0 , que depende de ², tal que para n > n0 vale
|an − l| < ².
Recordar que |an − l| < ² es equivalente a l − ² < an < l + ². Conviene

considerar aquı́ el caso de lı́mite infinito. Si bien ∞ no es un número, también
se simboliza limn→∞ an = ∞, o an → ∞ cuando n → ∞.
limn→∞ an = ∞ si y sólo si dado un número real M > 0, arbitrario,

existe n0 (M ) ∈ N tal que para n > n0 es |an | > M .
limn→∞ an = +∞ (respectivamente −∞) si y sólo si dado un

número real M > 0, arbitrario, existe n0 (M ) tal que para n ∈
N, n > n0 , vale an > M (respectivamente an < −M ).
Dada una sucesión, puede ocurrir que tenga lı́mite finito (sucesión conver-
gente), o lı́mite infinito (sucesión divergente) o bien que no tenga lı́mite, ni
finito ni infinito (sucesión oscilante). Se puede probar fácilmente que estos
tres casos son excluyentes entre sı́.
1.3 Propiedades de los lı́mites finitos

Supongamos que an → l cuando n → ∞.
(a) Desde un término en adelante, es decir, para todo an con n > n0 , an

se conserva mayor que cualquier número menor que l, y menor que cualquier
número mayor que l.
(b) Si sig (l) 6= 0 entonces a partir de un término en adelante, an tiene el

mismo signo que l.
(c) Si dos sucesiones tienen lı́mites distintos, entonces los términos de la de
mayor lı́mite superan a los de menor lı́mite desde un término en adelante.
(d) Si an → a, bn → b, y a partir de un término en adelante es an < bn ,

entonces a ≤ b.
(e) El lı́mite es único.
(f) Si an → l, bn → l, y a partir de un término en adelante es
an ≤ cn ≤ bn ,
entonces cn → l.
1.4 Subsucesiones
Una sucesión es una aplicación g : N → R. Supongamos que tenemos una
aplicación h : N → N, estrictamente creciente, es decir, h(n) < h(m) si n < m.
Luego la composición
h g
g ◦ h, N → N → R,
es una aplicación de N en R. Por lo tanto es también una sucesión, que por
provenir de la otra de esa manera se llama subsucesión de la otra. Si, por
ejemplo, tenemos la sucesión a1 , a2 , · · ·, y
h(1) = 3, h(2) = 5, h(3) = 6, h(4) = 10, · · · ,
entonces la subsucesión que se forma es {bn }, donde
b1 = a3 , b2 = a5 , b3 = a6 , b4 = a10 , · · · .
Proposición Si una sucesión es convergente (respectivamente, divergente),

entonces cualquier subsucesión de ella será también convergente (respectiva-
mente, divergente).
Una sucesión {an } se dice creciente (respectivamente, decreciente) si
a1 ≤ a2 ≤ a3 ≤ · · ·
(respectivamente, a1 ≥ a2 ≥ a3 ≥ · · ·). Si todas las desigualdades son estrictas,

entonces se llaman estrictamente crecientes o estrictamente decrecientes.
Una sucesión {an } se dice acotada superiormente (respectivamente, inferi-
ormente) si existe un número real M > 0 tal que an < M (respectivamente,
an > −M ).
Proposición Toda sucesión creciente (respectivamente, decreciente) y acotada
superiormente (respectivamente, acotada inferiormente) tiene lı́mite finito.
La demostración de esta Proposición se basa en el Axioma 15 de los números

reales. En realidad, lim an resulta ser sup(an ) en el caso creciente e inf(an )
en el caso decreciente. Observar que la condición de ser creciente, o decre-
ciente, basta pedirla a partir de un término en adelante. Lo mismo para la
acotación superior o inferior, ya que una cantidad finita de números siempre
están acotados.
Un ejemplo notable de sucesión acotada superiormente y estrictamente cre-

ciente es
{(1 + 1/n)n }.
Una sucesión {an } puede no tener lı́mite pero sı́ pueden tenerlo subsucesiones
de ella. Si una subsucesión de {an } tiene un lı́mite l, entonces l se llama lı́mite
de oscilación de la sucesión {an }. De esta manera, una sucesión puede tener
muchos (en realidad, infinitos) lı́mites de oscilación. Por ejemplo, sea {an } la
sucesión
1, 0, 1, 0, 1, · · · .
La subsucesión
a 1 , a 3 , a5 , · · ·
tiene lı́mite 1, mientras que la subsucesión
a 2 , a 4 , a6 , · · ·
tiene lı́mite 0. Puede probarse fácilmente que esta sucesión tiene sólo estos dos
lı́mites de oscilación.
Una sucesión tiene siempre lı́mites de oscilación, con valor finito o infinito. De
entre todos los lı́mites de oscilación hay uno que es el mayor de ellos, finito o
infinito. Se le da el nombre de lı́mite superior, y se simboliza
lim sup an o lim an .
Asimismo, siempre hay un menor lı́mite de oscilación, finito o infinito, que se

llama lı́mite inferior de la sucesión, y se denota
lim inf an o lim an .
Valen los siguientes resultados:

(a) lim sup an = +∞ si y sólo si {an } no es acotada superiormente.
(b) lim inf an = −∞ si y sólo si {an } no es acotada inferiormente.
(c) La sucesión {an } tiene lı́mite, finito o infinito con signo determinado,
si y sólo si lim inf an = lim sup an . En este caso el valor de su lı́mite es el
coincidente de lim inf an y lim sup an .
Un criterio general de convergencia
Comprobar si una sucesión tiene lı́mite por su misma definición supone conocer
el valor del lı́mite. Existe un criterio que permite determinar la existencia de
lı́mite finito de una sucesión sin conocer su supuesto lı́mite. Es la llamada
condición de Cauchy.
Definición Una sucesión an se dice de Cauchy si dado ² > 0, arbitrario, existe
n0 (²) ∈ N tal que si n, m ∈ N, n ≥ n0 , m ≥ n0 , entonces |an − am | < ².
Proposición Una sucesión an tiene lı́mite finito si y sólo si es de Cauchy.
Demostración: Supongamos que an → l, l finito. Dado ² > 0, existe n0 ∈ N

tal que |an − l| < ²/2 si n ≥ n0 . Luego, si n ≥ n0 , m ≥ n0 , sigue que
|an − am | = |an − l + l − am | ≤ |an − l| + |l − am | < ²/2 + ²/2 = ².
Por lo tanto {an } es de Cauchy.
Recı́procamente, supongamos ahora que {an } es de Cauchy. La demostración

sigue los siguientes pasos:
1ro Una sucesión de Cauchy es acotada. En efecto, un conjunto finito de

números reales es acotado. Luego el conjunto {a1 , a2 , · · · , an0 } es acotado.
Para n > n0 tenemos
|an | = |an − an0 + an0 | ≤ |an − an0 | + |an0 | < |an0 | + ².
Luego el conjunto {an0 +1 , an0 +2 , · · ·} es también acotado. Como la unión de

dos conjuntos acotados es otro conjunto acotado, sigue que la sucesión {an } es
acotada.
2do Debido a los puntos (a) y (b) anteriores, toda sucesión acotada tiene
lı́mite superior y lı́mite inferior finitos.
3ro Debe ser

l = lim inf an = lim sup an = l.
En efecto, supongamos que l < l, y sea ² = l−l > 0. Como estamos suponiendo
que {an } es una sucesión de Cauchy, sigue que existe n0 ∈ N tal que
|am − an | < ²/3 si m ≥ n0 , n ≥ n0 .
Por otra parte, existe una subsucesión {ani } de {an } tal que ani → l, y existe
otra subsucesión {ami } de an tal que ami → l. Por lo tanto, a partir de un
cierto término de la primera subsucesión vale
|ani − l| < ²/3.
Análogamente, a partir de cierto término de la segunda subsucesión vale
|ami − l| < ²/3.

Sigue que para estos términos
² = |l − l| = |l − ami + ami − ani + ani − l|

≤ |l − ami | + |ami − ani | + |ani − l| < |ami − ani | + 2/3 ².
Luego |ami − ani | > ²/3. Pero esto está en contradicción con el hecho de que
a partir del término an0 , todos los términos de la sucesión {an } satisfacen
|an − am | < ²/3.
1.5 Cálculo de lı́mites

A diferencia de lo que ocurre con las operaciones de suma y producto de
números reales, no existe un algoritmo general que permita calcular lı́mites de
sucesiones. El método consiste entonces en calcular por definición el lı́mite de
determinadas sucesiones sencillas para después reducir a éstas sucesiones de
expresión más complicada. Para realizar esto debemos saber cómo se comporta
el lı́mite cuando operamos con sucesiones.
Suma
Dadas dos sucesiones {an }, {bn }, podemos formar la sucesión suma
{an + bn } = a1 + b1 , a2 + b2 , · · · .
Para el lı́mite de la sucesión suma tenemos los siguientes casos:

{an → a, bn → b} ⇒ an + bn →a+b
{an → ∞, {bn } acotada } ⇒ an + bn →∞
{an → +∞, bn → +∞} ⇒ an + bn → +∞
{an → −∞, bn → −∞} ⇒ an + bn → −∞.
Si an → +∞, bn → −∞, entonces no puede darse una respuesta general para
lim(an + bn ).
Producto
Dadas dos sucesiones {an }, {bn }, la sucesión producto es
{an bn } = a1 b1 , a2 b2 , · · · .
Obtenemos que
{an → a, bn → b} ⇒ an bn → ab
{an → 0, {bn } acotada } ⇒ an bn → 0
{an → ∞, |bn | > K > 0} ⇒ an bn → ∞.
Si an → 0 y bn → ∞, entonces no hay respuesta general para el lı́mite del

producto.
Cociente
La sucesión cociente es
{an /bn } = a1 /b1 , a2 /b2 , · · · .
Sigue que
{an → a, bn → b 6= 0} ⇒ an /bn → a/b
{{an } acotada , bn → ∞} ⇒ an /bn →0
{|an | > K > 0, bn → 0} ⇒ an /bn →∞
{an → ∞, {bn } acotada } ⇒ an /bn → ∞.
Si an → 0 y bn → 0, o bien an → ∞, bn → ∞, entonces no hay respuesta
general para el lı́mite del cociente.
Logaritmos
Si α > 0, α 6= 1, b > 0, se define logα b a un número x que satisface αx = b.

Dada la sucesión {bn }, bn > 0, queda formada la sucesión
{logα bn } = logα b1 , logα b2 , · · · .
Si bn → b > 0, entonces logα bn → logα b.
En efecto, suponiendo α > 1, para ² > 0 es α² > 1, α−² < 1. Luego, como
bn /b → 1, sigue que a partir de un n en adelante es
α−² < bn /b < α² .
Tomando logaritmo en estas dos desigualdades sigue que
−² < logα bn − logα b < ²,
lo que prueba que logα bn → logα b.
Si bn → 0, bn > 0, y α > 1, entonces logα bn → −∞. Si, en cambio, α < 1,

entonces logα bn → +∞.
Potencia
Si {an }, an > 0, {bn }, son dos sucesiones, entonces puede construirse la

sucesión potencia
{abnn } = ab11 , ab22 , · · · .
Si an → a > 0, y bn → b, entonces abnn → ab .
Además
{an → 0, bn → b > 0} ⇒ abnn →0
{an → 0, bn → b < 0} ⇒ abnn → +∞
{an → a > 1, bn → +∞} ⇒ abnn → +∞
{an → a > 1, bn → −∞} ⇒ abnn →0
{an → a < 1, bn → +∞} ⇒ abnn →0
{an → a < 1, bn → −∞} ⇒ abnn → +∞
{an → 0, bn → +∞} ⇒ abnn →0
{an → 0, bn → −∞} ⇒ abnn → +∞
{an → +∞, bn → +∞} ⇒ abnn → +∞
{an → +∞, bn → −∞} ⇒ abnn → 0.
En los siguientes casos no puede darse una respuesta general.
an → 0, bn → 0,
an → +∞, bn → 0,
an → 1, bn → +∞,
an → 1, bn → −∞.
2 Series numéricas
El concepto de lı́mite de una sucesión permite definir una suma de infinitos
términos o serie numérica
∞
X
ai = a1 + a2 + · · · .
i=1
Sea
S1 = a1
S2 = a1 + a2
.. .. ..
. . .
Sn = a1 + a2 + · · · + an
.. .. ..
. . .
Entonces se define ∞
X
ai = lim Sn .
n→∞
i=1
De acuerdo con esta definición, una serie puede ser convergente, divergente u
oscilante, en concordancia con el carácter de la sucesión de sumas parciales.
De las propiedades válidas para sumas finitas se mantiene la propiedad dis-
tributiva: ∞ ∞
X X
k ai = kai .
i=1 i=1
La propiedad asociativa se preserva para series convergentes o divergentes pero

no vale en general para series oscilantes. Por ejemplo, la serie
1 − 1 + 1 − 1 + ···
es oscilante pues sus sumas parciales son
1, 0, 1, 0, 1, · · · .
Pero si asociamos
(1 − 1) + (1 − 1) + · · · ,
se convierte en
0 + 0 + 0 + · · · = 0,
serie convergente.
2 Series numéricas 14
Serie geométrica
Sea a 6= 0, k 6= 1. La serie
∞
X
2 3
a + ak + ak + ak + · · · = a k i−1
i=1
se llama serie geométrica de razón k. La suma parcial enésima es
Sn = a + ak + ak 2 + · · · + ak n−1 .
De aquı́
kSn = ak + ak 2 + · · · + ak n = Sn+1 − a.
Por otra parte Sn+1 − Sn = ak n . Luego
kSn + a − Sn = ak n ,
(k − 1)Sn = a(k n − 1).
Por lo tanto
kn − 1 1 − kn
Sn = a =a .
k−1 1−k
a
Vemos que, si 0 ≤ |k| < 1, Sn converge a 1−k . Si k > 1, entonces Sn → +∞.
Si k < −1, entonces Sn → ∞. Si k = −1, entonces la serie geométrica es
oscilante. En conclusión, la serie geométrica de razón k es convergente cuando
y sólo cuando −1 < k < 1.
Criterio de Cauchy para series

Dado que la suma de una serie es el lı́mite de la sucesión de sus sumas parciales,
el criterio de convergencia de Cauchy para sucesiones es aplicable a las series.
P∞
Una serie i=1 ai es convergente si y sólo si dado ² > 0, arbitrario,
P
existe n0 (²) ∈ N tal que para n0 ≤ n < m vale | m i=n+1 ai | < ².
En particular, si m = n + 1, queda |an+1 | < ². Esto dice que si una serie es

convergente entonces su término general tiende a 0. Pero !cuidado!, el hecho
recı́proco no es en general cierto: hay series no convergentes cuyo término
general sı́ tiende a cero. El ejemplo tı́pico es la llamada serie armónica,
∞
X
1/i = 1 + 1/2 + 1/3 + · · · .
i=1
Convergencia absoluta
P
Definición Una serie ∞ i=1 ai se dice absolutamente convergente si la serie
P∞
i=1 |ai | es convergente.
P Pm
Dado que | m i=n+1 ai | ≤ i=n+1 |ai |, el criterio de convergencia de Cauchy
afirma que una serie absolutamente convergente es convergente. La implicación
recı́proca no es en general cierta: una serie puede ser convergente pero no
absolutamente convergente. Por ejemplo, probaremos más adelante que
X∞
(−1)i+1 1/i = 1 − 1/2 + 1/3 − 1/4 + 1/5 − · · ·
i=1
es convergente, pero
X∞
|(−1)i+1 1/i| = 1 + 1/2 + 1/3 + · · ·
i=1
es divergente.
2.1 Series de términos positivos

Si una serie tiene todos sus términos positivos (o todos positivos a partir de
un término en adelante), entonces la sucesión de sus sumas parciales es cre-
ciente (o creciente a partir de un término en adelante, respectivamente). Si
todas estas sumas parciales están acotadas, entonces la serie será convergente.
Si las sumas parciales no están acotadas, entonces la serie será divergente
a +∞. Por tanto, una serie de términos positivos no puede ser oscilante
P P
(Como ai = −1 (−ai ), todos los resultados que se obtengan para series
de términos positivos son también válidos para series de términos negativos).
P P P
Sean ai , bi , dos series de términos positivos, bi convergente.
P
(i) Si a partir de un término es ai ≤ bi , entonces ai es convergente.
P
(ii) Si a partir de un término es ai /bi ≤ λ, entonces ai es convergente
(Criterio de comparación de primera especie).
P
(iii) Si a partir de un término es ai+1 /ai ≤ bi+1 /bi , entonces ai es con-
vergente (Criterio de comparación de segunda especie).
Probemos (iii). Supongamos que la desigualdad vale a partir del término

indicado por i0 . Luego
ai0 +1 ai0 +2 ai +p bi +1 bi0 +2 bi +p
··· 0 ≤ 0 ··· 0 ,
ai0 ai0 +1 ai0 +p−1 bi0 bi0 +1 bi0 +p−1
donde p ∈ N es arbitrario. Sigue que

ai0 +p bi +p
≤ 0 ,
ai0 bi0
es decir
ai0
ai0 +p ≤ bi +p ,
bi0 0
o bien
ai0 +p ai
≤ 0.
bi0 +p bi0
ai0 P
Como bi0
es un número fijo, sigue del criterio de primera especie que ai
debe ser convergente.
Estos criterios de comparación permiten decidir cuándo una serie es con-

vergente sabiendo que otra serie de términos más grandes lo es. Asimismo, si
una serie de términos positivos tiene términos más grandes que los de una serie
divergente, entonces aquélla es también divergente. Las series que se usan para
comparar son las series geométrica y armónica generalizada. Esta última es
∞
X
1/iα = 1 + 1/2α + 1/3α + · · · ,
i=1
donde α > 0.
Si α ≤ 1, entonces la serie armónica es divergente. Si α > 1, entonces es
convergente.
Aplicando la comparación directa con una serie geométrica de razón k

menor que 1 sigue que si a partir de un cierto término es
√
n
an < k,
P
entonces ∞ n=1 an es convergente (Criterio de Cauchy). Si, en cambio, para
√
infinitos términos an es n an ≥ 1, entonces la serie es divergente pues no se
cumple la condición necesaria de convergencia, a saber an → 0 cuando n → ∞.
Si a partir de un término an0 de la serie es

an+1
≤ k < 1,
an
P
entonces ∞ n=1 an es convergente (Criterio de D’Alembert). En efecto, escribi-
an+1 n+1
endo an ≤ kkn = k, y aplicando el criterio de segunda especie con la serie
P
geométrica ∞n=1 k
n+1
, convergente, sigue el resultado. Si, en cambio, a partir
de cierto término se mantiene an+1

an
≥ 1, entonces la serie es divergente pues a
partir de alguno de ellos, sus términos son crecientes y por lo tanto no puede
cumplirse la condición necesaria de ser an → 0 cuando n → ∞.
Si a partir de cierto término es

µ ¶
an+1
n 1− ≥ M > 1,
an
P
entonces la serie an es convergente (Criterio de Raabe). Si, en cambio, a
an+1
partir de un cierto término es n(1 − an
) ≤ 1, entonces la serie es divergente.
2.2 Estudio de series en general

Las series que no mantienen su signo a partir de ningún término no pueden
ser estudiadas por los criterios anteriores. Caso particular de estas series son
las llamadas series alternadas.
P
Una serie an se dice alternada cuando sig (an+1 ) 6= sig (an ) para todo
n ∈ N.
Una serie alternada es convergente si |an | ≥ |an+1 | para todo n ∈ N

y además limn→∞ an = 0 (Criterio de Leibnitz).
Ejemplo
P∞ n+1
n=1 (−1) 1/n = 1 − 1/2 + 1/3 − · · ·. Puede probarse que esta serie
converge a ln 2.
En general, si una serie no conserva el signo de sus términos a partir de

ningún término, entonces se puede analizar las dos series que se forman con
P
sus términos positivos y negativos, respectivamente. Si ∞i=1 ai es una serie en
tal condición, llamemos pi a los términos de la serie que son positivos, y qi a
los términos negativos de la serie. Desde un principio supongamos que ai → 0
cuando i → ∞, ya que si esto no vale la serie no puede ser convergente. Bajo
esta suposición pueden presentarse los siguientes casos:
P P P
(a) pi y qi ambas convergentes. En este caso ai es absolutamente
convergente, y por lo tanto también convergente. Además
X X X X X X
ai = pi + qi , |ai | = pi − qi .
P P P
(b) pi convergente, qi divergente. En este caso tenemos ai = −∞.
P P P
(c) pi divergente, qi convergente. Aquı́ es ai = +∞.
P P P
(d) pi y qi ambas divergentes. En este caso ai se dice condicional-
mente convergente. Reordenando convenientemente sus términos es posible
obtener una serie convergente a cualquier valor previamente estipulado, di-
vergente u oscilante. Este caso es el de las series convergentes que no son
absolutamente convergentes. Por ejemplo, la serie
1 − 1/2 + 1/3 − 1/4 + 1/5 − · · · .

3 Funciones reales de variable real
3.1 Conjuntos de la recta
Sea A 6= ∅ un conjunto de números reales.
A se dice acotado superiormente si existe M ∈ IR tal que a ≤ M

para todo a ∈ A.
En este caso existe una menor cota superior, llamada extremo superior de A,
o supremo de A (sup A).
A se dice acotado inferiormente si existe K ∈ IR tal que K ≤ a

para todo a ∈ A.
La mayor de las cotas inferiores se llama extremo inferior de A o ı́nfimo de

A (inf A). Un conjunto es acotado cuando lo es superior e inferiormente.
En general trabajaremos con determinados conjuntos de la recta, a saber los
llamados intervalos.
Un intervalo I es un conjunto no vacı́o de números reales con la siguiente

propiedad: cada vez que a ∈ I, b ∈ I, a < b, entonces c ∈ I si a < c < b. Los
intervalos acotados son:
(a) I = {x ∈ IR : a ≤ x ≤ b}, a ≤ b.
Intervalo acotado cerrado o intervalo compacto.
(b) I = {x ∈ IR : a < x < b}, a < b.
Intervalo acotado abierto.
(c) I = {x ∈ IR : a ≤ x < b}, a < b.

Intervalo acotado semicerrado o semiabierto (cerrado a izquierda, abierto a
derecha).
(d) I = {x ∈ IR : a < x ≤ b}, a < b.

Intervalo acotado semicerrado o semiabierto (cerrado a derecha, abierto a
izquierda).
Los intervalos no acotados son: la recta misma, y semirrectas “izquierdas” o

“derechas”, cerradas o abiertas.
Todos estos intervalos se denotan, respectivamente,
3 Funciones reales de variable real 20
[a, b], (a, b), [a, b), (a, b], IR o (−∞, +∞), (−∞, a], (−∞, a), [a, ∞), (a, ∞).
Si a ∈ IR, un entorno de a es un intervalo abierto de la forma

(a − δ, a + δ), δ > 0.
Un entorno reducido de a es de la forma (a − δ, a) ∪ (a, a + δ).
Sea A un subconjunto no vacı́o de IR.
a ∈ IR se dice punto de acumulación de A si todo entorno de a

contiene infinitos puntos de A.
Es obvio que si A es un conjunto de finitos puntos, entonces no existe ningún

punto de acumulación de A. Por el contrario, si A es un conjunto acotado de
infinitos elementos, entonces siempre existe al menos un punto de acumulación
de A.
Un conjunto A se dice cerrado si todo punto de acumulación de A

pertenece al conjunto.
De aquı́, todo conjunto finito es cerrado. Todo intervalo cerrado es un conjunto

cerrado.
Un punto a se dice interior a un conjunto A si existe un entorno

de a contenido en A.
A se dice abierto si todos sus puntos son interiores al conjunto.
Todo intervalo abierto es un conjunto abierto. Un conjunto es abierto si y

sólo si su complementario es cerrado. IR y ∅ son los únicos subconjuntos de IR
cerrados y abiertos simultáneamente.
3.2 Funciones reales de variable real

Sean A y B dos conjuntos no vacı́os cualesquiera.
Se llama función de A en B a un mecanismo que asigna a cada

elemento de A un elemento en B.
A se llama dominio de la función. B se llama codominio o recorrido de la

función. Se escribe
f
f : A 7→ B, o bien A 7→ B.
Si x ∈ A, se denota f (x) al elemento en B que la función asigna a x.
La imagen de la función es el subconjunto del codominio B que

consiste de todos los elementos de la forma f (x), con x ∈ A.
Caso particular es la llamada función constante, que asigna a todo elemento

x ∈ A un elemento fijo b ∈ B.
Una función se llama inyectiva si, cada vez que x 6= y, x, y ∈ A, es

f (x) 6= f (y).
Se llama suprayectiva si su imagen coincide con su codominio.
Una función que al mismo tiempo es inyectiva y suprayectiva se
llama biyectiva.
Si g : B 7→ C es una función cuyo dominio contiene a la imagen de f , entonces

queda determinada la función composición
g ◦ f : A 7→ C,
definida su ley de correspondencia por
(g ◦ f )(x) = g(f (x)).
Cuando el codominio B coincide con el dominio A queda establecida la lla-

mada función identidad, caso especial de función biyectiva, cuya ley de corres-
pondencia se define por
idA (x) = x para todo x ∈ A.
Si f : A 7→ B es una función biyectiva, entonces existe su función inversa

f −1 : B 7→ A, que satisface
f ◦ f −1 = idB , f −1 ◦ f = idA .
Hasta aquı́ hemos visto definiciones válidas para funciones cuyo dominio y
codominio son conjuntos cualesquiera. De aquı́ en adelante supondremos que
el codominio es IR y el dominio es generalmente un intervalo. Tales funciones

reales de variable real permiten una representación gráfica de las mismas.
También es a veces posible expresar analı́ticamente la ley de corresponden-

cia mediante las operaciones de los números reales. Más aún, de funciones
definidas en un mismo dominio pueden obtenerse otras, operando entre ellas.
Por ejemplo, la ley de correspondencia puede estar dada por un polinomio
Pn (x) = an xn + an−1 xn−1 + · · · + a1 x + a0 ,
donde an , an−1 , · · · , a0 son números reales fijos y x, como es habitual, representa

un valor genérico del dominio de la función. O también puede estar dada por
un cociente de polinomios
Pn (x)
, Qn (x) 6= 0.
Qn (x)
Función potencial
Es la definida por
f : [0, ∞) 7→ [0, ∞), f (x) = xp , p > 0,
o bien
f : (0, ∞) 7→ (0, ∞), f (x) = xp , p < 0.
Como es una función biyectiva, tiene función inversa, cuya expresión es x1/p .
Luego su inversa es también una función potencial.
Función exponencial
Es la definida por
f : IR 7→ (0, ∞), f (x) = ax , a > 0, a 6= 1.
Como también es biyectiva, existe su función inversa, a saber
f : (0, ∞) 7→ IR, f (x) = loga x.

Funciones circulares
Consideremos un triángulo rectángulo de lados a, b, c, donde c es la hipotenusa,
que suponemos de longitud 1, y x es el ángulo, en radianes, entre los lados a
y c. Se define
sen x = b/c, cos x = a/c, tan x = b/a = sen x/ cos x.
Definidas en principio en x ∈ [0, 2π], se las extiende a todo x ∈ IR por period-

icidad.
Tenemos que
sen (−x) = −sen x, cos(−x) = cos x
para todo x ∈ IR. Además
sen2 x + cos2 x = 1.
Otras relaciones útiles son:
sen (α + β) = sen α cos β + sen β cos α,
cos(α + β) = cos α cos β − sen α sen β.
Luego
sen 2x = 2 sen x cos x,
cos 2x = cos2 x − sen2 x = 2 cos2 x − 1.
Las funciones
sen x : [−π/2, π/2] 7→ [−1, 1],

cos x : [0, π] 7→ [−1, 1],
tan x : (−π/2, π/2) 7→ IR,
son biyectivas. Sus funciones inversas son, respectivamente
arcsen x : [−1, 1] 7→ [−π/2, π/2],

arccos x : [−1, 1] 7→ [0, π],
arctan x : IR 7→ (−π/2, π/2).
Funciones hiperbólicas
Las funciones seno hiperbólico y coseno hiperbólico se definen como
sh x : IR 7→ IR, sh x = [ex − e−x ]/2,
ch x : IR 7→ [1, ∞), ch x = [ex + e−x ]/2.
La tangente hiperbólica se define como
tgh x : IR 7→ (−1, 1), tgh x = sh x/ch x.
Tenemos que
ch x + sh x = ex , ch x − sh x = e−x , ch 2 x − sh 2 x = 1.
Como la función seno hiperbólico es biyectiva, existe su función inversa. Obteng-

amos su expresión. Llamemos y = sh x. Como
ch 2 x = sh 2 x + 1 = y 2 + 1,
p p
y ch x es siempre positivo, sigue que ch x = + y 2 + 1 = ex .
y 2 + 1. Luego y+
p
Tomando en esta igualdad logaritmo neperiano, resulta x = ln(y + y 2 + 1).
Ası́,
√
sh −1 x = ln(x + x2 + 1).
Análogamente se puede obtener la función inversa de ch x : [0, ∞) 7→ [1, ∞).
3.3 Lı́mite de una función

Sea f : A 7→ IR una función real de variable real y supongamos que el conjunto
A tiene un punto de acumulación a. Vamos a definir el lı́mite de la función f
en el punto a. Se escribe
l = lim f (x), o bien f (x) → l cuando x → a.

x→a
Por ser a punto de acumulación de A siempre existen sucesiones acotadas

{xn }, xn ∈ A \ {a}, xn → a.
Definición
l = limx→a f (x) si para toda sucesión xn → a, xn ∈ A \ {a}, vale que

f (xn ) → l para n → ∞.
Hay que destacar que aquı́ l puede tomar un valor finito o infinito.
Observar que esta definición se basa en la de lı́mite de sucesiones numéricas y
por lo tanto todo lo que vale para éstas vale también para el lı́mite funcional.
Por ejemplo, sabemos que el lı́mite de una suma de dos sucesiones numéricas
es la suma de los lı́mites de cada una de ellas, cuando estos existen con valor
finito. Consideremos ahora dos funciones, f : A → IR, g : A → IR. Luego
existe la función suma f + g : A → IR, definida como
(f + g)(x) = f (x) + g(x).
Supongamos que f (x) → l1 , g(x) → l2 , cuando x → a. Entonces
(f + g)(x) → l1 + l2 cuando x → a.
En efecto, consideremos una sucesión {xn }, xn ∈ A \ {a} para todo n ∈

IN, xn → a. Como f (x) → l1 cuando x → a, sigue que f (xn ) → l1 , y
análogamente g(xn ) → l2 . Por lo tanto (f + g)(xn ) → l1 + l2 . Como {xn } es
cualquier sucesión con los requisitos expuestos, queda probada la afirmación
mencionada.
De la misma manera se puede probar que (f g)(x) → l1 l2 , si se define la

función producto
f g : A → IR, (f g)(x) = f (x)g(x).
En general, todos los resultados que valen para operaciones con sucesiones
valen análogamente para operaciones con funciones: suma, producto, cociente,
potencia, logaritmos. Del mismo modo siguen existiendo las mismas indeter-
minaciones, a saber:
Para la suma: ∞ − ∞.
Para el producto: 0 ∞.
Para el cociente: 0/0, ∞/∞.
Para la potencia: 00 , ∞0 , 1∞ .
Queda claro entonces que todas las reglas que valen para operaciones con
sucesiones siguen valiendo para operaciones con funciones. Por ejemplo:
Si f (x) → 0 para x → a y g(x) se conserva acotada en un entorno

de a, entonces f (x)g(x) → 0 para x → a.
Tener presente que l = lim f (x) para x → a si para toda sucesión xn → a, xn ∈

A \ {a}, vale que f (xn ) → l. No basta que para alguna sucesión {xn } valga lo
anterior. Consideremos el siguiente ejemplo.
f : (0, ∞) 7→ [−1, 1], f (x) = sen (π/x)
La expresión π/x establece una biyección entre el intervalo abierto (0,1) y la

semirrecta abierta (π, ∞). Quiere decir que el comportamiento de la expresión
sen (π/x) en (0,1) debe ser como el comportamiento de la expresión sen x en
(π, ∞). Por ejemplo, sen x oscila infinitas veces en (π, ∞), toma infinitas veces
el valor 1, el 0, el −1, y en general cualquier valor comprendido entre −1 y
1. Luego también debe ocurrir lo mismo con sen (π/x) en el intervalo (0,1).
Allı́ también debe oscilar infinitas veces entre −1 y 1. El cero es punto de
acumulación del intervalo (0, ∞), y luego en principio podemos considerar el
lı́mite de sen (π/x) para x → 0. Como estamos considerando esta expresión
en (0, ∞), x → 0 con valores positivos de x. Esto se indica x → 0+ (se lee x
tiende a 0 por la derecha). Pero existe el lı́mite?
Como lo sugiere la discusión anterior, no existe el lı́mite de esta función para
x → 0. En efecto, consideremos la sucesión {1/n}, 1/n → 0+ , 1/n ∈ (0, ∞)
para todo n ∈ N. Evaluando la función en estos valores obtenemos
sen (π/(1/n)) = sen nπ = 0
para todo n, y luego sen (nπ) → 0. Si 0 fuera el lı́mite de la función, entonces

deberı́a ocurrir que f (xn ) → 0 para toda sucesión xn → 0+ . Sin embargo,
elijamos xn = 2/(4n + 1), que también tiende a 0 y pertenece al dominio de la
función. Ahora
sen (π/xn ) = sen ([4n + 1]π/2) = 1
para todo n ∈ N, y esta sucesión tiende a 1. Esta diferencia en los lı́mites de

dos sucesiones distintas implica ya que no existe el lı́mite de esta función en 0.
Ası́ como para 0 y 1, también podemos probar que dado cualquier c ∈ [−1, 1]
podemos conseguir una sucesión zn , que depende de c, zn > 0, zn → 0+ , tal
que
sen(π/zn ) → c.
Lo que sucede con esta función conduce a definir el llamado lı́mite de os-
cilación de una función en un punto a, y que es el concepto análogo al de lı́mite
de oscilación de una sucesión numérica.
Definición
l se dice lı́mite de oscilación de f en a si existe alguna sucesión {zn }, zn →
a, zn 6= a, y zn en el dominio de la función para todo n, tal que f (zn ) → l.
En el ejemplo anterior vemos que todo l ∈ [−1, 1] es lı́mite de oscilación de la

función en el origen.
Cuando la función está acotada en un entorno de a entonces siempre existen

el lı́mite superior e inferior de oscilación, que se simbolizan
lim sup f (x), lim inf f (x), para x → a,
o bien
limf (x), limf (x), para x → a,
respectivamente.
Si f no está acotada superiormente en ningún entorno de a, entonces
lim sup f (x) = +∞ para x → a.
Si f no está acotada inferiormente en ningún entorno de a, entonces
lim inf f (x) = −∞ para x → a.
Ahora llamemos
h : (0, ∞) 7→ (0, ∞), h(x) ≡ x,
g : (0, ∞) 7→ [−1, 1], g(x) = sen (π/x).
Consideremos la función producto
hg : (0, ∞) 7→ IR, (hg)(x) = x sen (π/x).
Calculemos
lim(hg)(x) para x → 0+ .
Como h(x) → 0 para x → 0 (probarlo) y g(x) está acotada en todo su dominio

(aunque bastarı́a que lo estuviera en algún entorno de 0), sigue por la regla
ya conocida que x sen (π/x) → 0 para x → 0+ . En este caso las infinitas
oscilaciones de sen (π/x) en el intervalo (0,1) no afectan a la existencia del
lı́mite. Este hecho se observa en su gráfica:
x sen (π/x)
0.3
0.2
0.1
-0.1
-0.2
-0.3
0.05 0.1 0.15 0.2 0.25 0.3
x
Hay una definición equivalente de lı́mite finito de una función f en un punto

a, punto de acumulación de su dominio. Es la siguiente:
Un número l se dice lı́mite de la función f en a si dado ² > 0,

arbitrario, existe δ > 0, que depende de ², tal que para aquellos x
que están en el dominio de f y además satisfacen 0 < |x − a| < δ,
vale que |f (x) − l| < ².
Para lı́mites infinitos están las siguientes definiciones:
lim f (x) = +∞ para x → a si dado K > 0, arbitrario, existe δ > 0,

que depende de K, tal que para aquellos x que están en el dominio
de f y además satisfacen 0 < |x − a| < δ, vale que f (x) > K.
lim f (x) = −∞ para x → a si dado K > 0, arbitrario, existe δ > 0,
de f y además satisfacen 0 < |x − a| < δ, vale que f (x) < −K.
lim f (x) = ∞ para x → a si dado K > 0, arbitrario, existe δ > 0,
de f y además satisfacen 0 < |x − a| < δ, vale que |f (x)| > K.
Ejemplos
1) f : (0, ∞) 7→ (0, ∞), f (x) = 1/x,

lim f (x) = +∞ para x → 0.
2) h : (−∞, 0) 7→ (−∞, 0), h(x) = 1/x,

lim h(x) = −∞ para x → 0.
3) g : IR \ {0} 7→ IR \ {0}, g(x) = 1/x,

lim g(x) = ∞ para x → 0.
Observar que los tres lı́mites anteriores se obtienen inmediatamente si se

aplica la definición por sucesiones dada en primer lugar. Por ejemplo, 1/x →
+∞ para x → 0+ pues para cualquier sucesión xn → 0+ vale que 1/xn → +∞.
Las definiciones vistas hasta ahora son válidas para x → a, a valor finito.
También se puede definir el lı́mite de una función para
x → +∞, x → −∞, o bien x → ∞,
cuando existen sucesiones {xn }, con xn en el dominio de la función para todo

n y tales que xn → +∞, xn → −∞, xn → ∞, respectivamente. La definición
por sucesiones es análoga al caso a finito.
f (x) → l para x → +∞ si para toda sucesión {xn }, xn pertene-

ciente al dominio de la función para todo n, xn → +∞, vale que
f (xn ) → l.
De forma similar se definen los otros dos casos. Y también el caso de lı́mite
infinito para x → ∞.
Con la otra definición hay que distinguir los casos de lı́mite finito e infinito.
Para lı́mite finito tenemos que:
f (x) → l para x → +∞ si dado ² > 0, arbitrario, existe M > 0,

que depende de ², tal que si x > M vale que |f (x) − l| < ².
f (x) → l para x → −∞ si dado ² > 0, arbitrario, existe M > 0,
que depende de ², tal que si x < −M vale que |f (x) − l| < ².
f (x) → l para x → ∞ si dado ² > 0, arbitrario, existe M > 0, que
depende de ², tal que si |x| > M vale que |f (x) − l| < ².
Para el caso de lı́mite infinito es:
f (x) → +∞ para x → +∞ si dado K > 0, arbitrario, existe

M > 0, que depende de K, tal que si x > M vale que f (x) > K.
Los otros casos se definen análogamente. Estos son f (x) → ∞ para x → ∞

y además todos los que resultan de poner un signo + o un signo − en uno u
otro lado.
La definición por lı́mite de sucesiones es preferible a la otra del “² y δ”,

sobre todo a la hora del cálculo efectivo de un lı́mite. Sea el siguiente ejemplo:
lim f (x) para x → 2, donde
f : (0, ∞) 7→ (0, ∞), f (x) = x2 .
Por la definición por sucesiones debemos considerar cualquier sucesión
{xn }, 2 6= xn > 0, xn → 2,
y ver si la sucesión numérica f (xn ) tiende a algún valor l que sea indepen-
diente de la sucesión ası́ elegida. Ahora bien, en nuestro ejemplo f (xn ) = x2n .
Pero sabemos por resultados conocidos de sucesiones numéricas que si xn → 2
entonces x2n → 4. Como este 4 es siempre el lı́mite de x2n , con tal que xn → 2,
sigue que el lı́mite de esta función para x → 2 es 4.
Con la otra definición debemos fijar un ² > 0, arbitrario, y en función de

este ² encontrar δ > 0 tal que para aquellos x que verifiquen 0 < |x − 2| < δ,
valga que
|x2 − 4| < ².
Observar en este punto que ya de entrada esta definición tiene un inconve-
niente. El valor del lı́mite, 4 en este caso, no es consecuencia de ningún
cálculo, sino que su valor debe ser propuesto para después verificar que se
trata efectivamente del lı́mite. Prosigamos. Tenemos que
|x2 − 4| = |x − 2||x + 2|.
Andamos con suerte puesto que vemos que la expresión que debemos hacer
menor que un ² prefijado depende de |x − 2|, sobre el que tenemos libertad
para achicarlo tanto como se quiera mediante la elección de δ. Luego
|x2 − 4| = |x − 2||x + 2| < δ|x + 2|.
Representa el factor |x + 2| un obstáculo? No, ya que tenemos libertad para

elegir δ. Luego podemos desde ya fijar δ ≤ 1, con lo cual |x + 2| < 5. Por
lo tanto |x2 − 4| < 5δ y si por otro lado δ ≤ ²/5 queda |x2 − 4| < ², que era
lo buscado. Resumiendo, tenemos que si δ ≤ min{1, ²/5}, es decir δ ≤ 1 y
además δ ≤ ²/5, vale que
|x2 − 4| = |x − 2||x + 2| < δ|x + 2| < 5δ ≤ ²,
o sea
|x2 − 4| < ².
3.4 Comparación de variables

De dos números reales fijos, digamos x e y, podemos decir si x > y, x = y
o x < y. Afirmaciones del tipo “x es mucho más grande que y”, “x es muy
pequeño”, etc., no tienen en realidad ningún sentido riguroso. En cambio, si se
trata de cantidades variables las afirmaciones anteriores adquieren un sentido,
ya sean variables discretas, es decir que recorren un conjunto de números a
“saltos”, como por ejemplo el conjunto de números naturales, o bien variables
continuas, que recorren un conjunto de valores sin saltos, como por ejemplo
un intervalo que no se reduzca a un punto. Sı́ tiene sentido decir “1/n, para
n ∈ N, se hace arbitrariamente pequeño” porque ahora 1/n no representa a
una cantidad fija, sino a un conjunto de infinitos números. Como sabemos,
la afirmación anterior se corresponde con el hecho de que 1/n → 0 cuando
n → ∞.
Es muy útil saber comparar variables. Consideremos un ejemplo de series.
P
Sabemos que la serie armónica 1/n es divergente a +∞. Cómo será la serie
X
1/[n + 10]?
Comparemos término a término. Tenemos que 1/[n + 10] < 1/n para todo
n ∈ N. Luego tenemos que todas las sumas parciales de la segunda serie
son menores que las correspondientes sumas parciales de la primera. Pero
como la serie mayorante es divergente, no podemos afirmar nada sobre la
serie de términos menores. Sabemos que el carácter de una serie depende del
comportamiento de sus “últimos” términos, es decir, a partir de uno cualquiera
de ellos. Luego comparemos los términos correspondientes de ambas series para
n grande, o sea para n → ∞. Tenemos que
1/[n + 10] n
lim = lim = 1.
1/n n + 10
Como n/[n + 10] < 1, la aproximación de esa fracción a 1 es por la izquierda.

El valor del cociente supera a cualquier número menor que 1 para n suficiente-
mente grande. Por ejemplo, si fijamos 1/2 < 1, tenemos que n/[n + 10] > 1/2
a partir de algún valor de n. En este caso vemos que a partir de n = 11 se
P
cumple esa desigualdad. Luego ∞ n=11 1/[n + 10] está minorada por
X∞ X∞
1 1
= 1/2 = +∞,
n=11
2n n=11
n
y por lo tanto la serie

∞
X 10
X ∞
X
1 1 1
= +
n=1
n + 10 n=1 n + 10 n=11 n + 10
es divergente a +∞. La causa que ha motivado que la serie de términos

menores sea también divergente se expresa ası́:
La cantidad variable 1/[n + 10] es del mismo orden que la cantidad

variable 1/n para n → ∞.
Podemos definir en general para variables que dependen de n, α(n), β(n), lo

siguiente:
α(n) y β(n) son del mismo orden para n → ∞ si para todo n mayor
que un número fijo vale que
¯ ¯
¯ α(n) ¯
¯
K1 < ¯ ¯ < K2 ,
β(n) ¯
donde K1 y K2 son dos constantes fijas, K1 > 0.
Si en particular
α(n)
lim = η, η 6= 0, η 6= ∞,
n→∞ β(n)
entonces α(n) y β(n) son cantidades del mismo orden. Si η = 1, α(n) y β(n)
se dicen equivalentes. Si
α(n)
lim =0
n→∞ β(n)
entonces α(n) se dice de orden inferior a β(n). Por ejemplo, ln n es de orden

inferior a np para todo p > 0 pues limn→∞ lnnpn = 0. Quiere decir que si bien
ln n → ∞ para n → ∞, su convergencia a ∞ es más lenta que la de np .
Podemos extender esta definición de orden a cantidades que dependen de

una variable continua x, para x tendiendo a un valor fijo finito o infinito.
Concretamente, a funciones f (x), g(x):
f (x) y g(x) se dicen del mismo orden para x → a, a finito, si en

algún entorno reducido de a se verifica
¯ ¯
¯ f (x) ¯
K1 < ¯¯ ¯ < K2 , K1 > 0.
g(x) ¯
¯ ¯
¯ (x) ¯
Si limx→a ¯ fg(x) ¯ = b > 0, entonces f (x) y g(x) son del mismo orden para x → a.
f (x) y g(x) son del mismo orden para x → +∞ si para todo x

mayor que un valor fijo es
¯ ¯
¯ f (x) ¯
K1 < ¯¯ ¯ < K2 , K1 > 0.
g(x) ¯
Como ejemplo comparemos sen x y x para x → 0. El lı́mite del cociente sen x/x
es en principio indeterminado, del tipo 0/0. Vamos a resolver la indetermi-
nación probando que lim sen x/x = 1. Consideremos el cuarto de circunferencia
de radio 1, localizada en el primer cuadrante.
N
Q
x
O P M
Tenemos que sen x es la longitud del segmento P Q, tan x es la longitud del

segmento M N y x es la longitud del arco QM , que es mayor que la longitud
del segmento QP . Luego sigue que
sen x < x < tan x.
Por consiguiente
1 < x/sen x < 1/ cos x,
1 > sen x/x > cos x,
0 < 1 − sen x/x < 1 − cos x.

Si aceptamos que 1 − cos x → 0 cuando x → 0+ sigue que también 1 − sen x/x

tiende a 0 y por lo tanto sen x/x → 1 cuando x → 0+ .
Si no sabemos cuál es el lı́mite de 1 − cos x, ponemos 1 − cos x = 2sen2 (x/2) y
usando otra vez la primera relación de desigualdades sigue que 2sen2 (x/2) <
x2 /2 y obtenemos
0 < 1 − sen x/x < x2 /2,
y ahora está claro que 1 − sen x/x queda comprendido entre dos funciones que
tienden a 0 cuando x → 0+ . Dado que sen x/x es una expresión par se obtiene
que
lim sen x/x = 1.
x→0
De esta manera, sen x y x son cantidades equivalentes para x → 0.

4 Funciones continuas
Sea f : A 7→ R una función y sea c ∈ A.
f se dice continua en c si cada vez que lim xn = c, xn ∈ A, es

lim f (xn ) = f (c) para n → ∞.
Si limx→c+ f (x) = f (c), entonces f se dice continua por la derecha

en c.
Si limx→c− f (x) = f (c), entonces f se dice continua por la izquierda
en c.
Una función se dice continua en un subconjunto de su dominio si

es continua en todos los puntos de ese subconjunto.
Cuando una función no es continua en c, entonces se dice discontinua en c.

Los distintos casos de discontinuidad en c son los siguientes:
(a) Discontinuidad evitable Existe limx→c f (x), es finito, pero no coincide

con f (c).
Ejemplo (Todos los ejemplos son en c = 0)
f : R 7→ R, f (x) = sig2 (x).
(b) Discontinuidad de tipo infinito Existe limx→c f (x), pero con valor in-
finito, con el mismo signo.
Ejemplo ½
1/x2 si x 6= 0
f : R 7→ R, f (x) =
0 si x = 0.
(c) Discontinuidad de salto finito Existen los dos lı́mites laterales, finitos,
pero son distintos.
Ejemplo ½ 1+e1/x
si x 6= 0
f : R 7→ R, f (x) = 1−e1/x
0 si x = 0.
(d) Discontinuidad de salto infinito Existen los dos lı́mites laterales, uno
de ellos finito y el otro infinito, o bien los dos infinitos con distinto signo.
4 Funciones continuas 36
Ejemplos ½
e1/x si x 6= 0
f : R 7→ R, f (x) =
0 si x = 0.
½
1/x si x 6= 0
f : R 7→ R, f (x) =
0 si x = 0.
(e) Discontinuidad de segunda especie No existe al menos uno de los dos

lı́mites laterales.
Ejemplo ½
sen (1/x) si x 6= 0
f : R 7→ R, f (x) =
0 si x = 0.
Si f y g son funciones definidas en A, continuas en c ∈ A, entonces
• f + g es continua en c,
• f g es continua en c,
• f /g es continua en c si g(c) 6= 0.
• La composición f ◦ g es continua en c si f es continua en g(c) y g es

continua en c (no es necesario que f sea continua en c).
Todas estas afirmaciones son consecuencia inmediata de la definición de con-

tinuidad y de la definición de lı́mite de sucesiones.
Por ejemplo, probemos la última de ellas. Sea xn → c para n → ∞. Como
g es continua en c sigue que g(xn ) → g(c), y como f es continua en g(c) sigue
que f (g(xn )) → f (g(c)). Esto es, (f ◦ g)(xn ) → (f ◦ g)(c) para n → ∞.
Las siguientes funciones son continuas en todo su campo de definición:

Polinomios, funciones racionales, potencias, exponenciales y sus inversas (fun-
ciones logarı́tmicas), funciones circulares y sus inversas, cuando éstas existen,
funciones hiperbólicas y sus inversas, la función valor absoluto f (x) = |x|. La
función sig (x) es continua en todo x 6= 0, donde tiene una discontinuidad de
salto finito.
Continuidad en un intervalo cerrado y acotado

Sea f : A 7→ R, donde f es continua en A, intervalo cerrado y acotado
(intervalo compacto). Veremos algunas propiedades de una tal función.
Definición c ∈ A se dice un cero de f si f (c) = 0.

Teorema de Bolzano Si a, b ∈ A, a < b, y f (a)f (b) < 0, entonces existe un
cero de f entre a y b.
Demostración: Supongamos que f (a) < 0 y f (b) > 0. El caso opuesto se

prueba análogamente. Consideremos el conjunto B = {x ∈ A : f (x) < 0}.
B 6= ∅ porque a ∈ B. Sea c = sup B, es decir c es la menor de las cotas
superiores de B. Veamos que f (c) = 0. En efecto, f (c) no puede ser positivo
porque si ası́ fuera existirı́a un entorno de c donde f es positiva en todos los
puntos de ese entorno y por lo tanto c no serı́a el supremo de B. Aquı́ estamos
usando la continuidad de f . Análogamente se muestra que f (c) no puede ser
negativo.
El Teorema de Bolzano tiene la utilidad práctica de permitir calcular (aprox-

imadamente) ceros de funciones continuas. Consideremos una función continua
f tal que, por ejemplo, f (a) < 0, f (b) > 0. Sea x1 el punto medio entre a y b, es
decir x1 = [a + b]/2. Si f (x1 ) = 0 entonces ya hemos calculado (exactamente)
un cero de f . Si, por ejemplo, f (x1 ) > 0, entonces consideremos el intervalo
[a, x1 ] y su punto medio x2 = [a + x1 ]/2. (Si f (x1 ) < 0 entonces hubiéramos
considerado el intervalo [x1 , b]). Como f (a) < 0 y f (x1 ) > 0, por el Teorema
de Bolzano debe existir un cero de f entre a y x1 . Si f (x2 ) = 0 ya lo hemos
calculado exactamente. Si, por ejemplo, f (x2 ) < 0, entonces consideramos
ahora el intervalo [x2 , x1 ], donde f tiene distinto signo en sus extremos. Se
calcula su punto medio y se continúa este procedimiento de la misma forma.
La longitud del intervalo inicial es b − a, la del segundo es [b − a]/2, la del
tercero [b − a]/4, · · ·, la del enésimo intervalo es [b − a]/2n−1 , expresión que
tiende a cero cuando n → ∞. Como dentro de estos intervalos debe haber un
cero de f , podemos ası́ calcular este cero con un error pequeño.
Como consecuencia del Teorema de Bolzano sigue que si una función es

continua en [a, b] entonces toma cualquier valor comprendido entre f (a) y
f (b).
En efecto, supongamos que f (a) < f (b) y sea η tal que f (a) < η < f (b).
Consideremos la función continua f (x) − η = g(x). Luego g(a) < 0 y g(b) > 0.
Por lo tanto, por el Teorema de Bolzano sigue que existe c, a < c < b, tal que
g(c) = 0, o sea f (c) = η.
Llamemos C a la imagen de la función continua f : [a, b] 7→ R, es decir

C = {f (x) : x ∈ [a, b]}. Supongamos que f (a) < f (b). El resultado anterior se
expresa también ası́: [f (a), f (b)] ⊂ C. Más aún, podemos decir que el conjunto
imagen C es también un intervalo cerrado y acotado. Que es un intervalo sigue
como consecuencia del resultado anterior: Cada vez que en C hay dos puntos
distintos también están en C todos los puntos intermedios.
Veamos que C es cerrado. Recordemos que un conjunto cerrado es aquél

que contiene a sus puntos de acumulación. Sea y un punto de acumulación de
C. Significa que existe una sucesión de puntos yn ∈ C que converge a y. Por
estar yn en C es de la forma yn = f (xn ) para xn ∈ [a, b]. Veamos que la sucesión
{xn } tiene una subsucesión convergente. Si los valores numéricos de xn son en
número finito esto es evidente. Si el conjunto de valores numéricos xn es infinito
entonces, como está acotado, tiene un punto de acumulación, digamos c. De
aquı́ existe una subsucesión xni , xni → c. Como [a, b] es cerrado, c ∈ [a, b].
Como f es continua, f (xni ) → f (c), pero f (xni ) es subsucesión de f (xn ) y
sabemos que toda subsucesión de una sucesión convergente es convergente al
mismo lı́mite. Por lo tanto f (xni ) → y y de aquı́ y = f (c), es decir y ∈ C.
La prueba de que C es acotado se hace con argumentos similares. Supon-

gamos que C no es acotado superiormente. Luego existe una sucesión {yn },
yn en C, yn → +∞. Sea xn ∈ [a, b] tal que f (xn ) = yn . Como se probó
anteriormente, {xn } tiene una subsucesión convergente, xni → c ∈ [a, b]. Pero
f (xni ) = yni → +∞, por lo que f no serı́a continua en c, contradicción que
proviene de suponer que C no es acotado.
En ambas partes de la demostración se ha usado el siguiente hecho:
Si {xn } es una sucesión acotada entonces tiene una subsucesión

convergente.
Este hecho es equivalente al siguiente principio:
Un conjunto acotado de infinitos puntos tiene al menos un punto

de acumulación.
Como la imagen de una función continua con dominio en un intervalo cer-

rado y acotado es también un intervalo cerrado y acotado tenemos que habrá
un valor máximo y un valor mı́nimo de la función. Los correspondientes puntos

del dominio donde se toman el valor máximo y mı́nimo de la función se lla-
man, respectivamente, máximos absolutos y mı́nimos absolutos de la función.
Hemos probado ası́ el llamado
Teorema de Bolzano Weierstrass Toda función continua con dominio en
un intervalo cerrado y acotado tiene máximo y mı́nimo absolutos, es decir
puntos del dominio donde se toma, respectivamente, el valor máximo y el valor
mı́nimo de la función.
Definición Una función f se dice uniformemente continua en un intervalo A
si dado ² > 0, arbitrario, existe δ > 0, que depende de ², tal que, si |x1 − x2 | <
δ, x1 , x2 ∈ A, vale que |f (x1 ) − f (x2 )| < ².
Si f es uniformemente continua en A entonces es continua en A, es decir

en cada punto de A. El hecho recı́proco no es cierto en general:
Una función puede ser continua en A y no ser uniformemente continua en A.

No obstante, si A es un intervalo cerrado y acotado sı́ vale esta afirmación. Es
el llamado
Teorema de Heine Cantor Si f es continua en un intervalo cerrado y aco-

tado A, entonces es uniformemente continua en A.
La demostración de este Teorema se basa también en el principio de que
toda sucesión acotada tiene una subsucesión convergente. Los siguientes ejem-
plos muestran que los Teoremas de Bolzano Weierstrass y de Heine Cantor no
valen si f no es continua o si su dominio no es cerrado y acotado.
Ejemplos
1) ½
1/x2 si x 6= 0
f : [−1, 1] 7→ R, f (x) =
0 si x = 0.
El dominio es un intervalo cerrado y acotado pero f no es continua. No valen
ninguno de los dos Teoremas.
2)
f : (0, 1] 7→ R, f (x) = 1/x.
La función f es continua pero su dominio es un intervalo no cerrado. No valen

ninguno de los dos Teoremas.
5 Derivada y sus aplicaciones
Sea f una función definida en un intervalo A y sea a un punto interior a A. Se
define la derivada de f en c, que se simboliza f 0 (c), al siguiente lı́mite, cuando
éste existe:
f (c + h) − f (c)
lim .
h→0 h
La expresión sobre la que se toma lı́mite se llama cociente incremental de f
en c y es una función de h. Como c es un punto interior a A, el cociente
incremental está definido en un entorno reducido de 0, es decir es una función
de h definida en un entorno reducido de 0 y por lo tanto se puede en principio
tomar lı́mite para h → 0.
Ejemplos
1) f : A 7→ R, f función constante, o sea f (x) = M para todo x ∈ A.
Es
f (c + h) − f (c) M −M
= =0
h h
y por lo tanto f 0 (c) = 0.
2) f : A 7→ R, f (x) = x.
Es
f (c + h) − f (c) c+h−c
= =1
h h
y por consiguiente f 0 (c) = 1.
3) f : A 7→ R, f (x) = x2 .
Es
f (c + h) − f (c) (c + h)2 − c2 2ch + h2
= = = 2c + h.
h h h
Luego f 0 (c) = limh→0 (2c + h) = 2c.
4) f : A 7→ R, f (x) = ln x.
Es
f (c + h) − f (c) ln(c + h) − ln c c+h
= = (1/h) ln = ln(1 + h/c)1/h .
h h c
Cuando h → 0, 1/h → ∞ y 1 + h/c → 1. Luego (1 + h/c)1/h → e1/c . De aquı́
sigue que ln(1 + h/c)1/h → 1/c y luego f 0 (c) = 1/c.
5 Derivada y sus aplicaciones 41
Interpretación geométrica de la derivada

Si f 0 (c) existe entonces también existe la recta tangente a la gráfica de la
función en c, y f 0 (c) es la pendiente de esa recta tangente.
Si existe
f (c + h) − f (c)
lim+
h→0 h
entonces este lı́mite se llama derivada lateral por derecha en c y se denota
f 0 (c+ ).
Análogamente se define
f (c + h) − f (c)
f 0 (c− ) = lim− .
h→0 h
Si existen ambas derivadas laterales y sus valores coinciden, entonces existe
la derivada en el punto. En este caso f se dice derivable en el punto. Puede
ocurrir que ambas derivadas laterales existan, con valores distintos. Por ejem-
plo,
f : (−1, 1) 7→ R, f (x) = |x|.
Es
f (0 + h) − f (0) |h|
lim+ = lim+ = 1,
h→0 h h→0 h
f (0 + h) − f (0) |h|
lim− = lim− = −1.
h→0 h h→0 h
Puede darse que
f (c + h) − f (c) f (c + h) − f (c)
lim+ = lim− = +∞,
h→0 h h→0 h
o bien que ambos lı́mites sean −∞. En este caso la función f no es derivable
en c aunque existe la recta tangente en c, que es una recta vertical. Por
ejemplo,
f : R 7→ R, f (x) = x1/3 . Es
f (0 + h) − f (0) h1/3
lim+ = lim+ = lim+ h−2/3 = +∞
h→0 h h→0 h h→0
y
f (0 + h) − f (0) h1/3
lim− = lim− = lim− h−2/3 = +∞.
h→0 h h→0 h h→0
Si ambas derivadas laterales dan ∞, con distinto signo en c, entonces c recibe

el nombre de punto cuspidal.
Ejemplo
f : R 7→ R, f (x) = x2/3 . Es
f (0 + h) − f (0) h2/3
lim+ = lim+ = lim+ h−1/3 = +∞,
h→0 h h→0 h h→0
f (0 + h) − f (0) h2/3
lim− = lim− = lim− h−1/3 = −∞.
h→0 h h→0 h h→0
Si las dos derivadas laterales existen con valor finito en c (no necesariamente
iguales) entonces la función es continua en c. En efecto,
limh→0+ [f (c + h) − f (c)] =
f (c + h) − f (c) f (c + h) − f (c)
lim+ h = lim+ lim h = 0.
h→0 h h→0 h h→0+
Vale lo análogo para limh→0− [f (c + h) − f (c)]. Luego
lim [f (c + h) − f (c)] = 0,
h→0
es decir
lim f (c + h) = f (c).
h→0
Si ponemos x = c + h, esto se escribe limx→c f (x) = f (c), que es la continuidad

de f en c.
Observar que en realidad para obtener la continuidad de f en c bastarı́a

con que el cociente incremental estuviera acotado en un entorno reducido de
cero.
De esta manera la derivabilidad en un punto implica la continuidad en ese
punto. El hecho recı́proco no es cierto en general. Existen ejemplos de fun-
ciones continuas que no son derivables en ningún punto de su dominio.
Si f es una función derivable en todo punto interior a A entonces podemos

considerar la función derivada
f 0 : A 7→ R,
que asigna a cada x ∈ A el valor de la derivada de f en x, f 0 (x).
Ejemplos
(1) f : R 7→ R, f (x) = x2 . Función derivada: f 0 (x) = 2x.
(2) f : (0, ∞) 7→ R, f (x) = ln x. Función derivada: f 0 (x) = 1/x.

Con el valor de la derivada de una función en un punto podemos construir

la recta tangente a la curva gráfica de la función en ese punto.
Ejemplo Determinar la recta tangente a la curva gráfica de la expresión f (x) =

x2 en el punto x = 1.
Tenemos que f (1) = 12 = 1, f 0 (1) = 2(1) = 2. Luego la recta tangente es la
que pasa por el punto del plano (1,1) y tiene pendiente 2. La ecuación de esta
recta es y − 1 = 2(x − 1), o bien y = 2x − 1.
La llamada recta normal es en general aquélla que pasa por el punto
considerado y es perpendicular a la recta tangente. Luego su pendiente es
el opuesto del inverso de la pendiente de la recta tangente. En el ejemplo
anterior esta recta es (y − 1) = −1/2(x − 1), o bien y = −1/2x + 3/2.
1.75
1.5
1.25
0.75
0.5
0.25
0.5 1 1.5 2
Recta tangente y recta normal (en trazo discontinuo)
Sea f : A 7→ R, f derivable en todo punto interior a A. Sea a un número

fijo y consideremos la función
af : A 7→ R, (af )(x) = af (x).
Derivemos por definición esta función en un punto c del interior de A. Es
af (c + h) − af (c) f (c + h) − f (c)
lim = a lim = af 0 (c).
h→0 h h→0 h
Sigue que (af )0 (x) = af 0 (x) para todo x ∈ A.
Sea g : A 7→ R, también derivable en todo punto interior a A. Calculemos

la derivada de la función suma
f + g : A 7→ R, (f + g)(x) = f (x) + g(x).
Es
f (c + h) + g(c + h) − f (c) − g(c)
lim =
h→0 h
· ¸
f (c + h) − f (c) g(c + h) − g(c)
lim + =
h→0 h h
f (c + h) − f (c) g(c + h) − g(c)
lim + lim =
h→0 h h→0 h
f 0 (c) + g 0 (c).
Luego
(f + g)0 (x) = f 0 (x) + g 0 (x)
para todo x perteneciente al interior de A. En resumen, la derivada de una

constante por una función es igual a la constante por la derivada de la función.
La derivada de una suma es la suma de las derivadas. Esta propiedad de la
derivada se expresa ası́:
La aplicación que asigna a una función su función derivada es lineal.
Más aún, la derivada de una combinación lineal de funciones es la combinación

lineal de las funciones derivadas:
(a1 f1 + a2 f2 + · · · + an fn )0 = a1 f10 + a2 f20 + · · · + an fn0 ,
donde a1 , a2 , · · · , an , son constantes fijas, y f1 , f2 , · · · , fn , son funciones deri-

vables definidas en un mismo dominio.
Ahora vamos a calcular la derivada de una composición de funciones,
(f ◦ g)0 (x), donde g : A 7→ R, f : B 7→ R.
Suponemos que la composición está bien definida, esto es g(A) ⊂ B. Tenemos

que
· ¸
f (g(c + h)) − f (g(c)) f (g(c + h)) − f (g(c)) g(c + h) − g(c)
lim = lim .
h→0 h h→0 g(c + h) − g(c) h
Como f es derivable en g(c) y ϕ(h) := g(c + h) − g(c) → 0 cuando h → 0,

sigue que
f (g(c) + ϕ(h)) − f (g(c))
lim = f 0 (g(c)).
h→0 ϕ(h)
Por otra parte
g(c + h) − g(c)
lim = g 0 (c).
h→0 h
Finalmente, como el lı́mite de un producto es el producto de los lı́mites, se
obtiene que
(f ◦ g)0 (c) = f 0 (g(c))g 0 (c).
Observar que al dividir y multiplicar por g(c + h) − g(c) en la expresión inicial

debe suponerse que ϕ(h) = g(c+h)−g(c) 6= 0 para h pequeño, h 6= 0. Empero,
el resultado final es válido también en el caso ϕ(h) = 0. En efecto, si hay una
sucesión hn → 0 para la cual ϕ(hn ) = 0, entonces, como g es derivable en c,
debe ser g 0 (c) = 0.
A continuación vamos a usar este último resultado, junto con la expresión
conocida de la derivada del logaritmo neperiano, para obtener derivadas de
otras funciones, ası́ como la derivada del producto y cociente de dos funciones.
Comencemos por calcular la derivada del producto de dos funciones derivables,
f y g. Consideremos la composición ln(f g)(x). De acuerdo con la regla de la
derivada de una composición de funciones tenemos que
1
[ln(f g)(x)]0 = (f g)0 (x).
(f g)(x)
Por otra parte

ln(f g)(x) = ln f (x) + ln g(x)
y luego
1 0 1 0
[ln(f g)(x)]0 = [ln f (x)]0 + [ln g(x)]0 = f (x) + g (x).
f (x) g(x)
Igualando ambos resultados se obtiene
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
La derivada de un cociente se trata de forma análoga. Por un lado tenemos

que µ ¶0
0 g(x) f (x)
[ln(f (x)/g(x)] = .
f (x) g(x)
Por otro lado [ln(f (x)/g(x))]0 =
f 0 (x) g 0 (x)
[ln f (x) − ln g(x)]0 = [ln f (x)]0 − [ln g(x)]0 = − .
f (x) g(x)
Igualando ambos resultados se obtiene

µ ¶0
f (x) f 0 (x) f (x) f 0 (x)g(x) − f (x)g 0 (x)
= − 2 g 0 (x) = .
g(x) g(x) g (x) g 2 (x)
Derivadas de las funciones potencial y expo-

nencial
Consideremos la función
fp : (0, ∞) 7→ (0, ∞), fp (x) = xp , p ∈ R.
Tomando logaritmo neperiano queda ln fp (x) = p ln x, y derivando,
fp0 (x)/fp (x) = p/x.
Por lo tanto
fp0 (x) = pfp (x)/x = pxp−1 .
Observar que para p ≥ 1 la función potencial se puede definir en x = 0, fp (0) =

0. Derivando directamente en el punto x = 0 se obtiene que la fórmula anterior
es válida también en este punto: f10 (0) = 1, fp0 (0) = 0 si p > 1. Sea ahora la
función
f : R 7→ (0, ∞), f (x) = ax , a > 0.
Tenemos que ln f (x) = x ln a, y luego f 0 (x)/f (x) = ln a,
f 0 (x) = ln af (x) = (ln a)ax .
En particular, si a = e queda (ex )0 = ex .
Derivada de las funciones circulares

La derivada de la función
f : R 7→ [−1, 1], f (x) = sen x,

se calcula directamente por la definición:

sen (x + h) − sen h
f 0 (x) = lim .
h→0 h
Usando que sen (x + h) = sen x cos h + sen h cos x, el cociente incremental se
escribe
sen h sen x[cos h − 1]
cos x+ .
h h
Por otra parte cos h − 1 = −2sen 2 (h/2). Al tomar lı́mite para h → 0 queda
sen h
lim = 1,
h→0 h
−2sen 2 (h/2) −sen (h/2)
lim = lim sen (h/2) = 0.
h→0 h h→0 h/2
Luego
(sen x)0 = cos x.
La derivada de la función f (x) : R 7→ [−1, 1], f (x) = cos x, se obtiene
rápidamente de la anterior observando que cos x = sen (π/2 − x). Luego
(cos x)0 = cos(π/2 − x)(−1) = −sen x.

³ sen x ´ cos2 x + sen 2 x 1
0
(tan x) = = 2
= .
cos x cos x cos2 x
−1
(cot x)0 = .
sen 2 x
Derivada de una función inversa

Sea f : A 7→ A una función biyectiva derivable, con función inversa derivable.
Como f (f −1 (x)) = x, tenemos que (f ◦ f −1 )0 = 1. Aplicando la fórmula de la
derivada de una composición de funciones, queda
f 0 (f −1 (x))(f −1 (x))0 = 1,
y por lo tanto
1
(f −1 (x))0 = .
f 0 (f −1 (x))
Ejemplo Sea
f : [−π/2, π/2] 7→ [−1, 1], f (x) = sen x.
Es
f −1 : [−1, 1] 7→ [−π/2, π/2], f −1 (x) = arcsen x.
Luego
1
(arcsen x)0 = .
cos(arcsen x)
Sea α = arcsen x. Tenemos que cos2 α = 1 − sen 2 α, con −π/2 ≤ α ≤ π/2.
√
Como α ≥ 0 para estos valores de α, sigue que cos α = + 1 − sen 2 α, pero
sen α = sen (arcsen x) = x. Luego
1
(arcsen x)0 = √ .
+ 1 − x2
Como arcsen x + arccos x = π/2, sigue que (arcsen x)0 + (arccos x)0 = 0 y
por consiguiente
1
(arccos x)0 = √ .
− 1 − x2
De una forma similar se obtiene que
1
(arctan x)0 = ,
1 + x2
−1
(arccot x)0 = .
1 + x2
Las derivadas de las funciones hiperbólicas y sus inversas son las siguientes:
(sh x)0 = ch x,
(ch x)0 = sh x,
1
(tgh x)0 = ,
ch2 x
1
(arg sh x)0 = √ ,
x2 + 1
1
(arg ch x)0 = √ ,
2
x −1
1
(arg tgh x)0 = .
1 − x2
Si la función derivada f 0 (x) es también derivable, su función derivada (f 0 (x))0 es
la llamada derivada segunda de f , que se simboliza f 00 (x). Si f 00 (x) es derivable
entonces su función derivada f 000 (x) es la derivada tercera de f . De esta manera
se obtienen las derivadas sucesivas de f , mientras éstas sean derivables.
5.1 Variación de las funciones

Cuando una función es derivable, su derivadas sucesivas permiten conocer su
comportamiento, en cuanto a crecimiento, extremos, concavidad, etcétera.
Si en un punto a interior al dominio de una función derivable f es

f 0 (a) > 0 entonces f es estrictamente creciente en a.
Si f 0 (a) < 0 entonces f es estrictamente decreciente en a.
Esto sigue como consecuencia directa de la definición de derivada y propiedades

del lı́mite.
Si f 0 (x) > 0 (f 0 (x) < 0) en todo punto x interior a un intervalo

entonces f es estrictamente creciente (estrictamente decreciente)
en ese intervalo.
Ejemplos
1)
f : (0, ∞) 7→ R, f (x) = ln x.
Es
f 0 (x) = 1/x para todo x ∈ (0, ∞).
Luego la función logarı́tmica es estrictamente creciente en todo su dominio.
2)
f : (0, ∞) 7→ (0, ∞), f (x) = 1/x.
Es
f 0 (x) = −1/x2 , que es negativo para todo x ∈ (0, ∞).
Luego esta función es estrictamente decreciente en todo su dominio.
Si f está definida en un intervalo y a es un punto interior a ese

intervalo entonces se dice que a es un mı́nimo relativo de f si existe
un entorno (a − δ, a + δ) contenido en el intervalo, tal que
f (x) ≥ f (a) si a − δ < x < a + δ.
El punto a es un máximo relativo de f si f (x) ≤ f (a) para x en

ese entorno.
Los máximos y mı́nimos relativos se llaman en general extremos relativos y se

dicen estrictos si las desigualdades anteriores valen estrictamente.
Si f es derivable en a y a es un extremo relativo de f entonces f 0 (a) = 0, ya
que en a, f no es estrictamente creciente ni estrictamente decreciente. Esta
es una condición necesaria pero no suficiente para la existencia de un extremo
relativo. Por ejemplo, si f (x) = x3 , f 0 (0) = 0, pero f es estrictamente creciente
en 0.
Si f es derivable en un entorno reducido de a,
(a − δ) ∪ (a + δ),
entonces una condición suficiente para que a sea un mı́nimo relativo

estricto es que
f 0 (x) < 0 si x ∈ (a − δ, a) y f 0 (x) > 0 si x ∈ (a, a + δ).
Análogamente,
si f 0 (x) > 0 para x ∈ (a − δ, a) y f 0 (x) < 0 para x ∈ (a, a + δ)

entonces a es un máximo relativo estricto.
Ejemplos
1)
f : [−1, 1] 7→ R, f (x) = |x|.
f no es derivable en 0 pero f 0 (x) = 1 > 0 si x ∈ (0, 1) y f 0 (x) = −1 < 0 si
x ∈ (−1, 0).
Luego 0 es mı́nimo relativo estricto.
2)
f : [−1, 1] 7→ R, f (x) = 1 − |x|.
f 0 (x) = −1 < 0 si x ∈ (0, 1) y f 0 (x) = 1 > 0 si x ∈ (−1, 0). Luego 0 es máximo
relativo estricto. En ninguno de los dos ejemplos la función es derivable en 0.
De todo esto sigue que para analizar el crecimiento y la existencia de

extremos relativos de una función derivable se debe estudiar el signo de su
derivada.
Ejemplo
f : R 7→ R, f (x) = 3x4 − 4x3 .
Es f 0 (x) = 12x2 (x − 1), f 0 (0) = 0, f 0 (1) = 0. La función derivada se anula

sólo en 0 y en 1, y por lo tanto estos puntos son los únicos candidatos a ser
extremos relativos. Vemos que f 0 (x) < 0 para x ∈ (−1, 1) \ {0}, luego 0 no es
extremo relativo, sino que allı́ f es estrictamente decreciente. Por otra parte,
f 0 (x) < 0 para x ∈ (0, 1) y f 0 (x) > 0 para x ∈ (1, ∞). Luego 1 es mı́nimo
relativo estricto. Por consiguiente esta función es estrictamente decreciente en
(−∞, 1) y estrictamente creciente en (1, ∞), siendo por lo tanto 1 un mı́nimo
estricto relativo y absoluto.
Mediante la derivada segunda se estudia la concavidad de la curva gráfica
de una función f . Observar que la existencia de f 00 (a) implica la existencia de
f 0 (x) para todo x en un entorno de a. Como f 00 (x) es la derivada primera de
f 0 (x), sigue que el análisis que se hizo para f y f 0 vale análogamente para f 0 y
f 00 . Ası́, si f 00 (a) > 0 entonces f 0 es estrictamente creciente en a y si f 00 (a) < 0
entonces f 0 es estrictamente decreciente en a. En particular, si f 0 (a) = 0 y
f 00 (a) > 0 entonces, al ser f 0 (x) estrictamente creciente en a, pasa de negativa
a positiva en a y por lo tanto a es un mı́nimo relativo de f . Análogamente, si
f 0 (a) = 0 y f 00 (a) < 0 entonces a es un máximo relativo de f .
Si f 00 (a) = 0 entonces f 0 no es estrictamente creciente ni estrictamente
decreciente en a. Quiere decir que si a es un extremo relativo de f 0 y existe
f 00 (a) entonces necesariamente debe ser f 00 (a) = 0.
Si f 00 (x) cambia de signo en un entorno de a entonces a es un extremo rela-

tivo de f 0 . Los extremos relativos de f 0 son los llamados puntos de inflexión
de f . En ellos se produce por lo tanto un cambio de concavidad de f . Ası́
como el cambio de signo de f 0 en a indica la presencia de un extremo relativo
de f , un cambio de signo de f 00 en a indica que a es punto de inflexión de f ,
aunque f 00 (a) no exista.
Ejemplo
f : [−1, 1] 7→ R, f (x) = x2 sig x.
Es
f 0 : [−1, 1] 7→ R, f 0 (x) = |2x|,
f 00 : [−1, 1] \ {0} 7→ R, f 00 (x) = 2 si x > 0, f 00 (x) = −2 si x < 0.
0 es punto de inflexión de f aunque f 00 no es derivable en 0. El origen es

mı́nimo relativo (y absoluto) de f 0 .
Cuando existen f 00 (a) y f 000 (a), y f 00 (a) = 0, f 00 (a) 6= 0, entonces a es un

punto de inflexión de f . Consideremos otra vez el siguiente
Ejemplo
f : R 7→ R, f (x) = 3x4 − 4x3 .
Tenemos que f 0 (x) = 12x2 (x − 1), f 00 (x) = 12x(3x − 2).
f 0 se anula sólamente en 0 y en 1. Luego éstos son los únicos puntos que pueden
ser extremos relativos de f . Vemos que en un entorno de 0, f 0 (x) ≤ 0 y luego, al
no cambiar de signo f 0 en el punto 0, el origen no es extremo relativo de f sino
que la función es allı́ estrictamente decreciente. En cambio, f 0 cambia de signo
en un entorno de 1, pasando de negativa a positiva. Por lo tanto 1 es mı́nimo
relativo (y también absoluto en este caso). f es estrictamente decreciente en
(−∞, 1) y estrictamente creciente en (1, ∞). f 00 se anula en 0 y 2/3, sólamente.
Vemos que f 00 (x) < 0 en (0,2/3) y f 00 (x) > 0 en (−∞, 0) ∪ (2/3, ∞). Luego
tiene concavidad negativa en el primer intervalo y concavidad positiva en los
dos últimos intervalos, siendo por lo tanto 0 y 2/3 puntos de inflexión de f .
5.2 Representación paramétrica

Sea f : [a, b] 7→ R. La gráfica de f puede representarse mediante una curva en
el plano. Esta curva también puede representarse a través de un “parámetro”
t, que toma valores en un intervalo [ta , tb ], de la forma siguiente
x = α(t)
y = β(t),
de manera que un punto cualquiera de la curva se corresponde con un único

valor de t en [ta , tb ]. El punto extremo (a, f (a)) se corresponde con ta , es decir
a = α(ta )
f (a) = β(ta )
y el otro punto extremo (b, f (b)) se corresponde con tb ,
b = α(tb )
f (b) = β(tb ).
De esta manera la función α : [ta , tb ] 7→ [a, b] tiene función inversa
α−1 : [a, b] 7→ [ta , tb ].

Dada una función en forma explı́cita existe una representación paramétrica

trivial, a saber la que resulta de considerar a la misma variable independiente
x como parámetro t:
x = x
y = f (x),
donde x ∈ [a, b].

Pero por supuesto existen otras representaciones paramétricas no triviales.
Ejemplo
x = sen t
y = cos t,
t ∈ [−π/2, π/2].
Como x2 + y 2 = 1, esta curva es una semicircunferencia superior de radio 1,
correspondiente a la gráfica de la función
√
f : [−1, 1] 7→ R, f (x) = + 1 − x2 .
Supongamos ahora que f es derivable. Encontraremos la expresión de f 0

en términos de las funciones x = α(t), y = β(t). Tenemos que y = f (x) =
f (α(t)) = β(t). Luego β 0 (t) = f 0 (α(t))α0 (t) = f 0 (x)α0 (t). Por lo tanto
β 0 (t)
f 0 (x) = ,
α0 (t)
donde x y t están relacionados mediante x = α(t). En el ejemplo anterior

−sen t
f 0 (x) = = − tan t,
cos t
donde x = sen t.
5.3 Teoremas del valor medio

Teorema de Rolle Sea f : [a, b] 7→ R, f continua en [a, b] y derivable en
(a, b), f (a) = f (b) = 0. Entonces existe un punto c ∈ (a, b) donde f 0 (c) = 0.
Demostración: Si f ≡ 0 entonces f 0 ≡ 0 en (a, b) y el teorema es trivial.
Por lo tanto supongamos que f no es idénticamente nula en [a, b]. Como f
es continua, por el Teorema de Bolzano Weierstrass existen un máximo y un

mı́nimo absolutos de f en [a, b]. Como los valores máximo y mı́nimo de f no
pueden ser simultáneamente nulos, sigue que f debe tener un extremo absoluto
c en (a, b) y por lo tanto c es también extremo relativo. Luego f 0 (c) = 0.
Teorema de Lagrange Sea f : [a, b] 7→ R continua en [a, b] y derivable en

(a, b). Entonces existe c ∈ (a, b) tal que
f (b) − f (a)
= f 0 (c).
b−a
Demostración. La recta que pasa por los puntos (a, f (a)) y (b, f (b)) tiene por
ecuación
f (b) − f (a)
y= (x − a) + f (a).
b−a
Consideremos la función g : [a, b] 7→ R,
f (b) − f (a)
g(x) = f (x) − (x − a) − f (a).
b−a
g es continua en [a, b] y derivable en [a, b]. Además g(a) = g(b) = 0. Luego
por el Teorema de Rolle existe c ∈ (a, b) tal que g 0 (c) = 0. Pero
f (b) − f (a)
g 0 (x) = f 0 (x) − .
b−a
De aquı́ la tesis del teorema sigue inmediatamente.
Interpretación geométrica del Teorema de Lagrange
Una importante consecuencia del teorema de Lagrange es la siguiente:
Si f : [a, b] 7→ R tiene derivada nula en todo c ∈ (a, b) entonces f

es necesariamente una función constante.
En efecto, si en algún x ∈ (a, b) fuera f (x) 6= f (a) entonces existirı́a c ∈ (a, x)

f (x)−f (a
donde f 0 (c) = x−a ) 6= 0.
Ahora veamos una generalización del teorema de Lagrange. Volviendo a

la representación paramétrica, puede decirse que ésta permite describir curvas
en el plano que no son necesariamente gráficas de una función. Por ejemplo,
la circunferencia completa se describe mediante
x = sen t
y = cos t,
t ∈ [−π/2, 3π/2].
En general, unas ecuaciones
x = α(t)
y = β(t),
t ∈ [ta , tb ] pueden describir, por ejemplo, una curva como ésta,
donde se indica el punto inicial, que también es el punto final y de paso inter-
medio, y donde las puntas de flecha indican el sentido de recorrido a medida
que aumentan los valores del parámetro t. En este caso, ni α(t) ni β(t) son
funciones biyectivas, aunque sı́ son continuas y más aún, derivables, si la curva
es “suave”, esto es, con recta tangente en todo punto interior de ella.
Si las derivadas α0 (t), β 0 (t) no se anulan ni se hacen infinito simultánea-

mente, entonces el teorema de Lagrange sigue valiendo en este caso. Se lo
conoce como Teorema de Cauchy. Si la curva se puede partir en una cantidad
finita de sectores, donde en cada sector sea la gráfica de una función uniforme,
entonces la pendiente de la recta tangente a la curva en un punto t ∈ (ta , tb )
viene dada por β 0 (t)/α0 (t). Por otra parte, los puntos extremos de la curva
son (α(ta ), β(ta )) y (α(tb ), β(tb )). Luego la pendiente de la cuerda que une esos
puntos es
β(tb ) − β(ta )
.
α(tb ) − α(ta )
Teorema de Cauchy Si α : [ta , tb ] 7→ R, β : [ta , tb ] 7→ R, son dos funciones
continuas, y derivables en (ta , tb ), tales que sus derivadas no se anulan ni se
hacen infinito simultáneamente, entonces existe t0 ∈ (ta , tb ) tal que
β(tb ) − β(ta ) β 0 (t0 )

= 0 .
α(tb ) − α(ta ) α (t0 )
5.4 Lı́mites indeterminados

Cuando calculamos el lı́mite de un cociente f (x)/g(x) para x → a puede
darse que limx→a f (x) = 0 y limx→a g(x) = 0, en cuyo caso el lı́mite queda
indeterminado. Si f y g son derivables en a entonces también son continuas
en a y por lo tanto
lim f (x) = f (a) = 0, lim g(x) = g(a) = 0

x→a x→a
y
f (x) − f (a) 0 g(x) − g(a)
f 0 (a) = lim , g (a) = lim .
x→a x−a x→a x−a
Si además g 0 (a) 6= 0 entonces
f 0 (a) limx→a f (x)−f

x−a
(a)
= .
g 0 (a) limx→a g(x)−g(a)
x−a
Por lo tanto el lı́mite ha quedado determinado.
Ejemplo
sen x
. lim
x→0 x
Ambas funciones son derivables en 0 y además g 0 (x) ≡ 1 6= 0. Luego ese lı́mite
cos 0
es 1
= 1.
f (x)
Si g 0 (a) = 0, esta regla no puede aplicarse. No obstante limx→a g(x)
puede
existir lo mismo. La siguiente regla es consecuencia del Teorema de Cauchy.
f 0 (x) f (x)
Si existe limx→a g 0 (x)
entonces este lı́mite es igual a limx→a g(x)
.
En efecto,
f (x)−f (a)
f (x) x−a f 0 (zx )
lim = lim g(x)−g(a)
= lim .
x→a g(x) x→a x→a g 0 (zx )
x−a
Esta última igualdad es válida por el Teorema de Cauchy, pues

f (x)−f (a)
f (x) − f (a) f 0 (zx )
lim x−a = lim = lim 0 ,
x→a g(x)−g(a) x→a g(x) − g(a) x→a g (zx )
x−a
donde zx es un punto intermedio entre a y x y por lo tanto zx → a cuando

f 0 (x)
x → a. Como estamos suponiendo que limx→a g 0 (x)
existe, sigue que
f 0 (zx ) f 0 (x)
lim = lim .
x→a g 0 (zx ) x→a g 0 (x)
Puede ocurrir que también este último lı́mite quede indeterminado. En este
f 00 (x)
caso la regla puede reiterarse, suponiendo que existe limx→a g 00 (x)
.
Ejemplo
x − sen x 1 − cos x sen x cos 0 1
lim 3
= lim 2
= lim = = .
x→0 x x→0 3x x→0 6x 6 6
La aplicación de la regla se justifica yendo “de atrás hacia adelante” . Como
la derivada de la función y = 6x es 6 6= 0, la primera de las reglas enunciadas
dice que
sen x 1
lim
= .
x→0 6x 6
La segunda de las reglas enunciadas permite decir ahora que: Como
sen x
lim
x→0 6x
existe, sigue que
1 − cos x sen x
lim 2
= lim .
x→0 3x x→0 6x
Como
1 − cos x
lim
x→0 3x2
existe, sigue que
1 − cos x x − sen x
lim 2
= lim .
x→0 3x x→0 x3
f (x) 0
Si limx→∞ g(x)
queda indeterminado en la forma 0
entonces, haciendo el
cambio de variables x = 1/u, se tiene
f (x) f (1/u)
lim = lim .
x→∞ g(x) u→0 g(1/u)
Si f˜(u) = f (1/u), g̃(u) = g(1/u), entonces
f˜0 (u) = f 0 (1/u)(−1/u2 ), g̃ 0 (u) = g 0 (u)(−1/u2 ),
donde f˜(u) → 0, g̃(u) → 0, cuando u → 0.

f˜0 (u) f˜(u)
Luego, si existe limu→0 g̃ 0 (u)
, entonces este lı́mite es igual a limu→0 g̃(u)
. Pero
f˜0 (u) f 0 (1/u)(−1/u2 ) f 0 (x)

lim = lim = lim .
u→0 g̃ 0 (u) u→0 g 0 (1/u)(−1/u2 ) x→∞ g 0 (x)
Por otra parte

f˜(u) f (x)
lim = lim .
u→0 g̃(u) x→∞ g(x)
f 0 (x)
En resumen, tenemos que si limx→∞ g 0 (x)
existe entonces el valor de este lı́mite
es limx→∞ fg(x)
(x)
, por lo que la regla de resolución de la indeterminación del lı́mite
puede aplicarse también en este caso.
f (x)
Consideremos ahora la situación en que limx→a g(x)
queda indeterminado
por ser limx→a f (x) = ∞, limx→a g(x) = ∞. En este caso puede hacerse lo
siguiente. Como
1 1
lim = 0, lim = 0,
x→a f (x) x→a g(x)
y
f (x) 1/g(x)
lim = lim ,
x→a g(x) x→a 1/f (x)
pasa que esta indeterminación es del tipo 00 , por lo que puede aplicarse la regla
anterior al cociente escrito de esta manera. No obstante, puede probarse que
0 (x)
también en este caso, si existe limx→a fg0 (x) , entonces el valor de este lı́mite es
f (x)
limx→a g(x)
.
Si limx→a f (x)g(x) es indeterminado (0 ∞), se escribe
f (x)
f (x)g(x) = ,
1/g(x)
o bien
g(x)
f (x)g(x) = ,
1/f (x)
0 ∞
para llevarlo al caso 0
o ∞
.
Si limx→a [f (x) − g(x)] queda indeterminado, se escribe
1/g(x) − 1/f (x)

f (x) − g(x) = ,
1/(f (x)g(x))
para llevarlo al caso 00 .

Por último, en la forma exponencial indeterminada se toma logaritmo nepe-
riano para llevarlo a una indeterminación del producto o del cociente.
Ejemplos
1)
lim xx .
x→0
Tomando logaritmo, queda
ln x 1/x
lim x ln x = lim = lim = lim (−x) = 0.
x→0 x→0 1/x x→0 −1/x2 x→0
Luego
lim xx = e0 = 1.
x→0
2)
lim (1 + x)1/x .
x→∞
Tenemos que
ln(1 + x) 1/(1 + x)
lim = lim = 0.
x→∞ x x→∞ 1
Luego
lim (1 + x)1/x = e0 = 1.
x→∞
5.5 Movimiento rectilı́neo

La derivada nos indica la rapidez de cambio de una variable que depende de
otra. El ejemplo fı́sico más tı́pico de esta situación (pero no el único, por cierto)
es la velocidad de un móvil que se desplaza sobre una lı́nea recta. Podemos
representar esta recta mediante un eje vertical. El móvil cambia su posición
s sobre esta recta en función del tiempo t. Para fijar su posición tomamos un
punto de referencia sobre el eje vertical, de modo que ella queda determinada
por su distancia (por ejemplo, en metros) a este punto de referencia. Por otro
lado, si estamos interesados en analizar gráficamente el desplazamiento del
móvil en función del tiempo, lo razonable es medir esta variable (por ejemplo,
en segundos) sobre un eje horizontal, señalando también un tiempo de referen-
cia. De esta manera el desplazamiento del móvil queda gráficamente descrito
por la representación cartesiana de la expresión s = s(t).
s(t)
El móvil se desplaza sobre el eje vertical
La velocidad promedio del móvil en un intervalo de tiempo [t1 , t2 ] es el

cociente incremental entre el espacio recorrido en ese tiempo y ∆t = t2 − t1 .
La velocidad instantánea en un determinado instante t1 , v(t1 ), es el lı́mite

para t → t1 de los cocientes incrementales (velocidades promedio)
s(t) − s(t1 )
,
t − t1
tal como sucede en la definición de derivada de una función. Por lo tanto
la velocidad instantánea es precisamente la derivada – si ésta existe – de la
expresión s(t) evaluada en t = t1 , s0 (t1 ). Si la expresión s(t) es derivable en
todo su intervalo de definición, entonces queda definida en ese mismo intervalo
la función velocidad instantánea, de expresión v(t).
La aceleración promedio del móvil en un intervalo de tiempo [t1 , t2 ] es el

cociente entre el incremento de velocidad instantánea v(t2 ) − v(t1 ) y ∆t =
t2 − t1 . Asimismo, la aceleración instantánea del móvil en un instante t1 , a(t1 ),
es la derivada segunda de s(t) – si ésta existe – evaluada en t = t1 , s00 (t1 ).
Ejercicio: Describir la función que fija la posición de un móvil en movimiento

rectilı́neo si
(a) la velocidad instantánea es constante,
(b) la aceleración instantánea es constante.

6 Integral de una función
La noción de integral definida de una función surge como necesidad de medir
áreas de figuras en el plano partiendo del área ya conocida de un rectángulo:
longitud de la base por longitud de la altura. La medida del área de una región
debe obedecer a ciertos principios intuitivos. Por ejemplo, la medida del área
de una figura como ésta,
a saber la unión de dos rectángulos no rampantes (con interiores disjuntos)

debe ser la suma de las áreas de ambos rectángulos. En general, el área de
una unión finita de rectángulos no rampantes debe ser la suma de las áreas
de esos rectángulos. De esta manera ya es posible medir áreas para figuras
de este tipo. Sólo hay que probar que distintas descomposiciones de la región
en unión de rectángulos conducen a la misma área. Empero, el poder medir
áreas de estas figuras elementales no permite por sı́ mismo medir áreas de
otras regiones intuitivamente “medibles” del plano. Un cı́rculo, por ejemplo.
En efecto, es visualmente evidente que un cı́rculo no es una unión finita de
rectángulos. De hecho, serı́a imposible medir exactamente el área de un cı́rculo
sin el conocimiento de lı́mite numérico: el área de un cı́rculo es el lı́mite de
una sucesión numérica de áreas de regiones elementales.
Nos centraremos en el cálculo del área de una región limitada por la gráfica
de una función
f : [a, b] 7→ [0, ∞).
Queremos calcular el área de la región encerrada por la gráfica de f , el intervalo

[a, b] y los segmentos de extremos (a, 0), (a, f (a)) y (b, 0), (b, f (b)).
Dado que hasta ahora sólo sabemos calcular áreas de figuras elementales (unión
finita de rectángulos no rampantes), construimos una tal figura contenida en
la región dada.
6 Integral de una función 62
1.5
0.5
0.5 1 1.5 2
Los rectángulos se corresponden con una partición del intervalo [a, b].
a = x0 < x1 < x2 < · · · < xn−1 < xn = b
La base de cada rectángulo es un intervalo [xi−1 , xi ]. La altura de cada

rectángulo es ci = inf f en [xi−1 , xi ]. De esta manera, el área de la región
P
elemental es s = ni=1 ci [xi − xi−1 ]. El número s se llama suma inferior cor-
respondiente a la partición dada. Si existe una medida del área de la región,
digamos A, será s ≤A, donde posiblemente valga la desigualdad estricta, a
menos que la región ya sea una figura elemental. Esto es porque la figura
elemental está contenida en la región.
Ahora construimos una figura elemental que contenga a la región. La par-

tición de [a, b] es la misma, y por lo tanto la base de los rectángulos es la misma
que antes, pero la altura es ahora Ci = sup f (x), x ∈ [xi−1 , xi ]. El área de esta
P
figura elemental es S = ni=1 Ci [xi − xi−1 ], y ahora A ≤ S. S se llama suma
superior correspondiente a la partición dada.
Es visualmente evidente que si la longitud de la base de cada rectángulo se

hace más pequeña, entonces tanto la figura elemental contenida en la región
como la que contiene a la región se aproximan a ésta. Para todas las corre-
spondientes sumas superiores e inferiores vale la relación
s ≤ A ≤ S,
suponiendo que existe el área de la región, A. Este hecho sugiere considerar

el supremo s0 de las sumas inferiores, ası́ como el ı́nfimo S0 de las sumas
superiores, donde tanto el ı́nfimo como el supremo se obtienen variando las
particiones del intervalo [a, b]. Si ocurre que s0 = S0 entonces este valor común
es por definición el área A de la región dada. Se escribe
Z b
A= f (x) dx,
a
que se lee “integral de f diferencial x” y se dice que la función es integrable

(Riemann). Puede ocurrir que para alguna función f sea s0 < S0 . En este
caso f no es integrable (R).
Si f : [a, b] 7→ R, donde f no es necesariamente no negativa, la misma

definición de integral es válida para este caso. Sólo debe tenerse en cuenta que
el área va acompañada del signo correspondiente.
Una condición necesaria y suficiente para que una función sea integrable (R)
es que dado ² > 0, arbitrario, exista una partición de [a, b] tal que S − s < ²,
donde S y s son las sumas superior e inferior correspondientes a esta par-
tición, respectivamente. Una función continua en [a, b] tiene esta condición.
En efecto, como f es uniformemente continua en [a, b], puede conseguirse una
partición x0 , x1 , · · · , xn de [a, b] tal que para todo i, [xi − xi−1 ] sea suficiente-
mente pequeño, de manera que valga Ci − ci < ²/(b − a) para todo i. Luego
n
X n
² X
S−s= [Ci − ci ][xi − xi−1 ] < [xi − xi−1 ] = ².
i=1
b − a i=1
Asimismo, una función acotada en [a, b], monótona creciente o monótona de-
creciente, es integrable (R). En este caso podemos conseguir una partición
tal que [xi − xi−1 ] < ²/(f (b) − f (a)) (o [xi − xi−1 ] < ²/(f (a) − f (b)) si f es
decreciente). Luego
n
X
S−s= [f (xi ) − f (xi−1 )][xi − xi−1 ] <
i=1
X n
² ²
[f (xi ) − f (xi−1 )] = [f (b) − f (a)] = ².
f (b) − f (a) i=1 f (b) − f (a)
En cualquiera de estos dos casos la integral definida de una función f puede
obtenerse partiendo el intervalo [a, b] en n subintervalos de igual longitud y
tomando lı́mite para n → ∞ en las sumas superiores e inferiores, indistinta-
mente.
Ejemplo
R1
Cálculo de 0
f (x) dx, donde
f : [0, 1] 7→ R, f (x) = x.
La partición del intervalo [0, 1] en n subintervalos de igual longitud 1/n da

los puntos 0, 1/n, 2/n, · · · , n−1
n
, 1. La suma superior para esta partición es
Pn
Sn = i=1 f (xi )[xi − xi−1 ], donde xi = i/n. Luego
n
X n
X
Sn = i/n 1/n = 1/n2 i=
i=1 i=1
n(n + 1) n+1
1/n2 [1 + 2 + · · · + n] = 1/n2 = ,
2 2n
y
n+1
lim Sn = lim = 1/2.
n→∞ n→∞ 2n
6.1 Propiedades de la integral definida

Rb
a) Si f (x) ≥ 0 para x ∈ [a, b] entonces a
f (x) dx ≥ 0.
b) Si c es una constante fija, entonces

Z b Z b
cf (x) dx = c f (x) dx.
a a
c)
Z b Z b Z b
[f (x) + g(x)] dx = f (x) dx + g(x) dx
a a a
La integral definida asigna un número real a cada función integrable sobre
un intervalo. Por las propiedades b) y c) se dice que esta asignación es lin-
eal. La propiedad c) se generaliza a una suma finita de funciones integrables.
Más precisamente, la integral definida de una combinación lineal de funciones
c1 f1 (x) + c2 f2 (x) + · · · + cm fm (x) es la combinación lineal de las integrales:
Z b "X n
#
Xn Z b
ci fi (x) = ci fi (x) dx.
a i=1 i=1 a
d) Si c es un punto en (a, b) entonces

Z b Z c Z b
f (x) dx = f (x) dx + f (x) dx.
a a c
e) Si f (x) ≤ g(x) para x ∈ [a, b] entonces

Z b Z b
f (x) dx ≤ g(x) dx.
a a
En particular, como |f (x)| es integrable si f (x) es integrable, y
−|f (x)| ≤ f (x) ≤ |f (x)|,

tenemos Z Z Z
b b b
− |f (x)| dx ≤ f (x) dx ≤ |f (x)| dx.
a a a
Es decir, ¯Z b ¯ Z b
¯ ¯
¯ f (x) dx ¯≤ |f (x)| dx.
¯ ¯
a a
Teorema del valor medio

Sea M = sup f (x), x ∈ [a, b], m = inf f (x), x ∈ [a, b]. Luego m ≤ f (x) ≤ M
para x ∈ [a, b] y por lo tanto
Z b Z b Z b
m(b − a) = m dx ≤ f (x) dx ≤ M dx = M (b − a).
a a a
Es decir, Rb
f (x) dx a
m≤
≤ M.
b−a
La integral definida de una función f partida por la longitud b − a del intervalo
de integración es un número µ comprendido entre el ı́nfimo y el supremo de
f en ese intervalo. Si f es continua en [a, b] entonces existe α ∈ [a, b] tal que
f (α) = µ. Luego en este caso
Z b
f (x) dx = f (α)(b − a),
a
donde α ∈ [a, b].
6.2 Función integral

Sea f una función integrable (R) en el intervalo [a, b]. Entonces también es
integrable sobre un intervalo [a, u] para todo u ∈ (a, b]. Para cada u ∈ [a, b]
Ru
tenemos un valor de la integral definida a f (x) dx. Queda ası́ definida una
función Z u
F (u) = f (x) dx,
a
que se llama función integral de f .
a u b
En el caso de la función del dibujo de arriba vemos que la función integral

es creciente porque a medida que u avanza de izquierda a derecha el área va
aumentando. En el siguiente caso F (u) crece desde a hasta u, luego decrece
desde u hasta v para posteriormente volver a crecer desde v hasta b.
a u v b a u v b
Gráfico de la función f Gráfico de la función integral de f
Si la función f está definida a la izquierda de a también se puede considerar

Ru
a
f (x) dx para u < a si además f es integrable en el intervalo [u, a]. Para
Ru Ra
estos casos, u < a, se conviene en definir a f (x) dx = − u f (x) dx.
Sea u ∈ (a, b). Para un pequeño incremento h, positivo o negativo, de

forma que u + h ∈ [a, b], tenemos que
Z u+h Z u Z u+h
F (u + h) − F (u) = f (x) dx − f (x) dx = f (x) dx.
a a u
R u+h
Por el Teorema del valor medio sigue que u
f (x) dx = µ h, donde µ es un
número intermedio entre el ı́nfimo y el supremo de f en el intervalo [u, u + h]
(o [u + h, u] si h es negativo). Luego [F (u + h) − F (u)] → 0 cuando h → 0, lo
cual indica que la función integral F (u) es continua en [a, b]. Si además f es
continua en u entonces el valor intermedio µ, que depende de u y h, tiende a
f (u) cuando h → 0. Luego
F (u + h) − F (u)
F 0 (u) = lim = lim µ(u, h) = f (u).
h→0 h h→0
Ası́ hemos probado que la derivada de la función integral en los puntos de

continuidad u del integrando f es el valor f (u). Significa que si f es continua
en [a, b] entonces F 0 (u) = f (u) para todo u ∈ [a, b], es decir que la función
integral de una función continua es algo ası́ como su “antiderivada”: una
función tal que su derivada es la función integrando.
Rb
Volviendo al cálculo de la integral definida a f (x) dx, supongamos que f
es continua en [a, b] y que además conocemos una función G tal que
G0 (u) = f (u) para todo u ∈ [a, b].
Como la función integral F (u) también satisface F 0 (u) = f (u) para todo u ∈
[a, b] tenemos que
[F (u) − G(u)]0 = F 0 (u) − G0 (u) = f (u) − f (u) = 0

para todo u ∈ [a, b]. Las únicas funciones con derivada nula en todo un
intervalo son las funciones constantes. Por lo tanto F (u) − G(u) = C, C
constante. En particular F (a) − G(a) = C, F (b) − G(b) = C. Como F (a) = 0,
sigue que C = −G(a) y por consiguiente
Z b
F (b) = f (x) dx = G(b) − G(a),
a
que es la llamada regla de Barrow, que por lo tanto permite calcular la integral
definida de una función continua si conocemos una función cuya derivada sea
el integrando. Esta regla también es válida si f es continua en [a, b] salvo en
una cantidad finita de puntos en [a, b].
Una función G tal que G0 = f en algún intervalo o dominio de números
reales se llama una primitiva de f . Se suele indicar ası́:
Z
G(x) = f (x) dx.
Ejemplos
R1
1) 0 x dx. Una primitiva de la función f (x) = x es G(x) = x2 /2. Luego
R1
0
x dx = x2 /2|10 = 1/2.
Rπ
2) 0 cos x dx = sen x|π0 = sen π − sen 0 = 0.
Integral definida sobre un intervalo no acotado

Si f es integrable en el intervalo [a, u] para todo u > a entonces se puede
definir Z ∞ Z u
f (x) dx = lim f (x) dx.
a u→∞ a
Cuando este lı́mite existe, f se dice integrable en [a, ∞). Análogamente para
Ra R∞ Rb
−∞
f (x) dx o −∞ f (x) dx = lima→−∞, b→∞ a f (x) dx.
Ejemplo
R∞
1
1/x2 dx. Una primitiva de 1/x2 es −1/x. Luego
Z u
1/x2 dx = −1/x|u1 = −1/u + 1
1
y
lim (1 − 1/u) = 1.
u→∞
Integrando no acotado
Si f es acotada en el intervalo [u, b] para todo u > a pero |f (u)| → ∞ cuando
u → a+ entonces, si existe
Z b
lim f (x) dx,
u→a+ u
Rb
se define a
f (x) dx como el valor de ese lı́mite.
Ejemplo
La función
√
f : (0, 1) 7→ R, f (x) = 1/ x,
es acotada en todo intervalo [u, 1] para u > 0 y
Z 1
√ √ √
1/ x dx = 2 x|1u = 2 − 2 u.
u
√ R1 √
Como limu→0+ (2 − 2 u) = 2, se tiene por definición 0 1/ x dx = 2.
6.3 Cálculo de primitivas

Por lo que hemos visto, el cálculo de una integral definida, que no sea por la
misma definición, requiere conocer una primitiva continua de la función inte-
grando. Si ocurre que la función integrando es una derivada de una función
conocida entonces el cálculo de la integral definida será inmediato. Por ejem-
R2
plo, 1 1/x dx = ln x|21 = ln 2. Otras veces el integrando es suma de funciones
que son derivadas de funciones conocidas. Dado que la integral es lineal, este
caso se resuelve también rápidamente.
Ejemplos
1)
Z √
x2 − 2 x + 3
dx =
x
Z Z Z
√
= x dx − 2 1/ x dx + 3 1/x dx =
√
= x2 /2 − 4 x + 3 ln x + C.
2)
Z
tan2 x dx =
Z Z
sen 2 x 1 − cos2 x
= dx = dx =
cos2 x cos2 x
Z Z
1
= dx − dx = tan x − x + C.
cos2 x
Integración por sustitución

Este método se basa en efectuar un cambio de variable, x = α(t), t = α−1 (x).
R R
Tenemos f (x) dx = f (α(t)) dx.
Pero ahora no sirve encontrar una primitiva de f (α(t)) sino que se debe calcular
R
una primitiva de f (α(t))α0 (t). Esto es f (α(t))α0 (t) dt. Por lo tanto debe
reemplazarse dx por α0 (t) dt. En efecto, sea G tal que G0 (t) = f (α(t))α0 (t).
Luego G0 (t)/α0 (t) = f (α(t)). Pero por la expresión de la derivada de función
de función y de la función inversa, es
G0 (t)/α0 (t) = [G(α−1 (x))]0 .
Por lo tanto queda

[G(α−1 (x))]0 = f (x)
y ası́ se ha encontrado una primitiva de f (x).
Ejemplo
R
ln x/x dx. Se efectúa la sustitución x = et , o bien t = ln x. Como
(et )0 = et , ahora se debe calcular
Z Z
t t
e dt = t dt = t2 /2 + C.
et
Finalmente se reemplaza t por ln x : (ln x)2 /2 + C.
Si para una función derivable g(x) se define d(g(x)) = g 0 (x) dx (donde

d(g(x)) se lee diferencial de g(x)), entonces en algunas integrales es fácil
darse cuenta de la sustitución que se debe hacer. Por ejemplo, en la inte-
R
gral cos(3x) dx hacemos
Z
cos(3x) dx =
Z Z
1 1
= cos(3x) d(3x) = cos t dt =
3 3
1 1
= sen t + C = sen (3x) + C.
3 3
R
En la integral ex sen ex dx, teniendo en cuenta que d(ex ) = ex dx, hacemos
Z
ex sen ex dx =
Z Z
= sen e d(e ) = sen t dt = − cos t + C = − cos ex + C.
x x
En el siguiente ejemplo, como d(1 − x2 ) = −2x dx, tenemos que

Z
x
dx =
1 − x2
Z Z
d(1 − x2 ) dt
= −1/2 2
= −1/2 =
1−x t
= −1/2 ln t + C = −1/2 ln(1 − x2 ) + C.
En la integral Z
x
√ dx,
1+x
√ 1
teniendo en cuenta que d( 1 + x) = 2√1+x dx, ponemos esa integral ası́:
R √ √ 2
2 x d( 1 + x), y poniendo x = ( 1 + x) − 1, queda
Z
√ √
2 [( 1 + x)2 − 1]d( 1 + x) =
Z
= 2 (t2 − 1) dt = 2/3 t3 − 2t + C =
= 2/3 (1 + x)3/2 − 2(1 + x)1/2 + C.
Integración por partes

La regla de derivación de un producto de funciones da
(f (x)g(x))0 = f 0 (x)g(x) + f (x)g 0 (x).
Luego Z Z Z
0 0
(f (x)g(x)) dx = f (x)g(x) dx + f (x)g 0 (x) dx.
Como
Z
(f (x)g(x))0 dx = f (x)g(x),
g 0 (x) dx = d(g(x)),
f 0 (x) dx = d(f (x)),
la igualdad anterior se escribe

Z Z
f (x) dg = f (x)g(x) − g(x) d f.
En particular, si g(x) ≡ x, queda

Z Z
f (x) dx = xf (x) − xf 0 (x) dx.
Ejemplos
1)
Z
ln x dx =
Z
= x ln x − dx = x ln x − x + C.
2)
Z
arctan x dx =
Z
x
= x arctan x − dx =
1 + x2
Z
d(1 + x2 )
= x arctan x − 1/2 =
1 + x2
= x arctan x − 1/2 ln(1 + x2 ) + C.
3)
Z
x3 ln x dx =
Z Z
4 4
= ln x d(x /4) = (x /4) ln x − x3 /4 dx =
= (x4 /4) ln x − x4 /16 + C.
Integración por expresiones racionales

En la integral Z
3x3 − 3x + 1
dx
x2 + x − 2
efectuamos primero la división del cociente, de modo que quede como suma
de un polinomio más otra expresión racional, donde ahora el numerador tiene
grado menor que el denominador. Como
3x3 − 3x + 1 = (x2 + x − 2)(3x − 3) + 6x − 5,

sigue que
Z
3x3 − 3x + 1
dx =
x2 + x − 2
Z Z
6x − 5
= (3x − 3) dx + dx =
x2+x−2
Z
2 6x − 5
= 3/2 x − 3x + 2
dx.
x +x−2
Ahora se trata de escribir este último integrando como suma de fracciones
simples. Como x2 + x − 2 = (x − 1)(x + 2), se pone
6x − 5
=
(x − 1)(x + 2)
A B
= + =
x−1 x+2
A(x + 2) + B(x − 1)
= .
(x − 1)(x + 2)
Luego 6x − 5 = A(x + 2) + B(x − 1). Como esta igualdad debe ser válida para
todo x ∈ R, en particular lo es para x = 1. Luego
6(−2) − 5 = −17 = −3B,
6(1) − 5 = 1 = 3A,
y por lo tanto B = 17/3, A = 1/3. Luego
Z
6x − 5
dx =
(x − 1)(x + 2)
Z Z
dx dx
= 1/3 + 17/3 =
x−1 x+2
= 1/3 ln |x − 1| + 17/3 ln |x + 2| + C.
Finalmente queda
Z
3x3 − 3x + 1
dx =
(x − 1)(x + 2)
= 3/2 x2 − 3x + 1/3 ln |x − 1| + 17/3 ln |x + 2| + C.
Si en la expresión del denominador hay ceros simples imaginarios, por ejemplo

1
x(x2 +1)
, la descomposición se efectúa de la siguiente forma.
1 A Bx + C
= + 2
x(x2 + 1) x x +1
A(x + 1) + Bx2 + Cx
2
= .
x(x2 + 1)
Luego 1 = A(x2 + 1) + Bx2 + Cx. Poniendo x = 0 queda A = 1. Por lo tanto
1 = (B + 1)x2 + Cx + 1.
Luego B = −1, C = 0. Ası́

Z
dx
=
x(x2 + 1)
Z Z
dx x
= − 2
dx =
x x +1
= ln |x| − 1/2 ln(x2 + 1) + C.
El caso en que hay ceros múltiples se considera de la siguiente manera. Se

escribe
P (x)
=
(x − a)h q(x)
A0 A1 Ah−1 p(x)
= h
+ h−1
+ ··· + + ,
(x − a) (x − a) x − a q(x)
K (i) (a)
donde los coeficientes Ai están determinados por la fórmula Ai = i!
, siendo
x2
K(x) = Pq(x)
(x)
(K (0) (x) = K(x)). Por ejemplo, en la expresión (x−1)3
tenemos
P (x) = x2 , q(x) = 1, K(x) = x2 , K(1) = 1, K 0 (1) = 2, K 00 (1)/2 = 1. Luego
x2 1 2 1
3
= 3
+ 2
+ ,
(x − 1) (x − 1) (x − 1) x−1
y por consiguiente
Z
x2
dx =
(x − 1)3
= −1/2 (x − 1)−2 − 2(x − 1)−1 + ln |x − 1| + C.
q
En las expresiones racionales en x y n ax+b
cx+d
se hace la sustitución que consiste
en tomar dicha raı́z como nueva variable.
Ejemplos
1) En Z
dx
√
x−3 x−2
√
ponemos x − 2 = t, por lo que x = t2 +2, dx = 2t dt, y la integral se convierte
en
Z
2t dt
=
t2 − 3t + 2
Z Z
dt dt
= −2 +4 =
t−1 t−2
= −2 ln |t − 1| + 4 ln |t − 2| + C =
µ ¶
(t − 2)4
= ln +C =
(t − 1)2
µ √ ¶
( x − 2 − 2)4
= ln √ + C.
( x − 2 − 1)2
2) En la integral
Z µ ¶2/3
x+1
dx
x
ponemos
µ ¶1/3
x+1 x+1
= t, = t3 , x + 1 = xt3 ,
x x
1 −3t2 dt
xt3 − x = x(t3 − 1) = 1, x = , dx = .
t3 − 1 (t3 − 1)2
Luego la integral queda Z
t2
−3 dt,
(t3 − 1)2
que es una integral de función racional.
Si el integrando es función racional de x y de varias raı́ces de la forma

r r r
p ax + b q ax + b r ax + b
, , ,···,
cx + d cx + d cx + d
q
entonces se hace la sustitución l ax+b
cx+d
= t, donde l =m.c.m. (p, q, r, · · ·).
Ejemplo
En Z √
x 6
√ √ dx
3
x+ x
√
ponemos 6 x = t, x = t6 , dx = 6t5 dt, y la integral queda
Z
t6
6 dt =
t2 + t3
Z · ¸
3 2 1
= 6 t −t +t−1+ dt =
1+t
= t4 /4 − t3 /3 + t2 /2 − t + ln |1 + t| + C =
= x2/3 /4 − x1/2 /3 + x1/3 /2 − x1/6 + ln |1 + x1/6 | + C.
En Z p
x2 + px + q dx
se hace la sustitución
p
x2 + px + q = x + t, x2 + px + q = x2 + 2tx + t2 ,
de donde se puede despejar x como función racional de t, por lo que el inte-

grando se convierte en expresión racional de t.
Ejemplo
R√
En x2 + 4 dx se pone
√
x2 + 4 = x + t, x2 + 4 = x2 + 2tx + t2 ,
4 − t2 2 t 4 + t2
x= , x= − , dx = − dt.
2t t 2 2t2
Luego la integral queda
Z µ ¶µ ¶
4 − t2 4 + t2
+t − dt =
2t 2t2
Z
16 + 8t2 + t4
= − dt =
4t3
Z µ ¶
4 2 t
= − + + dt =
t3 t 4
2 t2
= 2 − 2 ln |t| − + C =
t 8
√
2 √ ( x2 + 4 − x)2
√ − 2 ln | x2 + 4 − x| − + C.
( x2 + 4 − x)2 8
Más conveniente que la anterior puede resultar la sustitución
x = 2sh t, dx = 2ch t dt.
De esta manera,
Z √
x2 + 4 dx =
Z p
= 2 4ch 2 t + 4 ch t dt =
Z
= 4 ch 2 t dt =
Z
= (e2t + e−2t + 2) dt =
= e2t /2 − e−2t /2 + 2t + C.
p
Para pasar a la variable x se usa que et = ch t + sh t y ch t = + sh 2 t + 1.
Luego queda
p p
et = + sh 2 t + 1 + sh t = x2 /4 + 1 + x/2,
³p ´
t = ln x2 /4 + 1 + x/2 .
Luego la integral resuelta queda
³p ´2
x2 /4 + 1 + x/2 1 ³p ´
− ³p 2
´2 + 2 ln x /4 + 1 + x/2 + C.
2
2 x2 /4 + 1 + x/2
En la integral Z √
x2 − a2 dx
se hace la sustitución x = ach t, procediendo como en el caso anterior.
Si la integral es de la forma
Z √
a2 − x2 dx,
R
se pone x = asen t, dx = a cos t dt, y la integral queda a2 cos2 t dt.
p p
Si el integrando es de la forma x2 + px + q o −x2 + px + q entonces se
completa cuadrados en el trinomio, llevándolo a alguno de los casos anteriores.
Ejemplo Z √ Z p
−x2 + 2x + 3 dx = 4 − (x − 1)2 dx.
Se hace la sustitución
x − 1 = 2sen t, dx = 2 cos t dt.
La integral se convierte en
Z
4 cos2 t dt =
Z
= 2 (1 + cos(2t)) dt = 2t + sen (2t) + C =
µ ¶ µ µ ¶¶
x−1 x−1
2arcsen + sen 2arcsen + C.
2 2
Teniendo en cuenta que
√
sen (2α) = 2sen α cos α = 2sen α 1 − sen 2 α,
la integral resuelta queda
µ ¶ µ ¶s µ ¶2
x−1 x−1 x−1
2arcsen +2 1− + C.
2 2 2
Integrandos racionales de funciones circulares

R dx
Una integral del tipo sen x se resuelve con la sustitución
2
t = tan(x/2), x = 2 arctan t, dx = dt.
1 + t2
Tenemos que
sen x =
2sen (x/2) cos(x/2) 2t
= 2sen (x/2) cos(x/2) = 2 2
=
cos (x/2) + sen (x/2) 1 + t2
Por otra parte
cos2 (x/2) − sen 2 (x/2) 1 − t2

cos x = = .
cos2 (x/2) + sen 2 (x/2) 1 + t2
Por lo tanto una integral de este tipo se transforma en una integral con inte-
grando racional en t.
Es
Z
dx
=
sen x
Z 2
1+t2
= 2t dt =
1+t2
Z
dt
= = ln |t| + C =
t
ln | tan(x/2)| + C.
Por otro lado,

Z
dx
=
1 + cos x
Z 2 Z
1+t2
= 2 dt = dt = t + C =
1 + 1−t
1+t2
tan(x/2) + C.
6.4 Polinomio de Taylor. Series de potencias

La función
2
f : R 7→ R, f (x) = e−x ,
es muy usada en teorı́a de probabilidades y en estadı́stica. Es una función

continua en todo R y más aún, existen todas sus derivadas sucesivas. También
R∞ 2 √
es una función integrable (R) en R. Puede probarse que −∞ e−x dx = 2π.
Empero, esta función no tiene primitiva expresable en términos de las funciones
2
trascendentes estudiadas. Por lo tanto una integral definida de e−x sobre
cualquier intervalo no tiene un cálculo inmediato. Una manera de remediar esta
situación es aproximar a la función por otras funciones que sı́ tengan integrales
de cálculo inmediato. Por ejemplo, polinomios. Cuando la función a aproximar
tiene derivadas hasta un cierto orden, un polinomio aproximante muy útil es el
llamado polinomio de Taylor. Es un polinomio que en un determinado punto
del dominio de la función coincide con los valores de la función y sus derivadas
hasta un cierto orden.
Escribamos un polinomio P (x) de grado n de la siguiente forma:
P (x) = a0 + a1 (x − c) + a2 (x − c)2 + · · · + an (x − c)n .
Vemos que P (c) = a0 . Si derivamos P (x) queda
P 0 (x) = a1 + 2a2 (x − c) + 3a3 (x − c)2 + · · · + nan (x − c)n−1 .
Luego P 0 (c) = a1 . Volviendo a derivar
P 00 (x) = 2a2 + 6a3 (x − c) + 12a4 (x − c)2 + · · · + n(n − 1)(x − c)n−2 .
Sigue que P 00 (c) = 2a2 . Derivando sucesivamente P (x) puede probarse la

fórmula
P (i) (c) = i!ai ,
donde P (i) (c) es la derivada de orden i de P evaluada en c, y P (0) (c) = P (c).

Ahora bien, si una función f tiene derivadas hasta el orden n en c, entonces
f 00 (c) f (n) (c)

P (x) = f (c) + f 0 (c)(x − c) + (x − c)2 + · · · + (x − c)n
2! n!
es un polinomio que satisface
(i) f (i) (c)

P (c) = i! = f (i) (c), 0 ≤ i ≤ n.
i!
P (x) es el polinomio de Taylor de grado n de f desarrollado en c. Es de esperar
que esta coincidencia de los valores de P y f en c produzca una aproximación
de P a f , al menos en las cercanı́as del punto c. Efectivamente ası́ ocurre, y
tanto mayor es la aproximación de P a f cuanto más alto es el grado de P .

Consideremos, por ejemplo, la función
f : R 7→ R, f (x) = sen x.
Para esta función, tenemos f (0) = 0, f 0 (0) = cos 0 = 1, f 00 (0) = −sen 0 =

0, f 000 (0) = − cos 0 = −1, f (4) (0) = sen 0 =, f (5) (0) = cos 0 = 1. Luego su
polinomio de Taylor de grado 5, desarrollado en cero, es
P (x) = x − x3 /3! + x5 /5!.
Como las derivadas sucesivas de la función
f : R 7→ R, f (x) = ex
son la misma función, tenemos que en este caso

x2 x3 xn
P (x) = 1 + x + + + ··· + .
2! 3! n!
x
Tanto las funciones sen x como e tiene derivadas sucesivas de todos los órdenes.
Cabe preguntarse entonces:
Si en lugar de considerar el polinomio de Taylor de grado n consid-

eramos la suma infinita, o sea una serie, coincidirá esta serie con
la función en todo punto?
Por ejemplo, será

x2 x3 xn
ex = 1 + x ++ + ··· + + · · ·?
2! 3! n!
Sumar series ya sabemos. Hay que calcular las sumas parciales de orden n y
luego tender n → ∞. Ası́,
µ ¶
x2 x3 xn x2 xn
1+x+ + + ··· + + · · · = lim 1 + x + + ··· + .
2! 3! n! 2! n!
La respuesta a esta pregunta es afirmativa en muchos casos, en particular para
estas dos funciones aquı́ consideradas.
Esta serie se llama serie de Taylor de la función dada, desarrollada en el

punto c. La función que se desarrolla debe tener necesariamente derivadas
sucesivas de todos los órdenes, pero esta condición no es suficiente para que f
sea desarrollable en serie de Taylor. En general,
f 00 (c) f (n) (c)
T (x) = f (c) + f 0 (c)(x − c) + (x − c)2 + · · · + (x − c)n + · · · .
2! n!
Las funciones que admiten un desarrollo en serie de Taylor en todo

R se llaman analı́ticas.
Obviamente los polinomios son funciones analı́ticas. También lo son
ex , sen x, cos x, sh x, ch x,
y muchas otras funciones obtenidas de éstas. En efecto, es
x x2 x3 xn
e =1+x+ + + ··· + + ···
2! 3! n!
para todo x ∈ R. Ası́, por ejemplo,
e = 1 + 1 + 1/2 + 1/6 + · · · + 1/n! + · · · ,

e2 = 1 + 2 + 4/2! + 8/3! + · · · + 2n /n! + · · · ,
e−1 = 1 − 1 + 1/2 − 1/3! + · · · + (−1)n /n! + · · · .
En general, una serie de la forma

∞
X
ai xi = a0 + a1 x + a2 x2 + · · ·
i=0
se llama serie de potencias.
Las series de Taylor con desarrollo en cero son casos particulares de series de
potencias.
Aplicando el criterio de Cauchy para sumación de series numéricas de

términos positivos se prueba que una serie de potencias es absolutamente con-
vergente para x en un intervalo (−R, R), donde
p
R = 1/ lim sup n |an |.
Puede ocurrir que R = 0, en cuyo caso la serie converge sólo cuando x = 0.

En el mejor de los casos R = ∞, es decir la serie converge para todo x ∈ R.
R se llama radio de convergencia de la serie. Para las series de Taylor de
funciones analı́ticas vale R = ∞. En cambio, para funciones no analı́ticas pero
con derivadas de todos los órdenes vale 0 ≤ R < ∞.
Ejemplo
La serie de potencias
1 + x + x2 + · · · + xn + · · ·
tiene radio de convergencia R = 1. Luego es absolutamente convergente para

|x| < 1. Para estos x, y sólo para estos x, es
1 + x + x2 + · · · + xn + · · · = 1/(1 − x).
Para x = 1 la serie diverge a ∞. Para x = −1 la serie oscila. Para |x| > 1 es

también divergente u oscilante, y absolutamente divergente.
Una propiedad interesante de las series de potencias es que su con-

vergencia es uniforme en todo x perteneciente a un intervalo [−a, a]
contenido en (−R, R).
Significa que dado ² > 0, arbitrario, existe n0 ∈ N, n0 = n0 (², a) tal que

P
| ∞ i
i=n ai x | < ² para todo n ≥ n0 .
Volviendo al punto inicial, vemos que la función

2
f : R 7→ [0, ∞), f (x) = e−x
es analı́tica, puesto que ex lo es. Más aún, para obtener su serie de Taylor
podemos reemplazar x por −x2 en la serie de ex , quedando
2
e−x = 1 − x2 + x4 /2 − x6 /3! + x8 /4! − · · · + (−1)n x2n /n! + · · · .
Supongamos ahora que queremos calcular

Z u
2
e−x dx
0
2
para algún u > 0. En el intervalo [0, u] los polinomios de Taylor de e−x , es
decir las sumas parciales de los primeros n términos de su serie de Taylor, se
2
aproximan uniformemente a e−x y por lo tanto las integrales definidas de esos
Ru 2
polinomios también se aproximan a 0 e−x dx. Ası́,
Z u
2
e−x dx ≈
0
Z u
≈ (1 − x2 + x4 /2 − x6 /3! + · · · + (−1)n x2n /n!)dx
µ0 ¶¯u
x3 x5 x7 x2n+1 ¯
= x− + − + · · · + (−1) n ¯
3 2!5 3!7 n!(2n + 1) ¯0
u3 u5 u7 u2n+1
= u− + − + · · · + (−1)n .
3 10 42 n!(2n + 1)
Ası́ como en este ejemplo, se pueden calcular integrales definidas, aproxi-

madamente, de integrandos que carecen de primitivas expresables como fun-
ciones algebraicas–trascendentes. Aun si la serie resultante no es una serie de
potencias. Por ejemplo, la función de Cauchy,
2
f (x) = e−1/x si x 6= 0, f (0) = 0,
tiene derivadas sucesivas de todos los órdenes, con valor nulo en el origen.
Luego no es desarrollable en serie de Taylor, y por ende no analı́tica. Sin
embargo, podemos obtener una expresión en serie – no de potencias – de esta
función reemplazando x por −1/x2 en la serie de ex . Sigue que
2 1 1 1 (−1)n
e−1/x = 1 − + − + · · · + + ···
x2 2x4 3!x6 n!x2n
para todo x 6= 0. La convergencia de esta serie será uniforme en todo intervalo
cerrado que no contenga al cero. Ası́, por ejemplo, si queremos hallar
Z 2
2
e−1/x dx,
1
calculamos su valor aproximado mediante

Z 2µ ¶
1 1 1 (−1)n
1− 2 + 4 − + ··· + dx =
1 x 2x 3!x6 n!x2n
µ ¶¯2
1 1 1 (−1)n ¯
x+ − 3 + + · · · + ¯ .
x 6x 3!5x5 n!(2n − 1)x2n−1 ¯1
7 Aplicaciones de la integral
7.1 Areas
Por su propia definición, una integral definida permite obtener el área de una
región expresable en términos de funciones. Debe tenerse en cuenta que la
integral definida considera como negativa el área de aquellas regiones que se
Rπ
encuentran por debajo del eje de abscisas. Ası́, por ejemplo, 0 cos x dx = 0.
Si se desea calcular el área total de la región de la figura, independiente-

mente de si parte de la región queda por debajo del eje de abscisas, se debe
hacer Z Z
π/2 π
cos x dx + (− cos x) dx = 1 + 1 = 2.
0 π/2
Como regla general, el área de una región encerrada entre curvas, gráficas de
funciones, se calcula como
Z b
[f1 (x) − f2 (x)] dx,
a
donde f1 (x) y f2 (x) son las funciones cuyas gráficas limitan a la región por
arriba y por debajo, respectivamente.
7 Aplicaciones de la integral 85
0.5 1 1.5 2
√
Ejemplo Area encerrada por y = x2 , y = + x, entre 0 y 2. Es
½ √
+ x para 0 ≤ x ≤ 1
f1 (x) =
x2 para 1 ≤ x ≤ 2,
½ 2
x√ para 0 ≤ x ≤ 1
f2 (x) =
+ x para 1 ≤ x ≤ 2.
Luego
Z 1 2Z
√ 2
√
A= [+ x − x ] dx + [x2 − x] dx =
0 1
µ ¶¯1 µ 3 ¶¯2
2 3/2 x3 ¯¯ x 2 3/2 ¯¯
x − + − x ¯ =
3 3 ¯0 3 3 1
Ã √ ! √
1 8 2 8 1 2 10 − 2 8
+ − − + = .
3 3 3 3 3 3
7.2 Volumen y superficie de un sólido de rev-

olución
Sea f una función positiva sobre un intervalo [a, b]. Imaginemos que cada
punto sobre la curva, gráfica de la función, gira rı́gidamente alrededor del
eje de abscisas, es decir manteniendo su distancia a dicho eje. Se forma ası́
un sólido de revolución, si pensamos en el cuerpo lleno, o una superficie de
revolución, si se considera sólo su envoltura. Para calcular el volumen de
este cuerpo partimos el intervalo [a, b] en n subintervalos iguales de longitud
(b − a)/n.
y
2
1.5
1
0.5
1 2 3 4 x
0 12
-1
-2 2
0 y
-1
-2
1 2 3 4
0
x
Superficie de revolución engendrada por la curva de la anterior figura
El volumen aproximado de cada sector pequeño de revolución es el producto

del área del cı́rculo base por la altura del sector, (b − a)/n. El área del cı́rculo
base es πf 2 (xi ), donde xi es un punto del subintervalo considerado. El volumen
aproximado de todo el cuerpo es la suma de los volúmenes de estos pequeños
P
sectores, o sea i πf 2 (xi )(b − a)/n. El volumen exacto del cuerpo es
X Z b
2
lim πf (xi )(b − a)/n = π f 2 (x) dx.
n→∞ a
i
Para calcular el área de la superficie de revolución se procede análogamente.

En este caso se aproxima la curva gráfica de la función por una poligonal
obtenida a través de la partición del intervalo [a, b].
1.5
0.5
0.5 1 1.5 2
El área aproximada de la superficie de revolución de cada pequeño sector es

p
2πf (xi ) ∆x2 + ∆y 2 .
p q
2 2 ∆y 2
Escribimos ∆x + ∆y = 1 + ( ∆x ) ∆x.
Si suponemos que f es derivable en [a, b] sigue por el Teorema del valor medio
que
∆y/∆x = f 0 (xi ),
donde xi es un punto interior al intervalo que se está considerando. El punto

xi que apareció antes puede considerarse como este mismo punto. Luego el
área aproximada de la superficie total es
n
X p
2πf (xi ) 1 + (f 0 (xi ))2 ∆xi .
i=1
El área exacta es el lı́mite de esta expresión para n → ∞, lo que equivale a

∆xi → 0 para todo i. Pero este lı́mite es por definición
Z b p
2π f (x) 1 + (f 0 (x))2 dx.
a
Ejemplo
Volumen y área de una esfera de radio r. La esfera está engendrada como

sólido de revolución por la semicircunferencia
√
y = + r 2 − x2 .
Luego su volumen es
Z µ ¶¯r
r
2 22 x3 ¯¯
V = π (r − x ) dx = π r x −
−r 3 ¯−r
µ ¶ µ ¶
3 r3 3 r3 4
= π r − − π −r + = πr3 .
3 3 3
Para calcular el área de su superficie derivamos la expresión de arriba,

√
y 0 = −x/ r2 − x2 = −x/y.
Luego
Z r p r p Z
A = 2π 1 + (y 0 )2 dx = 2π
y y 1 + x2 /y 2 dx
−r −r
Z rp Z r Z r
= 2π y 2 + x2 dx = 2π r dx = 2πr dx = 4πr2 .
−r −r −r
7.3 Longitud de curvas

Si una función f tiene derivada continua, salvo a lo más en una
cantidad finita de puntos, entonces la curva dada por su gráfica es
“rectificable”, es decir se puede medir su longitud.
Para calcularla se aproxima la curva por una poligonal obtenida a través de una
partición del intervalo [a, b] en pequeños subintervalos, tal como se procedió
para obtener la superficie de un sólido de revolución. La longitud de cada
segmento es
p p
∆x2 + ∆y 2 = 1 + (∆y/∆x)2 ∆x,
donde, por el Teorema del valor medio, ∆y/∆x = f 0 (xi ), siendo xi un punto
interior al subintervalo de la partición correspondiente. En este caso sigue que
la longitud exacta de la curva es
n
X p Z bp
L = lim 1 + (f 0 (xi ))2 ∆xi = 1 + (f 0 (x))2 dx.
n→∞ a
i=1
Ejemplo
Longitud de la curva catenaria y = ch x, entre 0 y a.

Es Z a q Z a
2
L= 1 + sh (x) dx = ch x dx = sh x|a0 = sh a.
0 0
Si la curva está expresada en coordenadas paramétricas

½
x = α(t)
(1)
y = β(t),
para t ∈ [ta , tb ], entonces la fórmula para la longitud de la curva es
Z tb p
L= (α0 (t))2 + (β 0 (t))2 dt. (2)
ta
7.4 Movimiento en dos dimensiones

Estamos ya en condiciones de hacer un viaje en dos dimensiones. La posición
de un móvil en su recorrido a través de una curva en el plano queda descrita
precisamente por (1), donde el parámetro t representa al tiempo. La velocidad
promedio del móvil en un intervalo de tiempo [t1 , t] es el cociente entre la
longitud del camino recorrido en ese tiempo y t − t1 . Teniendo en cuenta la
fórmula (2), esto es
Rt p
t1
(α0 (t))2 + (β 0 (t))2 dt
vp (t, t1 ) = .
t − t1
La velocidad instantánea en t1 es
vi (t1 ) = lim vp (t, t1 ).

t→t1
Si suponemos que las funciones derivadas α0 y β 0 son ambas continuas entonces,

por el teorema del valor medio del cálculo integral, sigue que
p
vi (t1 ) = (α0 (t1 ))2 + (β 0 (t1 ))2 .
Podemos decir que ésta es una velocidad instantánea escalar que

ignora la dirección y sentido que lleva el
móvil en el instante t1 .
Por razones fı́sicas (todos hemos experimentado la fuerza o empujón que recibi-
mos cuando vamos dentro de un coche que toma una curva) es importante con-
siderar una velocidad instantánea dirigida que sı́ tenga en cuenta los cambios
de dirección o sentido del móvil.
Esto se consigue mediante la definición del vector velocidad. Este

vector, llamémoslo V , tiene una dirección con un sentido, y una
magnitud, que resultará precisamente ser igual a la velocidad in-
stantánea escalar.
Aquı́ tenemos una representación gráfica:

1.5 V
0.5
0.5 1 1.5 2 2.5 3

x
Un vector en R2 tiene dos componentes. La definición del vector V re-

sponde al hecho de que el movimiento sobre una curva del plano equivale a un
desplazamiento sobre el eje x y otro sobre el eje y en el plano cartesiano xy.
Como ambos desplazamientos son rectilı́neos, sus razones de cambio vienen
dadas por las derivadas α0 y β 0 , respectivamente. De esta manera, el vector
velocidad en un instante t es
V (t) = (α0 (t), β 0 (t)).
Si se considera en R2 el producto escalar usual, que lo convierte en el espa-

cio euclı́deo E 2 , entonces el módulo de V (su magnitud) es precisamente la
velocidad instantánea escalar vi .
La aceleración tangencial escalar, a1 , es la razón de cambio de la velocidad

instantánea escalar. Luego
α0 (t)α00 (t) + β 0 (t)β 00 (t)
a1 (t) = v 0 i (t) = p .
(α0 (t))2 + (β 0 (t))2
El vector aceleración, A(t), es
A(t) = (α00 (t), β 00 (t)).
Obviamente su dirección o sentido no tienen por qué ser los mismos que la
dirección o sentido del vector velocidad V . No obstante, podemos descomponer
el vector A(t) en la suma de dos vectores ortogonales, uno de ellos con la
dirección de V , llamémoslo A1 (t), y el otro con una dirección perpendicular a
V , digamos A2 (t).
A1
1.5
1 A
A2
0.5
0.5 1 1.5 2 2.5 3

x
A1 (t) es el vector “aceleración tangencial”, mientras que A2 (t) es el vector

“aceleración centrı́peta”, de dirección ortogonal al anterior y con un sentido
hacia la parte de “adentro” de la curva trayectoria. Para obtener sus expre-
siones consideremos la base ortonormal de E 2 , {B1 (t), B2 (t)}, donde
1 1
B1 (t) = V (t), B2 (t) = (β 0 (t), −α0 (t)).
||V (t)|| ||V (t)||
Ası́, B1 (t) es un vector unitario con la dirección y sentido de V , y B2 (t) es un
vector unitario perpendicular a V . Luego resulta que
A1 (t) = (A(t) · B1 (t))B1 (t) = a1 (t)B1 (t),

A2 (t) = (A(t) · B2 (t))B2 (t) = a2 (t)B2 (t).
Nótese que a1 (t) es precisamente la aceleración tangencial escalar, cuya ex-

presión habı́a sido deducida antes como razón de cambio de la velocidad in-
stantánea escalar. Por otro lado, a2 (t) es la aceleración centrı́peta escalar. Si el
móvil tiene una masa m, independiente del tiempo, la segunda ley de Newton
afirma que la fuerza centrı́peta que se ejerce sobre él tiene una magnitud igual
a ma2 (t). Asimismo, actúa sobre el móvil una fuerza tangencial de magnitud
ma1 (t).
7.5 Trabajo en un desplazamiento rectilı́neo

Si sobre un cuerpo se ejerce una fuerza que provoca un desplazamiento del
mismo, entonces se ha producido un trabajo. Si el desplazamiento es rectilı́neo
y la magnitud de la fuerza, digamos F , es constante entonces se puede medir

esa cantidad (escalar) de trabajo mediante el producto de la magnitud de la
fuerza por la distancia recorrida:
T = F ∆x,
donde se supone que el cuerpo se desplaza sobre el eje de abscisas desde x = a

hasta x = b, ∆x = b−a. Si F no es constante, sino que depende de x, entonces
el trabajo realizado desde a hasta b es el lı́mite de una suma de trabajos
correspondientes a pequeños subintervalos de una partición del intervalo [a, b].
Este proceso es precisamente el que se siguió para definir la integral definida
de la función F (x) entre a y b. Por lo tanto
Z b
T = F (x) dx. (3)
a
Supóngase ahora que un gas ideal contenido en un cilindro ejerce una

presión p(x) que produce el desplazamiento rectilı́neo de un émbolo desde
x = a hasta x = b. La fuerza F (x) que actúa sobre el émbolo es
F (x) = p(x)S,
donde S es la superficie del émbolo, que es también la superficie de la sección

transversal del cilindro. Usando la fórmula (3) y teniendo en cuenta la susti-
tución
v = xS,
donde v es el volumen del gas correspondiente a la posición x del émbolo, sigue
que el trabajo de expansión del gas es
Z vb
T = p(v/S) dv.
va
Si el gas ideal se expande a temperatura constante (expansión isotérmica)

vale la ley de Boyle-Mariotte, que afirma que el producto de la presión por el
volumen es constante. Luego
Z vb
vb
T = C/v dv = C ln .
va va
Si el gas se expande a presión constante, p0 , (expansión isobárica) entonces

Z vb
T = p0 dv = p0 (vb − va ).
va
Por último, si el gas se expande sin intercambio de calor con el exterior

(expansión adiabática), vale la ley de Poisson, que establece que el producto
de la presión por una potencia v k , donde k es una constante mayor que 1, es
constante. De aquı́
Z vb µ ¶
k C 1 1
T = C/v dv = − .
va k−1 vak−1 vbk−1
Como C = p(a)va vak−1 , se deduce que

Ã µ ¶k−1 !
p(a)va va
T = 1− .
k−1 vb
8 Métodos numéricos en Cálculo
8.1 Ecuaciones de una variable
Sea f una función continua definida en un intervalo [a, b]. Un cero de f es un
valor c ∈ [a, b] que satisface
f (c) = 0.
También se dice que c es una raı́z de la ecuación anterior. Para mucha funciones
f no existen fórmulas que permitan calcular raı́ces de esa ecuación en forma
exacta. En estos casos deben emplearse métodos de aproximación de los ceros.
El Teorema de Bolzano da un buen punto de partida para lograr tal finalidad.
En efecto, si
f (a)f (b) < 0,
entonces el Teorema afirma que debe de existir un cero en el intervalo (a, b).
Si ahora evaluamos la función en su punto medio
c1 = (a + b)/2,
entonces o bien
f (c1 ) = 0, o f (a)f (c1 ) < 0, o f (c1 )f (b) < 0.
De esta manera, o ya hemos encontrado el cero (primer caso), o bien volvemos

a una situación similar a la del comienzo, pero donde ahora la longitud del
intervalo de búsqueda se ha reducido a la mitad (segundo o tercer casos). Sigue
ahora un proceso recurrente, que termina cuando la precisión de la estimación
del cero sea la deseada. Al respecto, dado que el error que se comete es la
diferencia – en valor absoluto – entre nuestra estimación y el verdadero cero,
si la estimación se fija en el punto medio del intervalo de búsqueda, tendremos
que una cota superior del error será la mitad de la longitud de este intervalo.
Por ejemplo, si la longitud del intervalo inicial, b − a, es igual a 1, entonces
una estimación del cero mediante c1 darı́a una cota del error igual a 1/2. Si
pasamos al intervalo siguiente tendremos una cota del error igual a 1/4. En
general, si hemos hecho i particiones del intervalo inicial, la cota del error será
igual a 1/2i+1 .
Una variación de este método es el llamado de la posición falsa o Regula

Falsi. La única diferencia que tiene con la técnica anterior es que estima al
8 Métodos numéricos en Cálculo 95
a b
Estimación de un cero por el método de la posición falsa
cero de f mediante el cero de la función lineal que pasa por los puntos (a, f (a))
y (b, f (b)). Ası́, la estimación en el primer paso es
f (b)(b − a)
c1 = b − .
f (b) − f (a)
Una ulterior modificación conduce al llamado método de Müller. Consiste

en elegir tres puntos iniciales, a < b < c, y considerar la función cuadrática
P (x) = r(x − c)2 + s(x − c) + t,
que pasa por los puntos (a, f (a)), (b, f (b)) y (c, f (c)). Ahora la estimación del
cero de f en el primer paso viene dada por el cero de la función cuadrática
más cercano al punto c. Su expresión es
2t
c1 = c − √ .
s + sig (s) s2 − 4rt
En el segundo paso (y análogamente en los siguientes) se reitera el procedi-
miento anterior, ahora usando los puntos b, c y c1 . Este método es particular-
mente eficiente en el cómputo de las raı́ces de polinomios. Es de destacar que
encuentra tanto raı́ces reales como complejas.
Los dos primeros métodos expuestos aquı́ coinciden en el hecho de que las
sucesivas estimaciones de la raı́z siempre convergen al cero verdadero de la
función. En efecto, esto está garantizado por los distintos signos que toma
la función en los extremos de cada intervalo de búsqueda. No es el caso del

método de Mller, donde puede darse que en los tres puntos la función tome el
mismo signo. Esto hace que en algunos casos las sucesivas aproximaciones no
converjan a ningún punto. Por el contrario, en los casos de convergencia, ésta
suele ser más rápida que con los dos procedimientos anteriores. Este rasgo de la
técnica de Mller se da también con el que es posiblemente el método más clásico
en este tema, que es el conocido como método de Newton, o Newton-Raphson.
Además de que es necesario para su aplicación la existencia y continuidad de la
derivada f 0 , su convergencia depende del buen comportamiento de la derivada
segunda f 00 en un entorno de la raı́z.
8.2 Interpolación y aproximación polinómicas

Ya hemos visto en la sección 6.4 que si una función f tiene derivadas hasta
el orden n en un punto a entonces existe el polinomio de Taylor de grado n
de esa función, desarrollado en a, Pn . Este polinomio es precisamente aquél
cuyas derivadas coinciden con las correspondientes primeras n derivadas de f
en a. Esta coincidencia hace que el polinomio de Taylor de la función pueda
considerarse como una aproximación de ella en un intervalo I, centrado en a.
Esta aproximación es muy buena en las cercanı́as del punto a, pero deja de
serlo a medida que nos alejamos de ese punto. Más precisamente, si existe
la función derivada de orden n + 1 de f , entonces mediante una reiterada
aplicación del Teorema de Cauchy, visto en la unidad 4, se prueba que
f (n+1) (c(x))(x − a)n+1
f (x) − Pn (x) = ,
(n + 1)!
donde c(x) está entre a y x. Si f (n+1) es una función acotada en el intervalo I,
entonces la igualdad anterior permite acotar el error que se comete al aproximar
la función por su polinomio de Taylor.
La deficiente aproximación de Pn fuera de las cercanı́as del punto a obedece

a que su determinación sigue de condiciones establecidas sólamente en el punto
a. Si se pretende obtener una aproximación razonablemente buena en todo el
intervalo I entonces habrá que pensar en mecanismos de aproximación que
tengan en cuenta el comportamiento de la función en todo I y no sólamente
en el punto a. Esta idea conduce a la teorı́a de aproximación de funciones,
iniciada en la segunda mitad del siglo pasado y ampliamente desarrollada du-
rante este siglo. Se trata de definir una medida que cuantifique el grado de
distanciamiento entre la función y un polinomio en el intervalo I. Dada una

tal medida, el proceso continúa con la obtención de un polinomio que real-
ice la mı́nima distancia a la función. Más concretamente, supongamos que
ρI (f, P ) indica una medida de distanciamiento entre una función continua f y
un polinomio arbitrario P . Llamemos IPn al conjunto de todos los polinomios
de grado a lo sumo n. Entonces P0 ∈ IPn se llama un mejor aproximante de f
entre los polinomios de IPn , con respecto a ρI , si
ρI (f, P0 ) ≤ ρI (f, P ) para todo P ∈ IPn .
Las siguientes son medidas de distanciamiento muy utilizadas:
max |f (x) − P (x)|, x ∈ I, (4)

Z
|f (x) − P (x)| dx, (5)
I
Z
|f (x) − P (x)|2 dx. (6)
I
La tercera de ellas tiene la ventaja de presentar cálculos más manejables para
la obtención del mejor aproximante.
-3 -2 -1 1 2 3
-1
-2
-3
En el dibujo vemos la gráfica de la función f : [−π, π] 7→ R, f (x) = sen x, su

polinomio de Taylor de primer grado desarrollado en cero y el mejor aproxi-
mante entre los polinomios de IP1 con respecto a la medida de distanciamiento
(3).
Los mejores aproximantes obtenidos con las tres medidas anteriores, si

bien no son iguales, presentan la caracterı́stica común de ser interpolantes de
la función en al menos n + 1 puntos distintos del intervalo I. Es decir, existen
n + 1 puntos diferentes en I en los cuales el mejor aproximante coincide con
la función. Los puntos de coincidencia también dependen de la medida ρI que

se use. Que el mejor aproximante de una función resulte un interpolante de
ésta es algo natural. El intento de acercar un polinomio a la función fuerza a
aquél a coincidir con la función en algunos puntos. La coincidencia no puede
ser total, a menos que la función ya sea un polinomio en IPn .
Es conveniente tener una fórmula para los polinomios interpolantes de una

función en n + 1 puntos distintos de su dominio. En realidad existe un único
polinomio en IPn con estas condiciones. Para fijar ideas, supongamos que
queremos encontrar el polinomio cuadrático que coincide con una función f en
tres puntos distintos de su dominio, x0 , x1 , x2 . El método de Lagrange se basa
en la observación de que el polinomio
(x − x0 )(x − x1 )
f (x2 )
(x2 − x0 )(x2 − x1 )
vale f (x2 ) en x = x2 y vale cero en x = x0 y x = x1 . De esta manera se deduce

que el único polinomio interpolador en IP2 viene dado por la expresión
(x − x1 )(x − x2 ) (x − x0 )(x − x2 ) (x − x0 )(x − x1 )

f (x0 ) + f (x1 ) + f (x2 ) .
(x0 − x1 )(x0 − x2 ) (x1 − x0 )(x1 − x2 ) (x2 − x0 )(x2 − x1 )
Ejercicio: Obtener la expresión general del polinomio en IPn que coincide con
f en los n + 1 puntos distintos x0 , x1 , · · · , xn .
El método de Newton consiste en escribir el polinomio interpolador de la

función en los puntos xi , i = 0, 1, · · · , n, en la forma (suponemos n ≥ 2)
P (x) = Pn−2 (x) + c1 (x − x0 ) · · · (x − xn−2 ) + c0 (x − x0 )(x − x1 ) · · · (x − xn−1 ).
Tanto el polinomio Pn−2 como los coeficientes c0 y c1 quedan unı́vocamente

determinados por las condiciones de interpolación. El coeficiente c0 es el cor-
respondiente al término de mayor grado del polinomio interpolante de f en los
n + 1 puntos x0 , x1 , · · · , xn . Teniendo en cuenta esta definición, válida para
todo n ≥ 0, lo renombramos
c0 = f [x0 , x1 , · · · , xn ].
Observar que en la anterior notación no importa el orden de los puntos que

aparecen entre corchetes. Por definición,
c1 = f [x0 , · · · , xn−1 ]
y Pn−2 es el único polinomio en IPn−2 que interpola a f en los puntos x0 , · · · , xn−2 .

Luego, por definición de f [x0 , · · · , xn−2 , xn ], es
Pn−2 (xn ) + f [x0 , · · · , xn−2 , xn ](xn − x0 ) · · · (xn − xn−2 ) = f (xn ),
es decir
f (xn ) − Pn−2 (xn )
f [x0 , · · · , xn−2 , xn ] = .
(xn − x0 ) · · · (xn − xn−2 )
Como P (xn ) = f (xn ), sigue que
f [x0 , x1 , · · · , xn ] =
f (xn ) − Pn−2 (xn ) − f [x0 , · · · , xn−1 ](xn − x0 ) · · · (xn − xn−2 )
=
(xn − x0 ) · · · (xn − xn−2 )(xn − xn−1 )
f (xn )−Pn−2 (xn )
(xn −x0 )···(xn −xn−2 )
− f [x0 , · · · , xn−1 ]
=
xn − xn−1
f [x0 , · · · , xn−2 , xn ] − f [x0 , · · · , xn−1 ]
.
xn − xn−1
Intercambiando xn−1 con x0 sigue la definción más conocida de la llamada
diferencia dividida de orden n:
f [x1 , · · · , xn−1 , xn ] − f [x0 , · · · , xn−1 ]
f [x0 , x1 , · · · , xn ] = .
xn − x0
Por su propia definición, resulta evidente que
f [x0 ] = f (x0 )
y
f (x1 ) − f (x0 )
f [x0 , x1 ] = .
x1 − x0
De esta manera las diferencias divididas quedan definidas por recurrencia. Por
último, se concluye que el polinomio interpolador de Newton tiene la forma
P (x) =
f [x0 ] + f [x0 , x1 ](x − x0 ) + · · · + f [x0 , x1 , · · · xn ](x − x0 )(x − x1 ) · · · (x − xn−1 ).
Si la función f tiene derivadas continuas hasta el orden n en su dominio en-

tonces una sucesiva aplicación del Teorema del valor medio prueba que
f [x0 , x1 , · · · , xn ] = f (n) (γn )/n!,
donde γn es un punto intermedio entre el mı́nimo y máximo de los puntos xi .

En este caso es interesante notar que cuando todos los puntos xi se aproximan
a un punto a entonces el polinomio interpolante converge al Polinomio de

Taylor de grado n de la función, desarrollado en a. Significa que bajo estas
circunstancias la interpolación en n + 1 puntos distintos se transforma en una
interpolación en un único punto, pero donde ahora la coincidencia se da en
todas las derivadas hasta el orden n.
9 Espacio vectorial sobre los reales
Sea V un conjunto no vacı́o. Llamaremos A, B, V, V1 , etc., a los elementos de V.
Supongamos que en V hay definida una operación binaria entre sus elementos,
que llamaremos ‘suma’, y que simbolizamos por “+”. Ası́, para cualquier par
de elementos de V, digamos A y B, A + B es otro elemento de V. Requerimos
de esta suma que tenga las siguientes propiedades:
1) A + B = B + A ∀A, B ∈ V (Propiedad conmutativa).
2) A + (B + C) = (A + B) + C ∀A, B, C ∈ V (Propiedad asociativa).

Esta propiedad permite escribir sin ambigedad A + B + C.
3) Existe en V un particular elemento, que se llama elemento neutro, o

elemento nulo, o simplemente “cero”, que denotamos O, que satisface A + O =
A ∀A ∈ V.
4) Para todo elemento A en V existe un elemento en V , llamado opuesto

de A, que se denota −A, tal que A + (−A) = O.
Ejercicios
i) El cero es único.
ii) ∀A ∈ V, su opuesto es único.

Cuál es el opuesto de cero?
Un conjunto no vacı́o V en el que exista una operación de suma con estas

cuatro propiedades se llama grupo conmutativo o abeliano. Ahora bien, si
queremos que V sea un espacio vectorial debemos pedir la existencia de otra
operación, llamada externa, porque opera un número real con un elemento de
V. De esta manera, ∀a ∈ R y ∀B ∈ V, existe el producto “a izquierda”, aB,
que es otro elemento de V. Esta operación tiene las siguientes propiedades:
5) (a + b)V = aV + bV .
6) a(B + C) = aB + aC
7) a(bC) = (ab)C
8) 1A = A ∀A ∈ V
9 Espacio vectorial sobre los reales 102
Ejercicios
iii) Probar que aO = O ∀a ∈ R
iv) Probar que 0A = O ∀A ∈ V
Un conjunto V, con las operaciones de suma y producto por un

número real a izquierda, que verifiquen las propiedades 1) a 8), se
llama espacio vectorial sobre R.
Un espacio vectorial debe tener por elementos a O, de acuerdo con la

propiedad 3). Pero, recı́procamente, un conjunto con un único elemento, O,
con las operaciones O + O = O, aO = O ∀a ∈ R, es un espacio vectorial, pues
se verifican las propiedades 1) – 8). Se llama espacio vectorial nulo y es un
ejemplo trivial de espacio vectorial.
El mismo conjunto de numeros reales, R, con las operaciones habituales de
suma y producto, es un espacio vectorial.
Ejercicio: comprobar que (R, +, .) es un espacio vectorial.
Llamamos R2 al conjunto de pares ordenados de números reales (a, b),

donde se define
(a, b) + (c, d) = (a + c, b + d), λ(a, b) = (λa, λb)
Ejercicio: compruebe que R2 es un espacio vectorial.
Como ya se sabe, los elementos de R2 se pueden representar por puntos del
³³1
IA − B
@ µ
¡ ³³ A + B
@ ¡A ³ ³
@ ¡ ³³
@ ¡ ³ ³³
³
@ ¡³³³
@³
¡ ³ B
-
O
plano (indicados en el dibujo por las puntas de las flechas).

Análogamente se define el espacio Rm , para m > 2 (R1 = R).
9.1 Subespacios
Sea V un espacio vectorial no nulo. Si S ⊂ V y S es también un espacio
vectorial, se entiende con las mismas operaciones de V, entonces S se dice
subespacio de V. S será un subespacio de V si y sólo si valen las siguientes

condiciones:
a) ∀A, B ∈ S, vale que A + B ∈ S.
b) ∀λ ∈ R y ∀A ∈ S, vale que λA ∈ S.
Está claro que {O}, donde O es el elemento nulo de V, es siempre un subespacio
de V.
Ejemplo
Consideremos V = R2 . Sea
S = {(0, a), a ∈ R}.
S es un subespacio de R2 . En efecto, sean A y B dos vectores arbitrarios de

S. Luego será
A = (0, a), B = (0, b), y A + B = (0 + 0, a + b) = (0, a + b),
y este elemento también está en S. Por otra parte, si U es el subconjunto de

V = R2 de la forma
U = {(1, a), a ∈ R},
entonces U no es subespacio de R2 , pues, por ejemplo, (1, 1) ∈ U , (1, 2) ∈ U ,

pero (1, 1) + (1, 2) = (2, 3) ∈
/ U.
Ejercicio: compruebe que tampoco se cumple la condición b).
Sea V un espacio vectorial tal que existe A ∈ V, A 6= O. Es decir, V 6= {O}.

El subconjunto de V de la forma
{λA : λ ∈ R}
es un subespacio de V. En efecto, veamos que se cumplen las condiciones a) y

b). La suma de dos elementos cualesquiera de este subconjunto es λ1 A+λ2 A =
(λ1 + λ2 )A, que vemos pertenece al conjunto.
El producto a izquierda de un elemento de este subconjunto por un número
real es:
λ1 (λ0 A) = (λ1 λ0 )A,
que también pertenece al subconjunto. Luego es subespacio vectorial. Se lo

denota < A > y se dice que es el subespacio generado por el vector A.
Análogamente, si A y B son dos vectores de V, A 6= O, B 6= O, el subcon-

junto de V de la forma
{λ1 A + λ2 B, λ1 , λ2 ∈ R}
es un subespacio de V, que se denota < A, B > y se llama subespacio generado

por A y B.
En general, si tenemos una cantidad finita de vectores de un espacio V,

digamos A1 , A2 , ...Am , se llama combinación lineal de esos vectores al vector
λ1 A1 + λ2 A2 + ... + λm Am ,
donde λ1 , λ2 , · · · , λm , son reales arbitrarios. Entonces el subespacio generado

por A1 , A2 , ..., Am es el conjunto formado por todas las combinaciones lineales
de esos vectores, y se simboliza
< A1 , A2 , ..., Am > .
Ejemplo
Ya vimos que S = {(0, a) : a ∈ R} es un subespacio de R2 . Coincide con

el subespacio < (0, 1) >, es decir, el subespacio generado por el vector (0, 1),
ya que (0, a) = a(0, 1).
Ejercicio. Comprobar que es también S =< (0, a0 ) >, con a0 fijo, a0 6= 0.
Sean S y T dos subconjuntos de un mismo espacio V. Se define
S + T = {A + B : A ∈ S, B ∈ T }.
Si S y T son subespacios de V, entonces S + T es también sub-

espacio de V.
En efecto, la suma de dos vectores de S + T es
C1 + C2 = (A1 + B1 ) + (A2 + B2 ),
donde A1 , A2 ∈ S, B1 , B2 ∈ T . Luego
C1 + C2 = (A1 + A2 ) + (B1 + B2 ).
Como S es subespacio, A1 + A2 ∈ S. Como T es subespacio, B1 + B2 ∈ T .

Luego C1 + C2 ∈ S + T .
Por otra parte, el producto por un real a izquierda de un vector de S + T

es
λC = λ(A + B),
donde A ∈ S, B ∈ T . Luego λC = λA + λB. Como S es subespacio, λA ∈ S.

Como T es subespacio, λB ∈ T , y por lo tanto λC ∈ S + T .
Como es sabido, la intersección de dos conjuntos es el conjunto formado

por los elementos que están simultáneamente en ambos conjuntos.
Si S y T son subespacios de un espacio V, su intersección S ∩ T es

también un subespacio de V.
Si S y T son dos subespacios de un espacio V y S ∩ T = {O},

entonces el subespacio suma S + T se llama suma directa de S y
T y se simboliza S ⊕ T .
En este caso todo elemento de S ⊕ T se puede poner, de una única manera,

como suma de un vector de S más un vector de T . En efecto, si
A1 + B1 = A2 + B2 , A1 , A2 ∈ S, B1 , B2 ∈ T ,
entonces A1 − A2 = B2 − B1 ∈ S ∩ T . Luego debe ser
A1 − A2 = B2 − B1 = O,
por lo tanto A1 = A2 , B1 = B2 .
Recı́procramente, si todo vector de S + T se puede poner, de una única

forma, como suma de un vector de S más un vector de T , entonces S + T es
suma directa, es decir, S ∩ T = {O}. En efecto, si A ∈ S ∩ T , A 6= O, entonces
O = O + O = A + (−A),
es decir, el vector nulo se puede escribir de dos formas distintas como suma de
un vector en S más un vector en T .
Si un espacio V es suma directa de dos subespacios S y T , es decir,

V = S ⊕ T , entonces S y T se llaman subespacios suplementarios
de V.
Ejemplo
En V = R2 , sean:
S = {(a, 0) : a ∈ R},
T = {(0, b) : b ∈ R}.
Es muy fácil probar que R2 = S ⊕ T , y por lo tanto S y T son subespacios

suplementarios de R2 (Ejercicio).
Si U y V son dos espacios vectoriales, el producto cartesiano
U × V = {(A, B), A ∈ U , B ∈ V}
es también un espacio vectorial con la operación de suma definida por
(A1 , B1 ) + (A2 , B2 ) = (A1 + A2 , B1 + B2 ),
y el producto a izquierda definido por
λ(A, B) = (λA, λB).
De esta manera, R2 = R × R, y si se define análogamente el espacio producto

cartesiano de n espacios vectoriales, n ∈ N, se obtiene que
Rn = R × R × · · · × R,
donde R figura n veces en la parte derecha de esta igualdad.

Sea S un subespacio de un espacio V y sea A0 un vector en V. El conjunto
A0 + S = {A0 + A, A ∈ S}
se llama variedad lineal. Es decir, una variedad lineal es el trasladado de un

subespacio.
Ejercicio: Probar que una variedad lineal A0 + S es un subespacio si y sólo si
A0 ∈ S.
Ejemplo
En R2 , el conjunto {(1, b), b ∈ R} es una variedad lineal porque se puede

poner, por ejemplo, como (1, 0) + S, donde S es el subespacio (0, b), b ∈ R.
La variedad lineal A0 + S se dice dirigida por S o que tiene la

dirección de S.
9.2 Aplicaciones lineales

Sean U y V dos espacios vectoriales sobre R. Una aplicación
ϕ : U 7→ V
se dice lineal si
a) ϕ(A1 + A2 ) = ϕ(A1 ) + ϕ(A2 ) ∀A1 , A2 ∈ U,

b) ϕ(λA) = λϕ(A) ∀λ ∈ R, ∀A ∈ U.
Cuando V = U, la aplicación lineal recibe el nombre de endomor-

fismo.
Cuando V = R, la aplicación lineal se llama forma lineal.
Ejemplos
1) Sea λ0 un número real fijo. Entonces ϕ : U 7→ U , dado por ϕ(A) = λ0 A,

es una aplicación lineal, que recibe el nombre de homotecia de razón λ0 .
Ejercicio: Probar que en efecto es lineal.
El caso λ0 = 1 corresponde a la aplicación identidad. El caso λ0 = 0 corres-
ponde a la aplicación nula.
2) Sea V = S ⊕ T . Entonces todo A ∈ V se escribe de una única forma
como suma de un vector en S más un vector en T : A = B + C, B ∈ S, C ∈ T .
Quiere decir que cada vector en V determina un único vector en S y un único
vector en T . Esto determina a su vez dos aplicaciones ϕ1 y ϕ2 ,
ϕ1 : V 7→ S,
ϕ2 : V 7→ T ,
de manera que A = ϕ1 (A) + ϕ2 (A).
ϕ1 y ϕ2 resultan aplicaciones lineales. Probemos, por ejemplo, que ϕ1 es lineal.
Tenemos que
A1 = ϕ1 (A1 ) + ϕ2 (A1 ),
A2 = ϕ1 (A2 ) + ϕ2 (A2 ).
Luego A1 +A2 = ϕ1 (A1 )+ϕ1 (A2 )+ϕ2 (A1 )+ϕ2 (A2 ). Como ϕ1 (A1 )+ϕ1 (A2 ) ∈ S
, ϕ2 (A1 ) + ϕ2 (A2 ) ∈ T , y la forma de poner cualquier elemento de V como
suma de uno de S más uno de T es única, sigue que
ϕ1 (A1 + A2 ) = ϕ1 (A1 ) + ϕ1 (A2 ) y ϕ2 (A1 + A2 ) = ϕ2 (A1 ) + ϕ2 (A2 ).

Por otra parte, si A = ϕ1 (A) + ϕ2 (A) entonces, ∀λ ∈ R,
λA = λϕ1 (A) + λϕ2 (A).
Como S y T son subespacios, λϕ1 (A) ∈ S, λϕ2 (A) ∈ T , y por lo tanto

ϕ1 (λA) = λϕ1 (A) , ϕ2 (λA) = λϕ2 (A).
Estas aplicaciones lineales se llaman proyecciones, de V sobre S , ϕ1 , de V

sobre T , ϕ2 . Más precisamente, ϕ1 se llama proyección de V sobre S paralela-
mente a T , ϕ2 se llama proyección de V sobre T paralelamente a S.
Sean U y V dos espacios vectoriales sobre R y sea
ϕ : U 7→ V
una aplicación lineal. U y V se llaman dominio y codominio de la aplicación,

respectivamente.
La imagen de la aplicación, que se nota Imϕ, es el subconjunto del

codominio V, definido por
Imϕ = {V ∈ V : existe U ∈ U, ϕ(U ) = V }.
Probemos que Imϕ es un subespacio de V. Sean V1 , V2 ∈ Imϕ. Luego

existen U1 , U2 ∈ U tal que ϕ(U1 ) = V1 , ϕ(U2 ) = V2 . Por lo tanto, como ϕ es
lineal,
ϕ(U1 + U2 ) = ϕ(U1 ) + ϕ(U2 ) = V1 + V2 .
Luego V1 + V2 ∈ Imϕ.
Ahora sea V ∈ Imϕ. Luego existe U ∈ U tal que ϕ(U ) = V . Por lo tanto
ϕ(λU ) = λϕ(U ) = λV , por lo que λV ∈ Imϕ para todo λ ∈ R.
Puede ocurrir que Imϕ coincide con V. En este caso todo vector en V
proviene de algún vector de U mediante ϕ. Cuando esto sucede se dice que ϕ
es suprayectiva.
Ejemplo: las proyecciones son suprayectivas (Ejercicio).
Ahora definiremos un particular subespacio del dominio de ϕ. Sea
N ϕ = {U ∈ U : ϕ(U ) = O}.
Este subconjunto de U se llama núcleo de ϕ. Observar que el vector O que

aparece en su definición es el cero de V. Probemos que es un subespacio. Sean
U1 , U2 ∈ N ϕ. Luego
ϕ(U1 + U2 ) = ϕ(U1 ) + ϕ(U2 ) = O + O = O.
Por consiguiente U1 + U2 ∈ N ϕ.
Sea U ∈ N ϕ. Luego ϕ(λU ) = λϕ(U ) = λO = O para todo λ ∈ R. Luego
λU ∈ N ϕ.
Si N ϕ = U entonces ϕ(U ) = O ∀ U ∈ U y por lo tanto ϕ es la aplicación nula.

Si en cambio N ϕ = {O} (éste es el cero de U) entonces el único vector de U
que se aplica mediante ϕ al cero de V es el cero de U. En este caso la aplicación
ϕ se llama inyectiva. La inyectividad de ϕ es equivalente al siguiente hecho:
Dos vectores distintos de U se aplican a dos vectores distintos de V. En efecto,
sea N ϕ = {O}, y sean U1 , U2 ∈ U, U1 = 6 U2 . Luego debe ser ϕ(U1 ) 6= ϕ(U2 ),
porque si fuera ϕ(U1 ) = ϕ(U2 ) seguirı́a que
ϕ(U1 ) − ϕ(U2 ) = O,
es decir (por la linealidad de ϕ) ϕ(U1 − U2 ) = O, es decir (como N ϕ = {O}),

U1 − U2 = O, o sea U1 = U2 , contradicción. Recı́procamente, si dos vectores
distintos y arbitrarios de U se aplican mediante ϕ a dos vectores distintos de V,
entonces debe ser N ϕ = {O}. En efecto si fuera N ϕ 6= {O} entonces existirı́a
A ∈ U , A 6= O, ϕ(A) = O, o sea que dos vectores distintos de U se aplican al
mismo vector de V.
Si ϕ : U 7→ V es una aplicación lineal inyectiva y suprayectiva al mismo

tiempo (o sea, biyectiva), entonces ϕ se llama isomorfismo y los espacios U y V
se dicen isomorfos. Supongamos ahora que tenemos tres espacios vectoriales
U, V, W. Si ϕ : U 7→ V es lineal y ψ : V 7→ W es lineal, entonces queda
determinada la aplicación composición ψ ◦ ϕ : U 7→ W, definida como
(ψ ◦ ϕ)(U ) = ψ(ϕ(U )) ∀U ∈ U .
Esta composición de aplicaciones lineales resulta también lineal (Ejercicio).
Si ϕ y ψ son inyectivas entonces ψ◦ϕ es inyectiva. Si ϕ y ψ son suprayectivas

entonces ψ ◦ ϕ es suprayectiva. Luego si ϕ y ψ son biyectivas (isomorfismos),
ψ ◦ ϕ es también biyectiva (isomorfismo). Si ϕ : U 7→ V es isomorfismo,

entonces existe la llamada aplicación inversa, que se denota ϕ−1 ,
ϕ−1 : V 7→ U ,
que es también un isomorfismo, y que satisface
ϕ ◦ ϕ−1 = idV ,
ϕ−1 ◦ ϕ = idU ,
donde idV : V 7→ V, idV (V ) = V ∀ V ∈ V, y análogamente para idU .
Consideremos ahora el conjunto de todas las aplicaciones lineales ϕ : U 7→

V, donde U y V son dos espacios vectoriales fijos. Este conjunto no es vacı́o,
ya que la aplicación nula, esto es la que aplica todo vector de U al cero de V,
es lineal. Si ϕ1 y ϕ2 son dos aplicaciones lineales de U a V, podemos definir
una aplicación suma ϕ1 + ϕ2 : U 7→ V, de la siguiente manera
(ϕ1 + ϕ2 )(U ) = ϕ1 (U ) + ϕ2 (U ) ∀U ∈ U.
Asimismo, podemos definir el producto a izquierda de una aplicación ϕ de U

a V por un número real λ,
λ ϕ : U 7→ V, (λϕ)(U ) = λϕ(U ) ∀ U ∈ U.
Observar que estas operaciones son posibles porque se está operando en rea-
lidad con vectores del espacio V. Por este motivo, estas operaciones cumplen
con las propiedades 1) a 8) de un espacio vectorial, y por ende convierten al
conjunto de todas las aplicaciones lineales de U a V en un espacio vectorial,
llamado Hom(U,V). Este espacio tiene por elementos o vectores a aplicaciones
lineales entre dos espacios vectoriales fijos.
Como ejemplo, supongamos que U = R. Consideremos entonces el conjunto

de todas las aplicaciones lineales ϕ : R 7→ V. Si V = {O}, la única aplicación
que se puede definir es la aplicación nula y por lo tanto
Hom(R, {O}) es isomorfo a {O}.
Supongamos que V 6= {O}. O sea que en V hay vectores no nulos. Obviamente

los vectores de R son números reales y por tanto los denotamos con letras
minúsculas.
Tenemos que ϕ(1) = A para algún A ∈ V. Como λ = λ1 ∀ λ ∈ R y ϕ es lineal

sigue que
ϕ(λ) = ϕ(λ1) = λϕ(1) = λA.
Significa que cualquier aplicación lineal entre R y V queda determinada por

su valor en 1, ϕ(1). A su vez ϕ(1) puede ser cualquier vector de V. Por lo
tanto hay una correspondencia (biunı́voca) entre Hom(R,V) y V. Más aún,
esta correspondencia es lineal y por consiguiente Hom(R,V) es isomorfo a V
(Ejercicio). (Se puede usar ∼
= como sı́mbolo de isomorfismo).
Sea V un espacio vectorial, V 6= {O}. Sea A ∈ V, A 6= O. El sub-
espacio generado por A, < A >= {λA, λ ∈ R}, se llama una recta vectorial,
dirigida por A. El trasladado de una recta vectorial, es decir una variedad
lineal B0 + < A >, se llama recta afı́n, o simplemente recta. Si H es un
subespacio suplementario de una recta vectorial < A >, entonces H se llama
hiperplano vectorial. Por tanto H satisface V =< A > ⊕H. El trasladado de
un hiperplano vectorial se llama hiperplano afı́n.
Sea ϕ : V 7→ R una forma lineal no nula. Luego existe A ∈ V, a = ϕ(A) 6= 0.

Sea B un vector arbitrario en V, ϕ(B) = b ∈ R, y consideremos el vector
B − (b/a)A ∈ V. Tenemos que
ϕ(B − (b/a)A) = ϕ(B) − (b/a)ϕ(A) = b − (b/a)a = 0.
Por lo tanto B − (b/a)A ∈ N ϕ. Como B es un vector arbitrario de V y

B = (b/a)A + (B − (b/a)A hemos probado que
V =< A > +N ϕ.
Ahora bien, sea V ∈< A > ∩N ϕ. Como V ∈< A > es V = cA. Como
V ∈ N ϕ es ϕ(cA) = 0. Pero 0 = ϕ(cA) = cϕ(A) = ca. Luego c = 0 y V = O.
Hemos probado que
V =< A > ⊕ N ϕ,
es decir que el núcleo de una forma lineal ϕ no nula es un hiperplano vectorial

en V.
Recı́procramente, probaremos en lo que sigue que todo hiperplano vectorial

en un espacio V es el núcleo de alguna forma lineal ϕ : V 7→ R.
Sea H un hiperplano vectorial en V. Luego, por definición de hiperplano

vectorial, V =< A > ⊕H, donde A ∈ V, A 6= O.
Tenemos que para B ∈ V, B = ϕ1 (B) + ϕ2 (B), donde
ϕ1 : V 7→< A >, ϕ2 : V 7→ H
son las proyecciones inducidas por la suma directa dada.

Tenemos que ϕ1 es lineal y ϕ1 (B) = λB A, λB ∈ R. Consideremos la forma
ϕ : V 7→ R, definida por ϕ(B) = λB . ϕ resulta lineal. En efecto, evaluemos
ϕ(B1 + B2 ). Para esto debemos calcular a su vez
ϕ1 (B1 + B2 ) = ϕ1 (B1 ) + ϕ1 (B2 ) = λB1 A + λB2 A = (λB1 + λB2 )A.
Luego
ϕ(B1 + B2 ) = λB1 + λB2 = ϕ(B1 ) + ϕ(B2 ).
Por otra parte ϕ1 (λB) = λϕ1 (B) = λλB A. Luego
ϕ(λB) = λλB = λϕ(B),
y ϕ resulta una forma lineal.
Veamos ahora que N ϕ = H. Sea V ∈ N ϕ. Además
V = ϕ1 (V ) + ϕ2 (V ), ϕ1 (V ) ∈< A >, ϕ2 (V ) ∈ H.
Como ϕ(V ) = 0 sigue que ϕ1 (V ) = ϕ(V )A = O. Luego
V = O + ϕ2 (V ) = ϕ2 (V ) ∈ H.
Ası́, hemos probado que N ϕ ⊂ H. Sea ahora V ∈ H. Luego ϕ1 (V ) = O pues

V = O + V . Por consiguiente ϕ1 (V ) = 0A y ϕ(V ) = 0. Sigue que H ⊂ N ϕ y
por lo tanto N ϕ = H.
9.3 Independencia lineal. Representación de

espacios vectoriales
Sea V un espacio vectorial, V 6= {O}. Sea A ∈ V, A 6= O. Si λ ∈ R, λ 6= 0,
entonces λA 6= O. En efecto, si fuera λA = O seguirı́a que
λ−1 (λA) = (λ−1 λ)A = 1A = A = λ−1 O = O,
que es una contradicción, ya que A 6= O.

Se deduce que, si λ1 6= λ2 , entonces λ1 A 6= λ2 A. En efecto, si λ1 A = λ2 A
entonces O = λ2 A − λ1 A = (λ2 − λ1 )A y por lo tanto serı́a λ2 − λ1 = 0, es

decir λ1 = λ2 .
Por otro lado, 0A = O. Luego el único real λ que da por resultado λA = O es
λ = 0. Esta es una propiedad que no posee el vector nulo. En efecto, λO = O
para todo λ ∈ R.
Como ya sabemos, el conjunto de vectores {λA : λ ∈ R}, que lo hemos

denotado por < A >, es un subespacio vectorial de V, llamado recta vectorial.
Ahora este nombre queda justificado. Existe una correspondencia biunı́voca
entre < A > y R, pues todo vector de < A > es de la forma λA para un único
λ ∈ R, y recı́procamente, todo número real λ determina el vector λA ∈< A >.
R 7→< A >
λ 7→ λA.
Más aún, esta correspondencia es lineal, pues si λ1 7→ λ1 A, λ2 7→ λ2 A, entonces
(λ1 + λ2 ) 7→ (λ1 + λ2 )A = λ1 A + λ2 A,
y
λλ1 7→ (λλ1 )A = λ(λ1 A).
Luego < A >∼
= R.
Sea B ∈ V. Sabemos que 0A + 0B = O + O = O. Es decir, si en una
combinación lineal de dos vectores de V los números reales que multiplican a
izquierda son ambos nulos, el resultado es el vector nulo de V. Pero podemos
preguntarnos: si alguno de esos dos reales no es nulo, puede ser O el resultado
de esa combinación lineal ? La respuesta depende de dónde elegimos el vector
B. Si B ∈< A > la respuesta es afirmativa. En efecto, si B = O ∈< A >
entonces 0A + 1O = O + O = O, y 1 6= 0. Si B = λA, con λ 6= 0, entonces
(−λ)A + 1B = O.
Si en cambio, B ∈<
/ A >, la respuesta es no. En efecto, supongamos
λ1 A + λ2 B = O.
Si λ2 = 0, queda λ1 A = O y luego λ1 = 0 (estamos suponiendo A 6= O). Si

λ2 6= 0 queda
O = λ−1 −1 −1 −1
2 O = λ2 λ1 A + λ2 λ2 B = λ2 λ1 A + B,
y por consiguiente B = −λ−1

2 λ1 A, es decir B ∈< A >.
En este punto conviene introducir las siguientes definiciones.

Un vector A se dice linealmente dependiente si λA = O para algún

real λ 6= 0. Se dice también que el sistema {A} es ligado. Si A
no es linealmente dependiente entonces se dice que es linealmente
independiente, o también que el sistema {A} es libre.
Dos vectores A,B se dicen linealmente dependientes (l.d.) si λ1 A +

λ2 B = O, no cumpliéndose λ1 = λ2 = 0. También se dice que el
sistema {A, B} es ligado. Se dicen linealmente independientes (l.i.)
cuando no son linealmente dependientes. En este caso también se
dice que el sistema {A, B} es libre.
De la discusión anterior se deduce que para un sistema de un vector {A},

éste es ligado si y sólo si A = O.
Las tres afirmaciones siguientes son equivalentes:
(i) {A, B} es ligado
(ii) A ∈< B > o {B} es ligado (B = O).
(iii) B ∈< A > o {A} es ligado (A = O).
Vimos que si {A} es libre entonces < A >∼

= R. Si B ∈<
/ A > entonces,
por las equivalencias anteriores, {A,B} debe ser un sistema libre y < A, B >
debe ser un subespacio “más grande” que < A >. Es decir,
< A >⊂< A, B >,
siendo ésta una contención estricta.
Veremos que < A, B >∼

= R2 . En efecto, vamos a mostrar una aplicación ϕ,
ϕ :< A, B >7→ R2 ,
que resultará lineal y biyectiva.

Sea λ1 A + λ2 B ∈< A, B >. Definimos
ϕ(λ1 A + λ2 B) = (λ1 , λ2 ) ∈ R2 .
Veamos que ϕ es lineal. Sean
Cλ = λ1 A + λ2 B, Cµ = µ1 A + µ2 B,
dos vectores en < A, B >. Es
Cλ + Cµ = λ1 A + λ2 B + µ1 A + µ2 B = (λ1 + µ1 )A + (λ2 + µ2 )B.
Luego, por la definición de ϕ, es
ϕ(Cλ + Cµ ) = (λ1 + µ1 , λ2 + µ2 ) = (λ1 , λ2 ) + (µ1 , µ2 ) = ϕ(Cλ ) + ϕ(Cµ ).
Falta ver que ϕ(aCλ ) = aϕ(Cλ ) para todo a ∈ R. Tenemos que
aCλ = a(λ1 A + λ2 B) = aλ1 A + aλ2 B.
Por definición de ϕ es ϕ(aCλ ) = (aλ1 , aλ2 ) = a(λ1 , λ2 ) = aϕ(Cλ ). Luego

ϕ es lineal, y es claramente suprayectiva. Veamos que también es inyectiva.
Como es lineal, basta ver que N ϕ = {O}. Esto también es evidente, ya que
si ϕ(λ1 A + λ2 B) = (λ1 , λ2 ) = (0, 0), entonces λ1 = 0, λ2 = 0 y por lo tanto
0A + 0B = O. Luego ϕ es un isomorfismo.
Tenemos entonces que si {A} es libre,
< A >∼
= R.
Si {A, B} es libre,
< A, B >∼
= R2 .
El vector A, que genera a < A >, y forma un sistema libre, se

llama una base de A.
Hay que destacar que cualquier vector no nulo de < A > es también una base
de < A >. Por ejemplo, 2A 6= O y < 2A >=< A >. En efecto, el conjunto
{λ(2A) : λ ∈ R} es igual al conjunto {λA : λ ∈ R}, dado que λ(2A) = (2λ)A,
y cuando λ recorre todo R, 2λ también recorre todo R. Significa que hay
infinitas bases de < A >, tantas como vectores no nulos.
Si B ∈< A >, {A, B} ya no es base de < A > porque si bien A y B también

generan a < A >, ahora el sistema {A, B} no es libre.
Si {A, B} es un sistema libre entonces {A, B} es base de < A, B >. Todo

par de vectores l.i. de < A, B > será también base de ese subespacio. Una
base de < A, B > no puede estar constituida por sólo un vector porque en este
caso A y B serı́an múltiplos de ese vector y por lo tanto no serı́an l.i.
Pero una base tampoco puede estar formada por más de dos vectores. En
efecto, probaremos a continuación que tres vectores en < A, B > son necesaria-
mente l.d.
Supongamos que C1 , C2 , C3 son tres vectores l.i. de < A, B >. Entonces

C2 , C3 deben ser l.i. (Ejercicio). Si A ∈< C2 , C3 > y B ∈< C2 , C3 > sigue que
< A, B >⊂< C2 , C3 > pero como < C2 , C3 >⊂< A, B > se obtiene que
< C2 , C3 >=< A, B > .
Luego C1 ∈< C2 , C3 > y {C1 , C2 , C3 } serı́a ligado, contrariamente a lo que

estamos suponiendo. Supongamos entonces que, por ejemplo, A ∈<
/ C2 , C3 >.
Se deduce que
{A, C2 , C3 }
es un sistema libre. Ahora se repite el razonamiento con otros vectores. Si

B ∈< A, C3 >, como A ∈< A, C3 >, seguirı́a que < A, B >⊂< A, C3 > y
por lo tanto < A, B >=< A, C3 >. De aquı́ se deduce que C2 ∈< A, C3 > y
{A, C2 , C3 } no serı́a un sistema libre. Entonces B ∈<
/ A, C3 >, es decir
{A, B, C3 }
es un sistema libre. Pero esto es una contradicción, pues C3 ∈< A, B >. La

contradicción proviene de suponer que {C1 , C2 , C3 } es libre.
En conclusión,
toda base de < A, B > estará formada por dos vectores l.i.
Más generalmente, se dice que B1 , B2 , · · · , Bn , n ∈ N, son linealmente de-

pendientes (l.d.), o bien que el sistema {B1 , B2 , · · · , Bn } es ligado, si vale que
λ 1 B1 + λ 2 B2 + · · · + λ n B n = O
para reales λ1 , λ2 , · · · , λn , no todos nulos.
Si
B1 , B 2 , · · · , B n
no son l.d., entonces se dice que son linealmente independientes (l.i.), o bien
que el sistema {B1 , B2 , · · · , Bn } es libre.
Si un espacio vectorial V es generado por un sistema libre, es decir
V =< B1 , B2 , · · · , Bn >,
entonces este sistema se llama una base de V.
Cualquier otra base de V estará formada por n vectores l.i. de V.
Este número natural n, que depende por tanto de V, y no de la base

que se considere, se llama la dimensión del espacio V (n = dim V).
Ası́, una recta vectorial, es decir un espacio generado por un vector l.i. B1 (o
sea B1 6= O) tiene dimensión 1. Resulta < B1 >∼ = R. Un espacio generado
por un sistema libre {B1 , B2 } tiene dimensión 2 y resulta < B1 , B2 >∼ = R2 .
En general, un espacio generado por un sistema libre {B1 , B2 , · · · , Bn }, n ∈ N,
tiene dimensión n y resulta
< B1 , B2 , · · · , Bn >∼
= Rn .
Sea V un espacio vectorial de dimensión n, es decir, generado por una base

formada por n vectores. Entonces en V no puede haber más de n vectores l.i.
Por otra parte, n vectores l.i. de V forman una base del espacio. Si S es un
subespacio de V de dimensión r, entonces r ≤ n.
Si {S1 , · · · , Sr } es una base de S entonces se pueden encontrar en

V n − r vectores l.i.,
Cr+1 , · · · , Cn ,
de modo que {S1 , · · · , Sr , Cr+1 , · · · , Cn } sea base de V.
Este resultado se conoce como extensión de base:
Toda base de un subespacio de V puede extenderse a una base de

V.
Los vectores l.i. que se agregan a la base de S son a su vez base de un

subespacio U, suplementario de S, es decir
V = S ⊕ U.
Recı́procamente, si V = S ⊕ T entonces
dim V = dim S + dim T .
Ahora sean V y W dos espacios vectoriales de dimensión n y m, respecti-

vamente. Sea ϕ : V 7→ W una aplicación lineal. Como ya se sabe, N ϕ es un
subespacio de V, e Imϕ es un subespacio de W. Probemos que
dim V = dim N ϕ + dim Imϕ.
En efecto, sea {V1 , · · · , Vr } una base de N ϕ. Si r = n entonces ϕ es la aplicación

nula y dim Imϕ = 0, por lo que la fórmula es válida. Si r < n entonces
podemos extender {V1 , · · · , Vr } a una base de V agregando n − r vectores
Vr+1 , · · · , Vn linealmente independientes. Veamos que
{ϕ(Vr+1 ), · · · , ϕ(Vn )}
es una base de Imϕ. Probemos primero que este sistema es libre. Supongamos
λr+1 ϕ(Vr+1 ) + · · · + λn ϕ(Vn ) = O.
Como ϕ es lineal la igualdad anterior se escribe
ϕ(λr+1 Vr+1 + · · · + λn Vn ) = O.
Luego λr+1 Vr+1 + · · · + λn Vn ∈ N ϕ. De aquı́ sigue que
λr+1 Vr+1 + · · · + λn Vn = λ1 V1 + · · · + λr Vr ,
es decir
λ1 V1 + · · · + λr Vr − λr+1 Vr+1 − · · · − λn Vn = O.
Pero {V1 , · · · , Vn } es una base de V y por lo tanto es un sistema libre, por lo

que
λ1 = · · · = λr = λr+1 = · · · = λn = 0.
Veamos ahora que

< ϕ(Vr+1 ), · · · , ϕ(Vn ) >= Imϕ.
Sea W ∈ Imϕ. Luego W = ϕ(A), A ∈ V. Pero
A = a1 V1 + · · · + ar Vr + ar+1 Vr+1 + · · · + an Vn ,
y
ϕ(A) = ar+1 ϕ(Vr+1 ) + · · · + an ϕ(Vn ),
pues V1 , · · · , Vr ∈ N ϕ y por lo tanto ϕ(V1 ) = · · · = ϕ(Vr ) = O. De aquı́
W ∈< ϕ(Vr+1 ), · · · , ϕ(Vn ) >,
como se deseaba probar.
En particular, si ϕ es inyectiva entonces N ϕ = {O} y
{ϕ(V1 ), · · · , ϕ(Vn )}
resulta una base de Imϕ.

10 Sistemas de ecuaciones lineales
Recordemos que un espacio vectorial de dimensión n sobre el cuerpo R de
los números reales es isomorfo a Rn . El isomorfismo procede de la siguiente
manera: Fijada una base en el espacio vectorial, a un vector se le asigna la
n-upla formada por sus componentes con respecto a la base fijada. Conveni-
mos en escribir esta n-upla en disposición de columna y la llamaremos vector
columna de Rn . Tener presente entonces que las componentes dependen tanto
del elemento del espacio vectorial como de la base fijada.
Sean V y W dos espacios vectoriales de dimensión n y m, respectivamente,

y sea ϕ una aplicación lineal entre V y W. Sean {V1 , · · · , Vn } y {W1 , · · · , Wm }
bases de V y W, respectivamente. Fijadas estas bases quedan establecidas,
por lo dicho anteriormente, los isomorfismos entre V y Rn , y entre W y Rm .
Es decir, un elemento de V se corresponde con un vector columna de Rn y un
elemento de W se corresponde con un vector columna de Rm . A continuación
obtendremos el mecanismo que permite expresar las componentes de ϕ (X) en
términos de las componentes de X para un elemento arbitrario X en V.
Tenemos que
ϕ (V1 ) = a11 W1 + a21 W2 + · · · + am1 Wm

ϕ (V2 ) = a12 W1 + a22 W2 + · · · + am2 Wm
.. ..
. .
ϕ (Vn ) = a1n W1 + a2n W2 + · · · + amn Wm
Si X = x1 V1 + x2 V2 + · · · + xn Vn entonces
ϕ (X) = x1 ϕ (V1 ) + x2 ϕ (V2 ) + · · · + xn ϕ (Vn ) =
(a11 x1 + a12 x2 + · · · + a1n xn )W1 +

(a21 x1 + a22 x2 + · · · + a2n xn )W2 +
..
.
(am1 x1 + am2 x2 + · · · + amn xn )Wm .
Vemos que el vector columna asociado a ϕ (X) es una combinación lineal de los
vectores columna asociados a ϕ (V1 ), ϕ (V2 ), · · · , ϕ (Vn ), donde por coeficientes
figuran las componentes de X:
     
a11 a12 a1n
 a21   a22   a2n 
     
x1  ..  + x2  ..  + · · · + xn  ..  .
 .   .   . 
am1 am2 amn
10 Sistemas de ecuaciones lineales 121
También podemos escribir esta expresión en notación matricial:

  
a11 a12 · · · a1n x1
 a21 a22 · · · a2n   x2 
  
 .. .. .. ..   ..  .
 . . . .  . 
am1 am2 · · · amn xn
Observar que la determinación de la matriz A de arriba, de orden mxn, es

inmediata: Se trata de la matriz que tiene por columna j a las componentes
de ϕ (Vj ), j = 1, 2, · · · , n.
Se puede afirmar entonces que una aplicación lineal ϕ entre espa-

cios vectoriales de dimensión n y m tiene asociada una matriz de
orden mxn, la cual permite obtener mediante la operación anterior
las componentes de cualquier elemento que esté en la imagen de
ϕ , Imϕ .
Otra vez debe tenerse presente que esta matriz depende no sólo de ϕ sino
también de las bases consideradas en el dominio y codominio de la aplicación.
Fijadas estas bases, existirá por lo tanto una correspondencia entre

el espacio vectorial Hom(V, W) de todas las aplicaciones lineales
entre V y W y el espacio Mmn de todas las matrices de orden mxn.
Esta correspondencia es claramente biyectiva. Por consiguiente Mmn se con-

vierte en un espacio vectorial isomorfo a Hom(V, W) si en él se define una
suma y un producto a izquierda por un escalar real de tal forma que la suma
de matrices sea aquella matriz que se corresponde por la biyección anterior
a la suma de las aplicaciones lineales que tienen por asociadas a las matrices
sumandos, y análogo procedimiento para el producto por escalar. La suma ası́
definida resulta la suma usual de matrices – sumar coeficiente a coeficiente – y
análogamente para el producto por escalar, esto es multiplicar cada coeficiente
de la matriz por el escalar considerado.
Supongamos ahora que tenemos otra aplicación lineal, llamémosla ψ, entre

el espacio W de antes y otro espacio U de dimensión s. Fijada una base en U,
la aplicación ψ tiene asociada una matriz de orden sxm, llamémosla B. Por
otra parte, la aplicación composición ψ ◦ ϕ tiene asociada también una matriz
de orden sxn. Por lo dicho anteriormente, su columna j está formada por las
componentes del vector
ψ ◦ ϕ (Vj ) = ψ(ϕ (Vj ))
y las componentes de este vector se obtienen a su vez multiplicando la matriz

B por el vector columna de componentes de ϕ (Vj ), que es precisamente la
columna j de la matriz A. En consecuencia, las columnas de la matriz asociada
a la composición ψ ◦ ϕ se obtiene multiplicando la matriz B por las correspon-
dientes columnas de la matriz A, lo que define a la matriz producto BA.
Por lo tanto esta matriz producto es la asociada a la composición
ψ ◦ ϕ.
10.1 Rango de una matriz

El isomorfismo entre Hom(V, W) y Mmn hace que propiedades de una apli-
cación lineal ϕ se reflejen en correspondientes propiedades de su matriz asocia-
da A. Por ejemplo, consideremos el subespacio de W, Im(ϕ ). Este subespacio
está generado por el sistema {ϕ (V1 ), · · · , ϕ (Vn )}. Su dimensión, digamos r, es
el número que se corresponde con la mayor cantidad posible de vectores lineal-
mente independientes de este sistema. Es decir, en él hay r vectores l.i. y no
más. Por otra parte, observar que las componentes de los vectores de este sis-
tema son precisamente las columnas de la matriz A. Luego, por el isomorfismo
existente entre W y Rm sigue que la matriz A tendrá también r columnas
linealmente independientes de Rm y no más. Sus columnas linealmente in-
dependientes serán precisamente aquéllas que se corresponden con vectores
linealmente independientes del sistema anterior.
Este número r, que si se habla de ϕ es dim(Imϕ ), es lo que se

llama rango de A si se habla de la matriz A, asociada a ϕ .
Es un resultado conocido en teorı́a de matrices que el rango de una matriz

es también la cantidad maximal de filas linealmente independientes, interpre-
tando las filas de una matriz de orden mxn como vectores de Rn . A con-
tinuación vamos a mostrar este resultado haciendo uso de la interpretación
de las matrices como asociadas a aplicaciones lineales. Digo “mostrar” y no
“probar” porque para facilitar su comprensión voy a considerar una matriz de

orden 4x4 con valores numéricos concretos, digamos la matriz
 
2 1 1 2
 5 2 3 4 
A=  1 1 2 0 .

1 6 0 7
Por la teorı́a anterior, a esta matriz la podemos interpretar como asociada a
una aplicación lineal ϕ entre un espacio vectorial V de dimensión 4 y un espacio
vectorial W, también de dimensión 4, y supuesto que se han fijado bases en V y
en W. Como antes, llamamos a estas bases {V1 , V2 , V3 , V4 } y {W1 , W2 , W3 , W4 },
respectivamente. La matriz A tiene sus tres primeras columnas linealmente in-
dependientes en R4 , pero no sus 4 columnas l.i., ya que es fácilmante verificable
que su cuarta columna es la suma de las dos primeras menos la tercera. Que
sus tres primeras columnas son vectores l.i. de R4 no es tan rápidamente ve-
rificable; para averiguarlo pueden aplicarse varios métodos que más adelante
veremos, ya que en este momento no es lo que nos preocupa. Por consiguiente
el rango de A es tres. Bajo esta hipótesis, debemos probar que la matriz A
tiene tres filas l.i. y no más. Recordemos que las columnas de A, vectores
columna de R4 , son, de izquierda a derecha, las componentes de los vectores
de W
ϕ (V1 ), ϕ (V2 ), ϕ (V3 ) y ϕ (V4 ),
respectivamente. Sabemos por otra parte que la correspondencia entre el vec-
tor columna de componentes de un vector de W y este vector es precisamente
lo que establece el isomorfismo entre R4 y W. Por lo tanto, como los isomor-
fismos preservan la independencia lineal, sigue que los vectores ϕ (V1 ), ϕ (V2 ) y
ϕ (V3 ) deben ser vectores l.i. en W puesto que se corresponden mediante este
isomorfismo con las tres primeras columnas de A, que son vectores columna
de R4 linealmente independientes. Por lo tanto podemos encontrar un cuarto
vector en W, digamos W , tal que
{ϕ (V1 ), ϕ (V2 ), ϕ (V3 ), W }
es una base de W. Consideremos ahora un automorfismo ψ : W 7→ W tal que
ψ(ϕ (V1 )) = W1 , ψ(ϕ (V2 )) = W2 , ψ(ϕ (V3 )) = W3 , ψ(W ) = W4 .
La aplicación ψ es en efecto un automorfismo pues lleva una base de W,

{ϕ (V1 ), ϕ (V2 ), ϕ (V3 ), W }, en otra base de W, a saber la originalmente conside-
rada. Sea B la matriz asociada a ψ con respecto a esta última base actuando
tanto en su dominio como en su codominio. Luego la aplicación composición
ψ ◦ ϕ : V 7→ W
tiene por matriz asociada a BA, con respecto a las bases de V y W original-
mente consideradas. Pero cuáles son las columnas de esta matriz producto?
Ya sabemos calcularlas: son las componentes de los vectores
ψ ◦ ϕ (Vj ), j = 1, 2, 3, 4,
con respecto a la base {W1 , W2 , W3 , W4 } de W. Ahora bien,
ψ ◦ ϕ (V1 ) = W1 = 1W1 + 0W2 + 0W3 + 0W4 ,

ψ ◦ ϕ (V2 ) = W2 = 0W1 + 1W2 + 0W3 + 0W4 ,
ψ ◦ ϕ (V3 ) = W3 = 0W1 + 0W2 + 1W3 + 0W4
y ϕ (V4 ) tiene con respecto a ϕ (V1 ), ϕ (V2 ) y ϕ (V3 ) la misma relación que sus
correspondientes componentes (Por qué?), por lo cual
ϕ (V4 ) = ϕ (V1 ) + ϕ (V2 ) − ϕ (V3 )
ψ ◦ ϕ (V4 ) = ψ ◦ ϕ (V1 ) + ψ ◦ ϕ (V2 ) − ψ ◦ ϕ (V3 ) = W1 + W2 − W3 + 0W4 .
Por consiguiente  
1 0 0 1
 0 1 0 1 
BA = 
 0
.
0 1 −1 
0 0 0 0
Las tres primeras filas de esta matriz , consideradas como vectores de R4 , son
l.i. En efecto, si
a(1, 0, 0, 1) + b(0, 1, 0, 1) + c(0, 0, 1, −1) = (a, b, c, a + b − c) = 0,
entonces a = b = c = 0. Llegado a este punto el lector puede vislumbrar lo que

ocurre en el caso general: Por la forma en que se ha construido la aplicación ψ,
en la matriz BA aparecen r columnas que resultan ser los primeros r vectores
de la base canónica de Rm y en este caso una generalización inmediata del
cálculo anterior prueba que en BA existen r filas l.i. Ahora bien, si la matriz
BA tiene r filas l.i. entonces la matriz A debe tener al menos también r filas
l.i. Por lo siguiente: Las filas de BA son combinaciones lineales de las filas
de A; luego el subespacio de Rn generado por las filas de BA está contenido
en el subespacio generado por las filas de A y por lo tanto su dimensión debe
ser menor o igual a la de éste. En conclusión, una matriz debe tener al menos
tantas filas l.i. como columnas l.i. Pero ahora se aplica el mismo argumento a
la llamada matriz transpuesta. Si en general A es una matriz de orden mxn
entonces su transpuesta, A? , es una matriz de orden nxm que tiene por filas las
columnas de A (y por tanto tiene por columnas las filas de A). Por ejemplo,
para la matriz A que estamos considerando es
 
2 5 1 1
 1 2 1 6 
A? = 
 1 3 2
.
0 
2 4 0 7
Aplicando la conclusión anterior tanto a la matriz A como a su transpuesta

A? sigue que una matriz cualquiera debe tener la misma cantidad maximal de
filas y columnas linealmente independientes.
10.2 Matrices cuadradas

Supongamos ahora que ϕ es un endomorfismo en un espacio V de dimensión
n, ϕ : V 7→ V. Para hablar de matriz asociada deben fijarse también ahora
dos bases de V, una actuando en el dominio de ϕ y otra en el codominio
de ϕ . Estas bases pueden ser distintas o iguales. En cualquier caso la matriz
asociada resultará de orden nxn. Si ϕ es automorfismo entonces el rango de su
matriz asociada será n (y sólo en el caso de automorfismo será n). En este caso
se dice que la matriz es no singular. Por ejemplo, consideremos la aplicación
identidad, idV , idV (A) = A para todo vector A en V, que es obviamente un
automorfismo. Calculemos su matriz asociada supuesto que hemos fijado la
misma base, digamos {V1 , · · · , Vn }, en el dominio y codominio de idV . Para
i = 1, 2, · · · , n es idV (Vi ) = Vi . Las componentes de los vectores de la base
con respecto a la misma base son claramente los vectores de la base canónica
de Rn . Luego la matriz asociada a idV resulta en este caso la llamada matriz
identidad:  
1 0 ··· 0
 0 1 ··· 0 
 
I= .... .. .. .
 . . . . 
0 0 ··· 1
Tener presente que la matriz identidad está asociada a la aplicación identidad
siempre y cuando fijemos la misma base en el dominio y codominio de la
aplicación. Es decir, si fijamos bases distintas en el dominio y codominio de la
aplicación identidad entonces su matriz asociada no será la matriz identidad
aunque por cierto será una matriz no singular. Para una matriz no singular
A de orden nxn existe otra matriz de orden nxn, llamada inversa de A, y que
se denota A−1 , tal que AA−1 = A−1 A = I. La matriz A está asociada a un
automorfismo ϕ . La existencia de la matriz inversa proviene a su vez de la
existencia del automorfismo inverso ϕ −1 . Es precisamente su matriz asociada.
Está claro que la matriz inversa es también no singular y (A−1 )−1 = A.
10.3 Estudio matricial de sistemas

El siguiente es un sistema de m ecuaciones con n incógnitas:
a11 x1 + a12 x2 + · · · + a1n xn = c1

a21 x1 + a22 x2 + · · · + a2n xn = c2
.. .. ..
. . .
am1 x1 + am2 x2 + · · · + amn xn = cm
Los coeficientes aij y los términos independientes ci son datos, mientras que
las variables xj son las incógnitas, i = 1, 2, · · · , n, j = 1, 2, · · · , m. Resolver
este sistema significa encontrar valores numéricos que reemplazados en el lugar
de las incógnitas xj verifiquen las m ecuaciones del sistema. Observar que este
sistema se puede escribir en notación matricial: AX = C, donde A es la matriz
de coeficientes, de orden mxn, tal que en su fila i y columna j encontramos
el coeficiente aij , X es el vector columna de incógnitas xj y C es el vector
columna de términos independientes ci . X es un vector columna de Rn y AX
es un vector columna de Rm . La aplicación
ϕ : Rn 7→ Rm , ϕ (X) = AX,
es lineal. En efecto,
ϕ (X1 + X2 ) = A(X1 + X2 ) =
AX1 + AX2 = ϕ (X1 ) + ϕ (X2 )
y
ϕ (cX) = A(cX) = c(AX) = cϕ (X).
Si fijamos las correspondientes bases canónicas en Rn y Rm , entonces la ma-

triz asociada a esta aplicación lineal es precisamente A. Sus columnas son n
vectores de Rm . Denotemos a estos vectores
A1 , A2 , · · · , An .
Recordemos que
ϕ (X) = AX = x1 A1 + x2 A2 + · · · + xn An ,
es decir la aplicación ϕ resulta ser también una combinación lineal de las

columnas de A. Nuestros datos son estos n vectores columna y el vector C.
Por lo tanto este sistema tendrá alguna solución si y sólo si el vector C es

combinación lineal de los vectores A1 , · · · , An , o dicho de otra manera, si
C ∈ Imϕ =< A1 , · · · , An > .
Una base de este subespacio de Rm está formado por un conjunto maximal

de vectores columna l.i. de A. La cantidad, digamos r, de vectores que la
componen es tanto la dimensión de Imϕ como el rango de la matriz A. Por
lo tanto
C ∈ Imϕ
si y sólo si el rango de la llamada matriz ampliada, esto es la matriz cuyas

columnas son {A1 , A2 , · · · , An , C}, es también r.
Ahora bien, en el caso de existencia de soluciones, puede darse que ésta sea
única o no. Analicemos más en detalle esta situación. Supongamos que X0 es
una solución del sistema, es decir
ϕ (X0 ) = C.
N ϕ es un subespacio del dominio de ϕ , Rn . Si S es un vector arbitrario de

N ϕ , es
ϕ (S) = AS = O.
Luego
ϕ (X0 + S) = ϕ (X0 ) + ϕ (S) = C + O = C
y por lo tanto X0 + S es otra solución del sistema.
Recı́procamente, si X1 es una solución del sistema entonces
X1 − X0 ∈ N ϕ
pues
ϕ (X1 − X0 ) = ϕ (X1 ) − ϕ (X0 ) = C − C = O.
Por consiguiente
X1 = X0 + (X1 − X0 ).
Ası́ hemos probado que
toda solución del sistema es suma de una solución fija y de un vector

arbitrario de N ϕ .
Significa que el conjunto de todas las soluciones del sistema es una variedad
lineal de Rn , esto es la suma de un vector fijo de Rn y un subespacio de Rn ,
N ϕ . De esta manera, si
N ϕ = {O}
entonces habrá una única solución del sistema. Si, en cambio,
dim N ϕ > 0,
habrá infinitas soluciones. Ahora bien, como
n = dim N ϕ + dim Imϕ = dim N ϕ + r,
sigue que
dim N ϕ = 0 si y sólo si r = n.
La discusión anterior nos permite enunciar el llamado
Teorema de Roché Frobenius Un sistema de ecuaciones lineales tiene al-

guna solución si y sólo si el rango de la matriz de coeficientes del sistema
es igual al rango de la matriz ampliada. La solución será única si este valor
común del rango es igual al número de incógnitas. Si en cambio el valor del
rango es estrictamente menor que el número de incógnitas entonces habrá in-
finitas soluciones.
Observar que este teorema es puramente teórico, permite determinar si un

sistema tiene solución o no, si ésta es única o no, pero en el caso de existencia de
soluciones no da ningún método para calcularlas. A continuación estudiaremos
un método para obtener las soluciones.
10.4 Método de Gauss para matrices no singu-

lares
Supondremos primero que la matriz A es de orden nxn y no singular. En este
caso sabemos que A tiene una matriz inversa A−1 . Este sistema debe tener
solución porque el rango de A es n y el rango de la matriz ampliada es también
n porque en Rn no puede haber más de n vectores l.i.; además la solución es
única porque n es el número de incógnitas. La solución X satisface
AX = C.
Luego
A−1 (AX) = (A−1 A)X = IX = X = A−1 C.
Por lo tanto la solución es el producto a izquierda de la matriz inversa de A por

el vector columna de términos independientes. Vemos que la aplicación directa
de este método implica calcular una matriz inversa de otra. No obstante,
veremos en lo que sigue un procedimiento de obtención de la solución que
está sugerido por el cálculo anterior pero que no necesita de la determinación
explı́cita de la matriz inversa de A.
La matriz inversa A−1 es la única matriz tal que A−1 A = I. Ahora bien,
sabemos que multiplicar a izquierda una matriz da por resultado otra matriz
cuyas filas son combinaciones lineales de las filas de aquélla. Por ejemplo, en
el producto   
9 0 2 8 1 0 2 5
 1 4 5 0   1 1 0 3 
  
 0 1 6 0  0 0 1 3 
4 7 0 1 0 1 2 1
la primera fila de la matriz resultado es la siguiente combinación lineal:
9(1, 0, 2, 5) + 0(1, 1, 0, 3) + 2(0, 0, 1, 3) + 8(0, 1, 2, 1) = (9, 8, 36, 59).
La segunda fila de la matriz resultado es
1(1, 0, 2, 5) + 4(1, 1, 0, 3) + 5(0, 0, 1, 3) + 0(0, 1, 2, 1) = (5, 4, 7, 32).
La tercera fila de la matriz resultado es
0(1, 0, 2, 5) + 1(1, 1, 0, 3) + 6(0, 0, 1, 3) + 0(0, 1, 2, 1) = (1, 1, 6, 21).
Por último, la cuarta fila de la matriz resultado es
4(1, 0, 2, 5) + 7(1, 1, 0, 3) + 0(0, 0, 1, 3) + 1(0, 1, 2, 1) = (11, 8, 10, 42).
Esta forma de operar es ası́ en cualquier producto que se pueda efectuar, sean
las matrices cuadradas o no.
En nuestro caso particular la fila i de la matriz resultado I es la combinación

lineal de todas las filas de A, actuando por coeficientes los correspondientes
elementos de la fila i de la matriz A−1 . Significa que la matriz A es transfor-
mada en la matriz identidad I efectuando combinaciones lineales de sus filas.
Sabiendo esto, intentamos ahora transformar una matriz no singular A en la
matriz identidad en sucesivas etapas y recurriendo sólo a efectuar combina-

ciones lineales de sus filas. Es decir, colocar “unos” en la diagonal principal
y “ceros” fuera de esta diagonal mediante apropiadas combinaciones lineales
de sus filas. Estas consisten en lo siguiente: para colocar un 1 en un lugar de
la diagonal principal necesitaremos multiplicar la fila correspondiente por un
número distinto de 0; para colocar un cero en un lugar fuera de la diagonal
principal necesitaremos hacer una combinación lineal de dos filas; si eventual-
mente aparece un 0 en un lugar de la diagonal principal entonces necesitaremos
intercambiar dos filas. Cualquiera de estas tres acciones corresponde a efec-
tuar una combinación lineal de todas las filas de A o, equivalentemente, a
multiplicar A por su izquierda por una matriz, en este caso no singular. Por
ejemplo, sea  
2 1 3 0
 2 1 0 1 
A=
 0
.
0 4 0 
0 5 0 2
Necesitamos colocar un 1 en el lugar del coeficiente a11 = 2. Para esto multi-
plicamos la primera fila de A por 1/2. Pero observar que esta transformación

1/2 0 0 0
 0 1 0 0 
de A significa multiplicar a izquierda por la matriz M1 = 
 0 0 1 0 .

0 0 0 1
Ası́,  
1 1/2 3/2 0
 2 1 0 1 
M1 A =  0 0
.
4 0 
0 5 0 2
Ahora debemos colocar un 0 en el lugar a21 (= 2) de esta matriz. Para ello
reemplazamos su segunda fila por la siguiente combinación lineal de sus dos
primeras filas:
−2(1, 1/2, 3/2, 0) + 1(2, 1, 0, 1).
Esto significa a su vez multiplicarla a izquierda por la matriz

 
1 0 0 0
 −2 1 0 0 
M2 =   0 0 1 0 .

0 0 0 1
Ası́,  
1 1/2 3/2 0
 0 0 −3 1 
M2 M1 A = 
 0 0
.
4 0 
0 5 0 2
Dado que ya hay ceros en los lugares a31 y a41 de esta matriz pasamos a
operar en su segunda columna. Lo primero que hay que hacer es colocar un
1 en el lugar a22 para después colocar ceros en los lugares que le siguen por
debajo. Pero en este ejemplo a22 = 0 por lo que es imposible transformarlo en
1 multiplicando la fila por cualquier valor. En este caso (y sólo en este caso)
debe intercambiarse la fila por otra fila que le siga por debajo y que tenga un
elemento no nulo en el lugar correspondiente, en este ejemplo la cuarta fila.
Siempre se encontrará una fila por debajo con estas condiciones pues si ası́ no
fuera las dos primeras columnas de esta matriz serı́an l.d., lo que es imposible
pues la matriz de partida A es no singular y las transformaciones que estamos
efectuando sobre ella no alteran este carácter. En efecto, las matrices Mi que
multiplican a izquierda la matriz A son no singulares y producto de matrices
no singulares da por resultado una matriz no singular. Volviendo a nuestro
ejemplo debemos intercambiar entonces la segunda y cuarta filas de la matriz
M2 M1 A. Estaoperación equivale
 a multiplicar a izquierda esta matriz por la
1 0 0 0
 0 0 0 1 
matriz M3 =  
 0 0 1 0  . Ası́,
0 1 0 0
 
1 1/2 3/2 0
 0 5 0 2 
M3 M2 M1 A =   0 0
.
4 0 
0 0 −3 1
Ahora sı́ multiplicamos la segunda fila de esta últimamatriz por 1/5,lo que
1 0 0 0
 0 1/5 0 0 
equivale a multiplicar a izquierda por la matriz M4 =  
 0 0 1 0  . Ası́,
0 0 0 1
 
1 1/2 3/2 0
 0 1 0 2/5 
M4 M3 M2 M1 A =  0 0
.
4 0 
0 0 −3 1
Pasando a la tercera columna (ya que hay ceros en los lugares a32 y a42 )
debemos colocar un 1 en el lugar a33 (= 4), lo que se logra multiplicando la
tercera fila por 1/4. Esto equivale a su vez a multiplicar a izquierda esta última
matriz por la matriz M5 (Cuál es M5 ?) De esta manera
 
1 1/2 3/2 0
 0 1 0 2/5 
M5 M4 M3 M2 M1 A =   0 0
.
1 0 
0 0 −3 1
Para colocar un 0 en el lugar a43 (= −3) reemplazamos la cuarta fila por la
siguiente combinación lineal de la tercera y cuarta filas:
3(0, 0, 1, 0) + 1(0, 0, −3, 1) = (0, 0, 0, 1).

 
1 0 0 0
 0 1 0 0 
Esto equivale a multiplicar a izquierda por la matriz M6 = 
 0
.
0 1 0 
0 0 3 1
Ası́,  
1 1/2 3/2 0
 0 1 0 2/5 
M6 M5 M4 M3 M2 M1 A = 
 0
.
0 1 0 
0 0 0 1
Esta última matriz es un ejemplo de matriz triangular superior pues consta
de ceros debajo de la diagonal principal. Ahora debemos colocar ceros sobre
la diagonal principal empezando por la cuarta columna. Para colocar un 0 en
el lugar a24 (= 2/5) reemplazamos la segunda fila por la siguiente combinación
lineal de la segunda y cuarta filas:
1(0, 1, 0, 2/5) + (−2/5)(0, 0, 0, 1) = (0, 1, 0, 0).
Esto significa multiplicar a izquierda por la matriz

 
1 0 0 0
 0 1 0 −2/5 
M7 =   0 0 1
.
0 
0 0 0 1
Para colocar un 0 en el lugar a13 (= 3/2) de esta última matriz reemplazamos
su primera fila por la siguiente combinación lineal de su primera y tercera filas:
1(1, 1/2, 3/2, 0) + (−3/2)(0, 0, 1, 0) = (1, 1/2, 0, 0),
lo que equivale a multiplicar a izquierda por la matriz

 
1 0 −3/2 0
 0 1 0 0 
M8 =   0 0
.
1 0 
0 0 0 1
Para finalizar este proceso resta poner un 0 en el lugar a12 de esta última
matriz. Para ello reemplazamos su primera fila por la siguiente combinación
lineal de su primera y segunda filas:
1(1, 1/2, 0, 0) + (−1/2)(0, 1, 0, 0) = (1, 0, 0, 0).
Esta operación equivale a multiplicar a izquierda por la matriz

 
1 1/2 0 0
 0 1 0 0 
M9 =  0
.
0 1 0 
0 0 0 1
De esta forma, tenemos que
M9 M8 M7 M6 M5 M4 M3 M2 M1 A = I,
por lo cual M9 M8 M7 M6 M5 M4 M3 M2 M1 = A−1 y por lo tanto
X = M9 M8 M7 M6 M5 M4 M3 M2 M1 C.
Por consiguiente la solución X se obtiene efectuando sobre el vector columna

C el mismo procedimiento aplicado a la matriz A, esto es las mismas com-
binaciones lineales de filas ejercidas por la multiplicación a izquierda de las
matrices M1 , M2 , · · · , M9 . De aquı́, si las mismas combinaciones lineales se
aplican a la matriz ampliada, es decir la matriz A con el agregado del vector
columna C por última columna, entonces una vez que A se transforme median-
te estas combinaciones lineales en la matriz identidad, en la última columna
de la matriz ampliada transformadatendremos
 la solución del sistema.
1
 2 
Por ejemplo, supongamos que C =  
 3  . Luego la matriz ampliada es
4
 
2 1 3 0 1
 2 1 0 1 2 
 .
 0 0 4 0 3 
0 5 0 2 4
Para resolver este sistema de cuatro ecuaciones con cuatro incógnitas reali-
zamos en esta matriz ampliada las mismas combinaciones lineales de filas que
hicimos antes en la matriz A y que transforman a ésta en la matriz identidad.
Las sucesivas etapas son: Colocación de un 1 en el lugar a11 . Se obtiene la

matriz  
1 1/2 3/2 0 1/2
 2 1 0 1 2 
 .
 0 0 4 0 3 
0 5 0 2 4
Colocación de un 0 en los lugares por debajo del 1 colocado en la diagonal.
Se opera con la primera fila y la fila al cual pertenece el coeficiente que ha de
transformarse en 0. Se obtiene la matriz
 
1 1/2 3/2 0 1/2
 0 0 −3 1 1 
 .
 0 0 4 0 3 
0 5 0 2 4
Colocación de un 1 en el lugar a22 . Como aquı́ a22 = 0 debemos antes inter-

cambiar la segunda fila con la cuarta fila. Se obtiene
 
1 1/2 3/2 0 1/2
 0 1 0 2/5 4/5 
 .
 0 0 4 0 3 
0 0 −3 1 1
Colocación de ceros en los lugares a32 y a42 . Se opera en cada caso con la
segunda fila y la fila a la que pertenece el elemento que hay que transformar
en 0. En este ejemplo nada debe hacerse al respecto dado que ya hay ceros en
esos lugares. Se pasa ahora a colocar un 1 en el lugar a33 . Se obtiene
 
1 1/2 3/2 0 1/2
 0 1 0 2/5 4/5 
 .
 0 0 1 0 3/4 
0 0 −3 1 1
Colocación de un 0 en el lugar a43 . Se opera con la cuarta y tercera filas. Se

obtiene  
1 1/2 3/2 0 1/2
 0 1 0 2/5 4/5 
 .
 0 0 1 0 3/4 
0 0 0 1 13/4
Colocación de un 0 en el lugar a24 . Se opera con la segunda y cuarta filas. Se
obtiene  
1 1/2 3/2 0 1/2
 0 1 0 0 −1/2 
 .
 0 0 1 0 3/4 
0 0 0 1 13/4
Colocación de un 0 en el lugar a13 . Se opera con la primera y tercera filas. Se

obtiene  
1 1/2 0 0 −5/8
 0 1 0 0 −1/2 
 .
 0 0 1 0 3/4 
0 0 0 1 13/4
Por último, colocación de un 0 en el lugar a12 . Se opera con la primera y
segunda filas. Se obtiene
 
1 0 0 0 −3/8
 0 1 0 0 −1/2 
 .
 0 0 1 0 3/4 
0 0 0 1 13/4
La solución del sistema es x1 = −3/8, x2 = −1/2, x3 = 3/4, x4 = 13/4.
10.5 Método general de Gauss

Supongamos que ahora debemos resolver un sistema donde m ≤ n, es decir
donde puede haber más incógnitas que ecuaciones. Si las m filas de la matriz
de coeficientes A son linealmente independientes entonces podemos decir que
el sistema tiene solución. En efecto, el rango de A es en este caso m y por
lo tanto en A debe haber también m columnas l.i. Por otro lado, la matriz
ampliada también debe tener rango m y no más porque es una matriz de m
filas, y observar que en general el rango de una matriz ampliada no puede ser
menor que el rango de la matriz original ya que la cantidad de columnas l.i
de ésta lo son también de la matriz ampliada. Por lo tanto, el teorema de
Roché Frobenius nos permite decir en general que si un sistema lineal de m
ecuaciones con n incógnitas es tal que las m filas de la matriz de coeficientes
son l.i. entonces el sistema tiene solución. Si n = m la solución es única
y estamos en el caso considerado anteriormente. Si n > m entonces habrá
infinitas soluciones que, como ya sabemos, serán de la forma X0 + S, donde X0
es una solución particular del sistema y S es un elemento arbitrario en N ϕ ,
es decir que S satisface AS = O. Como
m = rango de A = dim Imϕ
y
n = dim N ϕ + dim Imϕ
sigue que
dim N ϕ = n − m.
Luego una base de N ϕ consiste en n − m vectores l.i. de ese subespacio y por

lo tanto cualquier solución del sistema se escribe como una solución particular
X0 más una combinación lineal, con escalares reales arbitrarios, de n − m
soluciones l.i. del llamado sistema homogéneo asociado
AX = O.
Consideremos por ejemplo el siguiente sistema:

 
µ ¶ x1 µ ¶
1 3 −5 1   x 2

= 4 . (7)
2 5 −2 4  x3  6
x4
En este ejemplo las dos filas de la matriz de coeficientes son l.i. pues una fila
no es múltiplo de la otra. Luego hay solución, y como hay cuatro incógnitas
sigue que el conjunto de soluciones constituye una variedad lineal de dimensión
2 = 4 − 2 incógnitas, a saber el conjunto de R4 de la forma
X0 + aS1 + bS2 ,
donde X0 es una solución arbitraria del sistema (7), a y b son reales arbitrarios
y S1 y S2 son dos soluciones l.i. del sistema homogéneo
 
µ ¶ x 1 µ ¶
1 3 −5 1  
 x2  = 0 . (8)
2 5 −2 4  x3  0
x4
Determinemos una solución arbitraria del sistema (7). Como la matriz de

coeficientes tiene dos ( y no más ) columnas l.i. habrá 2 = 4 − 2 incógnitas
a las que podremos asignarle valores arbitrarios y resolver después en las dos
incógnitas restantes. En este caso las dos primeras columnas de la matriz de
coeficientes son l.i. por lo cual podemos asignar un valor arbitrario a cada una
de las incógnitas x3 y x4 . Es obvio que lo más práctico es asignarle a ambas
valor nulo para luego resolver
µ ¶µ ¶ µ ¶
1 3 x1 4
= .
2 5 x2 6
Este es un sistema “cuadrado” que se resuelve por la forma ya conocida, esto

es operando como ya se sabe sobre la matriz ampliada
µ ¶
1 3 4
. (9)
2 5 6
Determinamos ahora dos soluciones l.i. del sistema homogéneo (8). Aquı́
también debemos asignarle valores a x3 y x4 pero ahora no podemos asignarles
valores nulos a ambos pues en este caso obtendrı́amos también la solución nula
para x1 y x2 , y la solución nula no es l.i. Procederemos ası́: para obtener la
primera solución le damos a x3 el valor −1 y a x4 el valor nulo para luego
resolver el sistema µ ¶µ ¶ µ ¶
1 3 x1 −5
= ,
2 5 x2 −2
que se resuelve operando sobre la matriz ampliada
µ ¶
1 3 −5
. (10)
2 5 −2
Para obtener la segunda solución le damos a x3 el valor nulo y a x4 el valor−1
para luego resolver el sistema
µ ¶µ ¶ µ ¶
1 3 x1 1
= ,
2 5 x2 4
que se resuelve operando sobre la matriz ampliada
µ ¶
1 3 1
. (11)
2 5 4
Estas dos soluciones del sistema homogéneo (8) son efectivamente l.i. porque
son de la forma
(a1 , b1 , −1, 0) y (a2 , b2 , 0, −1)
y ya sus dos últimas componentes lo son.
Ahora bien, las tres matrices (9), (10) y (11) sobre las µ
que tenemos
¶ que
1 3
operar tiene en común la matriz cuadrada de coeficientes que es
2 5
la que determina las operaciones a realizar, por lo que claramente conviene
operar conjuntamente sobre la siguiente matriz ampliada del sistema (7):
µ ¶
1 3 −5 1 4
.
2 5 −2 4 6
Como ya sabemos, las sucesivas transformaciones son las siguientes:
µ ¶ µ ¶
1 3 −5 1 4 1 3 −5 1 4
→ →
0 −1 8 2 −2 0 1 −8 −2 2
µ ¶
1 0 19 7 −2
.
0 1 −8 −2 2
Luego cualquier solución del sistema (7) es
(−2, 2, 0, 0) + a(19, −8, −1, 0) + b(7, −2, 0, −1),
con a y b números reales arbitrarios.

Una observación a tener en cuenta es la siguiente: aquéllas incógnitas en
las que se resuelva el sistema deben corresponderse a columnas l.i. de la matriz
de coeficientes. En el ejemplo anterior se resolvió el sistema en las incógnitas
x1 y x2 y eso fue correcto porque las dos primeras columnas de la matriz de
coeficientes eran l.i. Pero no es necesario darse cuenta de esta situación antes
de comenzar el procedimiento. El proceso mismo detecta las columnas l.i. Por
ejemplo, consideremos el sistema de tres ecuaciones con seis incógnitas que da
lugar a la siguiente matriz ampliada:
 
1 0 1 2 −1 3 0
 2 −1 1 4 0 3 −2  .
0 −2 −2 0 5 0 1
Comenzamos a transformarla de la manera ya conocida:

   
1 0 1 2 −1 3 0 1 0 1 2 −1 3 0
 0 −1 −1 0 2 −3 −2  →  0 −1 −1 0 2 −3 −2  →
0 −2 −2 0 5 0 1 0 −2 −2 0 5 0 1
   
1 0 1 2 −1 3 0 1 0 1 2 −1 3 0
 0 1 1 0 −2 3 2  →  0 1 1 0 −2 3 2  .
0 −2 −2 0 5 0 1 0 0 0 0 1 6 5
En esta etapa es imposible colocar un 1 en el lugar a33 . Lo que ocurre es
que las tres primeras columnas de la matriz de coeficientes son l.d. Entonces
hay que intercambiar la tercera columna con la quinta columna o la sexta
columna (no con la cuarta pues seguirı́a habiendo un 0 en el lugar a33 ni
con la séptima, que es la de términos independientes). Pero cuidado! A la
hora de considerar las incógnitas habrá que tener presente su correspondiente
intercambio. Intercambiamos tercera con quinta columnas y continuamos el
proceso ya explicado:
   
1 0 −1 2 1 3 0 1 0 −1 2 1 3 0
 0 1 −2 0 1 3 2  →  0 1 0 0 1 15 12  →
0 0 1 0 0 6 5 0 0 1 0 0 6 5
 
1 0 0 2 1 9 5
 0 1 0 0 1 15 12  .
0 0 1 0 0 6 5
El sistema se ha resuelto en las incógnitas x1 , x2 y x5 . Las soluciones son por
lo tanto de la forma
(5, 12, 0, 0, 5, 0) + a(2, 0, 0, −1, 0, 0) + b(1, 1, −1, 0, 0, 0) + c(9, 15, 0, 0, 6, −1).
Consideremos ahora el caso más general, esto es un sistema de m ecuaciones

con n incógnitas AX = C del cual no sabemos previamente si tiene o no
soluciones. Sin preocuparnos por esta cuestión aplicamos el procedimiento
conocido de resolución que consiste primero en transformar la matriz amplia-
da de forma que en su diagonal principal aparezcan “unos” y que en los lugares
por debajo de la diagonal principal aparezcan ceros (triangularizar la matriz).
Esto va a ser posible mientras haya filas l.i. Si todas las filas de A son l.i. este
proceso se continuará hasta la última fila, habrá soluciones y éstas se obtendrán
como se explicó anteriormente. Si no todas las filas de A son l.i. entonces
aparecerá en alguna etapa una fila de ceros en la matriz transformada de A.
Si el último coeficiente de esta fila en la transformada de la matriz ampliada,
es decir el correspondiente al vector columna de términos independientes, no
es cero entonces el sistema no tiene soluciones y por lo tanto el proceso se
termina. Si en cambio este coeficiente es cero el procedimiento se continúa
previa eliminación de esta fila completa de ceros. Si en ningún momento del
procedimiento se presenta la situación de bloqueo anterior y por lo tanto se
logra triangularizar a la matriz A, entonces el sistema tiene solución, una o
infinitas, y éstas se obtienen de la manera ya sabida.
Ejemplos
Se parte como siempre de la matriz ampliada del sistema.
   
1 3 −1 1 1 1 3 −1 1 1
 2 1 3 5 
2   0 −5 5 3 0 
 → →
 1 −1 3 2 3   0 −4 4 1 2 
4 1 7 −3 7 0 −11 11 −7 3
 
1 3 −1 1 1
 0 1 −1 −3/5 0 
 .
 0 0 0 −7/5 2 
0 0 0 −68/5 3
En este punto ya podrı́amos advertir que el sistema es incompatible. Recorde-
mos que la transformación de estas matrices ampliadas equivale a multiplicar a
izquierda por matrices no singulares, en este caso de orden 4x4. Esto conduce
siempre a obtener matrices transformadas que se corresponden con sistemas
equivalentes al inicial, es decir sistemas que tiene solución si y sólo si lo tiene
aquél, y en este caso con las mismas soluciones. En este ejemplo el sistema
inicial es equivalente al siguiente:
1x1 + 3x2 + (−1)x3 + 1x4 = 1

0x1 + 1x2 + (−1)x3 + (−3/5)x4 = 0
0x1 + 0x2 + 0x3 + (−7/5)x4 = 2
0x1 + 0x2 + 0x3 + (−68/5)x4 = 3
De la tercera ecuación se obtiene
x4 = −10/7
y de la cuarta ecuación se obtiene
x4 = −15/68 6= −10/7,
por lo que estas dos ecuaciones son incompatibles. Pero supongamos que no
advertimos esta incompatibilidad y continuamos el proceso. Este se continúa
intercambiando tercera y cuarta columnas (hay ceros en los lugares a33 y a43 )
y transformando en 1 el coeficiente a33 = −7/5. Queda
   
1 3 1 −1 1 1 3 1 −1 1
 0 1 −3/5 −1 0   
  →  0 1 −3/5 −1 0 .
 0 0 1 0 −10/7   0 0 1 0 −10/7 
0 0 −68/5 0 3 0 0 0 0 −115/7
La última fila muestra la incompatibilidad del sistema. Ocurre que la cuarta

fila de la matriz de coeficientes es combinación lineal de sus tres primeras filas
l.i. Luego su rango es tres mientras que el rango de la matriz ampliada es
cuatro, sus cuatro filas por un lado, y sus columnas primera, segunda, tercera
y quinta por otro lado, son l.i.
Apliquemos ahora el procedimiento al siguiente sistema de 5 ecuaciones con

6 incógnitas:  
1 3 4 1 1 0 2
 2 1 3 5 2 3 −4 
 
 3 4 7 6 3 3 −2 
 →
 1 −1 0 2 3 −1 −5 
4 1 5 −3 7 −10 1
 
1 3 4 1 1 0 2
 0 −5 −5 3 0 3 −8 
 
 0 −5 −5 3 0 3 −8 →
 
 0 −4 −4 1 2 −1 −7 
0 −11 −11 −7 3 −10 −7
 
1 3 4 1 1 0 2
 0 1 1 −3/5 0 −3/5 8/5 
 
 0 0 0 0 0 0 0 .
 
 0 0 0 −7/5 2 −17/5 −3/5 
0 0 0 −68/5 3 −83/5 53/5
La tercera fila se elimina. Ha dado una fila de ceros porque la tercera fila de la
matriz ampliada es combinación lineal de sus dos primeras filas. A continuación
se hace necesario intercambiar tercera con (por ejemplo) cuarta columnas para
evitar el cero en el lugar a33 . Esto ha sucedido porque la tercera columna de
la matriz de coeficientes es combinación lineal de sus dos primeras columnas.
Por lo tanto el sistema inicial es equivalente al siguiente:
 
x1  
 x2  2
 
 x3   8/5 
A1   
 x4  =  −3/5  ,

 
 x5  53/5
x6
donde  
1 3 1 4 1 0
 0 1 −3/5 1 0 −3/5 
A1 = 
 0
.
0 −7/5 0 2 −17/5 
0 0 −68/5 0 3 −83/5
El proceso continúa de la siguiente manera:
 
1 3 1 4 1 0 2
 0 1 −3/5 1 0 −3/5 8/5 
 →
 0 0 1 0 −10/7 17/7 3/7 
0 0 −68/5 0 3 −83/5 53/5
 
1 3 1 4 1 0 2
 0 1 −3/5 1 0 −3/5 8/5 
 .
 0 0 1 0 −10/7 17/7 3/7 
0 0 0 0 −115/7 115/7 115/7
Se debe intercambiar ahora cuarta con quinta columnas. Esto ya era previ-
sible, dado que la cuarta columna de esta última matriz, es decir la tercera
de la matriz de coeficientes inicial, es combinación lineal de las dos primeras
columnas. Se hubiera evitado este segundo intercambio si en el primero se

afectaban las columnas tercera y quinta en vez de tercera y cuarta. Se muestra
entonces en esta etapa que el sistema inicial es equivalente al siguiente:
 
x1  
 x2  2
 
 x4   8/5 
A2   
 x5  =  3/7  ,

 
 x3  115/7
x6
donde  
1 3 1 1 4 0
 0 1 −3/5 0 1 −3/5 
A2 = 
 0
.
0 1 −10/7 0 17/7 
0 0 0 −115/7 0 115/7
Se obtiene ahora la matriz ampliada triangularizada
 
1 3 1 1 4 0 2
 0 1 −3/5 0 1 −3/5 8/5 
 .
 0 0 1 −10/7 0 17/7 3/7 
0 0 0 1 0 −1 −1
En este punto ya podemos decir que el sistema tiene soluciones. Tanto la matriz
de coeficientes como la matriz ampliada iniciales tienen rango cuatro. Sus filas
primera, segunda, cuarta y quinta son l.i., ası́ como sus columnas primera,
segunda, cuarta y quinta (la coincidencia es casualidad, podrı́a darse en otro
caso que otras cuatro columnas fueran l.i.). Dado que hay seis incógnitas,
las soluciones constituyen una variedad lineal de dimensión dos. Como ya se
sabe, se resuelve entonces en las incógnitas x1 , x2 , x4 y x5 , transformando la
submatriz cuadrada principal en matriz identidad:
   
1 3 1 0 4 1 3 1 3 0 0 4 0 4
 0 1 −3/5 0 1 −3/5 8/5   0 1 0 0 1 0 1 
 → →
 0 0 1 0 0 1 −1   0 0 1 0 0 1 −1 
0 0 0 1 0 −1 −1 0 0 0 1 0 −1 −1
 
1 0 0 0 1 0 1
 0 1 0 0 1 0 1 
 .
 0 0 1 0 0 1 −1 
0 0 0 1 0 −1 −1
Las soluciones son de la forma
(1, 1, 0, −1, −1, 0) + a(1, 1, −1, 0, 0, 0) + b(0, 0, 0, 1, −1, −1).

11 Producto escalar
Sea V un espacio vectorial distinto del espacio nulo. Un producto escalar es
una operación entre vectores de V dada por la evaluación de una forma bilineal
ϕ , simétrica y definida positiva. Esto es
A · B = ϕ (A, B),
donde ϕ : V × V 7→ R, tiene las siguientes propiedades:
• ϕ (a1 A1 + a2 A2 , B) = a1 ϕ (A1 , B) + a2 ϕ (A2 , B).
• ϕ (A, b1 B1 + b2 B2 ) = b1 ϕ (A, B1 ) + b2 ϕ (A, B2 ).
• ϕ (A, B) = ϕ (B, A).
• ϕ (C, C) > 0,
cualesquiera sean tanto los vectores A, A1 , A2 , B, B1 , B2 en V como los escalares

reales a1 , a2 , b1 , b2 y para todo vector C no nulo.
Un espacio vectorial V donde hay definido un producto escalar se

llama espacio euclı́deo.
La longitud o norma de un vector se define como
kAk = (A · A)1/2 .
La norma de un vector tiene las siguientes propiedades
• kAk ≥ 0 y kAk = 0 si y sólo si A = 0.
• kaAk = |a|kAk.
• |A · B| ≤ kAkkBk (Desigualdad de Cauchy-Schwarz).
• kA + Bk ≤ kAk + kBk (Desigualdad de Minkowsky).
En la desigualdad de Cauchy-Schwarz se da la igualdad si y sólo si A y B son

linealmente dependientes. En la desigualdad de Minkowsky se da la igualdad
si y sólo si A = cB con c ≥ 0.
11 Producto escalar 145
Dos vectores A y B de un espacio euclı́deo se dicen ortogonales o

perpendiculares si A · B = 0.
Observar que
kA + Bk2 = (A + B) · (A + B) = A · A + 2A · B + B · B.
Una consecuencia inmediata de esta igualdad es el llamado
Teorema de Pitágoras Si A y B son ortogonales entonces
kA + Bk2 = kAk2 + kBk2 .
Si S es un conjunto de vectores de V entonces se define S ⊥ (se

lee S ortogonal) al conjunto de todos los vectores de V que son
ortogonales a cada elemento de S.
Es fácil probar que S ⊥ es siempre un subespacio de V, es decir toda combi-

nación lineal de dos vectores de S ⊥ está también en S ⊥ . Dos subconjuntos de
V se dicen ortogonales si cada elemento de uno de ellos es ortogonal a cada
elemento del otro.
Proposición Si V = U ⊕ W, y U, W son subespacios ortogonales entonces

U = W ⊥ y W = U ⊥.
Demostración: Sea A un vector en U. Como A es ortogonal a todo vector de

W, sigue que A está en W ⊥ y luego U ⊆ W ⊥ . Sea ahora B un vector en W ⊥ .
Como V es suma directa de U y W, B se puede escribir como
B = B1 + B2 , B1 ∈ U, B2 ∈ W.
Luego
0 = B · B2 = (B1 + B2 ) · B2 = B1 · B2 + B2 · B2 = 0 + B2 · B2 ,
y por lo tanto B2 = O y B = B1 , por lo cual B está en U y W ⊥ ⊆ U. De esta

manera U = W ⊥ . La otra igualdad se prueba en forma análoga.
Si V = U ⊕ U ⊥ entonces todo vector de V se escribe de manera única como

suma de dos vectores ortogonales,
A = A1 + A2 , A1 ⊥ A2 .
En este caso A1 y A2 se llaman proyecciones ortogonales de A sobre

U y U ⊥ , respectivamente.
Si U es una recta vectorial entonces U ⊥ es un espacio suplementario de U, es

decir
V = U ⊕ U ⊥.
En efecto, si U =< A > y C es un vector en V entonces
A2 = C − [C · A/A · A]A
es un vector ortogonal a A, como se verifica fácilmente haciendo su producto

escalar, y
C = [C · A/A · A]A + A2 ,
por lo que C se escribe como la suma de un vector en U =< A > y otro en
U ⊥ . Si A tiene norma 1, es decir A · A = 1, entonces la proyección de C sobre
< A > es [C · A]A. Significa que en este caso la longitud del vector proyectado
es precisamente el producto escalar C · A.
En Rn se puede definir el siguiente producto escalar, que llamaremos pro-

ducto escalar canónico y que convierte a Rn en el espacio euclı́deo E n . Si
A = (a1 , a2 , · · · , an ), B = (b1 , b2 , · · · , bn ), definimos
A · B = a1 b1 + a2 b2 + · · · + an bn .
Se prueba fácilmente que esta operación es efectivamente un producto escalar.

En este caso la norma de un vector A es
kAk = (a21 + a22 + · · · + a2n )1/2 .
El concepto de vectores ortogonales es el ya conocido de la geometrı́a euclideana

del plano, es decir vectores que forman entre ellos un ángulo de 90 grados. Si
C yA son vectores de norma 1 entonces la proyección de C sobre A es el
coseno del ángulo comprendido. Luego si ahora C y A son vectores no nulos
cualesquiera, C/kCk y A/kAk son vectores de norma 1 y por lo tanto
[C/kCk] · [A/kAk] = cos α,
donde α es el ángulo comprendido entre ellos y de aquı́
C · A = kCkkAk cos α.
Pero importa aclarar que estos conceptos y fórmulas son válidos para este
producto escalar en particular, no para cualquier otro producto escalar.
En un espacio vectorial de dimensión n pueden definirse infinitos productos

escalares. No obstante, veremos que estos infinitos espacios euclı́deos resul-
tantes son isomorfos al espacio E n .
Dos espacios euclı́deos V y U se dicen isomorfos si existe entre ellos

una aplicación lineal biyectiva ϕ que respeta el producto escalar,
es decir, si A y B son dos vectores cualesquiera de V entonces
A · B = ϕ (A) · ϕ (B).
De paso, veremos la expresión general que tiene todo producto escalar en un

espacio euclı́deo V de dimensión n.
Sea {B1 , B2 , · · · , Bn } una base de V tal que Bi · Bj = aij . Sean A y B dos

vectores arbitrarios de V,
A = a1 B1 + a2 B2 + · · · + an Bn ,
C = c1 B1 + c2 B2 + · · · + cn Bn .
Entonces
A·C =
a1 c1 (B1 · B1 ) + a1 c2 (b1 · B2 ) + · · · + a1 cn (B1 · Bn )+
a2 c1 (B2 · B1 ) + a2 c2 (B2 · B2 ) + · · · + a2 cn (B2 · Bn )+
..
.
an c1 (Bn · B1 ) + an c2 (Bn · B2 ) + · · · + an cn (Bn · Bn ) =
X
aij ai cj ,
i,j
que en notación matricial se puede escribir

 
c1
 c2 
 
(a1 , a2 , · · · , an )M  .. ,
 . 
cn
o bien
(a1 , a2 , · · · , an )M (c1 , c2 , · · · , cn )? ,
donde M es la matriz de coeficientes aij = Bi · Bj . Significa que una vez cono-
cido el producto escalar entre los elementos de una base queda determinado el
producto escalar entre vectores cualesquiera del espacio mediante la expresión

anterior. La matriz M asociada al producto escalar depende tanto de este
producto escalar como de la base que se ha elegido para expresar los vectores
del espacio por sus componentes. Esta matriz debe reunir ciertas condiciones;
es obviamente una matriz cuadrada y simétrica dado que
aij = Bi · Bj = Bj · Bi = aji para 1 ≤ i, j ≤ n.
Además debe satisfacer que si A es un vector de componentes
(a1 , a2 , · · · , an ), A 6= O,
entonces
kAk2 = A · A = (a1 , a2 , · · · , an )M (a1 , a2 , · · · , an )? > 0.
Una matriz que satisface estas propiedades se llama definida positiva. Una
condición necesaria y suficiente para que una matriz simétrica M , de coefi-
cientes aij , sea definida positiva es que
¯ ¯
¯ ¯ ¯ a11 a12 a13 ¯
¯ a11 a12 ¯ ¯ ¯
a11 > 0, ¯¯ ¯ > 0, ¯ a12 a22 a23 ¯ > 0, · · · , |M | > 0.
a12 a22 ¯ ¯
¯ a13 a23 a33
¯
¯
Es decir, los determinantes de todos los menores principales de M deben ser

positivos.
Toda matriz simétrica definida positiva define un producto escalar

en el espacio vectorial Rn .
Ahora bien, en todo espacio euclı́deo existen bases ortogonales y ortonormales.

Este resultado es consecuencia de que una recta vectorial tiene un subespacio
ortogonal que es suplementario de él. Ası́, en un espacio euclı́deo de dimensión
1 toda base es obviamente ortogonal. En un espacio euclı́deo V de dimensión
2 se elige un vector no nulo. El subespacio ortogonal de la recta que genera
es un subespacio de dimensión 1 y luego un vector no nulo aquı́ con el vector
anterior forman una base ortogonal de V. Por lo tanto todo espacio euclı́deo de
dimensión 2 tiene una base ortogonal. En un espacio euclı́deo V de dimensión 3
el subespacio ortogonal a una recta tiene dimensión 2; luego una base ortogonal
aquı́ junto con un vector base de la recta vectorial forman una base ortogonal de
V. Y ası́ siguiendo. O sea que mediante un procedimiento inductivo se prueba
que en todo espacio euclı́deo de dimensión finita hay bases ortogonales. Por
consiguiente hay también bases ortonormales, que se consiguen multiplicando
los vectores ortogonales por el escalar inverso de su norma.
Si en un espacio euclı́deo V se elige una base ortogonal para expresar los

vectores mediante sus componentes entonces es claro que la matriz M asociada
al producto escalar resulta una matriz diagonal, es decir si M tiene coeficientes
aij , es aij = 0 si i 6= j. Si la base elegida es ortonormal entonces la matriz
asociada resulta la matriz identidad I. Luego en este caso el producto escalar
toma la forma
(a1 , a2 , · · · , an )I(c1 , c2 , · · · , cn )? =
a1 c1 + a2 c2 + · · · + an cn ,
que es el producto escalar que define el espacio E n .
Luego todo espacio euclı́deo V de dimensión n es isomorfo a E n .
Basta expresar los vectores de V mediante componentes referidas a una base

ortonormal. Cabe aclarar que cuando se cambia de base el producto escalar no
cambia. Sólo se modifica su expresión de cálculo pero no el resultado de este
cálculo. Supongamos que {V1 , V2 , · · · , Vn } es una base de V, no necesariamente
ortogonal, y que M es la matriz asociada al producto escalar definido en V con
respecto a esta base. Luego si A y C son dos vectores de V de componentes
(a1 , a2 , · · · , an ) y (c1 , c2 , · · · , cn ), respectivamente, tenemos que
A · C = (a1 , a2 , · · · , an )M (c1 , c2 , · · · , cn )? .
Supongamos ahora que {B1 , B2 , · · · , Bn } es una base ortogonal de V. Existe

una matriz no singular P tal que si (x1 , x2 , · · · , xn ) son las componentes de un
vector arbitrario X de V respecto a la base {V1 , V2 , · · · , Vn } y (x01 , x02 , · · · , x0n )
son las componentes del mismo vector con respecto a la base {B1 , B2 , · · · , Bn }
entonces
(x1 , x2 , · · · , xn ) = (x01 , x02 , · · · , x0n )P.
En particular, el vector de componentes de B2 es (0, 1, 0, · · · , 0) y en general

el vector de componentes de Bi será la n-upla compuesta por ceros, salvo un
1 en su lugar i. Pero multiplicar estas n-uplas (filas) a izquierda de P da por
resultado la primera fila de P , la segunda fila de P, · · · , la i-ésima fila de P ,
respectivamente. Significa que las filas de la matriz P son las componentes de

la base ortogonal referidas a la base dada inicialmente {V1 , V2 , · · · , Vn }.
Por otra parte,
A · C = (a01 , a02 , · · · , a0n )P M P ? (c01 , c02 , · · · , c0n )? .
Esta última es la expresión del mismo producto escalar cuando las componentes
de los vectores se refieren a la base ortogonal {B1 , B2 , · · · , Bn } y por lo tanto
su matriz asociada es ahora
D = P M P ?,
que por lo tanto debe ser necesariamente diagonal. Si dij es el coeficiente que
está en la fila i y columna j de D entonces
dij = Bi · Bj .
Este producto escalar es 0 si i 6= j y es igual akBi k2 si i = j. Por lo tanto, la

matriz P es precisamente aquélla que se necesita para transformar la matriz
M en matriz diagonal. Como M es simétrica ocurrirá que la multiplicación de
P por su izquierda la transformará en triangular superior y la multiplicación
de P ? por la derecha de P M transformará a ésta en diagonal. En resumen, la
obtención de P provee de un método para encontrar componentes de una base
ortogonal.
Ejemplo
Supongamos que en R3 tenemos definido el producto escalar dado por la

matriz  
2 1 −1
M = 1 1 −1 
−1 −1 2
cuando se refieren los vectores a la base canónica de R3 . Los vectores de esta
base no son ortogonales para este producto escalar. Encontraremos una base
ortogonal. La matriz P se obtiene de forma que su producto a izquierda de M
triangularice a ésta. La siguiente matriz coloca ceros en los lugares a21 y a31
de M :  
1 0 0
 −1 2 0  .
1 0 2
 
2 1 −1
La matriz producto queda  0 1 −1 . Ahora hay que colocar un cero
0 −1 3
en el lugar a32 de esta matriz. Para eso se la debe multiplicar a izquierda por
la matriz  
1 0 0
 0 1 0 .
0 1 1
Luego la matriz P es
    
1 0 0 1 0 0 1 0 0
 0 1 0   −1 2 0  =  −1 2 0  .
0 1 1 1 0 2 0 2 2
Las tres filas de esta matriz son las componentes de los vectores ortogonales
para el producto escalar considerado. Como la base de referencia es la canónica,
los vectores de R3 de la base ortogonal hallada coinciden con sus vectores
componentes.
12 Determinantes
Sea V un espacio vectorial no nulo. Como ya se ha visto en la unidad de
producto escalar, una forma bilineal es una aplicación
ψ : V × V 7→ R,
lineal en cada componente. Supongamos ahora que V tiene dimensión dos.
La forma bilineal ψ se llama alternada si ψ(A, B) = −ψ(B, A) para

todo par de vectores en V.
Puede probarse fácilmente que esta condición es equivalente a
ψ(A, A) = 0 para todo A ∈ V.
De ahora en adelante ψ denotará una forma bilineal alternada. Observar que

ésta queda determinada por el valor ψ(V1 , V2 ), donde {V1 , V2 } es alguna base
de V. En efecto, si
A = λ1 V1 + λ2 V2 , B = µ1 V1 + µ2 V2 ,
entonces
ψ(A, B) = ψ(λ1 V1 + λ2 V2 , µ1 V1 + µ2 V2 ) = (λ1 µ2 − λ2 µ1 )ψ(V1 , V2 ). (12)
Llamemos ψ0 a la forma bilineal alternada que satisface
ψ0 (V1 , V2 ) = 1.
Entonces queda claro que toda otra ψ será múltiplo de aquélla. Por ejemplo,
si ψ(V1 , V2 ) = a, entonces ψ = aψ0 . Ya que tanto la suma usual de formas
bilineales alternadas como el producto a izquierda por un escalar de una tal
forma también lo son (ejercicio), la conclusión anterior afirma que con estas
operaciones el conjunto de todas las formas bilineales alternadas es un espacio
vectorial de dimensión 1.
Consideremos ahora un endomorfismo
ϕ : V 7→ V.
Es fácil verificar que si ψ es no nula, entonces
(A, B) 7→ ψ(ϕ (A), ϕ (B))

12 Determinantes 153
es una forma bilineal alternada. Luego, por el resultado anterior, esta expresión
debe ser múltiplo de ψ(A, B):
ψ(ϕ (A), ϕ (B)) = dψ(A, B). (13)
Este número d no depende de la forma bilineal ψ que se considere, dado que

toda otra forma bilineal alternada es múltiplo de ψ y por lo tanto la ecuación
(13) queda inalterada si se reemplaza ψ por cualquier otra forma bilineal al-
ternada. Este hecho es importante. El número d depende exclusivamente de
la aplicación lineal ϕ . Se lo llama determinante de ϕ . En vista de que un
endomorfismo tiene, fijada una base del espacio V, una matriz asociada, cabe
preguntarse por la relación entre esta matriz y el determinante del endomor-
fismo.
Sea entonces µ ¶
a11 a12
M=
a21 a22
la matriz asociada a ϕ con respecto a una base {B1 , B2 }. Recordemos que de
acuerdo con la interpretación de M , se tiene
ϕ (B1 ) = a11 B1 + a21 B2 ,

ϕ (B2 ) = a12 B1 + a22 B2 .
Sea ψ una forma no nula. Por (13) sigue que
(a11 a22 − a21 a12 )ψ(B1 , B2 ) = ψ(ϕ (B1 ), ϕ (B2 )) = dψ(B1 , B2 ).
Luego ¯ ¯
¯ a a ¯
d = (a11 a22 − a21 a12 ) = ¯¯ 11 12 ¯.
¯ (14)
a21 a22
El número d también se llama determinante de la matriz M , y se suele sim-
bolizar por det (M ) o bien por |M |. Notar que, en virtud de (12),
¯ ¯
¯ λ 1 µ1 ¯
¯
ψ0 (A, B) = ¯ ¯ = λ1 µ2 − λ2 µ1 ,
λ 2 µ2 ¯
donde ψ0 es la forma definida arriba y (λ1 , λ2 ), (µ1 , µ2 ) son las componentes

de A y B con respecto a la base {V1 , V2 }, respectivamente.
Enunciaremos y probaremos a continuación propiedades del determinante.
(a) Si ϕ es la aplicación identidad entonces su matriz asociada es la matriz

identidad. Sigue inmediatamente de (13) o de (14) que su determinante es 1.
(b) Si ϕ 1 y ϕ 2 son dos endomorfismos de V en V, entonces la composición

ϕ 2 ◦ ϕ 1 es otro endomorfismo. Por (13) su determinante satisface
ψ(ϕ 2 (ϕ 1 (A)), ϕ 2 (ϕ 1 (B))) = det (ϕ 2 ◦ ϕ 1 )ψ(A, B),
donde elegimos como ψ cualquier forma no nula. Por la definición del deter-
minante de ϕ 2 , sigue que
ψ(ϕ 2 (ϕ 1 (A)), ϕ 2 (ϕ 1 (B))) = det (ϕ 2 )ψ(ϕ 1 (A), ϕ 1 (B)).
A su vez, por la definición del determinante de ϕ 1 , se obtiene
ψ(ϕ 1 (A), ϕ 1 (B)) = det (ϕ 1 )ψ(A, B).
Se concluye que
det (ϕ 2 ◦ ϕ 1 ) = det (ϕ 2 ) det (ϕ 1 ).
(c) Si ϕ es un endomorfismo biyectivo, es decir un automorfismo, entonces

existe la aplicación inversa ϕ −1 , que compuesta con ϕ da por resultado la
aplicación identidad. Usando (a) y (b) sigue que
1 = det (ϕ ◦ ϕ −1 ) = det (ϕ ) det (ϕ −1 ).
(d) Sigue inmediatamente de (c) que una matriz no singular, o sea una
matriz asociada a un automorfismo, tiene un determinante no nulo. Recı́pro-
camente, si una matriz es singular, es decir, asociada a un endomorfismo no
biyectivo, entonces tiene un determinante nulo. En efecto, si ϕ : V 7→ V es no
biyectivo y {B1 , B2 } es una base de V, entonces ϕ (B1 ) y ϕ (B2 ) son linealmente
dependientes. La demostración se completa resolviendo el siguiente ejercicio:
Si A y B son linealmente dependientes, entonces ψ(A, B) = 0.
(e) Si M1 es la matriz que se obtiene de M intercambiando dos colum-

nas de ella, entonces det (M1 ) = − det (M ). Esto es evidente a partir de la
ecuación (14). Bajo el marco de endomorfismos, supongamos que M1 y M
están asociadas a ϕ 1 y ϕ , respectivamente. Luego det (M1 ) = det (ϕ 1 ) y
det (M ) = det (ϕ ), y además
ψ(ϕ 1 (B1 ), ϕ 1 (B2 )) = det (ϕ 1 )ψ(B1 , B2 ), (15)

ψ(ϕ (B1 ), ϕ (B2 )) = det (ϕ )ψ(B1 , B2 ), (16)
donde ψ es una forma no nula y {B1 , B2 } es la base de V que se usó para

determinar M . Por la construcción de M1 , se tiene que
ϕ 1 (B1 ) = ϕ (B2 ),
ϕ 1 (B2 ) = ϕ (B1 ).
Luego ψ(ϕ 1 (B1 ), ϕ 1 (B2 )) = ψ(ϕ (B2 ), ϕ (B1 )) = −ψ(B1 , B2 ). Usando (15) y
(16) se deduce que det (ϕ 1 ) = − det (ϕ ).
(f) De (14) se sigue que si M ? es la matriz traspuesta de M , entonces

det (M ? ) = det (M ).
(g) Usando (e) y (f) se prueba que el intercambio de dos filas en una matriz
modifica los valores de los correspondientes determinantes en un cambio de
signo sólamente.
(h) De (13) o de (14) se deduce que el determinante de una matriz con dos
columnas – o filas – iguales es cero. Se prueba también fácilmente que
¯ ¯ ¯ ¯ ¯ ¯
¯ a11 + b11 a12 ¯ ¯ a11 a12 ¯ ¯ b11 a12 ¯
¯ ¯ ¯ ¯+¯ ¯
¯ a21 + b21 a22 ¯ = ¯ a21 a22 ¯ ¯ b21 a22 ¯ ,
¯ ¯ ¯ ¯ ¯ ¯
¯ a11 a12 + b12 ¯ ¯ a11 a12 ¯ ¯ a11 b12 ¯
¯ ¯ ¯ ¯+¯ ¯
¯ a21 a22 + b22 ¯ = ¯ a21 a22 ¯ ¯ a21 b22 ¯ .
Se concluye que
¯ ¯ ¯ ¯
¯ a11 + µa12 a12 ¯¯ ¯ a a12 ¯¯
¯ = ¯¯ 11 ,
¯ a21 + µa22 a22 ¯ a21 a22 ¯
¯ ¯ ¯ ¯
¯ a11 a12 + µa11 ¯¯ ¯ a11 a12 ¯¯
¯ = ¯ ,
¯ a21 a22 + µa21 ¯ ¯ a21 a22 ¯
cualquiera sea el real µ. En vista de (f), lo análogo para filas es también válido.
A continuación veremos la aplicación de los determinantes en la resolución

de un sistema compatible determinado de ecuaciones lineales,
µ ¶ µ ¶
x1 b1
M = .
x2 b2
Sabemos que en el contexto de espacio vectorial esto significa resolver en X =
x1 V1 + x2 V2 la ecuación
ϕ (X) = B,
donde B = b1 V1 + b2 V2 es un vector conocido en V, {V1 , V2 } es una base de V,
y ϕ : V 7→ V es un automorfismo, también conocido, que tiene a
µ ¶
m11 m12
M=
m21 m22
por matriz asociada con respecto a la base dada. Luego la ecuación anterior
se escribe
ϕ (x1 V1 + x2 V2 ) = x1 ϕ (V1 ) + x2 ϕ (V2 ) = B.
Sea ψ0 la forma que satisface ψ0 (V1 , V2 ) = 1. De aquı́
ψ0 (x1 ϕ (V1 ) + x2 ϕ (V2 ), ϕ (V2 )) = x1 ψ0 (ϕ (V1 ), ϕ (V2 )) =

x1 det (M ) = ψ0 (B, ϕ (V2 )),
ψ0 (x1 ϕ (V1 ) + x2 ϕ (V2 ), ϕ (V1 )) = x2 ψ0 (ϕ (V2 ), ϕ (V1 )) =

−x2 det (M ) = ψ0 (B, ϕ (V1 )).
Como M es una matriz no singular, su determinante es no nulo, por lo que es

posible despejar las incógnitas x1 y x2 de las ecuaciones de arriba:
x1 = ψ0 (B, ϕ (V2 ))/ det (M ),

x2 = ψ0 (ϕ (V1 ), B)/ det (M ).
Finalmente, debido a (12), se tiene que

¯ ¯ ¯ ¯
¯ b1 m12 ¯ ¯ m11 b1 ¯
ψ0 (B, ϕ (V2 )) = ¯¯ ¯ , ψ0 (ϕ (V1 ), B) = ¯ ¯
¯ m21 b2 ¯ .
b2 m22 ¯
Estas son las llamadas fórmulas de Cramer.
Si ahora V es un espacio vectorial de dimensión tres, se define una forma

trilineal alternada a una aplicación
ρ : V × V × V 7→ R,
lineal en cada componente y tal que
ρ(A, B, C) = 0
cada vez que entre A, B y C hay al menos dos vectores iguales. El valor
absoluto |ρ(A, B, C)| es independiente de la posición que ocupen los vectores
A, B y C en el argumento de ρ. En cambio, si |ρ(A, B, C)| > 0, su signo
depende de esta posición. De hecho, su signo será el mismo que el de ρ(A, B, C)
si y sólo si la nueva reordenación equivale a una cantidad par (dos en este caso)
de intercambios simples. Por ejemplo,
sig ρ(C, A, B) = sig ρ(A, B, C),

ya que para llegar a la reordenación (C, A, B) a partir de (A, B, C) hace falta

intercambiar A con C y después A con B, o bien intercambiar B con C y
después hacerlo entre A y C. Por otra parte, se tiene por ejemplo que
sig ρ(B, A, C) 6= sig ρ(A, B, C),
ya que una reordenación se obtiene de otra mediante un único intercambio

simple.
Sea ahora {V1 , V2 , V3 } una base de V. Sea
A = a1 V1 + a2 V2 + a3 V3 ,
B = b1 V1 + b2 V2 + b3 V3 ,
C = c1 V1 + c2 V2 + c3 V3 .
Luego ρ(A, B, C) =
a1 b2 c3 ρ(V1 , V2 , V3 ) + a1 b3 c2 ρ(V1 , V3 , V2 ) + a2 b1 c3 ρ(V2 , V1 , V3 ) +

a2 b3 c1 ρ(V2 , V3 , V1 ) + a3 b1 c2 ρ(V3 , V1 , V2 ) + a3 b2 c1 ρ(V3 , V2 , V1 ).
Ahora bien, por ser ρ alternada se tiene
ρ(V1 , V2 , V3 ) = ρ(V2 , V3 , V1 ) = ρ(V3 , V2 , V1 ) =

− ρ(V1 , V3 , V2 ) = −ρ(V2 , V1 , V3 ) = −ρ(V3 , V1 , V2 ).
Luego
ρ(A, B, C) = (a1 b2 c3 + a2 b3 c1 + a3 b2 c1 − a1 b3 c2 − a2 b1 c3 − a3 b1 c2 )ρ(V1 , V2 , V3 ).
Esta última es la fórmula análoga a (12) para el caso de dimensión tres. Ası́
como en el caso de dimensión dos, ella sugiere que la expresión encerrada entre
paréntesis será el valor del determinante de la matriz
 
a1 b1 c1
 a2 b2 c2  .
a3 b3 c3
En general, la definición de determinante de una matriz de orden n, con

n > 3, es similar a la vista aquı́. En este caso debe considerarse una forma
multilineal – o n-lineal – alternada. Se deduce que el valor del determinante de
una matriz se obtiene mediante una suma (de n! sumandos) de productos de
n factores. Estos factores se eligen de cada una de las n columnas, de manera
que no aparezcan dos elementos de una misma fila. Si la reordenación de los

elementos del factor con respecto a la posición original 1, 2, · · · , n supone una
cantidad par de intercambios simples, entonces el signo de este factor coincide
con el signo del factor correspondiente a la posición original. De lo contrario,
tiene un signo opuesto al de aquél.
Es claro que todas las propiedades (a) - (g) vistas para el caso de dimensión
dos, ası́ como las expresiones análogas de las fórmulas de Cramer, siguen va-
liendo en el caso general. Más aún, sus demostraciones son las mismas que
las aquı́ expuestas. En la demostración de (f) se usa la expresión concreta del
cálculo del determinante de una matriz. Pero vale destacar que puede probarse
también recurriendo a la interpretación de determinante de un endomorfismo.
Si se procede de esta manera es necesario entonces caracterizar al endomor-
fismo que tiene por matriz asociada a la traspuesta de otra. A su vez esto
requiere de la herramienta de un producto escalar. En la unidad siguiente
de diagonalización de matrices se presentará una situación similar cuando se
intente caracterizar a los endomorfismos que tienen por matriz asociada a una
matriz simétrica.
En cuanto al cálculo efectivo de un determinante puede decirse que el
método más práctico consiste en triangular superiormente a la matriz median-
te combinaciones lineales de filas que no afecten al valor del determinante. Si
es necesario hacer intercambio de columnas o de filas debe tenerse presente que
el determinante cambia de signo. Por otra parte, el determinante de una ma-
triz triangular es el producto de los elementos de la diagonal principal. Como
ejemplo calcularemos el siguiente determinante:
¯ ¯
¯ 4 6 1 −1 ¯
¯ ¯
¯ 2 1 0 1/2 ¯
d = ¯¯ ¯.
¯
¯ 3 0 0 1 ¯
¯ 1 −1 1 1 ¯
Para transformar la matriz en triangular superior conviene primero intercam-

biar la primera con la tercera columna ya que de esta manera conseguimos dos
ceros en la primera columna. El proceso se detalla a continuación.
d=
¯ ¯ ¯ ¯
¯ 1 6 4 −1 ¯¯ ¯ 1 6 4 −1 ¯
¯ ¯ ¯
¯ 0 1 2 1/2 ¯¯ ¯ 0 1 2 1/2 ¯¯
− ¯¯ ¯
= −¯ =
¯ 0 0 3 1 ¯¯ ¯ 0 0 3 1 ¯¯
¯ 1 −1 1 1 ¯ ¯ 0 −7 −3 2 ¯
¯ ¯ ¯ ¯
¯ 1 6 4 −1 ¯ ¯ 1 6 4 −1 ¯
¯ ¯ ¯ ¯
¯ 0 1 2 1/2 ¯ ¯ ¯
− ¯¯ ¯ = −¯ 0 1 2 1/2 ¯ = −11/2.
0 0 3 1 ¯ ¯ 0 0 3 1 ¯
¯ ¯ ¯ ¯
¯ 0 0 11 11/2 ¯ ¯ 0 0 0 11/6 ¯
13 Diagonalización de matrices
Sea M una matriz cuadrada de orden n, n > 1. Sabemos que esta matriz
representa a un endomorfismo
ϕ : V 7→ V,
donde V es un espacio vectorial de dimensión n, siempre que hayamos fijado

dos bases en V, una de ellas actuando en V como dominio de ϕ , y otra actuando
en V como codominio de ϕ . Es claro que estas dos bases pueden ser la misma
para ambas interpretaciones del espacio V. Por ejemplo, si suponemos que
estas dos bases son iguales a la base {B1 , B2 , · · · , Bn } de V, entonces M es la
matriz asociada al endomorfismo ϕ que actúa de la siguiente manera:
   
y1 x1
 y2   x2 
   
 ..  = M  ..  , (17)
 .   . 
yn xn
de tal forma que y1 B1 + y2 B2 + · · · + yn Bn es el vector imagen de
x 1 B1 + x 2 B2 + · · · + x n Bn
mediante este endomorfismo.
Ahora bien, veamos qué ocurre si M es una matriz diagonal. Para fijar
ideas, supongamos n = 3, pero teniendo siempre presente que los argumentos
empleados en lo que sigue son válidos para cualquier entero n > 1. Sea entonces
 
λ1 0 0
M =  0 λ2 0  .
0 0 λ3
Luego, por (17), y teniendo en cuenta que las componentes de los vectores de
la base B1 , B2 , B3 son (1,0,0),(0,1,0) y (0,0,1), respectivamente, sigue que
ϕ (B1 ) = λ1 B1 , ϕ (B2 ) = λ2 B2 , ϕ (B3 ) = λ3 B3 .
Si M no es diagonal, está claro que lo anterior no va a valer para los vectores

de esta base. Pero podemos preguntarnos si no habrá otra base, digamos
{V1 , V2 , V3 }, para la cual existan reales λ1 , λ2 , λ3 cumpliendo
ϕ (V1 ) = λ1 V1 , ϕ (V2 ) = λ2 V2 , ϕ (V3 ) = λ3 V3 . (18)

13 Diagonalización de matrices 161
Esta pregunta tiene una respuesta relativamente fácil, al menos teóricamente.

Está claro que la respuesta es afirmativa si y sólo si la matriz asociada a ϕ
con respecto a esta nueva base es diagonal. Esta última matriz es de la forma
P −1 M P,
donde P es la matriz, no singular, del cambio de base, esto es, la matriz que
transforma las componentes de un vector de V con respecto a la nueva base
{V1 , V2 , V3 } a las componentes de ese mismo vector con respecto a la base
original {B1 , B2 , B3 }.
La matriz P es precisamente aquélla que tiene por columnas, en el

orden correspondiente, a las componentes de los vectores V1 , V2 , V3
con respecto a la base {B1 , B2 , B3 }.
Si existe P tal que P −1 M P es una matriz diagonal, entonces la matriz M

se dice diagonalizable. Como todas las bases de V están en correspondencia
biunı́voca con todas las matrices no singulares, tenemos el siguiente resultado:
Una matriz cuadrada M , asociada a un endomorfismo ϕ : V 7→ V,

es diagonalizable si y sólo si existe una base de V, {V1 , V2 , V3 }, que
satisface (18).
Un vector A 6= O en V que satisface
ϕ (A) = λA (19)
para algún real λ se llama un autovector de ϕ (o también autovector de la

matriz M ), mientras que el número real λ se llama autovalor de ϕ (o autovalor
de M ). De esta manera el resultado anterior, ahora en general, puede decirse
también ası́.
Una matriz cuadrada M , de orden n, es diagonalizable si y sólo si

tiene n autovectores linealmente independientes.
Observar que las definiciones de autovector y autovalor se refieren en principio

a un endomorfismo ϕ : V 7→ V. En otras palabras, son definiciones indepen-
dientes de cualquier base que elijamos para describir explı́citamente la acción
de ϕ . Dado que todas las matrices de la forma P −1 M P , con P no singular,
están asociadas al mismo endomorfismo, ocurrirá que todas ellas tendrán (de
existir) los mismos autovectores y autovalores. Este hecho también permite
plantear la cuestión que conduce a la obtención de autovectores y autovalores
de una matriz M asociada a un endomorfismo ϕ . Está claro que el planteo
inicial es la ecuación (19). Si A = a1 B1 + a2 B2 + a3 B3 (suponemos otra vez
n = 3) entonces (19) es equivalente a
      
a1 λa1 λ 0 0 a1
M  a2  =  λa2  =  0 λ 0   a2  .
a3 λa3 0 0 λ a3
Si  
m11 m12 m13
M =  m21 m22 m23  ,
m31 m32 m33
entonces esas dos ecuaciones son equivalentes a
    
m11 − λ m12 m13 a1 0
 m21 m22 − λ m23   a2  =  0  . (20)
m31 m32 m33 − λ a3 0
Este sistema lineal de ecuaciones tiene soluciones a1 , a2 , a3 , no todas nulas, si y

sólo si el determinante de la matriz de coeficientes es nulo. Este determinante
resulta un polinomio en λ (aquı́ de grado 3, en general de grado n). Se llama
polinomio caracterı́stico de la matriz M . Todo radica entonces en que este poli-
nomio tenga raı́ces reales. Una raı́z real λ1 de este polinomio será un autovalor
de M . El paso siguiente consiste en obtener los autovectores correspondientes
a este autovalor λ1 . Es decir, obtener las soluciones de (20) reemplazando λ
por λ1 en su matriz de coeficientes. Estas soluciones autovectores forman un
subespacio de V, de dimensión 1 o más, llamado autoespacio de ϕ , o de M .
De este modo se obtienen todos los autovalores y autovectores de M .
Si de allı́ se encuentran tres (en general n) autovectores linealmente

independientes, entonces M es diagonalizable y la matriz P que la
diagonaliza tiene precisamente por columnas a las componentes de
estos autovectores linealmente independientes.
Por el contrario, si no hay tres (en general n) autovectores linealmente indepen-

dientes, entonces M no es diagonalizable.
Ejemplos
1) Hallar los autovalores y autovectores de la matriz

 
2 1 0
M =  0 1 −1  .
0 2 4
Tenemos que ¯ ¯
¯ 2−λ 1 0 ¯
¯ ¯
¯ 0 1 − λ −1 ¯ = (λ − 2)2 (λ − 3).
¯ ¯
¯ 0 2 4−λ ¯
Por consiguiente M tiene 2 autovalores, a saber 2 y 3. El autovalor 2 produce
los autovectores cuyas componentes son solución de
    
0 1 0 a1 0
 0 −1 −1   a2  =  0  .
0 2 2 a3 0
La matriz de coeficientes de este sistema tiene rango 2, y por lo tanto hay

sólo una solución linealmente independiente, por ejemplo (1,0,0). Es decir, el
vector B1 , o cualquier múltiplo no nulo de él, es un autovector de M .
El autovalor 3 produce los autovectores cuyas componentes son solución de
    
−1 1 0 a1 0
 0 −2 −1   a2  =  0  .
0 2 1 a3 0
También esta matriz de coeficientes tiene rango 2. Una solución linealmente

independiente del sistema es (1,1,-2). Luego
B + B2 − 2B3 ,
o cualquier múltiplo no nulo de él, es otro autovector linealmente indepen-

diente con el anterior. En conclusión, en este ejemplo sólo podemos encontrar
dos autovectores linealmente independientes, y por lo tanto la matriz M no es
diagonalizable.
2) Hallar los autovalores y autovectores de la matriz

 
1 1 2
M =  0 5 −1  .
0 0 7
Sabiendo que el determinante de una matriz triangular, como es la anterior,

es el producto de los elementos de su diagonal principal, es muy fácil obtener
sus autovalores. Estos son 1,5 y 7. Procediendo como en 1) resultan los
autovectores linealmente independientes cuyas componentes son (1,0,0),(1,4,0)

y (1,-2,4). Luego esta matriz M es diagonalizable, y por lo tanto
 
1 0 0
P −1 M P =  0 5 0  ,
0 0 7
donde  
1 1 1
P =  0 4 −2  .
0 0 4
El ejemplo 2) anterior muestra un hecho que tiene validez general.
Si una matriz cuadrada tiene r autovalores distintos, entonces sus

r autovectores correspondientes son linealmente independientes.
En particular, si una matriz de orden n tiene n autovalores distin-
tos, entonces es una matriz diagonalizable.
La demostración de esa afirmación se apoya en la siguiente
Proposición Si
A1 , A2 , · · · , Ar , r ≥ 2,
es un conjunto de autovectores linealmente independientes correspondientes a
autovalores distintos entre sı́, entonces toda combinación lineal de ellos, que
no se reduzca a un múltiplo de uno de ellos, no puede ser autovector.
Demostración: Sea
B = a1 A1 + a2 A2 + · · · + ar Ar ,
donde al menos dos coeficientes son no nulos. Si B fuera autovector tendrı́amos
λa1 A1 + · · · + λar Ar = λB = ϕ (B) =

a1 ϕ (A1 ) + · · · + ar ϕ (Ar ) = a1 λ1 A1 + · · · + ar λr Ar .
Como los vectores A1 , · · · , Ar son linealmente independientes y al menos hay

dos coeficientes ai no nulos, la igualdad entre el primer término y el último
término de las ecuaciones anteriores implicarı́a que λ debe ser igual a dos reales
distintos λi , lo que es contradictorio.
Corolario 1 Si
A 1 , · · · , Ar
son autovectores correspondientes a r autovalores distintos entre sı́, entonces

ellos son linealmente independientes.
Demostración: Si r = 1, la afirmación es obvia. Si r > 1, entonces el número

de vectores linealmente independientes entre A1 , · · · , Ar debe ser al menos dos,
porque si hubiera sólo uno con esta condición, los demás serı́an múltiplos de
él y por lo tanto tendrı́an los mismos autovalores. Pero entonces todos deben
ser l.i., ya que si ası́ no sucediera habrı́a uno de ellos combinación lineal de al
menos otros dos, lo que contradice la Proposición anterior.
Corolario 2 Si una matriz de orden n tiene n autovalores distintos entre sı́,

entonces existe una única base constituida por autovectores, salvo multiplicidad
en cada uno de ellos, y por lo tanto es diagonalizable.
Demostración: Aplicando el Corolario 1 sigue que debe haber una base de
autovectores y por lo tanto la matriz es diagonalizable. Todo autovector debe
ser necesariamente un múltiplo de algún vector de esta base, ya que si fuera
combinación lineal de al menos dos de ellos se contradirı́a el Corolario 1.
Notar que la afirmación recı́proca del Corolario 1 no es cierta en general.

Por ejemplo, dos autovectores pueden ser linealmente independientes y tener
autovalores iguales.
13.1 Matrices simétricas

Recordemos que M es una matriz simétrica si
M = M ?,
donde M ? es la matriz transpuesta de M , esto es la matriz que se obtiene de

M intercambiando sus filas por columnas. En este caso se tiene un resultado
importante:
Toda matriz simétrica es diagonalizable.
Recurriremos a la teorı́a general de espacios vectoriales para probar esta aseve-

ración. Como de costumbre, interpretamos a una matriz cuadrada M de orden
n como asociada a un endomorfismo ϕ : V 7→ V, supuesto que hemos fijado
una base {B1 , B2 , · · · , Bn } de V. Pero ahora hay que “traducir” el hecho de ser
M simétrica a una propiedad de su endomorfismo asociado ϕ . Esta idea debe

quedar clara. Obviamente no todas las matrices cuadradas son simétricas. Por
lo tanto aquéllas que sı́ lo son deben estar asociadas a determinados endomor-
fismos. Es decir, endomorfismos que posean alguna propiedad adicional, de tal
forma que éstos, y sólo éstos, tengan matrices asociadas simétricas. Ahora bien,
no es posible determinar una tal propiedad sólamente a partir de los conceptos
derivados exclusivamente de la estructura de espacio vectorial: subespacios,
independencia lineal, base, dimensión. Concretamente, para determinar esa
propiedad necesitamos el concepto de producto escalar. Supongamos entonces
que en V tenemos definido un producto escalar A · B.
Decimos que un endomorfismo ϕ : V 7→ V es simétrico (respecto

al producto escalar) si
ϕ (A) · B = A · ϕ (B) (21)
para cualquier par de vectores A, B en V.
Veamos que la matriz asociada, con respecto a una base ortonormal de V, a

un endomorfismo simétrico es una matriz simétrica. Para ello recordemos que,
fijada esta base ortonormal de V, la acción de un producto escalar está dada
por  
b1
 b2 
 
A · B = (a1 , a2 , · · · , an )  ..  = a1 b1 + a2 b2 + · · · + an bn ,
 . 
bn
donde (a1 , a2 , · · · , an ) y (b1 , b2 , · · · , bn ) son las componentes de A y B con res-
pecto a la base ortonormal dada, respectivamente. Si (21) es verdadero en-
tonces
   
b1 b1
 b2   b2 
?    
(a1 , a2 , · · · , an )M  ..  = (a1 , a2 , · · · , an )M  .. ,
 .   . 
bn bn
ya que (a · · , an )M ? son las componentes de ϕ (A), escritas como vector

1 , a2 , · 
b1
 b2 
 
fila, y M  ..  son las componentes del vector ϕ (B), escritas como vector
 . 
bn
columna. Como la igualdad anterior es válida para vectores A y B cualesquiera,

sigue que debe ser M = M ? , es decir M es una matriz simétrica.
Teniendo ya caracterizada la propiedad de los endomorfismos que tienen por

matrices asociadas a matrices simétricas, debemos probar ahora, de acuerdo
con la sección anterior, que tales endomorfismos poseen n autovectores lineal-
mente independientes. En realidad probaremos aún algo más, a saber que ellos
poseen n autovectores ortogonales (recordemos que la condición de ortogona-
lidad implica independencia lineal).
Teorema Todo endomorfismo simétrico posee n autovectores ortogonales.
Demostración: Se divide en dos partes. En la primera parte se prueba que

existe un autovector de ϕ . En la segunda parte se procede por inducción para
llegar al resultado final. Supongamos entonces que ϕ : V 7→ V satisface
ϕ (A) · B = A · ϕ (B)
para todo par de vectores A, B en V.

Primera parte
Consideremos el conjunto S = {A ∈ V : A · A = 1}. Para cada A ∈ S

consideremos el número A·ϕ (A). En términos de las componentes con respecto
a una base ortonormal, este producto escalar se escribe
 
a1
 a2 
 
(a1 , a2 , · · · , an )M  ..  .
 . 
an
Esta operación representa una función continua de Rn en R. El conjunto de

todas las componentes correspondientes a vectores de S es compacto y por lo
tanto la función anterior alcanza allı́ un mı́nimo. Es decir, existe A1 ∈ S tal
que
A1 · ϕ (A1 ) ≤ A · ϕ (A)
para todo A ∈ S. Ahora probaremos que A1 es un autovector de ϕ . Como A1

está en S, vale que A1 6= O. Llamemos U al subespacio ortogonal a A1 . Es
decir, todo vector en U es ortogonal a A1 . Sea B un vector arbitrario en U ∩ S.
Para todo número real δ consideremos el vector A1 + δB y sea ρ = kA1 + δBk.
Por el Teorema de Pitágoras, ρ2 = 1 + δ 2 . Además, ρ1 (A1 + δB) ∈ S, por lo
que la función de δ
1 1
(A1 + δB) · (ϕ (A1 ) + δϕ (B)) = (22)
ρ ρ
1
(A1 · ϕ (A1 ) + 2δϕ (A1 ) · B + δ 2 B · ϕ (B)) (23)
1 + δ2
toma un mı́nimo absoluto, y también relativo, en δ = 0. Como esta función es
derivable para todo valor de δ, sigue que su derivada evaluada en δ = 0 debe
ser nula, por lo cual ϕ (A1 ) · B = 0. Como B es un vector arbitrario en U ∩ S,
se concluye que ϕ (A1 ) es ortogonal a U. Pero esto significa precisamente que
ϕ (A1 ) está en el subespacio generado por A1 , es decir ϕ (A1 ) = λA1 para algún
real λ, o sea que A1 es efectivamente un autovector de ϕ . Observar que la
hipótesis de que ϕ es simétrica se ha usado en el desarrollo de (22), por lo cual
se obtiene el término 2δϕ (A1 ) · B en (23).
Segunda parte
Con la notación de la primera parte de la demostración, U es el subespacio,
de dimensión n − 1, ortogonal al autovector A1 . Si B ∈ U entonces ϕ (B)
también está en U. En efecto,
ϕ (B) · A1 = B · ϕ (A1 ) = 0,
ya que ϕ (A1 ) es un múltiplo de A1 y B es ortogonal a todo múltiplo de A1 .

Quiere decir que ϕ , restringido al subespacio U, es también un endomorfismo y
además es obviamente simétrico. Este hecho permite aplicar un argumento in-
ductivo. Por la primera parte del resultado existe en U un autovector, digamos
A2 , para la restricción de ϕ a U. Por estar en U, A2 es ortogonal a A1 . Ahora
se considera el subespacio de U ortogonal a A2 y se vuelve a aplicar el mismo
razonamiento. La técnica de la demostración por inducción permite probar
que cuando este procedimiento llega a su término, entonces puede exhibirse
una base ortogonal de V consistente de n autovectores del endomorfismo ϕ .
Esto concluye la demostración.
Este resultado asegura que el polinomio caracterı́stico de una matriz si-

métrica tiene n raı́ces reales, contando la multiplicidad de las mismas (puede
haber raı́ces dobles, triples, etc.) Si las n raı́ces resultan todas distintas entre
sı́, entonces por el Teorema y el Corolario 2 sigue que existe una única base
de V formada por autovectores ortogonales, salvo multiplicidad. Significa que
en este caso el método de cálculo de la sección anterior conduce necesaria-

mente a obtener autovectores ortogonales. En el caso general puede afirmarse
que autovectores correspondientes a autovalores distintos son ortogonales pero
de hecho habrá, en el caso de raı́ces múltiples, autovectores no ortogonales
correspondientes al mismo autovalor.
Ejercicio. Probar por cálculo directo que una matriz simétrica no diagonal de
orden 2 tiene autovalores distintos.
Ejemplo Encontrar los autovalores y autovectores de la matriz
 
3 1 1
M = 1 3 1 
1 1 3
y diagonalizarla.
El polinomio caracterı́stico de M es (2 − λ)2 (5 − λ). Luego hay dos auto-
valores distintos, 2 y 5. El autovalor 2 produce un autoespacio de dimensión
2 y el autovalor 5 produce un autoespacio de dimensión 1. Cualquier autovec-
tor del primero de ellos será ortogonal a un autovector del otro autoespacio.
Pero, obviamente, dentro del autoespacio de dimensión 2 pueden encontrarse
autovectores no ortogonales entre sı́. El autoespacio de dimensión 2 está for-
mado por los autovectores cuyas componentes son las soluciones del sistema
    
1 1 1 a1 0
 1 1 1   a2  =  0  .
1 1 1 a3 0
Por ejemplo, dos componentes correspondientes a autovectores ortonormales

√ √ √ √ √
pueden ser (1/ 2, −1/ 2, 0) y (1/ 6, 1/ 6, −2/ 6).
El autoespacio correspondiente al autovalor 5 está formado por los autovec-

tores cuyas componentes son soluciones del sistema
    
−2 1 1 a1 0
 1 −2 1   a2  =  0 .
1 1 −2 a3 0
La componente correspondiente al único autovector ortonormal en este autoes-

√ √ √
pacio es (1/ 3, 1/ 3, 1/ 3).
 
2 0 0
Luego P −1 M P =  0 2 0 , donde
0 0 5
 √ √ √ 
1/√2 1/√6 1/√3
P =  −1/ 2 1/√6 1/√3  .
0 −2/ 6 1/ 3
En este caso no hay una única base de autovectores. Podemos elegir, por ejem-
plo, como autovectores correspondientes al autovalor 2 a aquéllos que tienen
por componentes (1, −1, 0) y (0, 1, −1), y como autovector correspondiente
al autovalor
 5, a aquél
 que tiene por componente a (1, 1, 1). Para la matriz
1 0 1
Q =  −1 1 1  también vale que
0 −1 1
 
2 0 0
Q−1 M Q =  0 2 0  .
0 0 5
14 Métodos numéricos en Algebra
Todo sistema matemático que implique operaciones entre números reales se
enfrenta con la cuestión de la cantidad de cifras significativas exactas que
habrán de usarse en los números involucrados en esas operaciones. Si un
número real se escribe en la forma a1 a2 · · · ar 10s , donde ai son dı́gitos, es decir
números enteros entre 0 y 9, a1 6= 0, y s es un entero, entonces este número
tiene r cifras significativas. Esto supone que un número usado en el cálculo
puede no ser exactamente igual al que debe intervenir, y esto hace a su vez que
se produzcan errores en las operaciones. En la primera parte de esta unidad
veremos algunas formas de uso del método de Gauss para la resolución de un
sistema compatible determinado que minimiza el error de redondeo producido
por esa situación. Consideremos el siguiente
Ejemplo En la resolución del sistema
0, 003000x1 + 59, 14x2 = 59, 17

5, 291x1 − 6, 130x2 = 46, 78
se consideran todos los valores numéricos con cuatro cifras significativas exac-
tas, tanto los valores iniciales como los resultados parciales. Si ası́ se procede,
se obtiene
x1 = −10, 00, x2 = 1, 001.
Sin embargo la solución exacta es
x1 = 10, x2 = 1.
El tremendo error obedece a lo relativamente pequeño del valor 0,003. En

estos casos es recomendable llevar el elemento con mayor valor absoluto de
la primera columna a la primera posición de la diagonal principal mediante
un intercambio de filas. Si ası́ se hace, entonces debe resolverse el sistema
equivalente µ ¶
5, 291 −6, 130 46, 78
.
0, 003000 59, 14 59, 17
Trabajando también ahora con cuatro cifras significativas exactas, la solución
resulta ser la correcta. Para sistemas de orden superior el proceso se aplica
cada vez que se reinician los cálculos en cada columna. Una variante del
procedimiento anterior es la siguiente.
14 Métodos numéricos en Algebra 172
Sean aij , 1 ≤ i ≤ n, 1 ≤ j ≤ n + 1, los coeficientes de la matriz ampliada

del sistema. Para cada i se define mi = max |aij |, 1 ≤ j ≤ n + 1, y se lleva
a la primera posición de la diagonal principal, mediante intercambio de filas,
a aquel coeficiente de la primera columna que produce el mayor valor entre
las expresiones |ak1 |/mk , 1 ≤ k ≤ n. Análogamente al caso anterior, este
método se aplica sucesivamente en cada submatriz principal hasta llegar a la
matriz transformada triangular superior. Por último, otro procedimiento
alternativo consiste en realizar apropiados intercambios de filas y columnas
de manera que los elementos de la diagonal principal queden ordenados, en
su valor absoluto, de mayor a menor. Es decir, la matriz de coeficientes ası́
reordenada satisface |a11 | ≥ |a22 | ≥ · · · ≥ |ann |. Con este proceder no debe
perderse de vista que el intercambio de columnas supone un correspondiente
intercambio de incógnitas a tener en cuenta una vez resuelto el sistema.
Métodos iterativos
El método de Gauss es directo, en el sentido de que la solución se calcula
exactamente mediante un algoritmo finito. Si hay error en la solución, esto
es debido exclusivamente a que en los cálculos intermedios hay recortes en las
cifras significativas exactas. Por el contrario, existen métodos, llamados itera-
tivos, que parten de una solución aproximada para posteriormente calcular
una sucesión de soluciones que se espera converja a la solución exacta. De
entre estos métodos veremos dos, a saber los que se conocen bajo el nombre de
Jacobi y de Gauss-Seidel. La matriz de coeficientes debe estar condicionada
de forma que todos los elementos de su diagonal principal sean no nulos. Si de
entrada no se da esta condición entonces, mediante un apropiado intercambio
de filas, es siempre posible conseguirla.
Sea el sistema de orden n,
   
x1 b1
 x2   b2 
   
A .. = .. ,
 .   . 
xn bn
donde A es una matriz no singular de orden n, con coeficientes aij , y donde
suponemos que su solución es no nula. Bajo la suposición de que aii 6= 0 para
todo 1 ≤ i ≤ n, queda claro que podemos despejar la incógnita xi de la i-ésima
ecuación, resultando el sistema equivalente
X = T X + C, (24)
donde T es una matriz de orden n que depende sólo de A, con ceros en su

diagonal principal, X es la matriz columna de incógnitas y C es una matriz
columna que depende de B y de los elementos de la diagonal principal de A.
Se fija un valor inicial X0 y usando (1) se obtiene la secuencia
X1 = T X0 + C, X2 = T X1 + C, · · · , Xk = T Xk−1 + C, · · · .
Se espera que la sucesión X0 , X1 , · · · , Xk , · · · converja a la solución exacta. Este

hecho no siempre se da, si bien pueden darse condiciones suficientes sobre la
matriz A para que ello ocurra. Otra cuestión que se presenta con este método
es determinar para qué valor de k puede asegurarse que Xk es una solución
aceptable del sistema. Un criterio para determinar este valor de k obedece
a una situación general para toda sucesión. Es de esperar que si Xk−1 y Xk
difieren poco, entonces también disten poco del lı́mite de la sucesión. Luego un
criterio razonable es parar la iteración cuando ρ(Xk − Xk−1 )/ρ(Xk ) sea menor
que una cantidad pequeña prefijada, donde ρ(X) se define como la mayor de
las coordenadas de X, consideradas en valor absoluto. A mayor exigencia de
exactitud, tanto más pequeña será esta cantidad prefijada. Un valor razonable
puede ser 10−3 o 10−4 . Este es el método de Jacobi.
En cuanto al método de Gauss-Seidel, debe decirse que es una modificación
no demasiado sustancial del método anterior, si bien da en general mejores
resultados que aquél. Consiste en lo siguiente. Cuando se usa la ecuación (1)
para obtener X1 a partir de X0 vamos calculando en un orden sus coordenadas.
Calculada mediante (1) la primera coordenada de X1 , usamos este valor, en
lugar de la primera coordenada de X0 , para obtener las siguientes coordenadas
de X1 . Hallada de esta manera la segunda coordenada de X1 , usamos también
este valor, en vez de la segunda coordenada de X0 , para obtener las siguientes
coordenadas de X1 . Y ası́ siguiendo. Significa que también se usa la ecuación
(1) pero con un vector X0 que se va modificando a partir del cálculo de la
segunda coordenada. Este proceso de realimentación concluye en la obtención
de un vector X10 , que es en general distinto que el hallado con el método de
Jacobi. Para obtener los siguientes vectores de la sucesión se procede de la
misma manera. El criterio de parada de la iteración es también el mismo que
para el método de Jacobi.
Ejemplo Consideremos el sistema

    
10 −1 2 0 x1 6
 −1 11 −1  
3   x2   25 
 = 
 2 −1 10 −1   x3   −11  .
0 3 −1 8 x4 15
Después de despejar xi de la i-ésima ecuación se obtiene
      
x1 0 1/10 −1/5 0 x1 3/5
 x2   1/11 0 1/11 −3/11     
 =   x2  +  25/11  .
 x3   −1/3 1/10 0 1/10   x3   −11/10 
x4 0 −3/8 1/8 0 x4 15/8
 
0
 0 
Comenzando con el vector inicial X0 =  
 0 , por el método de Gauss-Seidel
0
se obtiene
     
0, 6 1, 030 1, 0065
 2, 3272   2, 037   2, 0036 
X1 =     
 −0, 9873  , X2 =  −1, 014  , X3 =  −1, 0025  ,

0, 8789 0, 9844 0, 9983

   
1, 0009 1, 0001
 2, 0003   
X4 =   , X5 =  2, 0000  .
 −1, 0003   −1, 0000 
0, 9999 1, 0000
Se tiene que ρ(X5 − X4 )/ρ(X5 ) = 0, 0008/2 = 4.10−4 . La solución exacta es
x1 = 1, x2 = 2, x3 = −1, x4 = 1.
Cálculo de autovalores y autovectores

En muchas aplicaciones, sobre todo en la Fı́sica, surge la necesidad de calcular
los autovalores y autovectores de una matriz cuadrada de orden n. Un auto-
valor es la raı́z de un polinomio de grado n, el llamado polinomio caracterı́stico
de la matriz. Es bien sabido que para n > 4 no hay fórmulas generales para
el cómputo de tales raı́ces, lo que lleva a recurrir a técnicas de cálculo aprox-
imado. En estos casos es sumamente útil tener una idea de la localización de
las raı́ces. El siguiente teorema da una respuesta a esta cuestión.
Teorema del cı́rculo de Gerschgorin Sea A = {aij } una matriz cuadrada

de orden n. Entonces sus autovalores reales, cuando existen, se encuentran en
P
la unión de n intervalos de la forma |x − aii | ≤ j6=i |aij |, i = 1, · · · , n.
Con esta información es posible ahora aplicar métodos iterativos del cálculo
de las raı́ces del polinomio caracterı́stico de A, tal como se vió en la unidad
7. Posteriormente se hallan los autovectores resolviendo el correspondiente
sistema lineal homogéneo por alguno de los métodos disponibles.
15 Funciones de varias variables
En esta unidad trabajaremos con funciones definidas en conjuntos de
R2 := {(x, y) : x ∈ R, y ∈ R},
teniendo en cuenta que muchos de sus conceptos y resultados pueden exten-

derse a funciones definidas en conjuntos de Rn , n > 2. Los conjuntos que
usaremos como dominio de funciones serán generalmente conjuntos convexos.
Un conjunto A en R2 se dice convexo si cada vez que (a, b) ∈

A, (c, d) ∈ A, entonces todos los puntos del segmento que une esos
dos puntos están también en A, esto es
λ(a, b) + (1 − λ)(c, d) ∈ A
para todo λ, 0 ≤ λ ≤ 1.
Observar que una definición análoga es válida en Rn , n ≥ 1. En realidad, la

definición es pertinente en todo espacio vectorial. Ocurre que en R los únicos
conjuntos convexos son los intervalos. La extensión del concepto de intervalo a
R2 (y más generalmente a Rn ) serı́a el de producto cartesiano de intervalos, es
decir rectángulos. Los rectángulos son conjuntos convexos pero ahora no son
los únicos convexos de R2 . Un cı́rculo, por ejemplo, es un conjunto convexo.
Esta “mayor cantidad” de conjuntos convexos obedece a la mayor dimensión
de R2 sobre R. De alguna manera este hecho introduce una complicación en
el análisis de las funciones de dos o más variables.
Diremos que una sucesión {(xn , yn )} de puntos en R2 converge o

tiende a un punto (a, b) si la sucesión xn tiende a a y la sucesión
yn tiende a b.
Esto significa que dado ² > 0, arbitrario, vale que
|xn − a| < ², |yn − b| < ²
para valores grandes de n. Este hecho sugiere definir como entorno de un

punto (a, b) al conjunto de puntos (x, y) que satisfacen las dos desigualdades
anteriores. Una vez definido el concepto de entorno, las definiciones de punto
15 Funciones de varias variables 177
de acumulación de un conjunto, punto interior a un conjunto, conjunto ce-

rrado y conjunto abierto son las mismas que en el caso de subconjuntos de
R. Por este motivo, las definiciones de lı́mite funcional y continuidad para
funciones de dos o más variables no tienen ninguna diferencia con respecto a
las correspondientes definiciones para funciones de una variable real.
Si A ⊂ R2 , (a, b) es un punto de acumulación de A y f : A 7→ R,

entonces
lim f (x, y) = l para (x, y) → (a, b)
si cada vez que la sucesión (xn , yn ) → (a, b), (xn , yn ) ∈ A, vale que
f (xn , yn ) → l.
Ejemplos
1) Sea
x2
f : R2 7→ R, f (x, y) = .
1 + x2 + y 2
Luego lim f (x, y) = 0 para (x, y) → (0, 0) dado que f (xn , yn ) → 0 si (xn , yn ) →
(0, 0).
2) Sea A = R2 \ {(0, 0)} y sea
x2
f : A 7→ R, f (x, y) = 2 .
x + y2
Si (xn , yn ) → (0, 0) con xn = 0, yn 6= 0, entonces claramente f (xn , yn ) → 0. Si

en cambio (xn , yn ) → (0, 0) con xn = yn 6= 0, entonces f (xn , yn ) → 1/2. Luego
el lı́mite de esta función no existe para (x, y) → (0, 0).
Si (a, b) ∈ A, entonces f se dice continua en (a, b) si lim f (x, y) =

f (a, b) para (x, y) → (a, b).
La función de 1) del Ejemplo de arriba es continua en (0, 0) ası́ como en todo

su dominio. La función de 2) es continua en todo punto de su dominio. (Notar
que el origen no pertenece al dominio de la función.)
Una sucesión {(xn , yn )} se dice acotada si las dos sucesiones, {xn }

e {yn }, son acotadas.
Un conjunto A en R2 es acotado si toda sucesión que podamos formar con

puntos en él es acotada. Esto es equivalente a que A esté contenido en un
rectángulo. Un conjunto cerrado y acotado se llama compacto. Se mantiene el
principio de Bolzano-Weierstrass:
Todo conjunto acotado de infinitos puntos tiene al menos un punto

de acumulación.
Podemos dar la siguiente versión del Teorema de Bolzano:
Si A es un conjunto convexo y f : A 7→ R es continua, entonces si

f toma distinto signo en dos puntos de A, vale que existe un punto
– en el interior del segmento que une aquellos puntos – donde f se
anula.
Por otra parte, el Teorema de Bolzano Weierstrass se mantiene sin alteraciones:
Si A es compacto y f : A 7→ R es continua, entonces f alcanza en

A un valor máximo y un valor mı́nimo absolutos.
Lo análogo vale para el Teorema de Heine Cantor:
Si A es compacto y f : A 7→ R es continua, entonces es uniforme-

mente continua, es decir, dado ² > 0, arbitrario, existe δ > 0 tal
que si (a, b) y (c, d) están en A, |a − c| < δ, |b − d| < δ, entonces
|f (a, b) − f (c, d)| < ².
Como en el caso de funciones de una variable real, estos dos teoremas son
consecuencia del principio de Bolzano-Weierstrass.
15.1 Derivación
Vimos en funciones de una variable real que la derivada en un punto representa
de algún modo el grado de cambio de la variable dependiente a medida que la
variable independiente se acerca a ese punto.
En el presente caso tenemos que las dos variables independientes pueden

acercarse a un punto (a, b) de R2 por muchos “caminos”, entre los cuales
podemos considerar segmentos, es decir aproximarse al punto a través de una

linea recta. En particular, podemos acercarnos a (a, b) a través de puntos de
la forma
(x, b),
con x → a, o bien con puntos de la forma
(a, y),
con y → b. Si ahora tenemos una función u = f (x, y) tal que (a, b) está en
su dominio, entonces en el primer caso podemos hablar de una derivada de la
función (de una variable x) f (x, b) en el punto a y en el segundo caso de una
derivada de la función (de una variable y) f (a, y) en el punto b.
Si estas derivadas existen, se llaman derivadas parciales de f en

(a, b), con respecto a x y con respecto a y, respectivamente.
Por consiguiente, sus definiciones son

f (a + h, b) − f (a, b) f (a, b + h) − f (a, b)
fx (a, b) = lim , fy (a, b) = lim ,
h→0 h h→0 h
respectivamente. Si las derivadas parciales existen en todo el dominio de una
función entonces existen las funciones derivadas parciales, como ası́ también
pueden existir las sucesivas funciones derivadas de orden superior.
Ejemplo
f : R2 7→ R, f (x, y) = xsen y + y cos x.
Es
ux = fx (x, y) = sen y − ysen x, uy = fy (x, y) = x cos y + cos x,
uxx = fxx (x, y) = −y cos x, uyy = fyy (x, y) = −xsen y,
uxy = fxy (x, y) = uyx = fyx (x, y) = cos y − sen x.
El hecho de que
fxy = fyx
no es casualidad. Puede probarse que la existencia y continuidad de una de

las derivadas “mixtas” en un punto implica la existencia e igualdad de la otra
derivada mixta en ese punto. Bajo esta hipótesis, en las derivadas sucesivas
sólo importa la cantidad de veces que se deriva con respecto a x y a y, sin
interesar el orden en que se deriva.
En el caso de funciones de una variable real la existencia de derivada en un

punto implica la continuidad en ese punto. En general esto no es ası́ en el caso
de funciones de dos o más variables. Empero, si las dos derivadas parciales son
acotadas en un conjunto abierto A, entonces la función es continua en todo
punto de A.
15.2 Diferenciabilidad
La existencia de derivada de una función de una variable real en un punto a
de su dominio implica que
f (a + x) − f (a)
= f 0 (a) + ²(x),
x
con ²(x) → 0 cuando x → 0. Esto puede escribirse
f (a + x) = f (a) + xf 0 (a) + x²(x),
donde y = f (a) + xf 0 (a) es precisamente la recta tangente a la curva gráfica de

f en el punto a. Significa que para valores pequeños de x, o en otros términos,
para valores de la variable independiente próximos al punto a, la función puede
representarse aproximadamente como una función lineal, siendo su diferencia
el término x², infinitésimo de orden superior a x. Este mismo concepto puede
aplicarse a funciones de dos o más variables independientes. Si u = f (x, y) es
una función para la que existen sus dos derivadas parciales en un punto (a, b)
de su dominio, escribimos
f (a + x, b + y) = f (a, b) + xfx (a, b) + yfy (a, b) + ²ρ, (25)
donde ahora ρ es la distancia del punto (a + x, b + y) al punto (a, b), es decir

p
ρ= x2 + y 2 .
Si ocurre que ² → 0 cuando ρ → 0, entonces decimos que la función f es

diferenciable en el punto (a, b). Significa que la función f puede aproximarse
por la función lineal
u = f (a, b) + xfx (a, b) + yfy (a, b)
en un entorno del punto (a, b). Esta función lineal tiene por representación
gráfica al llamado plano tangente a la superficie gráfica de la función en el
punto (a, b). A diferencia de lo que pasa con funciones de una sola variable
independiente, la mera existencia de las dos derivadas parciales no garantiza
la diferenciabilidad de la función de dos variables independientes.
Pero la existencia y continuidad de esas dos derivadas parciales en el punto

sı́ implica que la función sea diferenciable en ese punto.
De valer esta condición, se dice que la función es continuamente diferencia-

ble en el punto en cuestión.
Observar que la diferenciabilidad en (a, b) implica la existencia de un grado

de cambio de la función f en (a, b) si nos acercamos al punto a través del
segmento
(a + ρ cos α, b + ρsen α),
para cualquier valor fijo de α en [0, 2π). En efecto, por la ecuación (25) sigue
que
f (a + ρ cos α, b + ρsen α) − f (a, b)

= fx (a, b) cos α + fy (a, b)sen α + ².
ρ
Si ² → 0 cuando ρ → 0 sigue que el anterior cociente incremental en la dirección
de α tiende a
fx (a, b) cos α + fy (a, b)sen α
cuando ρ → 0. El lı́mite de este cociente incremental, para ρ → 0, es lo que se

llama la derivada direccional de la función f en la dirección de α. La existencia
de la derivada direccional en un punto para toda dirección no implica que la
función sea diferenciable en ese punto. Más aún, ni siquiera tienen que existir
necesariamente las derivadas parciales.
p
Ejemplo La función f : R2 7→ R, f (x, y) = x2 + y 2 , tiene derivadas di-
reccionales en el origen para toda dirección α, aquéllas son iguales a 1, pero
no es diferenciable en el origen ni existen sus dos derivadas parciales, ya que
f (x, 0) = |x|, f (0, y) = |y|. La representación gráfica de esta función es un
cono con vértice en el origen.
15.3 Funciones compuestas

En muchas aplicaciones se da el caso de que en la función u = f (x, y) las
variables x e y dependen a su vez de otra u otras variables independientes.
Supongamos por ejemplo que es
x = x(t) e y = y(t).
De esta manera queda determinada una función compuesta
F (t) = f (x(t), y(t))
de una variable real t. Propiedades de continuidad y diferenciabilidad se trans-

miten a través de estas funciones. Si f, x e y son continuas en sus corres-
pondientes dominios entonces F resulta también continua en su dominio. Lo
análogo ocurre con la diferenciabilidad. Es muy conveniente conocer la ex-
presión de la derivada de F (t) en términos de las derivadas de f, x e y. Tenemos
que
F 0 (t) = fx (x(t), y(t))x0 (t) + fy (x(t), y(t))y 0 (t).
Si es x = x(w, z), y = y(w, z), entonces queda determinada la función com-

puesta
G(w, z) = f (x(w, z), y(w, z)).
En caso de existencia, sus derivadas parciales vienen dadas por
Gw (w, z) = fx (x(w, z), y(w, z))xw (w, z) + fy (x(w, z), y(w, z))yw (w, z),
Gz (w, z) = fx (x(w, z), y(w, z))xz (w, z) + fy (x(w, z), y(w, z))yz (w, z).
De manera análoga se procede en caso de otras funciones compuestas. Estas

fórmulas se conocen con el nombre de Regla de la cadena. Como ejemplo de
aplicación deduciremos el Teorema del valor medio.
Supongamos que la función f (x, y) es diferenciable en un entorno del punto
(x0 , y0 ). Consideremos un punto de la forma (x0 + h, y0 + k) con valores fijos
de h y k, y suficientemente pequeños para que este punto esté en el entorno
en cuestión. Llamemos t a una variable que recorre el intervalo [0, 1]. Luego
el punto
(x0 + th, y0 + tk)
está en el entorno dado para todo valor de t en ese intervalo. Si ahora conside-
ramos la función
F : [0, 1] 7→ R, F (t) = f (x0 + th, y0 + tk),

sigue de la discusión anterior que F es derivable en [0, 1] y por lo tanto, usando

el Teorema del valor medio del cálculo diferencial en una variable, se tiene que
F (1) − F (0) = F 0 (t0 ),
donde t0 es un número en el intervalo (0, 1). Por consiguiente, teniendo en

cuenta las funciones
x(t) = x0 + th, y(t) = y0 + tk
y usando la regla de la cadena, se obtiene que
f (x0 + h, y0 + k) − f (x0 , y0 ) = hfx (x0 + t0 h, y0 + t0 k) + kfy (x0 + t0 h, y0 + t0 k).
Será de utilidad más adelante (concretamente en el estudio de extremos

relativos) conocer la expresión de F 00 (t), y particularmente F 00 (0). Observar
que tanto F 0 (0) como F 00 (0) son derivadas laterales por derecha, dado que F (t)
y F 0 (t) están definidas para 0 ≤ t ≤ 1. Supongamos que f tiene derivadas
segundas continuas en el entorno dado del punto (x0 , y0 ). Tenemos que
F 0 (t) = hfx (x, y) + kfy (x, y), (26)
donde
x = x0 + th, y = y0 + tk.
Luego, usando otra vez la regla de la cadena (recordar que las derivadas mixtas
son iguales), sigue que
F 00 (t) = h2 fxx (x, y) + 2hkfxy (x, y) + k 2 fyy (x, y).
De aquı́,
F 00 (0) = h2 fxx (x0 , y0 ) + 2hkfxy (x0 , y0 ) + k 2 fyy (x0 , y0 ).
15.4 Extremos relativos. Multiplicadores de La-

grange
Se dice que una función f : A 7→ R tiene un mı́nimo relativo en
un punto (x0 , y0 ) interior a su dominio si f (x, y) ≥ f (x0 , y0 ) para
todos los puntos (x, y) en un entorno de (x0 , y0 ).
El mı́nimo se dice estricto si la desigualdad anterior es estricta. Análogamente

se define un máximo relativo. Como ocurre en el estudio de funciones de
una variable real, el análisis de las derivadas de la función en un entorno
del punto permite obtener los extremos (máximos o mı́nimos) relativos de la
función. Suponemos que f tiene derivadas segundas continuas en su dominio.
Dado que la existencia de un extremo relativo de la función f (x, y) en (x0 , y0 )
implica la existencia de un extremo relativo de la función de una variable
f (x, y0 ) (respectivamente, f (x0 , y)) en el punto x0 (respectivamente, y0 ), pasa
que debe ser
fx (x0 , y0 ) = fy (x0 , y0 ) = 0. (27)
Estas son condiciones necesarias para la existencia de extremos relativos pero
no suficientes. Significa que los extremos relativos de la función se seleccionarán
entre aquellos puntos (x0 , y0 ) que satisfacen (27). El criterio de selección se
discute a continuación. Sean h y k dos valores para los que ocurre que (x +
h, y + k) está en el entorno de arriba, siendo además h2 + k 2 = ρ, donde ρ
es un número positivo fijo. Llamemos S al conjunto – compacto – de todos
estos puntos (h, k). Consideremos otra vez la función compuesta de la sección
anterior
F (t) = f (x, y),
donde
x = x0 + th, y = y0 + tk, 0 ≤ t ≤ 1.
(Notar que F depende también de h y k). De (26) y (27) sigue que
F 0 (0) = 0 para todo (h, k) ∈ S.
Si F 00 (0) ≥ µ > 0 para todo (h, k) en S, entonces, en vista de que la expresión
F 00 (t) = h2 fxx (x, y) + 2hkfxy (x, y) + k 2 fyy (x, y)
es continua como función de x e y, y S es acotado, sigue que
F 00 (t) ≥ µ/2
para todo (h, k) en S y para todo t en un intervalo [0, t0 ], t0 > 0. Por el

teorema del valor medio en una variable, se tiene que F 0 (t) ≥ tµ/2 para t en
ese intervalo, y una nueva aplicación del teorema del valor medio prueba que
F (t) − F (0) ≥ t2 µ/2, y por lo tanto
F (t) > F (0)

para 0 < t ≤ t0 y todo (h, k) ∈ S. Volviendo a la definición de la función

compuesta F (t), se obtiene que esta última desigualdad afirma que el punto
(x0 , y0 ) es un mı́nimo relativo estricto. Por otra parte, debido a la continuidad
de F 00 (0) como función de h y k y a la compacidad del conjunto S, la condición
F 00 (0) ≥ µ > 0 para todo (h, k) en S es consecuencia de la condición F 00 (0) > 0
para todo (h, k) 6= (0, 0). A su vez, esta última propiedad afirma que la forma
cuadrática ( en h y k) F 00 (0) es definida positiva. Por último, esta condición
es equivalente a
2
fxx > 0, fxx fyy − fxy > 0. (28)
En conclusión, se ha probado que si vale (27), entonces (28) implica que el

punto (x0 , y0 ) es un mı́nimo relativo estricto de f . Análogamente, se demuestra
que si (27) se verifica, entonces la condición
2
fxx < 0, fxx fyy − fxy >0
asegura que el punto (x0 , y0 ) es un máximo relativo estricto de f .
Extremos ligados
En ocasiones se presenta la cuestión de tener que hallar un extremo de la
función u = f (x, y) sujeta a condiciones adicionales sobre las variables x e y.
Concretamente, condiciones del tipo
ϕ (x, y) = 0. (29)
Por ejemplo, de todos los puntos del plano que satisfacen la ecuación
xy 2 + x2 y = 1,
queremos encontrar aquéllos que están a mı́nima distancia del origen. En este
p
caso, se debe minimizar la expresión x2 + y 2 , o bien (lo que es equivalente)
minimizar x2 + y 2 , con la restricción adicional de ser
ϕ (x, y) = xy 2 + x2 y − 1 = 0.
En general, este clase de problema puede resolverse con el método llamado

multiplicadores de Lagrange. Consiste en encontrar a su vez los extremos de
la función de x e y
f (x, y) + λϕ (x, y),
donde λ es un parámetro, en principio desconocido. Las soluciones de las

ecuaciones (en x, y y λ)
fx (x, y) + λϕ x (x, y) = 0, fy (x, y) + λϕ y (x, y) = 0,
junto con la ecuación (29), proporcionan las soluciones buscadas.

Consideremos el ejemplo anterior. Las ecuaciones que deben resolverse son
2x + λy 2 + 2λxy = 0 (30)
2y + λx2 + 2λxy = 0 (31)
x2 y + xy 2 − 1 = 0. (32)
Multiplicando la primera de ellas por x, la segunda por y, y sumando, queda
2(x2 + y 2 ) + 3λ = 0,
por lo que λ = − 23 (x2 + y 2 ). Usando esta última expresión y substrayendo (31)

de (30) sigue que
· ¸
2 2 2
(x − y) 2 + (x + y )(x + y) = 0.
3
Esta última ecuación implica que, o bien
x = y,
o
2
2 + (x2 + y 2 )(x + y) = 0.
3
En el primer caso sigue de (32) que
p
3
x=y= 1/2.
Estos valores de x e y son en efecto soluciones de (30),(31) y (32). La ı́ndole

geométrica del problema indica entonces que el punto
³p p ´
3
1/2, 3 1/2
es el más cercano al origen entre todos los puntos del primer cuadrante, x >
0, y > 0, que satisfacen (32).
Supongamos ahora que
2 2
(x + y 2 )(x + y) = −2.
3
Teniendo en cuenta que (32) es equivalente a
xy(x + y) = 1, (33)
se obtiene de estas dos ecuaciones que 23 (x2 +y 2 ) = −2xy. Escribiendo x2 +y 2 =

(x + y)2 − 2xy, sigue que
(x + y)2 = −xy. (34)
Llamando u = x + y, v = xy, y observando que (33) y (34) son ecuaciones en

u y v, se obtiene
x + y = xy = −1.
Este sistema de dos ecuaciones, simétrico en x e y, da las dos soluciones

√ √
−1 − 5 5−1
x= ,y = ,
2 2
√ √
5−1 −1 − 5
x= ,y = .
2 2
Ambas son soluciones de (30),(31) y (32), por lo que ellas representan a los
puntos del segundo y cuarto cuadrantes, respectivamente, más próximos al
origen entre todos aquéllos que satisfacen (32).
15.5 Ajuste lineal. Método de mı́nimos cuadra-

dos
En las ciencias experimentales es algo usual el estudio de relaciones entre va-
riables. En algunos casos es posible encontrar en teorı́a una ley matemática
que determina con precisión el comportamiento de esa relación. Por ejemplo,
la segunda ley de Newton establece que la fuerza que se ejerce sobre un cuerpo
es la derivada del producto de su masa y velocidad. En otras ocasiones puede
determinarse una relación empı́rica a través de la observación experimental.
Un ejemplo de esto se ve en la unidad 18.
Consideremos el siguiente ejemplo fı́sico-deportivo. Se deja caer una pelota

de baloncesto desde una determinada altura (x) y se mide la altura de su primer
bote (y). Obviamente existe una relación (creciente) entre x e y. Para tener
una idea de esta relación se obtienen 9 pares de datos correspondientes (xi , yi ).
Estos son (en cms): (90,63), (100,73), (100,70), (110,79), (110,80), (120,88),
(130,96), (140,105), (150,116). Con estos datos se observa el siguiente gráfico:
110
100
90
80
100 110 120 130 140 150
La representación de los puntos en el plano permite suponer una relación lineal

entre las variables x e y. Ahora surge la cuestión de hallar una función lineal
y = a + bx
que ajuste convenientemente a los datos experimentales. En otras palabras,

obtener valores de a y b de tal forma que la recta y = a + bx pase “cerca” de
los puntos experimentales. Una manera de hacer esto es minimizar
n
X
F (a, b) = (yi − a − bxi )2 ,
i=1
donde n es el número de pares de datos experimentales. En nuestro caso n = 9.

Esto significa encontrar un mı́nimo relativo, que también será absoluto, de la
función F (a, b). Luego las dos derivadas parciales de esta función de a y b
deben anularse. Estas dos condiciones son:
n
X
(yi − a − bxi ) = 0
i=1
n
X
(yi − a − bxi )xi = 0,
i=1
que equivalen a un sistema lineal de dos ecuaciones con dos incógnitas, a y b.

Sus soluciones son:
P
Pn P P
yi ni=1 x2i − ni=1 xi yi ni=1 xi
i=1
a = P P
n ni=1 x2i − ( ni=1 xi )2
P P P
n ni=1 xi yi − ni=1 xi ni=1 yi
b = P P .
n ni=1 x2i − ( ni=1 xi )2
En nuestro ejemplo, a = −15, 3125 cms., b = 0, 864583.

110
100
90
80
100 110 120 130 140 150
15.6 Integración
Sea f : A 7→ R una función continua, f (x, y) ≥ 0, y donde A es un rectángulo
compacto, esto es el producto cartesiano de dos intervalos compactos, [a, b] y
[c, d]. En este caso puede definirse la integral doble de f sobre A de una forma
análoga al caso de funciones de una variable. Sendas particiones de los interva-
los [a, b] y [c, d] producirán una partición del rectángulo A en rectángulos más
pequeños, digamos Ai . Sabiendo que el área de un rectángulo es el producto
de las longitudes de sus lados, y simbolizando por m(Ai ) a esta área, sigue que
podemos definir las sumas superiores e inferiores, a saber
X X
S(f ) = Ci m(Ai ), s(f ) = ci m(Ai ),
i i
donde Ci es el máximo de f en Ai y ci es el mı́nimo de f en Ai . Ambas

sumas dependen obviamente de la partición dada. Además, s ≤ S. Cuando
la partición se va construyendo de forma tal que el máximo de las áreas de Ai
tiende a cero, entonces ocurre que ambas sumas convergen a un valor numérico
común, digamos V , y se escribe
Z Z
V = f (x, y) dxdy.
A
Este número V se corresponde con el volumen del cuerpo que se forma bajo la
superficie gráfica de la función f y sobre el rectángulo A. Si la función toma
valores negativos en una parte de A, el cálculo de la integral doble considera
ese signo en la parte correspondiente. Tal como pasa en la integral de una
función de una variable, no es necesario, sino sólo suficiente, que la función
f sea continua para la existencia de la integral. En cuanto a su cálculo efec-
tivo, ocurre afortunadamente que se puede reducir a su vez al cálculo de dos
integrales sucesivas o iteradas. Esto se realiza de la siguiente manera. Se in-
tegra primero la función f (x, y), considerándola como función de la variable
y sólamente, en el intervalo [c, d] (en otras palabras, la variable x se supone

constante por el momento). El resultado de esta operación será una función
de la variable x sólamente. Ası́, podemos escribir
Z d
g(x) = f (x, y) dy.
c
Luego se integra la función g(x) en el intervalo [a, b], con lo cual resulta
Z b
V = g(x) dx.
a
Debe destacarse que el otro orden en la iteración de la integración produce el

mismo resultado, es decir
Z d ·Z b ¸
V = f (x, y) dx dy.
c a
Ejemplo
Cálculo de Z Z
1 1
V = xexy dxdy.
0 0
Integramos primero con respecto a la variable y:
Z 1
¯
xexy dy = exy ¯y=1 x
y=0 = e − 1.
0
Luego Z 1 ¯
V = ex − 1 dx = (ex − x) ¯10 = e − 2.
0
Como se dijo al principio de esta unidad, los conjuntos “interesantes” de

2
R no se limitan a rectángulos. La teorı́a de integración en dos o más variables
serı́a por cierto muy pobre si el cálculo de integrales se redujera a operar
sólo sobre rectángulos. De hecho, la teorı́a existente permite integrar sobre
conjuntos (del plano, por ejemplo) a los que se les puede asignar un área.
Los conjuntos convexos, y también otros no convexos, se incluyen en esta
clase. Supongamos ahora que D es un conjunto convexo y compacto del plano,
y consideremos el rectángulo más pequeño que lo contiene, digamos [a, b] ×
[c, d]. Si hacemos como antes una partición de este rectángulo en pequeños
rectángulos Ai , veremos que algunos de estos Ai quedan incluı́dos en D, otros
quedan completamente fuera de D y otros quedan en parte dentro y en parte
fuera de D. Estos últimos son precisamente aquéllos que contienen puntos de la
frontera de D. Si nos detenemos a observar esta última clase de rectángulos de

la partición, veremos que a medida que el máximo de la áreas de los pequeños
rectángulos tiende a cero, ocurre que el área total de ellos también tiende a
cero, es decir, su contribución en las sumas que conducen a la definición de
la integral se vuelve despreciable. Este es justamente el hecho que permite
construir la integral de una función sobre un conjunto de este tipo. Ahora su
cálculo efectivo supone cierta complicación. Empero, puede probarse que la
técnica de integración iterada es similar al caso del rectángulo. Si integramos
primero con respecto a la variable y, entonces para cada valor de x en el
intervalo [a, b], aquélla recorre los valores de un intervalo
[y1 (x), y2 (x)],
que ahora depende obviamente de x. De todas maneras, esta primera inte-

gración con respecto a y resulta en una función de x, función que debe inte-
grarse ahora en el intervalo [a, b]. El procedimiento es similar si se opta por el
otro orden de integración.
Ejemplo
Cálculo de Z Z
V = x3 exy dxdy,
D
donde D es el conjunto convexo encerrado por el eje y, la recta y = 1 y el arco
de parábola y = x2 .
Para cada x en el intervalo [0, 1] debemos integrar esa función con respecto
a y entre y1 = x2 e y2 = 1. Con respecto a la variable y, una primitiva de
x3 exy es x2 exy . Luego
Z 1
3
x3 exy dy = x2 ex − x2 ex .
x2
Ahora debemos integrar esta última función con respecto a x en el intervalo

[0, 1]. Una primitiva de x2 ex es x2 ex − 2xex + 2ex (integración por partes) y
3 3
una primitiva de x2 ex es ex /3. Luego V = 2e−5 3
.
16 Ecuaciones diferenciales
Una ecuación diferencial es una ecuación donde intervienen las derivadas de
una función, de una o varias variables. Su estudio corresponde a una de las
ramas de las matemáticas que más aplicaciones ofrece a las otras ciencias en
general. El problema es encontrar una función de la cual sabemos ciertas
relaciones de sus derivadas. Por ejemplo, se quiere encontrar una función
x = x(t) que satisface
x0 (t) + P (t)x = Q(t),
donde P (t) y Q(t) son funciones conocidas. O bien una ecuación del tipo
x00 (t) + m2 x = A sen ωt,
donde m, A y ω son constantes numéricas.
Caı́da de cuerpos
Por cierto que la Fı́sica nos provee de numerosos ejemplos de ecuaciones dife-
renciales. Uno de los más simples es la que describe el movimiento de un
cuerpo en caı́da libre:
x00 (t) = g,
donde x(t) es la función que da la altura del cuerpo en el instante t y g es
la aceleración de la gravedad, por lo que su valor debe considerarse negativo.
Integrando en ambos lados de la ecuación anterior obtenemos
v(t) = x0 (t) = gt + v0 ,
donde v(t) es la velocidad del cuerpo en el instante t, y por lo tanto v0 es la

velocidad en el instante inicial t = 0. Una segunda integración de esta ecuación
nos da finalmente la función que rige la posición del cuerpo en cada instante t:
x = gt2 /2 + v0 t + x0 ,
donde x0 es la altura inicial del cuerpo.
Si ahora suponemos que el aire ejerce una fuerza de resistencia propor-

cional a la velocidad x0 (t) del cuerpo (también con valor negativo), entonces
la ecuación tiene la forma
mx00 (t) = mg − cx0 (t),

16 Ecuaciones diferenciales 193
donde se ha usado la segunda ley de Newton, la cual afirma que la fuerza que
actúa sobre el cuerpo es el producto de su masa m por su aceleración. Ya que
x0 (t) = v(t), la ecuación anterior puede escribirse
mv 0 (t) = mg − cv(t),
o bien
v 0 (t)
= −1.
−g + cv(t)/m
Integrando en ambos lados de esta última ecuación, donde el lado izquierdo se
integra por el método de sustitución, queda
m
ln(−g + cv(t)/m) = −t + c1 .
c
Despejando, se obtiene
m
v(t) = (g + Ke−ct/m ).
c
Una segunda integración determinará la posición x(t) del cuerpo.
Desintegración radiactiva
La ley de desintegración del radio afirma que la velocidad de desin-
tegración es en cada instante proporcional a la cantidad de radio.
Luego esta ley produce la siguiente ecuación:

−R0 (t) = kR(t),
donde R(t) es la cantidad de radio en el instante t y k es la constante de
proporcionalidad. Integrando la ecuación
−R0 (t)/R(t) = k,
donde el lado de la izquierda se integra por el método de sustitución, se obtiene
− ln R(t) = kt − ln R0 ,
donde R0 es la cantidad de radio en el instante t = 0. Luego
R(t) = R0 e−kt .
Es de destacar que esta ley de decrecimiento exponencial rige en muchos
fenómenos fı́sicos, como por ejemplo en el proceso de enfriamiento de un
cuerpo, donde el ritmo de disminución de la cantidad de calor del cuerpo
es proporcional a la diferencia de temperatura entre dicho cuerpo y el medio
que lo rodea.
Movimiento de un péndulo
Un péndulo simple es un punto material de masa m suspendido de un hilo de
longitud l. Suponemos que el péndulo se mueve siempre dentro de un plano
fijo.
@
φ@
@
@
@
@
@
@
@
@•
¡
ª¡@ R
@
mgsen φ
?mg
•
La posición del péndulo en un instante t viene dada por la función

φ(t), que es el ángulo que forma el hilo con la vertical.
El valor φ = 0 corresponde a la posición de equilibrio (posición vertical) y

suponemos que los valores positivos de φ se obtienen cuando el péndulo se des-
plaza en sentido contrario a las agujas del reloj. El peso del punto material,
mg, es la fuerza que produce el movimiento del péndulo. Esta fuerza se de-
scompone en dos componentes, una en la dirección del hilo y otra en dirección
perpendicular a la anterior, con un sentido dirigido siempre hacia la posición
de equilibrio. Es esta segunda componente la que determina en realidad el
movimiento. Su expresión en valor absoluto es
|mgsen φ|.
Por otra parte, la función derivada φ0 (t) es la velocidad angular, y se sabe que
la velocidad tangencial del punto será
lφ0 (t).
Si soltamos el péndulo en un instante t = 0 en un valor φ0 > 0, éste iniciará

su desplazamiento hacia la posición de equilibrio. La velocidad tangencial será
negativa porque el ángulo φ disminuirá su valor, pero en valor absoluto aquélla
irá aumentando hasta pasar por la posición de equilibrio. Luego la aceleración

tangencial será también opuesta a la componente del peso que produce el
movimiento. Por lo tanto, usando la segunda ley de Newton, se obtiene la
ecuación diferencial que describe el movimiento del péndulo simple. Esta es
mlφ00 (t) = −mgsen φ,
o bien
g
φ00 (t) = − sen φ.
l
Sirva como comentario que las soluciones de esta sencilla ecuación diferencial
no pueden encontrarse entre aquéllas que son combinación finita de funciones
elementales. La generalidad de este hecho dio lugar a un avance espectacu-
lar en el estudio de las funciones de variable real, concretamente al desarro-
llo de funciones mediante series, principalmente series de potencias y series
trigonométricas.
Una simplificación de la ecuación anterior permite encontrar una solución

rápida. Es consecuencia de considerar un movimiento del péndulo para pequeos
valores del ángulo φ. En este caso puede aproximarse sen φ por φ, resultando
la ecuación
g
φ00 (t) = − φ(t).
l
Más adelante veremos que ella es resoluble mediante funciones trigonométricas,
lográndose una descripción de las pequeas oscilaciones del péndulo muy cercana
a la realidad experimental.
16.1 Ecuaciones de primer orden

Son aquéllas en las que interviene la derivada primera de una
función pero no derivadas de orden superior.
Un caso sencillo es el llamado de variables separables. Es una ecuación de la

forma
y 0 = g(x)h(y).
Se resuelve encontrando por un lado una primitiva de 1/h(y), digamos H(y),

considerando a y como variable independiente por el momento, y por otro lado
una primitiva de g(x), digamos G(x). Como la derivada de la función H(y(x)),

con respecto a x, es precisamente y 0 /h(y), sigue la ecuación
H(y(x)) = G(x) + C,
que en muchos casos permite despejar y en función de x.
Ejemplo
La ecuación
y 0 = 3x2 y 2
se resuelve integrando 1/y 2 con respecto a y y por otro lado integrando
3x2 ,
lo que da −1/y = x3 + C. Luego
y = −1/(x3 + C).
Función homogénea
Una función f (x, y) se dice homogénea de grado cero si
f (αx, αy) = f (x, y)
para todo α 6= 0 y todo (x, y) en su dominio.
Dándole a α el valor 1/x, con x 6= 0, sigue que
f (x, y) = f (1, y/x).
Consideremos una ecuación y 0 = f (x, y), donde f (x, y) es una función ho-
mogénea de grado cero. Luego, para x 6= 0,
y 0 = f (1, y/x). (35)
Si llamamos z(x) al cociente y(x)/x, se obtiene que
x 7→ z(x)
es una función derivable. Como xz(x) = y(x), su derivada satisface
z(x) + xz 0 (x) = y 0 (x).

Luego (35) se escribe

z(x) + xz 0 (x) = f (1, z),
o bien
z0 1
= ,
f (1, z) − z x
que resulta ser una ecuación de variables separables. Una vez resuelta, se
calcula y mediante
y = xz(x).
Ejemplo
Resolver
x2 − 2y 2
y0 = .
xy
La función del lado derecho es homogénea de grado cero. Es
f (1, z) = (1 − 2z 2 )/z = 1/z − 2z.
Ası́,
f (1, z) − z = 1/z − 3z = (1 − 3z 2 )/z.
Luego debemos resolver la siguiente ecuación de variables separables:
zz 0 1
2
= .
1 − 3z x
Integrando ambos lados de esta ecuación, se obtiene
1
− ln(1 − 3z 2 ) = ln(1 − 3z 2 )−1/6 = ln(Cx).
6
Como el logaritmo es una función inyectiva, sigue que en la ecuación anterior
³ ´1/2
1−[Cx]−6
sus argumentos deben ser iguales. Operando se obtiene z = 3
. Por
último la solución es µ ¶1/2
1 − [Cx]−6
y=x .
3
Ecuaciones exactas
Supongamos que una función y = y(x) satisface la ecuación
F (x, y(x)) = C,
donde F (x, y) es una función de dos variables independientes y C es una cons-

tante. En este caso se dice que la función y = y(x) viene dada en forma
implı́cita por la relación
F (x, y) = C,
supuesto que hay un único valor de y satisfaciendo esa relación para cada valor
de x. Cabe destacar aquı́ que la existencia de esta función y = y(x) puede
asegurarse sólo localmente bajo las siguientes condiciones. Estas son:
• Que exista un punto (x0 , y0 ) tal que F (x0 , y0 ) = C.
• Tener F (x, y) derivadas parciales de primer orden continuas en un en-

torno del punto (x0 , y0 ).
• Ser Fy (x0 , y0 ) 6= 0.
Si estas condiciones se cumplen, entonces puede garantizarse que

existe un entorno de x0 y un entorno de y0 (de ahı́ la existencia
local de y = y(x)) tal que para todo x en el primer entorno existe
un único valor y en el segundo entorno que satisface F (x, y) = C.
Este resultado se conoce con el nombre de Teorema de la función implı́cita.

Suponiendo entonces la existencia, al menos localmente, de la función y =
y(x), y dado que la función
F (x, y(x))
es constante, se tiene que su derivada será nula para todo valor de x en el

entorno de existencia de y = y(x). Usando la regla de la cadena, sigue que
esta derivada es
Fx (x, y) + y 0 Fy (x, y).
Si ahora consideramos una ecuación diferencial del tipo
g(x, y) + y 0 h(x, y) = 0, (36)
podemos preguntarnos si existirá una función F (x, y) tal que
Fx = g(x, y) y Fy (x, y) = h(x, y) (37)
para todo par (x, y) en su dominio.

Si ası́ ocurre, esta ecuación diferencial se llama exacta.
En este caso, la discusión anterior muestra que su solución será cualquier

función y = y(x) dada por la forma implı́cita F (x, y) = C. La cuestión
consiste entonces en determinar cuándo una ecuación diferencial del tipo (36)
es exacta. Una condición necesaria es que
gy (x, y) = hx (x, y). (38)
En efecto, esto es consecuencia de la igualdad de las derivadas cruzadas, Fxy =

Fyx (estamos considerando la validez de las hipótesis suficientes sobre F para
que se dé esta igualdad). Afortunadamente (38) es también suficiente para que
(36) sea una ecuación diferencial exacta. Como veremos, una demostración
de este hecho construye de paso una función F (x, y) que lleva a la solución
buscada. Para ello, primero encontramos, mediante integración, una función
G(x, y) tal que
Gx (x, y) = g(x, y).
Luego esta misma igualdad la cumple toda función
G(x, y) + β(y),
donde β(y) es cualquier función derivable. Como nuestro objetivo es hallar

una función que satisfaga (37), y la función anterior ya satisface, por su misma
construcción, la primera de esas condiciones, probamos con la segunda de ellas,
a saber
Gy (x, y) + β 0 (y) = h(x, y).
Esta igualdad permite de paso calcular la función incógnita β(y) mediante

integración de la función
h(x, y) − Gy (x, y).
Pero entonces es requisito ineludible que esta última función sea en realidad
sólo función de y. Y ası́ sucede, dado que su derivada parcial con respecto a x
es
hx (x, y) − Gyx (x, y) = hx (x, y) − gy (x, y),
que es una función idénticamente nula, precisamente por (37). Por consiguien-
te, una solución de (36) viene dada en forma implı́cita por
G(x, y) + β(y) = C.
Ejemplo
La ecuación diferencial
ey + (xey + 2y)y 0 = 0
es exacta, como se puede verificar fácilmente. Para obtener una solución de

ella, encontramos primero una función G(x, y) cuya derivada con respecto a x
sea ey . Esto da, por ejemplo,
G(x, y) = xey .
Ahora hallamos la función β(y) calculando una primitiva de
xey + 2y − Gy (x, y) = xey + 2y − xey = 2y.
Esto da β(y) = y 2 . Luego la solución de esta ecuación diferencial exacta viene

dada en forma implı́cita por
xey + y 2 = C.
Ecuaciones lineales
Una ecuación lineal de primer orden puede escribirse en la forma
y 0 + A(x)y = B(x). (39)
Sea P (x) una función cuya derivada es A(x). Multiplicando ambos lados de
(39) por eP (x) , queda
y 0 eP (x) + A(x)yeP (x) = B(x)eP (x) .
Notar ahora que el lado izquierdo de la ecuación anterior es (yeP (x) )0 , por lo
que (39) se escribe
(yeP (x) )0 = B(x)eP (x) .
De aquı́ sigue inmediatamente que una solución de (39) viene dada por
µZ ¶
−P (x) P (x)
y=e B(x)e dx + C ,
donde C es una constante arbitraria.
Ejemplo
Para resolver la ecuación

y
y0 + = 3x,
x
comenzamos por encontrar una primitiva de 1/x, por ejemplo ln x. Como
e− ln x = 1/x, eln x = x,
la solución general es
µZ ¶
1 2 C
y= 3x dx + C = x2 + .
x x
Ecuaciones reducibles en el orden

La ecuación general de segundo orden
G(y 00 , y 0 , y, x) = 0
puede ser resuelta mediante la integración de dos ecuaciones de primer orden

en los siguientes casos particulares.
Si en la ecuación no figura la variable y entonces, mediante la sustitución
z = y 0 , se la lleva a la ecuación de primer orden
G(z 0 , z, x),
que una vez resuelta en z permite el cálculo de la solución final, a saber y =

R
z(x) dx.
Si en la ecuación no aparece la variable x, entonces hay que hacer la suposición
de que la derivada y 0 (x) puede expresarse en términos de la función y(x), es
decir
y 0 = p(y).
Esto es posible si existe, al menos localmente, la función inversa de y = y(x).
Por lo tanto se tiene que
dy 0 dp dy
y 00 = = = p0 p.
dx dy dx
La ecuación original se transforma entonces en la ecuación de primer orden
G(pp0 , p, y) = 0.
Si de aquı́ puede obtenerse la expresión de p(y), entonces y(x) es la solución

de la ecuación y 0 = p.
16.2 Ecuaciones lineales de segundo orden

Una ecuación lineal de segundo orden tiene la forma
y 00 + A(x)y 0 + B(x)y = R(x). (40)
Como ya se ha dicho anteriormente, esta ecuación diferencial no tiene en gene-

ral una solución dada por una combinación finita de funciones elementales.
Cabe preguntarse entonces si tiene alguna solución. Esta cuestión tiene su
respuesta en el siguiente
Teorema Si A, B y R son funciones continuas en un intervalo compacto I,

entonces para cada x0 ∈ I y para números reales arbitrarios y0 , y00 existe una
única función solución de (40), con dominio en el intervalo I, satisfaciendo
y(x0 ) = y0 , y 0 (x0 ) = y00 .
Este es sólo un teorema de existencia, es decir no da ningún método cons-
tructivo de las soluciones. Cuando R(x) ≡ 0 entonces la ecuación se llama
homogénea. Puede probarse que la solución general de la ecuación homogénea
está dada por una combinación lineal de dos soluciones linealmente indepen-
dientes, digamos
a1 y1 (x) + a2 y2 (x),
donde a1 y a2 son constantes arbitrarias. Esto es consecuencia de la lineali-
dad de la derivación. Observar que la función idénticamente nula es siempre
solución de la ecuación homogénea. Por otro lado, la solución general de la
ecuación (40) es la suma de una solución particular de ésta más la solución
general de la ecuación homogénea.
Cuando se conoce una solución de la ecuación homogénea es posible deter-

minar otra solución. En efecto, supongamos que y1 (x) satisface
y100 + A(x)y10 + B(x)y1 = 0. (41)
Ponemos y2 (x) = y1 (x)u(x), donde u(x) habrá de hallarse de modo que y2 (x)
verifique (41). Por lo tanto, reemplazando y1 por y2 en (41) y usando que y1
es una solución, se llega a
u00 y10
= −2 − A.
u0 y1
Integrando ambos lados de esta ecuación, se obtiene
Z
0
ln u = −2 ln y1 − A dx,
es decir
1 −R
u0 = e A dx
.
y12
Finalmente, Z
1 −R A dx
u= e dx.
y12
Ası́, y2 = uy1 , y puede probarse sin dificultad que y1 y la función y2 ası́ obtenida
son linealmente independientes.
Ejemplo
No es difı́cil notar que y1 = x es una solución de la ecuación

1 1
y 00 + y 0 − 2 y = 0.
x x
Luego otra solución linealmente independiente con aquélla es xu donde
Z Z Z
1 − R (1/x) dx 1 − ln x
u= e dx = e dx = x−3 dx = x−2 /2.
x2 x2
Por consiguiente, y2 = x−1 /2 y la solución general viene dada por
a1 x + a2 x−1 .
La ecuación homogénea con coeficientes cons-

tantes
Para la ecuación
y 00 + ay 0 + by = 0, (42)
donde a y b son constantes, existe un método general de resolución. Este se

basa en probar una solución de la forma y = emx . Reemplazando y por esta
función en (42) se obtiene
(m2 + am + b)emx = 0.
Como emx nunca se anula, se concluye que la expresión de arriba encerrada

entre paréntesis debe anularse. Sabemos que existen dos valores, digamos m1
y m2 , reales o complejos, que anulan esa expresión. Hay tres posibles casos:
Raı́ces reales distintas
En este caso em1 x y em2 x son dos soluciones linealmente independientes de

(42).
Raı́ces complejas distintas

Aquı́ m1 = r + is, m2 = r − is, donde i es el número imaginario. Dos
soluciones linealmente independientes son
erx cos sx y erx sen sx.
Raı́ces reales iguales
Como ahora hay sólo un valor numérico m1 que anula la expresión cuadrá-
tica m2 + am + b, tenemos en principio sólo una solución de (42). Empero,
recurriendo al método de obtención de una solución conociéndose otra, es posi-
ble deducir que en este caso
em1 x y xem1 x
son soluciones linealmente independientes de (42).
Ejemplos
1) La ecuación
y 00 + y 0 − 6y = 0
conduce a resolver
m2 + m − 6 = 0.
Las soluciones de esta ecuación cuadrática son 2 y -3. Luego la solución general
de la ecuación diferencial es
a1 e2x + a2 e−3x .
2) La ecuación
y 00 + 2y 0 + y = 0
produce una ecuación cuadrática asociada con una raı́z doble, a saber -1. Luego
su solución general es
a1 e−x + a2 xe−x .
3) La ecuación
y 00 + 9y = 0
produce la ecuación cuadrática m2 + 9 = 0, cuyas soluciones son los números
complejos conjugados ±3i. La solución general de la ecuación diferencial es
a1 cos 3x + a2 sen 3x.

17 Estadı́stica y Probabilidad
La estadı́stica, como rama de las matemáticas, es una disciplina que en sus
aspectos aplicados intenta obtener conclusiones sobre determinadas caracte-
rı́sticas de una población de individuos, real o virtual, a través de una obser-
vación directa de una parte de esa población (muestra). En el siguiente ejemplo
práctico, si bien muy simple, están encerradas las ideas fundamentales de una
aplicación estadı́stica. Se trata en este caso de la estimación de un parámetro
poblacional. Supongamos que deseamos determinar el número n de peces que
habitan en un lago. Para ello se capturan 1.000 peces, se los marca con un
punto rojo y se los devuelve con vida al lago. Al cabo de un tiempo se hace una
segunda captura de 1.000 peces y se observa que entre ellos hay exactamente
100 peces marcados. Con estos datos, cómo puede estimarse el número total
de peces en el lago?
Ha de suponerse que la población total se mantiene constante entre ambas

capturas. También que la segunda captura de 1.000 peces representa una
muestra aleatoria de la población. Que significa esto?
Pues que la probabilidad de pescar un determinado grupo de 1.000

peces es la misma para todos los posibles grupos de 1.000 peces
que se pueden formar con todos los peces del lago.
La palabra probabilidad está usada aquı́, en principio, en un sentido coloquial,

tal como se la usa en conversaciones sobre cualquier tema: la probabilidad de
que una persona gane las elecciones, de que el equipo A gane el partido de
fútbol al equipo B, de que mañana llueva, etc. En afirmaciones de este tipo el
término probabilidad no tiene más sentido que expresar la opinión subjetiva del
que las formula. No obstante, en ellas es posible darle un sentido matemático
objetivo. De hecho, el concepto de probabilidad es una entidad matemática
definida actualmente con todo rigor. Es precisamente en este concepto en el
que se apoya la estadı́stica para justificar sus métodos.
Podemos decir que la probabilidad es un número real asociado a un suceso

aleatorio, esto es, un suceso que puede darse o no ante la realización de un
determinado experimento. Este número está comprendido entre 0 y 1. El
suceso imposible tiene probabilidad 0. El suceso cierto tiene probabilidad 1.
Son éstos dos sucesos especiales. En general, un suceso que a veces se da
17 Estadı́stica y Probabilidad 206
y otras veces no se da cuando se realiza el experimento tendrá un valor de

probabilidad comprendido estrictamente entre 0 y 1. Llegado a este punto, es
posible intuir el significado objetivo de probabilidad. Más aún, comprender la
relación entre un experimento concreto y un modelo matemático probabilı́stico
que lo interprete adecuadamente.
El ejemplo de los peces en el lago responde al esquema, muy usado en

aplicaciones, de una urna que contiene n bolillas. El experimento consiste en
extraer al azar r bolillas, r < n, sin reposición. Esto último quiere decir que si
ellas se extraen de una por vez, las bolillas que se van sacando no se reponen en
la urna. El número de posibles resultados de este experimento se corresponde
con el número total de grupos diferentes de r bolillas que pueden formarse con
las n bolillas de la urna, donde dos grupos son diferentes si al menos hay una
bolilla en uno de ellos que no está en el otro. Este número es precisamente el
combinatorio µ ¶
n n!
= .
r r!(n − r)!
µ ¶
n
Luego este experimento tiene resultados distintos. Como todas las bo-
r
lillas en la urna tienen igualdad de oportunidades de ser extraı́das, es razonable
suponer que los resultados son equiprobables. Este hecho, y en vista de los
axiomas que la definen, hace que la probabilidad de extraer un grupo de r
bolillas de un conjunto de n bolillas sea
1
µ ¶, (43)
n
r
ya que la suma de las probabilidades de todos los resultados posibles debe ser
1.
Ahora bien, si en la urna tenemos n1 bolillas rojas (total de peces marcados

en el lago) y n − n1 bolillas blancas (total de peces sin marcar) podemos
preguntarnos por la probabilidad pn (k) de que en la muestra extraı́da de r
bolillas haya exactamente k bolillas rojas y r − k bolillas blancas. Usando
otra vez que la probabilidad de extraer un grupo de r bolillas está dado por
(43), resulta que pn (k) se obtiene sumando la expresión de (43) tantas veces
como grupos distintos de r bolillas puedan formarse con k bolillas rojas y
r − k bolillas blancas. Este último número es el producto de los combinatorios
µ ¶ µ ¶
n1 n − n1
y . Luego
k r−k
µ ¶µ ¶
n1 n − n1
k r−k
pn (k) = µ ¶ .
n
r
Está claro que k puede tomar valores enteros, desde 0 hasta el mı́nimo entre
r y n1 . Son valores de lo que se llama una variable aleatoria. En este caso,
una variable aleatoria discreta. Los valores de la variable, junto con sus co-
rrespondientes probabilidades, forma la llamada distribución en probabilidad
de la variable. A la del presente ejemplo se le da el nombre de distribución
hipergeométrica.
Volvamos ahora a la cuestión inicial, una vez que hemos comprobado que el
modelo de la distribución hipergeométrica es el adecuado para el experimento
de la captura de peces de un lago. En nuestro caso, n es el número total de
peces en el lago. Es un valor desconocido pero fijo, no variable. Es lo que se
llama un parámetro poblacional. El experimento de la captura y recaptura
de peces ha sido diseñado para estimar su valor. Además tenemos que n1 =
1.000, r = 1.000, k = 100. Por lo tanto, la probabilidad de pescar 100 peces
marcados en una captura de 1.000 peces es
µ ¶µ ¶
1.000 900
100 900
pn (100) = µ ¶ .
n
1.000
Un método de estimación de n, llamado de máxima verosimilitud, consiste en
determinar aquel valor de n que produce la máxima probabilidad pn (100). En
otras palabras, encontrar el máximo de la función
pn (100) : IN 7→ R.
En nuestro caso es evidente que n debe ser al menos 1.900, a saber los 1.000
peces marcados más los 900 sin marcar que aparecieron en la segunda cap-
tura. Pero p1.900 (100) es una probabilidad extremadamente baja. Haciendo
los cálculos pertinentes se obtiene que el estimador de máxima verosimilitud
es n = 10.000. Es ésta una estimación puntual. Por cierto que no hay por
qué esperar que en el lago haya exactamente 10.000 peces. En un número de
esta magnitud es más razonable permitir ciertos márgenes. Suena más realista
afirmar, por ejemplo, algo como “se espera que en el lago habiten entre 8.000
y 12.000 peces”. A fin de hallar estos lı́mites, se razona de la siguiente manera.
De haber en el lago un número bajo de peces se tendrı́a que la proporción de
peces marcados serı́a grande, por lo que la probabilidad de pescar 100 peces
marcados, o menos, en una captura de 1.000 peces, serı́a muy pequeña. Por
ejemplo, si n = 2.000, entonces el porcentaje de peces marcados es del 50%.
Es de esperar entonces que en la segunda captura se mantenga aproximada-
mente este porcentaje. Concretamente, puede calcularse que si ya n = 8.500,
entonces la probabilidad de extraer menos de 100 peces marcados es 0,04. La
probabilidad de este mismo suceso serı́a inferior para valores más bajos de n.
Análogamente, de haber en el lago un número significativamente superior
a 10.000, ocurrirı́a que la proporción de peces marcados serı́a baja, por lo
que serı́a improbable pescar 100 o más peces marcados. Por ejemplo, si ya
n = 12.000, la probabilidad de este suceso es 0,03, y es aún inferior para
valores más grandes de n. Por consiguiente, una estimación (por intervalo)
aceptable de n está entre 8.500 y 12.000.
17.1 Variables aleatorias continuas

La distribución en probabilidad de una variable aleatoria discreta está total-
mente caracterizada por los valores que toma la variable junto con sus cor-
respondientes probabilidades. Por otra parte, una variable continua tiene la
propiedad de poder tomar cualquier valor comprendido entre dos valores dis-
tintos. En este caso no tiene significación dar probabilidades de valores indi-
viduales de la variable. De hecho, estas probabilidades serán siempre 0. Sı́
tiene significación hablar de la probabilidad de que los valores de la variable
recorran, por ejemplo, un intervalo [a, b], a < b. Si llamamos X a la variable
aleatoria, esto se expresa
P (a < X < b).
Por lo tanto, una variable continua debe ser caracterizada de tal manera que
podamos determinar, al menos teóricamente, esas probabilidades. Esto se
consigue dando una función f : R 7→ R, llamada función de densidad de X,
sujeta a las siguientes condiciones:
1) f ≥ 0,
R∞
2) −∞ f (x) dx = 1.
Toda función que verifique 1) y 2) puede ser considerada como función de

densidad de una variable aleatoria X, y su relación con ella es precisamente
que Z b
P (a < X < b) = f (x) dx
a
para cualquier a < b. De esta manera la variable continua queda proba-
bilı́sticamente caracterizada.
La esperanza matemática o media de una variable aleatoria continua es un

número cuya expresión es
Z ∞
E(X) = xf (x) dx.
−∞
Puede considerarse como un valor representativo de la variable en lo que hace

a su posición. El grado de dispersón de los valores de la variable alrededor de
su media está dado por la varianza
Z ∞
V (X) = (x − E(X))2 f (x) dx,
−∞
o bien, si deseamos trabajar con las mismas unidades que las de la variable,
por el desvı́o estándar
p
D(X) = V (X).
Un ejemplo importante de variable aleatoria continua, llamémosla G, es la

llamada normal o de Gauss. Su función de densidad es
1 (x−µ)2
√ e− 2σ2 ,
2πσ
donde µ = E(G), σ = D(G). La llamada variable normal estándar es aquélla
para la cual µ = 0, σ = 1. En el siguiente dibujo observamos las funciones de
densidad de una variable normal estándar y de una variable normal de media
0 y varianza 0,25 (en azul). La menor dispersión de esta última alrededor de
su media, o en otras palabras, la mayor concentración de sus valores alrededor
de su media, provoca la mayor agudeza de la curva.
0.8
0.6
0.4
0.2
-3 -2 -1 1 2 3
17.2 Estimación de la media poblacional

Cantidades de naturaleza tan dispar, como por ejemplo, el peso de glucosa en
100 ml de plasma sanguı́neo de adultos sanos o el tiempo de vida de ciertas
lámparas, pueden tener, desde el punto de vista de su distribución poblacional,
un comportamiento afı́n. Ambas cantidades varı́an de individuo a individuo.
Por eso mismo decimos que son variables. En otras palabras, no es posible pre-
decir un valor numérico exacto para un determinado individuo. No obstante,
si analizamos estos valores para un gran número de individuos observaremos
que su distribución obedece a una cierta ley. Ası́, puede hablarse de un peso
medio, o un tiempo medio de vida, entendiendo con esto que los valores indi-
viduales oscilarán, por arriba y por debajo, alrededor de esa cifra. Una visión
aproximada de la distribución de una variable X puede obtenerse mediante una
muestra aleatoria de n datos, digamos x1 , · · · , xn . Esto se consigue particio-
nando un intervalo que contenga a aquéllos en subintervalos de igual longitud,
intervalos de clase, y luego contando el número de datos, la frecuencia, que han
caı́do en cada subintervalo. Esta información suele representarse en un gráfico
bidimensional, donde la frecuencia se indica en el eje vertical y los intervalos
de clase en el eje horizontal. Se construye ası́ un diagrama de barras, donde la
base de cada barra se corresponde con un intervalo de clase y la altura de la
barra mide el valor de frecuencia respectivo. De esta manera, es de esperar que
el diagrama de barras muestre un dibujo que se aproxima a la curva gráfica de
la función de densidad de X.
Supongamos ahora que la variable X tiene una distribución normal, con

media µ y desvı́o σ. Una estimación puntual de µ se hace a través del promedio
de n observaciones de la variable, a saber

Pn
xi
x = i=1 .
n
El promedio puede considerarse como una observación de la variable
Pn
Xi
X = i=1 ,
n
donde X1 , · · · , Xn son variables independientes con la misma distribución que
X, y (x1 , · · · , xn ) es una observación de la variable n-dimensional
(X1 , · · · , Xn ).
Sin rigor, puede afirmarse que las variables son independientes cuando el valor
que toma una cualquiera de ellas no influye en los valores que toman las otras.
Bajo estas hipótesis puede probarse sin dificultad que la variable
X −µ
√
σ/ n
tiene una distribución normal estándar. Por lo tanto, al tener una distribución
conocida, es posible determinar un número a de tal forma que, por ejemplo,
µ ¶
X −µ
P −a < √ < a = 0, 90.
σ/ n
Operando en estas dos desigualdades se obtiene que hay una probabilidad
de 0,90 (nivel de confianza) de que la media µ verifique la siguiente doble
desigualdad:
√ √
X − aσ/ n < µ < X + aσ/ n.
Si el desvı́o σ es conocido, entonces reemplazando X por una observación x se
determina un intervalo de estimación para la media. Notar que el cálculo del
intervalo viene acompañado por una afirmación probabilı́stica que da garantı́as
sobre la confiabilidad del resultado. Notar también que el valor de a aumenta
a medida que el nivel de confianza crece hacia 1.
Si σ no es conocido entonces se lo estima mediante la variable

s
Pn ¡ ¢2
i=1 X i − X
S= .
n−1
En este caso la variable continua
X −µ
√
S/ n
tiene una distribución conocida con el nombre de t de Student, con n−1 grados
de libertad. Luego también es posible aquı́ hallar un intervalo de estimación
para la media. Su expresión es
√ √
x − bs/ n < µ < x + bs/ n,
donde x y s son las observaciones muestrales de X y S, respectivamente, y b

es obtenido, como en el caso anterior, a partir del nivel de confianza utilizado.
La distribución t de Student
Se define la variable χ2n , con n grados de libertad, como la suma de los cuadra-
dos de n variables normales independientes, todas ellas con media 0 y varianza
1. La variable t de Student se define como el cociente
Z
p ,
χ2n /n
donde Z es una variable normal estándar, independiente de χ2n .
Vamos a probar ahora que si
X1 , X2 , · · · , Xn
son n variables normales independientes, todas ellas con media µ y varianza

σ 2 , entonces la variable
√ √
n(X − µ) n(X − µ)
= q Pn
S i=1 (Xi −X)
2
n−1
tiene una distribución t de Student con n − 1 grados de libertad. Para ello

vamos a demostrar a su vez que esta última expresión responde a la definición
anterior. Observaremos que hay aquı́ una interesante aplicación de la teorı́a
de diagonalización de matrices. Notar que
n
X
(Xi − X)2
i=1
es una forma cuadrática, que se puede escribir matricialmente como

 
X1
 X2 
 
(X1 , X2 , · · · , Xn )M  ..  ,
 . 
Xn
donde M es una matriz simétrica. Sus coeficientes de la diagonal principal

son todos iguales a 1 − n1 , y todos los restantes coeficientes son iguales a − n1 .
Como M es simétrica, existe una matriz ortonormal P (es decir, su transpuesta
coincide con su inversa) tal que
P −1 M P
es una matriz diagonal D. Más aún, los coeficientes de la diagonal principal

de D, digamos dii , son los autovalores de M , y las columnas de P (o las filas
de P −1 ) son sus correspondientes autovectores. Luego, si se efectúa el cambio
lineal de variables    
Y1 X1
 Y2   X2 
   
 ..  = P −1  .. ,
 .   . 
Yn Xn
se tendrá que la forma cuadrática se escribirá en términos de las nuevas varia-
bles como
d11 Y12 + d22 Y22 + · · · + dnn Yn2 .
En vista de la forma de M , se observa inmediatamente que el vector que tiene
todas sus componentes iguales a √1 es un autovector de esta matriz, correspon-
n
diente a un autovalor nulo. Análogamente, también se observa fácilmente que
los n−1 vectores que se obtienen colocando 1 y −1 en forma consecutiva, y 0 en
los restantes lugares, son autovectores pertenecientes al autoespacio ortogonal
al primer autovector, todos ellos correspondientes a un autovalor igual a 1.
Notar que los vectores de este autoespacio son aquéllos cuyas componentes
suman 0. Sabemos además que podemos encontrar en este autoespacio n − 1
autovectores ortonormales. Es decir, si sus componentes son
(pi1 , pi2 , · · · , pin ), 2 ≤ i ≤ n,
se tiene que
pi1 + pi2 + · · · + pin = 0,

p2i1 + p2i2 + · · · + p2in = 1.
Como estas componentes son precisamente las filas de la matriz P −1 , sigue que
√
Y1 = n X,
y
Yi = pi1 X1 + pi2 X2 + · · · + pin Xn
para i ≥ 2. Por lo tanto, por propiedades de la media y varianza, se deduce

que
√ √
E(Y1 ) = nE(X) = nµ, V ar(Y1 ) = nV ar(X) = σ 2 ,
y para i ≥ 2,
E(Yi ) = 0, V ar(Yi ) = σ 2 .
Por otro lado, por propiedades de la variable normal, todas las variables Yi
resultan normalmente distribuidas. Además, como P es una matriz ortonor-
mal, la independencia de las variables Xi se transmite a las variables Yi . En
las nuevas variables, la forma cuadrática se escribe
n
X
Yi2 .
i=2
Se concluye que la variable

√ √
n(X − µ) (Y1 − nµ)/σ
q Pn = q Pn
2 2
i=1 (Xi −X) i=2 (Yi /σ)
n−1 n−1
tiene, por su misma definición, una distribución t de Student con n − 1 grados

de libertad.
18 Aplicaciones a la Quı́mica
18.1 Cinética quı́mica
La razón de cambio de una reacción quı́mica depende de la cantidad de ma-
teria de los reactivos que se combinan a una determinada temperatura. El
mecanismo que regula este proceso se conoce como ley de razón de cambio
experimental. El conocimiento de esta ley empı́rica (debe ser determinada ex-
perimentalmente) es a menudo el primer paso para comprender la sucesión
de eventos moleculares que los reactivos llevan a cabo para formar productos.
Concretamente, esto se logra estudiando la correspondencia entre la razón
de cambio de la cantidad de materia de los reactivos que toman parte en la
reacción por unidad de tiempo y la cantidad de materia del producto que se
forma en ella. Por ejemplo, si los reactivos A y B se combinan para formar los
productos C y D, esto se simboliza
a A + b B −→ c C + d D,
donde a, b, c y d son los coeficientes estequiométricos de las correspondientes

sustancias.
La cantidad de materia o de partı́culas de cada sustancia, su concentración,

se da en moles por litro. La concentración de una sustancia, por ejemplo, A,
se denota por [A].
Durante el proceso de la reacción quı́mica las concentraciones van cam-
biando con el tiempo t. Ellas son, por tanto, funciones de t. En la reacción
de arriba, por ejemplo, [A] y [B] disminuyen con t (funciones decrecientes)
mientras que [C] y [D] aumentan con t (funciones crecientes).
Ahora bien, interesa analizar la rapidez o razón de cambio de la modifi-

cación de la concentración de las sustancias que intervienen en la reacción.
Esta información se obtiene precisamente por las respectivas derivadas,
[A]0 , [B]0 , [C]0 , [D]0 ,
que son también funciones del tiempo t. Por lo dicho arriba, será
[A]0 < 0, [B]0 < 0, [C]0 > 0, [D]0 > 0.

18 Aplicaciones a la Quı́mica 216
En cuanto a su magnitud, ellas son proporcionales a sus coeficientes este-

quiométricos. Por todo ello, se tiene la siguiente relación:
1 1 1 1
R = − [A]0 = − [B]0 = [C]0 = [D]0 .
a b c d
Este número R, común a todas las sustancias, puede definirse como la razón
de cambio de la reacción quı́mica, por ser precisamente independiente de las
sustancias que intervienen en ella.
Por cierto que R depende del tiempo t, por lo que es importante intentar
hallar una relación explı́cita para R(t). Es natural que R dependa de la concen-
tración de los reactivos como ası́ también de la concentración de los productos
que se forman en la reacción. También depende de la temperatura. Pero si
ésta se mantiene constante durante el proceso, puede eliminarse como variable
independiente. Para hacer una simplificación adicional, puede suponerse que
muy al comienzo de la reacción la razón de cambio inicial, digamos R0 , sólo
depende de la concentración de los reactivos. Pero de qué forma depende?
Por una lógica que se sustenta en la ley de acción de masas, puede deducirse
que R0 depende del producto de las concentraciones. Después de introducir
parámetros de ajuste en forma de exponentes para las concentraciones, se ob-
tiene (por ejemplo, para la reacción de arriba) la siguiente expresión:
R0 (t) = k[A]m [B]n ,
donde k, m y n son constantes. Observar entonces que R depende del tiempo t a

través de las concentraciones de los reactivos A y B. Supuesta la validez de esta
ley, surge ahora la cuestión de calcular el valor de las constantes k, m y n para
cada caso particular. Esto puede hacerse con el siguiente método. Se realizan
experimentos con apropiados valores de concentración inicial de los reactivos
y se mide en cada uno de ellos el valor de R0 . Por ejemplo, consideremos la
siguiente reacción entre H2 y Br2 , llevada a cabo a una temperatura constante
de 25 grados centı́grados.
H2 + Br2 −→ 2 HBr2 .
Los datos de 5 experimentos se dan a continuación. La concentración inicial

del reactivo se indica con el subı́ndice 0.
Experimento [H2 ]0 [Br2 ]0 R0

1 0,10 0,10 2,000 x 10−5
2 0,10 0,20 2,828 x 10−5
3 0,20 0,10 4,000 x 10−5
4 0,10 0,30 3,464 x 10−5
5 0,30 0,10 6,000 x 10−5
Notar que en los experimentos 1 y 2 las concentraciones de [H2 ]0 son iguales

pero no ası́ las de [Br2 ]0 , mientras que en experimentos 2 y 3 son iguales las
concentraciones de [Br2 ]0 pero no las de [H2 ]0 . Como veremos, este hecho
permite calcular las constantes k, m y n usando estos tres experimentos. Dado
que
R0 = k([H2 ]0 )m ([Br2 ]0 )n ,
dividiendo la ecuación anterior con los datos del experimento 2 entre la misma
ecuación con los correspondientes datos del experimento 1, sigue que
1, 414 = 2n ,
por lo que
n = 1/2.
Procediendo análogamente con los datos de experimentos 1 y 3, se deduce que
2 = 2m ,
y de esta manera
m = 1.
Observar que también otros pares de experimentos podrı́an haber sido usa-
dos, obteniéndose los mismos valores de ambas constantes. Utilizando ahora
cualquier experimento se halla el valor de k. Este es 6,324 x 10−4 .
La concentración como función del tiempo

La ley de razón de cambio experimental permite expresar la razón de cambio de
la concentración de una sustancia que toma parte en una reacción quı́mica en
función de las concentraciones de los reactivos. Se supone siempre que esta ley
es válida en el comienzo del proceso. Conociendo esta información, es posible
también encontrar la ley explı́cita que relaciona la concentración del reactivo
con el tiempo. En efecto, su solución se obtiene resolviendo una ecuación
diferencial. Lo haremos a continuación en casos muy simples. Consideremos
la siguiente reacción:
A −→ C
En esta situación tenemos que
R0 = −[A]0 ,
ya que el coeficiente estequiométrico de A es 1. Supondremos tres casos para

la ley de razón de cambio experimental.
Caso I.
−[A]0 = k[A].
La solución general de esta ecuación es
[A] = Ce−kt ,
donde C es una constante positiva. Su valor debe ser igual a la concentración

de A en t = 0. Por lo tanto queda
[A] = [A0 ]e−kt . (44)
Es usual en las ciencias experimentales tener una representación visual de sus

resultados. En el presente caso, se trata de una función exponencial. Dado
que la representación más simple es la de una lı́nea recta, es un hecho común
transformar las variables involucradas de forma que la relación resultante sea
lineal. En este caso esto se logra tomando logaritmos neperianos en (44):
ln[A] = ln[A]0 − kt.
La importancia de este proceder radica en lo siguiente. Si se realiza un ex-

perimento que permita obtener valores correspondientes de [A], digamos [A]i ,
para distintos instantes de tiempo ti , entonces la representación cartesiana de
los datos
(ti , ln[A]i )
debe reflejar esa relación lineal. El ajuste de una recta a esos datos permitirá
hallar una estimación de su ordenada al origen, ln[A]0 , y de su pendiente, −k.
Asimismo, notar que (44) es también equivalente a
[A]0
ln = kt.
[A]
Caso II
−[A]0 = k[A]0 = k.
La solución particular es
[A] = [A]0 − kt.
Aquı́ la relación funcional es directamente lineal.
Caso III
−[A]0 = k[A]n ,
donde n > 1. En este caso la solución particular, siempre bajo la condición

inicial de que la concentración de A en t = 0 sea [A]0 , satisface
1 1
= + (n − 1)kt.
[A]n−1 [A]n−1
0
1
Escrita de esta manera, vemos que [A]
depende linealmente del tiempo. La
dependencia directa de [A] en función del tiempo da, como ya sabemos, una
curva decreciente. Como
[A]00 = −nk[A]n−1 [A]0 ,
y [A]0 es negativo, se deduce que la concavidad de esa curva es siempre hacia

arriba.
Consideremos ahora dos reactivos, A y B, que reaccionan de la manera

siguente:
A + B −→ C
Como los coeficientes estequiométricos de A y B son ambos iguales a la unidad,

sigue que
R0 = −[A]0 = −[B]0 . (45)
Supongamos que el proceso se lleva a cabo bajo la ley de razón de cambio

experimental dada por
R0 = k[A][B].
Observar que la segunda igualdad en (45) implica que las funciones [A] y [B]
difieren en una constante. Luego, como para todo t es
[B] − [A] = [B]0 − [A]0 ,
sigue que
[B] = [A] + [B]0 − [A]0 .
Por consiguiente, la ecuación diferencial que se debe resolver es
−[A]0 = k[A]([A] + [B]0 − [A]0 ).
Esta ecuación de variables separables, fácil de resolver, conduce a la relación

1 [A]
ln = −kt + M,
[B]0 − [A]0 [A] + [B]0 − [A]0
donde la constante M se determina dándole a t el valor 0. Queda
1 [A]0
M= ln .
[B]0 − [A]0 [B]0
Reemplazando este valor de M en la ecuación anterior, sigue que
µ ¶
1 [A][B]0
ln = kt,
[A]0 − [B]0 [B][A]0
que a su vez permite despejar la concentración [A] en función de la variable
independiente t.
Mecanismos de dos pasos consecutivos

Una reacción (irreversibe) del tipo
1 k 2 k
X−→ Y −→ Z,
donde k1 y k2 son constantes de razón de cambio, conduce a resolver el siguiente

sistema:
[X]0 (t) = −k1 [X](t)

[Y ]0 (t) = k1 [X](t) − k2 [Y ](t)
[Z]0 (t) = k2 [Y ](t),
con las condiciones iniciales [X](0) = [X]0 , [Y ](0) = 0, [Z](0) = 0. Este sistema
puede ser resuelto separadamente, obteniéndose [X](t) de la primera ecuación,
luego hallando [Y ](t) de la segunda ecuación, y finalmente resolviendo [Z](t)
de la tercera. Sus soluciones son
[X](t) = [X]0 e−k1 t

[X]0 k1 (e−k2 t − e−k1 t
[Y ](t) = )
k − k2
µ 1 ¶
k1 e−k2 t − k2 e−k1 t
[Z](t) = [X]0 1 − .
k1 − k2
Sigue un gráfico con la representación de las tres funciones, en negro, azul y

rojo, respectivamente.
1.5
0.5
2 4 6 8
Por el contrario, existen situaciones en las que el sistema se presenta de tal

forma que no es posible resolver las ecuaciones separadamente. Por ejemplo,
en reacciones reversibles, A B. Más precisamente, podemos encontrarnos en
general con el siguiente sistema:
   
[X]0 (t) [X](t)
 [Y ]0 (t)  = M  [Y ](t)  ,
[Z]0 (t) [Z](t)
donde M es una matriz de coeficientes constantes.

Si M es diagonalizable entonces existe una matriz P de manera que
P −1 M P = D,
donde D es una matriz diagonal, digamos

 
d1 0 0
D =  0 d2 0  .
0 0 d3
Si ahora se efectúa la transformación lineal de variables

   
[X] [U ]
 [Y ]  = P  [V ]  ,
[Z] [W ]
y teniendo en cuenta que las derivadas se transforman de la misma manera, el

sistema anterior se escribe en las nuevas variables como
   
[U ]0 (t) [U ](t)
P  [V ]0 (t)  = M P  [V ](t)  ,
[W ]0 (t) [W ](t)
es decir,
[U ]0 (t) = d1 [U ](t)
[V ]0 (t) = d2 [V (t)]
[W ]0 (t) = d3 [W ](t).
Tenemos aquı́ tres ecuaciones independientes, de resolución inmediata. Por

último, se expresan las soluciones en términos de las variables originales.
18.2 Una aplicación en Farmacologı́a

La acción de un fármaco sobre un organismo vivo es consecuencia de com-
plicados procesos fı́sico-quı́micos que se producen a un nivel celular. Puede
afirmarse en general que en toda ciencia experimental el estudio de sus proce-
sos especı́ficos exige un intenso trabajo de laboratorio que debe estar apoyado
por el conocimiento de leyes (matemáticas) que los explican y regulan. Recı́-
procamente, todo modelo matemático que quiera ser útil y aplicable tiene que
ser confirmado por los datos experimentales.
Como ejemplo de lo dicho se verá a continuación un análisis de la interacción
de dos drogas sobre un receptor. La droga A causa un efecto, medido en latidos
por minuto, sobre un receptor beta de tejido muscular de corazón. La droga P
bloquea parcialmente la acción de A, en el sentido de que si se suministra la
droga A en presencia de una dosis de P, entonces se necesita una mayor dosis
de A para obtener el mismo efecto de antes.
Es claro que existe una relación funcional entre el efecto (variable depen-
diente E) y la concentración de A (variable independiente), E = f ([A]). Como
se verá después, es muy conveniente disponer de una expresión concreta para
la función f . Este tipo de relaciones suelen ser obtenidas experimentalmente.
En nuestro caso la expresión
M [A]
E= +O (46)
[A] + N
ofrece una buena aproximación con la realidad experimental. Los siguientes

son datos experimentales reales, con una representación de los mismos:
[A] × 10−9 0,02 0,2 0,6 2 6 10 20 40 60 100

E 138 141 163 198 222 228 237 240 244 246
240
220
200
180
160
140
0 20 40 60 80 100
[A] × 10−9
El siguiente gráfico muestra los mismos datos, ajustados además por el

método de mı́nimos cuadrados mediante una curva dada por la expresión de
(46).
240
220
200
180
160
140
0 20 40 60 80 100 [A] × 10−9
La función ajustada resulta ser
112, 5[A]
E= + 133, 7.
[A] + 1, 65 x 10−9
En virtud de la disposición de los valores de [A], es usual representar esos datos

en función de log([A]). En nuestro ejemplo ellos son
-10,699 -9,699 -9,222 -8,699 -8,222 -8 -7,699 -7,398 -7,222 -7

Nótese ahora cómo ellos se distribuyen en forma homogénea. Su representación

gráfica es la siguiente:
E
240
220
200
180
160
140
-10 -9 -8 -7
log[A]
La expresión de la función ajustada es ahora

M 10x
E= + O, (47)
10x + N
donde x = log([A]). Presenta un cambio de concavidad, de positiva a negativa,
cosa que no ocurre con la función de (46), que mantiene siempre su concavidad
negativa. Estos hechos se corroboran matemáticamente hallando las respecti-
vas derivadas segundas en las funciones de (46) y (47). Se encontrará que el
punto de inflexión se da precisamente en x = N .
Como se afirma al comienzo de esta sección, si ahora se administra la droga

A en presencia de una dosis del antagonista parcial P, entonces se necesitará
más dosis de A para obtener el mismo efecto que en ausencia de P. Aquı́
tenemos una imagen de este hecho:
E
240
220
200
180
160
140
-10 -9 -8 -7 log [A]
Los puntos en color rojo corresponden al efecto de A en presencia de una

dosis fija de P. En este momento conviene introducir la siguiente notación.
Llamaremos [A]2 (respectivamente, [A]3 ) a las concentraciones de A actuando

en ausencia (respectivamente, en presencia) del antagonista. Análogamente,
denotemos con E2 y E3 a los correspondientes efectos. De la observación del
gráfico se deduce una explicación de por qué el calificativo de “parcial” para el
antagonista P. Es un hecho experimental que la presencia en el receptor de un
antagonista puro hubiera producido un desplazamiento paralelo de los puntos
azules con respecto a la curva concentración-efecto de A en ausencia de P. En
particular, para todo valor de [A]3 serı́a
E3 < E2 .
Por otra parte, se observa del gráfico que para valores bajos de [A]3 la presen-
cia del antagonista parcial produce un mayor estı́mulo, mientras que sı́ hay un
bloqueo del efecto para concentraciones [A]3 más altas.
Análisis de [A]2 en función de [A]3
Una vez administrado, P ocupa quı́micamente un sitio en el receptor beta. La

fracción de sitio que ocupa viene dada por
[P ]
yp = ,
[P ] + KP
donde KP es la constante de equilibrio de disociación de P. Es de relevancia en

farmacologı́a estimar el valor de esta constante. Para ello se parte de un modelo
matemático conocido que relaciona linealmente concentraciones equiefectivas
de [A]2 y [A]3 . Más precisamente, si [A]2 y [A]3 producen el mismo efecto sobre
un receptor dado, entonces
[A]2 = a + (1 − yP )[A]3 , (48)
donde a es una constante que depende de A y P.
Hay que destacar que esta relación rige para concentraciones [A]3
cuyos respectivos efectos E3 están por debajo de E2 .
El siguiente paso consiste en confirmar experimentalmente la ecuación (48).

Para ello se deben calcular concentraciones equiefectivas. Parece razonable
hacerlo del siguiente modo. Se consideran concentraciones [A]3 que verifiquen

la condición anterior, ası́ como sus correspondientes efectos E3 . Haciendo
ahora uso de la ecuación (46), que establece una ley para la curva concen-
tración-efecto de A actuando en ausencia de P, se determina el valor de [A]2
que produce ese mismo efecto. Llamemos U a este valor interpolado de [A]2 .
El cambio de nombre está justificado. En efecto, mientras que [A]2 es una
variable independiente, U es una variable que depende de [A]3 . En otras pa-
labras, [A]2 es un dato bajo control del experimentador. En cambio, U es
una respuesta sujeta a la aleatoriedad, tanto de la variable E3 como de los
parámetros ajustados M, N y O. De (46) sigue que
(E − O)N
U= .
M +O−E
Utilizando siete datos de [A]3 del ejemplo anterior se obtiene la siguiente tabla
de pares correspondientes de datos [A]3 , U :
[A]3 x 10−9 2 6 10 20 40 60 100

U x 10−9 1,383 1,653 2,368 3,778 6,711 9,808 20,987
A continuación se presenta un esquema gráfico del procedimiento utilizado:
E
240
220
200
180
160
140
[A] × 10−9
0 20 40 60 80 100
La representación de los datos obtenidos, indicados en la tabla anterior, es la

siguiente,
U × 10−9
20
15
10
[Z] × 10−9
20 40 60 80 100
donde se ha renombrado Z a la variable independiente [A]3 . Tal como lo

prevé el modelo matemático dado por ecuación (48), se observa una relación
lineal entre las variables. El ajuste de una lı́nea recta a esos datos, es decir,
determinar con ellos una pendiente y una ordenada al origen, permitira a su
vez calcular el coeficiente KP , ya que la pendiente de esa función lineal es
[P ]
1− ,
[P ] + KP
y la concentracion [P ] es un dato conocido.
El ajuste lineal se efectúa, como es usual, por el método de mı́nimos cuadra-

dos. Si denotamos por Zi , 1 ≤ i ≤ n, a los n valores experimentales de [A]3 , y
por Ui a los correspondientes valores interpolados de [A]2 , entonces, como ya
se ha visto en la sección 15.5 , el método de mı́nimos cuadrados consiste en
minimizar n
X
(Ui − a − bZi )2 (49)
i=1
en los parámetros a y b. Recordar: Z es una variable independiente, controlada

por el experimentador, pero U es una variable aleatoria, cuya expresión teórica
viene dada por
(E3 − O)N
U= . (50)
M + O − E3
Todos los parámetros del lado derecho de la ecuación anterior están sujetos a
variación. La variable aleatoria E3 es directamente la respuesta a la acción de
una droga. Por otra parte, los parámetros M, N y O han sido calculados ha
partir de datos experimentales, y por lo tanto también variables. No obstante,
para simplificar los argumentos teóricos que siguen a continuación podemos

suponer que estos últimos son valores medios fijos.
En otras palabras, los interpretamos como constantes numéricas

que reemplazadas en la ecuación (46) dan la respuesta teórica me-
dia a la acción de A sobre un receptor beta sin la presencia del
antagonista parcial P.
Notar que la forma de calcular el valor interpolado Ui hace que no todos ellos
tengan la misma confiabilidad. En efecto, la menor pendiente de la curva
dosis-respuesta para valores grandes de [A]2 implica que una mı́nima variación
en E3 ya produce una alteración relativamente grande en el correspondiente
Ui . Por el contrario, la mayor pendiente de esa curva para valores bajos de
[A]2 supone una menor sensibilidad del resultado frente a perturbaciones en
la variable E3 . En conclusión, tanto mayor es el error en Ui cuanto más alto
es su valor. Ahora bien, cómo se mide este error? En teorı́a estadı́stica se lo
mide por la varianza de Ui . Como Ui depende de la variable E3 mediante la
ecuación (50), la varianza de Ui puede escribirse en términos de la varianza de
E3 . Para deducir esta relación hay que sumar a la simplificación de arriba la
de reemplazar la expresión de (50) por la función lineal suministrada por su
polinomio de Taylor de primer grado, desarrollado en el valor medio de E3 .
Para cada i este valor medio es de la forma
M0 Zi
+ O0 .
Z i + N0
Bajo estas condiciones puede deducirse que la varianza de Ui es un número
proporcional a
(Zi + N0 )4 .
Recordar que N0 es el punto de inflexión de la curva dosis-respuesta de A en

presencia de P.
La fórmula (49) no es en este caso la más apropiada para efectuar el ajuste

por mı́nimos cuadrados, ya que la expresión de (49) asigna a cada dato Ui
la misma significación. Lo razonable es que los datos más confiables tengan
mayor peso que aquéllos más sujetos a error. Esto se logra introduciendo un
factor de peso en cada sumando de (49) que asigne una mayor intervención a los
datos menos erróneos. Este factor es precisamente una cantidad proporcional

al inverso de la varianza de Ui . En conclusión, ahora se debe minimizar
n
X 1
(Ui − a − bZi )2
i=1
(Zi + N0 )4
en los parámetros a y b. En nuestro ejemplo, el empleo de esta técnica produce

las siguientes estimaciones:
b=0,14 KP = 17 x 10−8 .
U × 10−9
20
15
10
[Z] × 10−9
20 40 60 80 100
El hecho de que la varianza de la variable Ui sea proporcional a

1
(Zi + N0 )4
puede ser confrontado mediante una simulación de los experimentos. Más
precisamente, para cada valor de concentración Zi pueden generarse distintos
valores de correspondientes efectos mediante la expresión
M0 Zi
+ O0 + ²ij ,
Z i + N0
donde ²i puede considerarse como una variable aleatoria normalmente dis-
tribuida, con media 0 y varianza 1. Mediante programas apropiados pueden
generarse, para cada i, un determinado número, digamos ni , de observaciones
²ij obedeciendo esa distribución normal. De esta manera se tiene en cuenta
la variación que existe en experimentos reales en los efectos de individuos
diferentes. Si para cada uno de estos efectos simulados se determina el valor

interpolado Uij , entonces se estará en condiciones de estimar la varianza de U i
mediante la fórmula de la varianza muestral, a saber
Pni 2
2 j=1 (Uij − Ui )
si = .
ni − 1
Si la expresión propuesta para la varianza de Ui es correcta, entonces es de
esperar que s2i sea aproximadamente igual a
C
,
(Zi + N0 )4
donde C es una constante fija que no depende de i. En este caso, log s2i será
aproximadamente igual a
log C − 4 log(Zi + N0 ),
por lo cual una representación en el plano cartesiano de los puntos
(log(Zi + N0 ), log s2i )
deberı́a mostrar una disposición lineal de los mismos.

Jmapunte

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Jmapunte

Cargado por

Copyright:

Formatos disponibles

1 Sucesiones de números reales

1.1 Números reales

Ellos cumplen los siguientes axiomas:

A1 Conmutatividad de la suma. Para todo par ordenado (a, b) de números

A2 Asociatividad de la suma Para toda terna (a, b, c) de números reales,

A4 Existencia de elemento inverso, u opuesto, para la suma. Existe, para

A5 Conmutatividad del producto. Para todo par ordenado de números reales

A7 Existencia de unidad para el producto. Existe un número real, “1”,

A8 Existencia de elemento inverso para el producto. Para todo número real

A9 Distributividad del producto con respecto a la suma. Para toda terna

A10 Transitividad del orden. Si a ≤ b y b ≤ c, entonces a ≤ c.

A11 Antisimetrı́a del orden. Si a ≤ b y b ≤ a, entonces a = b.

A12 Para dos números reales cualesquiera a, b, es a ≤ b, o b ≤ a.

A14 0 ≤ a y 0 ≤ b implican 0 ≤ ab.

A15 Axioma de completitud. Todo conjunto acotado superiormente tiene

De estos axiomas se deducen las siguientes propiedades:

P4 El conjunto de los números reales, sin el 0, satisface los mismos axiomas

el elemento neutro para el producto es único.

Si a 6= 0 y ab = ac, entonces b = c. En particular, el inverso es único.

El cero no tiene inverso, ya que a0 = 0 para todo número real a.

P5 Si a 6= 0, b 6= 0, entonces (ab)−1 = a−1 b−1 .

P6 Se tiene (−a)b = a(−b) = −(ab). En particular, −a = (−1)a.

P7 Cuando a ≤ b y a 6= b, se escribe a < b. Ası́, a ≤ b es equivalente a

(b < a también se escribe a > b).

P9 a ≤ b y b < c implican a < c.

P12 Las relaciones a ≤ b, 0 ≤ b − a, a − b ≤ 0, −b ≤ −a, son equivalentes.

P13 Si a ≥ 0, b ≥ 0, entonces a + b ≥ 0. Más aún, es a + b > 0 o a = b = 0.

P14 Para cualquier número real a, se define

P15 Si α > 0, entonces la relación |a| ≤ α es equivalente a −α ≤ a ≤ α.

P16 Para a, b reales cualesquiera, se tiene

P17 Si c ≥ 0, entonces a ≤ b ⇒ ac ≤ bc.

P18 Regla de los signos

P19 Para dos números reales cualesquiera a, b se tiene |ab| = |a||b|.

P21 Para cualquier número real a se define

P23 La relación a2 ≤ b2 es equivalente a |a| ≤ |b|. La relación a3 ≤ b3 es

1.2 Sucesiones numéricas

Esto se llama una sucesión de números reales. También se la indica {an }.

{1/2n } = 1/2, 1/4, 1/8, · · ·

0, 49, 0, 499, 0, 4999, · · ·

Puede ocurrir que an se aproxime a un determinado número real l a medida

l = lim an , o bien an → l cuando n → ∞.

La definición precisa es la siguiente:

l = limn→∞ an si y sólo si para cada ² > 0, arbitrario, existe un

Recordar que |an − l| < ² es equivalente a l − ² < an < l + ². Conviene

limn→∞ an = ∞ si y sólo si dado un número real M > 0, arbitrario,

limn→∞ an = +∞ (respectivamente −∞) si y sólo si dado un

1.3 Propiedades de los lı́mites finitos

(a) Desde un término en adelante, es decir, para todo an con n > n0 , an

(b) Si sig (l) 6= 0 entonces a partir de un término en adelante, an tiene el

(d) Si an → a, bn → b, y a partir de un término en adelante es an < bn ,

(e) El lı́mite es único.

(f) Si an → l, bn → l, y a partir de un término en adelante es

h(1) = 3, h(2) = 5, h(3) = 6, h(4) = 10, · · · ,

entonces la subsucesión que se forma es {bn }, donde

Proposición Si una sucesión es convergente (respectivamente, divergente),

Una sucesión {an } se dice creciente (respectivamente, decreciente) si

(respectivamente, a1 ≥ a2 ≥ a3 ≥ · · ·). Si todas las desigualdades son estrictas,

La demostración de esta Proposición se basa en el Axioma 15 de los números

Un ejemplo notable de sucesión acotada superiormente y estrictamente cre-

tiene lı́mite 1, mientras que la subsucesión

lim sup an o lim an .

Asimismo, siempre hay un menor lı́mite de oscilación, finito o infinito, que se

lim inf an o lim an .

Valen los siguientes resultados: